Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-Gram

Cuộc cách mạng công nghiệp 4.0 hay còn

đƣợc gọi với những cái tên nhƣ Internet vạn vật

(Internet of Things) hay công nghiệp Internet

(Industrial Internet) làm biến đổi nhanh chóng nền

công nghiệp ở mọi quốc gia, diễn ra trên toàn cầu.

Với nhiều tên gọi khác nhau nhƣng đặc điểm nổi

bật nhất của cuộc cách mạng công nghiệp lần thứ

4 đó là việc dịch chuyển các hệ thống máy móc

sản xuất truyền thống sang các hệ thống tự động

hoá có khả năng tự hành một cách thông minh dựa

trên nền tảng của điện tử viễn thông và công nghệ

thông tin. Dựa trên cuộc cách mạng công nghiệp

4.0 mà giáo dục, y tế, chính trị, xã hội, kinh tế đã

có những thành tựu vƣợt bậc trong thời gian ngắn.

Bên cạnh những tiện ích mà cuộc cách mạng công

nghiệp 4.0 mang lại thì an toàn thông tin trên

không gian mạng ngày càng trở nên phức tạp,

tiềm ẩn nhiều nguy cơ ảnh hƣởng trực tiếp tới an

ninh quốc gia, tới lợi ích hợp pháp của ngƣời dân.

Những nguy cơ này ngày càng hiện hữu khi mà

các chuỗi cung ứng, nhà máy, ngƣời tiêu dùng và

các hoạt động liên quan đƣợc kết nối với nhau

thông qua các thiết bị IoT. Việc đảm bảo an ninh,

an toàn thông tin cho các thiết bị IoT đã và đang

thu h t nhiều nhà nghiên cứu và các tổ chức. Các

nghiên cứu, công trình công bố có thể chia

thành hai nhóm chính gồm: phân tích tĩnh và

phân tích động.

Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-Gram trang 1

Trang 1

Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-Gram trang 2

Trang 2

Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-Gram trang 3

Trang 3

Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-Gram trang 4

Trang 4

Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-Gram trang 5

Trang 5

Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-Gram trang 6

Trang 6

Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-Gram trang 7

Trang 7

Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-Gram trang 8

Trang 8

pdf 8 trang duykhanh 6560
Bạn đang xem tài liệu "Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-Gram", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-Gram

Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-Gram
dạng chuỗi trong thuật toán 1. 
các hàm của tập tin nhị phân đầu vào khó quan 
sát, đồng thời việc áp dụng các k thuật học C. i n l và chu n h a liệu 
sâu c ng mất nhiều thời gian. Chính vì vậy, Với dữ liệu là đồ thị PSI thu thập đƣợc t 
nhóm tác giả sử dụng đồ thị PSI thay vì sử việc phân tích các tệp tin nhị phân nên việc 
dụng đồ thị CFG. chuyển đổi sang dữ liệu số làm đầu vào cho quá 
 n ng 2: Đồ thị PSI là một đồ thị có trình huấn luyện với mạng nơ-ron sâu là cần 
hƣớng G (V, E) mà: thiết. Các đồ thị PSI là một tập các chuỗi ký tự 
 - V là tập các đ nh đƣợc xây dựng bởi các theo một trật tự nhất định tƣơng ứng với đồ thị 
phần tử PSI thu đƣợc. Nhóm tác giả nhận thấy có nhiều 
 điểm tƣơng đồng giữa đồ thị PSI với cấu tr c 
 - E là tập các cạnh biểu diễn sự liên kết giữa của một câu văn sử dụng ngôn ngữ tự nhiên. Sự 
các đ nh trong đồ thị tƣơng đồng này thể hiện qua việc cả hai đều là 
 T u t to n 1: PSI-graph generation (CFG) một tập các chuỗi ký tự và theo một cấu tr c 
 1: V = [ ], E = [ ] nhất định để mang đến một mục tiêu, ý nghĩa cụ 
 2: PSI-graph = (V, E) thể. T đó, nhóm tác giả sử dụng phƣơng pháp 
 word2vec mà cụ thể là k thuật Skip-gram [20] 
 3: For each in CFG do 
 để chuyển đổi các đồ thị PSI thành các vec tơ số. 
 4: For each psi in do 
 Skip-gram là mô hình dự đoán các t theo 
 5: V = V ∪ t ng ngữ cảnh dựa trên các t mục tiêu phù hợp 
 6: End for với đầu vào là các PSI trong các tập tin nhị phân 
 mã độc. Trong bài báo này, nhóm tác giả xây 
 7: For each connect to do 
 dựng dựa trên ý tƣởng xem cả đồ thị nhƣ một 
 8: For each psi in do văn bản và mỗi đồ thị con có gốc xung quanh 
 9: E = E ∪ { edge ( , ) } mỗi đ nh của đồ thị đƣợc xem nhƣ các t xây 
 10: End for 
32 Số 1.CS (07) 2018 
 Nghiên cứu Khoa học và Công nghệ trong lĩnh vực An toàn thông tin 
dựng lên văn bản và đƣa văn bản nh ng vào 
 ( )
mạng nơ-ron để học cách biểu diễn toàn bộ đồ thị. 
 ∑ 
 ( )
 Trong và biểu diễn vector đầu vào và 
 đầu ra của các t trong t vựng và W là số 
 lƣợng t trong t vựng. 
 Bên cạnh đó, mô hình mạng không thể xử lý 
 với đầu vào là các t hay các PSI vì thế quá 
 trình tiền xử lý tại Hình 1 chính là việc biểu 
 diễn các t dƣới dạng vector. Để thực hiện việc 
 này, nhóm tác giả xây dựng một bộ t vựng các 
 t tập huấn luyện (tức là tập các PSI riêng biệt). 
 D. Ki n tr c ng n -ron 
 Kiến tr c mạng nơ-ron nhóm tác giả đề xuất 
 dựa trên mạng CNN của [21]. Mô hình mạng 
 gồm 01 lớp đầu vào, 6 lớp ẩn và 01 lớp đầu ra. 
 Trong đó 02 lớp tích chập đầu tiên có kích 
 thƣớc bộ lọc là 7x7 và 4 lớp tích chập còn lại có 
 kích thƣớc bộ lọc là 3x3. Để phân tách các lớp 
 tích chập, ngay sau mỗi lớp tích chập 1D, nhóm 
 tác giả sử dụng hàm ReLU (Rectified Linear 
 Units) thay vì sử dụng hàm tanh hoặc sigmoid 
 vì hàm ReLU có tốc độ xử lý nhanh hơn, có thể 
 Hình 2. Kiến tr c mô hình skip-gram giảm độ phức tạp trong tính toán và tránh tình 
 Trong Hình 2, đầu vào mô hình là và đầu trạng triệt tiêu đạo hàm (vanishing gradien). 
ra là , , bởi kích thƣớc cửa sổ sử Ngay sau hàm ReLU của 2 lớp tích chập đầu 
dụng trong bài báo là 2, điều đó do lớp đầu ra tiên, nhóm tác giả c ng sử dụng lớp Max 
phụ thuộc vào kích thƣớc cửa sổ. Đối với cửa sổ Pooling có kích thƣớc 3x3 thay vì các lớp 
kích thƣớc 2 thì s đoán 02 t bên trái và 02 t Pooling khác, tức là s thực hiện lấy giá trị lớn 
bên phải t mục tiêu. Do đó mạng s có đầu ra nhất trong một phân vùng con hoặc cửa sổ trƣợt 
là vector 4 chiều. Kích thƣớc của lớp ẩn tƣơng pooling windows, điều này góp phần làm tăng 
ứng với V*E trong đó V là kích thƣớc của t sự phi tuyến bên trong mạng và tạo nên không 
vựng và E là kích thƣớc nh ng. gian đặc trƣng cao cho mỗi đồ thị PSI s tách 
 Công thức tính toán của Skip-gram đƣa ra bạch hơn. Trong phạm vi bài báo này, nhóm tác 
chuỗi các t , với mục đích huấn giả sử dụng hàm mất mát cross-entropy để tối 
luyện là tối đa xác xuất logarit trung bình của ƣu mạng nơ-ron. 
việc dự đoán các t ngữ cảnh ,  , Sau khi áp dụng các lớp mạng trên, kết quả 
xuất hiện gần t ngữ cảnh đƣợc tính nhƣ sau: thu đƣợc là một mảng vector 6 chiều. Để 
 chuyển đổi những vector đó vào một lớp xác 
 ∑ ∑ xuất thì cần chuyển đổi những vector đó thành 
 một lớp đơn 1 chiều, đƣợc gọi là lớp kết nối đầy 
 đủ (fully connected layers). Đầu ra mong muốn 
 s là mã độc hoặc lành tính. 
 Trong đó là t mục tiêu và là các 
t ngữ cảnh trong cửa sổ có kích thƣớc c, 
 biểu diễn xác xuất xuất hiện 
trong láng giềng của và đƣợc tính bởi 
công thức: 
 Số 1.CS (07) 2018 33 
Journal of Science and Technology on Information Security 
 True Negative (TN): cho biết một tập tin 
 lành tính đƣợc xác định chính xác không phải 
 mã độc. 
 False Positive (FP): cho biết một tập tin 
 lành tính bị xác định sai là mã độc . 
 False Negative (FN): cho biết tập tin mã 
 độc không đƣợc phát hiện và đƣợc gán nhãn là 
 lành tính. 
 Dựa trên các tiêu chí trên, các độ đo sau đây 
 s đƣợc sử dụng để xác định tính hiệu quả của 
 hệ thống đã đề xuất. 
 Accuracy (ACC): là số lƣợng m u đƣợc 
 phát hiện chính xác, chia cho tổng số m u mã 
 độc và lành tính. 
 Precision (PR): là t lệ giữa mã độc đã dự 
 đoán và đƣợc gán nhãn chính xác là mã độc 
 chia cho tổng số lần gán nhãn chính xác của 
 Hình 3. Kiến tr c triển khai mạng Deep Neural m u mã độc và lành tính. 
 Network cho giải pháp đề xuất 
 III. THỰC NGHIỆM VÀ ĐÁNH GIÁ Recall (RC) hoặc t lệ phát hiện là t số 
 Phần này miêu tả cấu hình môi trƣờng và giữa m u mã độc đƣợc dự đoán chính xác với 
đánh giá kết quả kiểm thử. Để thực nghiệm, tổng số kết quả của mã độc 
nhóm tác giả sử dụng máy tính chip Intel Core 
i5-850, 3.00 GHz với bộ nhớ RAM 16GB và 
Nvidia GPU GTX 1070Ti 8GB. Tập dữ liệu F1 score là trọng số trung bình của 
phục vụ quá trình huấn luyện gồm 4002 tập tin Precison và Recall 
mã độc thu thập bởi IoTPOT [3] và 6031 tập tin 
lành tính. Tập dữ liệu mã độc đƣợc phân thành 
4 nhóm lớn: Linux.Gafgyt.1, Linux.Gafgyt (một Lƣu ý r ng F1 càng gần 1 thì càng tốt. 
biến thể khác của dòng mã độc Linux.Gafgyt), 
Mirai và Linug.Fgt. Phần còn lại của tập m u BẢNG 1. KẾT QUẢ THỬ NGHIỆM VỚI CÁC LỚP 
thuộc về các dòng mã độc tƣơng đối hiếm nhƣ TÍCH CHẬP KHÁC NHAU 
Tsunami, Hajime, Light-Aidra [22]. Tập m u ố 
 p 
 Accuracy Precision Recall F1 
lành tính đƣợc thu thập t các trang web hoặc t c 
trích xuất trực tiếp t các thiết bị IoT SOHO c p 
khác nhau. Trong phạm vi bài báo này, nhóm 4 96,7% 96,9% 97,0% 97,1% 
tác giả chia bộ dữ liệu thực nghiệm thành 2 5 97,3% 97,7% 97,8% 97,7% 
nhóm: bộ dữ liệu botnet và bộ dữ liệu lành tính 6 98,1% 97,8% 98,5% 98,1% 
để đánh giá hiệu quả của phƣơng pháp đề xuất. 7 96,6% 97,3% 97,8% 97,5% 
 Nhóm tác giả sử dụng Accuracy, Precision, So sánh giải pháp đề xuất dựa trên đồ thị 
Recall và F1 để đánh giá hiệu quả của phƣơng PSI với đồ thị luồng điều khiển có thể thấy r ng 
pháp đề xuất. Ch ý r ng trong phát hiện mã thời gian huấn luyện tiền xử lý đồ thị CFG có 
độc thì F1 đôi khi quan trọng hơn Accuracy. chi phí lớn hơn nhiều so với đồ thị PSI, đồng 
 True Positive (TP): cho biết một tập tin thời độ đo F1 của PSI c ng lớn hơn so với đồ 
mã độc đƣợc định danh chính xác là mã độc. thị CFG ở mức 98,6 , thông tin cụ thể đƣợc 
 cho trong Bảng 2. 
34 Số 1.CS (07) 2018 
 Nghiên cứu Khoa học và Công nghệ trong lĩnh vực An toàn thông tin 
 BẢNG 2. KẾT QUẢ SO SÁNH GIỮA Current IoT Threats’, J. Inf. Process., vol. 24, 
 ĐỒ THỊ PSI VÀ CFG pp. 522–533, May 2016. 
 Thời gian ti n Thời gian F1- [4]. Ahmad Darki, Chun-Yu Chuang, Michalis 
 x lý graph training score Faloutsos, Zhiyun Qian, Heng Yin, ‘RARE: A 
 CFG 9 tiếng 30 ph t 5 ph t 96,4% Systematic Augmented Router Emulation for 
 PSI 98,6% Malware Analysis’, in Lecture Notes in 
 1 tiếng 25 ph t 3 ph t 
 Graph * Computer Science, vol. 10771, pp. 60–72, 2018. 
 [5]. A. Jacobsson, M. Boldt and B. Carlsson, ‘A risk 
 IV. KẾT LUẬN analysis of a smart home automation system’, 
 Future Gener. Comput. Syst., vol. 56, pp. 719–
 Trong bài báo này, nhóm tác giả đề xuất 
 733, 2016. 
hƣớng thu thập đặc trƣng của mã độc Botnet [6]. Chun-Jung Wu, Ying Tie, Satoshi Hara, and 
trên các thiết bị IoT thông qua việc xây dựng đồ Kazuki Tamiya, ‘IoTProtect: Highly Deployable 
thị PSI. Sau đó, mô hình mạng nơ-ron CNN Whitelist-based Protection for Low-cost 
đƣợc sử dụng để cải thiện hiệu quả phân lớp các Internet-of-Things Devices’, J. Inf. Process., 
tập tin mã độc và lành tính. B ng thực nghiệm, vol. 26, pp. 662–672, 2018. 
nhóm tác giả đã chứng minh tính hiệu quả của [7]. T. Ronghua, ‘An Integrated Malware Detection 
phƣơng pháp đề xuất với độ chính xác and Classification System’, MEng Chongqing 
(accuracy) và độ đo F1 lên tới 98,1 . Đồng Univ. BEngChangchun Univ. Sci. Technol., vol. 
thời, phƣơng pháp tiếp cận theo đồ thị PSI c ng Doctor of Philosophy, Aug. 2011. 
cho kết quả tốt hơn so với đồ thị luồng điều [8]. Yan Shoshitaishvili, Ruoyu Wang, Christophe 
 Hauser, Christopher Kruegel, Giovanni Vigna, 
khiển CFG về mặt thời gian. Tuy nhiên, các đặc ‘Firmalice - Automatic Detection of 
trƣng thu thập để xây dựng đồ thị PSI chủ yếu Authentication Bypass Vulnerabilities in Binary 
thông qua phân tích tĩnh và chƣa tính đến các Firmware’, Yan Shoshitaishvili Ruoyu Wang 
khả năng PSI mã hoá. Để cải thiện phƣơng Christophe Hauser Christopher Kruegel 
pháp, nhóm tác giả s tiếp tục bổ sung dữ liệu t Giovanni Vigna, pp. 15, 2015. 
nhiều hệ điều hành khác nhau để t đó nâng cao [9]. D. Davidson, B. Moench, and S. Jha, ‘FIE on 
độ chính xác của phƣơng pháp đề xuất để áp Firmware, Finding vulnerabilities in embedded 
dụng thực tế. systems using symbolic execution’, 22nd 
 USENIX Secur. Symp. USENIX, pp. 16, 2013. 
 LỜI CẢM ƠN [10]. Rafiqul Islam, Ronghua Tian, Lynn M. 
 Nhóm tác giả xin gửi lời cảm ơn đến những Batten, and Steve Versteeg, ‘Classification of 
góp ý khoa học nghiêm t c, hỗ trợ chuyên môn malware based on integrated static and dynamic 
nhiệt tình của nhóm nghiên cứu MFC500, Học features’, J. Netw. Comput. Appl., vol. 36, pp. 
viện An ninh nhân dân. Đồng thời, xin gửi lời 646–656, 2013. 
chân thành cảm ơn tới nhóm đề tài cấp nhà [11] . A. Costin, J. Zaddach, and A. Francillon, ‘A 
nƣớc KC01.05 của Học viện Công nghệ Bƣu large scale analysis of the security of embedded 
 firmwares’, 23rd USENIX Secur. Symp., pp. 95–
chính viễn thông. 
 100, 2014. 
 TÀI LIỆU THAM KHẢO [12] . Angrishi, Kishore, ‘Turning Internet of Things 
 (IoT) into Internet of Vulnerabilities (IoV): IoT 
[1]. Pavel Celeda, Radek Krejcí, Jan Vykopal, Botnets’, presented at the arXiv preprint 
 Martin Drasar, ‘Embedded Malware - An arXiv:1702.03681, 2017. 
 Analysis of the Chuck Norris Botnet’, presented [13] . Christopher D. McDermott, Farzan Majdani, 
 at the European Conference on Computer Andrei V. Petrovski, ‘Botnet Detection in the 
 Network Defense, Berlin, Germany, 2010. Internet of Things using Deep Learning 
[2]. Zaddach, Jonas and Bruno, Luca and Francillon, Approaches’, presented at the International joint 
 Aurelien and and Balzarotti, Davide, conference on neural networks 2018, Rio de 
 ‘AVATAR: A framework to support dynamic Janeiro, Brazil. 
 security analysis of embedded systems’ [14] . Yuan, Z., Lu, Y., Wang, Z., Xue, Y, ‘Droid-
 firmwares’, presented at the Proceedings of the Sec: deep learning in android malware 
 Network and Distributed System Security detection’, presented at the ACM SIGCOMM 
 Symposium, France, 2014. Computer Communication Review, vol. 44, pp. 
[3]. Pa, Y.M.P., Suzuki, S., Yoshioka, K., 371–372, 2014. 
 Matsumoto, T., Kasama, T. and Rossow, C., [15]. Saxe, J., Berlin, K., ‘Deep neural network 
 ‘IoTPOT: A Novel Honenypot for Revealing based malware detection using two 
 Số 1.CS (07) 2018 35 
Journal of Science and Technology on Information Security 
 dimensional binary program features.’, SƠ LƢỢC VỀ TÁC GIẢ 
 presented at the 10th International Conference 
 on Malicious and Unwanted Software T Ngô Quốc Dũng 
 (MALWARE), pp. 11–20, 2015. 
 Đơn vị công tác: Học viện An 
[16] . Hamed HaddadPajouh, Ali Dehghantanha, 
 ninh nhân dân, Bộ Công an. 
 Raouf Khayami, Kim-Kwang Raymond Choo, 
 ‘A Deep Recurrent Neural Network Based Email : quocdung.ngo@gmail.com 
 Approach for Internet of Things Malware Threat Quá trình đào tạo: Nhận b ng K 
 Hunting’, 2018. sƣ tại Đại học Bách Khoa Nantes 
[17] . Kishore Angrish, ‘Turning Internet of năm 2009; Nhận b ng Thạc sĩ tại 
 Things(IoT) into Internet of Vulnerabilities Đại học Lyon 2 năm 2009; Bảo vệ Tiến sĩ tại Đại 
 (IoV) : IoT Botnets’, ArXiv170203681v1 CsNI, học Bách khoa Grenoble, Cộng Hòa Pháp năm 2012. 
 Feb. 2017. Hƣớng nghiên cứu hiện nay: Đảm bảo an toàn, an 
[18] . Michele De Donno, Nicola Dragoni, Alberto ninh thông tin trên các thiết bị IoT. 
 Giaretta, Angelo Spognardi, ‘Analysis of 
 DDoS-Capable IoT Malwares’, in The KS. Lê Văn Hoàng 
 Federated Conference on Computer Science 
 Đơn vị công tác: Công ty AIS. 
 and Information Systems, vol. 11, pp. 807–
 816, 2017. Email: levanhoang.psa@gmail.com 
[19] . M. Ahmadi, D. Ulyanov, S. Semenov, M. Quá trình đào tạo: Nhận b ng K 
 Trofimov, and and G. Giacinto, ‘Novel feature sƣ Công nghệ và An toàn thông 
 extraction, selection and fusion for effective tin, Học viện An ninh nhân dân 
 malware family classification’, presented at the năm 2017. 
 Proceedings of the Sixth ACM Conference on Hƣớng nghiên cứu hiện nay: phân tích phát hiện mã 
 Data and Application Security and Privacy, pp. độc trong hệ điều hành Linux và ứng dụng cho thiết 
 183–194, 2016. bị nh ng. 
[20]. Annamalai Narayanan, Mahinthan 
 ThS. Nguyễn Huy Trung 
 Chandramohan, Rajasekar Venkatesan, Lihui 
 and Chen, Yang Liu and Shantanu Jaiswa, Đơn vị công tác : Học viện An 
 ‘graph2vec: Learning Distributed ninh nhân dân, Bộ Công an. 
 Representations of Graphs’, presented at the Email: huytrung.nguyen.hvan 
 arXiv:1707.05005v1, 2017. @gmail.com 
[21] . Annamalai Narayanan, Mahinthan 
 Quá trình đào tạo: K sƣ và Thạc 
 Chandramohan, Rajasekar Venkatesan, Lihui 
 sĩ tại Đại học Bách khoa Hà Nội. 
 and Chen, Yang Liu and Shantanu Jaiswa, 
 Hiện là nghiên cứu sinh tại Khoa CNTT – Học viện 
 ‘graph2vec: Learning Distributed 
 Khoa học và Công nghệ, Viện Hàn lâm khoa học 
 Representations of Graphs’, presented at the 
 Việt Nam. 
 arXiv:1707.05005v1, 2017. 
[22] . Jiawei Su, Danilo Vasconcellos Vargas, Hƣớng nghiên cứu hiện nay: phân tích phát hiện mã 
 Sanjiva Prasad, Daniele Sgandurra, Yaokai độc trong các thiết bị IoT và ứng dụng học sâu. 
 Feng, Kouichi Sakurai, ‘Lightweight 
 Classification of IoT Malware based on Image 
 Recognition’, CoRR, vol. abs/1802.03714, 2018. 
[23] . H. HaddadPajouh, A. Dehghantanha, R. 
 Khayami, K.R. Choo, ‘A deep Recurrent Neural 
 Network based approach for internet of things 
 malware threat hunting’, presented at the Future 
 Generation Computer Systems, 2018. 
36 Số 1.CS (07) 2018 

File đính kèm:

  • pdfphat_hien_ma_doc_iot_botnet_dua_tren_do_thi_psi_voi_mo_hinh.pdf