Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen
Tóm tắt
Những năm gần đây vấn đề an ninh mạng đã trở nên cấp thiết và tác động lớn tới hiệu
quả hoạt động của các mạng máy tính hiện đại. Phát hiện và ngăn chặn tấn công mạng máy
tính đã và đang là chủ điểm nghiên cứu của nhiều nhà nghiên cứu trên thế giới. Một trong
những biện pháp bảo đảm an toàn cho các hệ thống mạng là Hệ thống phát hiện xâm nhập
trái phép. Tuy nhiên, các hệ thống phát hiện trái phép tỏ ra kém hiệu quả đối với các dạng
tấn công, xâm nhập mới, hoặc các biến thể của các dạng tấn công đã biết. Hướng tiếp cận
học máy ứng dụng trong phát hiện xâm nhập đã khắc phục được các hạn chế trên và ngày
càng thể hiện tính ưu việt trong phát hiện các mẫu tấn công mới với nhiều phương pháp khác
nhau. Trong bài báo này, chúng tôi sử dụng kỹ thuật lập trình gen (GP-Genetic Programming)
để cải thiện chất lượng phát hiện tấn công mạng. Trong thí nghiệm, chúng tôi sử dụng GP
chuẩn và kỹ thuật văn phạm nối cây (TAG3P), tiến hành trên bộ dữ liệu nhân tạo do nhóm
tác giả [25] đã đề xuất. Trên cơ sở các kết quả thí nghiệm và so sánh với một số kỹ thuật
đã được đề xuất trước, chúng tôi nhận thấy ứng dụng GP và TAG3P trong phát hiện tấn công
đạt hiệu quả tốt hơn các phương pháp trước đó.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen
bình thường và dữ liệu tấn công nhằm đánh giá khả năng phát hiện tấn công của phương pháp đề xuất. Thử nghiệm được tiến hành trên 3 thí nghiệm sau: • Thí nghiệm cho kiểu tấn công DDoS: – Dữ liệu huấn luyện: 0 mẫu Dữ liệu tấn công + 500 mẫu Dữ liệu bình thường – Dữ liệu kiểm tra: 500 mẫu Dữ liệu tấn công + 1000 mẫu Dữ liệu bình thường • Thí nghiệm cho kiểu tấn công PROBE: – Dữ liệu huấn luyện: 0 mẫu Dữ liệu tấn công + 190 mẫu Dữ liệu bình thường – Dữ liệu kiểm tra: 180 mẫu Dữ liệu tấn công + 380 mẫu Dữ liệu bình thường • Thí nghiệm cho kiểu tấn công DDoS và PROBE: – Dữ liệu huấn luyện: 0 mẫu Dữ liệu tấn công + 360 mẫu Dữ liệu bình thường – Dữ liệu kiểm tra: 180 mẫu Dữ liệu tấn công PROBE + 180 mẫu Dữ liệu tấn công DDoS + 320 mẫu Dữ liệu bình thường 40 Tạp chí Khoa học và Kỹ thuật - Học viện KTQS - Số 184 (06-2017) 2) Kịch bản 2 Trong giai đoạn huấn luyện, huấn luyện trên bộ dữ liệu có cả các mẫu dữ liệu tấn công và bình thường. Trong giai đoạn kiểm tra, kiểm tra trên bộ dữ liệu có cả các mẫu dữ liệu tấn công và mẫu không tấn công nhằm đánh giá khả năng phát hiện tấn công của phương pháp đề xuất. Kịch bản thử nghiệm trên 03 thí nghiệm với các kiểu tấn công: DDoS, PROBE và hỗn hợp DDoS-PROBE. • Thí nghiệm cho kiểu tấn công DDoS: Dữ liệu đầu vào như sau – Dữ liệu huấn luyện: 50 mẫu Dữ liệu tấn công + 150 mẫu Dữ liệu bình thường – Dữ liệu kiểm tra: 300 mẫu Dữ liệu tấn công + 600 mẫu Dữ liệu bình thường • Thí nghiệm cho kiểu tấn công PROBE: Dữ liệu đầu vào như sau – Dữ liệu huấn luyện: 40 mẫu Dữ liệu tấn công + 80 mẫu Dữ liệu bình thường – Dữ liệu kiểm tra: 140 mẫu Dữ liệu tấn công + 300 mẫu Dữ liệu bình thường • Thí nghiệm cho kiểu tấn công PROBE và DDoS – Dữ liệu huấn luyện: 30 mẫu Dữ liệu tấn công PROBE + 30 mẫu Dữ liệu tấn công DDoS + 120 mẫu Dữ liệu bình thường – Dữ liệu kiểm tra: 150 mẫu Dữ liệu tấn công PROBE + 150 mẫu Dữ liệu tấn công DDoS + 320 mẫu Dữ liệu bình thường 3) Kịch bản 3 Trong giai đoạn huấn luyện trên bộ dữ liệu có chứa các mẫu tấn công smurf và bình thường. Trong giai đoạn kiểm tra, kiểm tra trên bộ dữ liệu có cả các mẫu dữ liệu bình thường và các mẫu tấn công mới nhằm đánh giá khả năng phát hiện các mẫu tấn công mới, chưa biết của phương pháp đề xuất. • Dữ liệu huấn luyện: 87 mẫu Dữ liệu tấn công smurf + 400 mẫu Dữ liệu bình thường • Dữ liệu kiểm tra: 400 mẫu Dữ liệu tấn công các kiểu DDoS (land, back, neptune, pop, teardrop) + 800 mẫu Dữ liệu bình thường 3.3. Kết quả và phân tích Phần này biểu diễn kết quả thử nghiệm ứng dụng một số kỹ thuật học máy và phương pháp đã đề xuất. Các tham số của phương pháp đề xuất được đề cập đến trong bảng 3, nhóm tác giả đã thực hiện với 30 lần chạy và lấy kết quả phân loại tấn công của tất cả các lần thực hiện để làm giá trị thống kê và so sánh với các phương pháp khác. Hiệu quả của phương pháp áp dụng cho mỗi tập dữ liệu thử nghiệm sẽ được tính theo tỷ lệ % của các phân loại chính xác trên tập dữ liệu kiểm tra và kết quả thử nghiệm được thống kê trên các bảng. Các kết quả thống kê khi áp dụng phương pháp được đề xuất với GP chuẩn (StandGP) và TAG3P cho vấn đề phát hiện tấn công được so sánh với một số phương pháp học máy khác, như (cây quyết định (J48), SVM, hai kỹ thuật mạng nơ-ron nhân tạo (Multilayer 41 Chuyên san Công nghệ thông tin và Truyền thông - Số 10 (06-2017) Perceptron: Perc và Resting Bitch Face: RBF), và mạng Bayes (mạng Bayes: Bayes và NavieBayes: Navie)). 3.3.1. Kịch bản 1: Bảng 4 biểu diễn các kết quả khi áp dụng một số phương pháp học máy, GP chuẩn và TAG3P cho phát hiện xâm nhập trong trong kịch bản 1. Bảng 4. Kết quả thí nghiệm 1 (%) Phương pháp J48 SVM Perc Bayes Navie RBF StandGP TAG3P Thí nghiệm 1 66.67 66.67 66.67 66.67 66.67 66.67 70.0 97.06 Thí nghiệm 2 67.86 67.86 67.86 67.86 67.86 67.86 65.0 99.29 Thí nghiệm 3 47.06 47.06 47.06 47.06 47.06 47.06 95.0 98.72 Hình 9. Giá trị fitness trung bình của TAG3P trong các thí nghiệm của kịch bản 1. Từ kết quả bảng 4 cho thấy phương pháp đề xuất có hiệu quả cao hơn các phương pháp học máy đã được nghiên cứu trước đây cho kịch bản 1. Các thí nghiệm trong kịch bản 1 cho thấy với bộ dữ liệu huấn luyện mà không chứa mẫu dữ liệu tấn công thì hiệu quả của các kỹ thuật học máy giống hệt nhau. Khi áp dụng GP chuẩn cho kịch bản này trong thí nghiệm 1 và 3 cho hiệu quả cao hơn các kỹ thuật học máy khác là 70% và 95.0%. Tuy niên trong thí nghiệm 2 thì hiệu quả lại thấp hơn, chỉ đạt 65.0% trong khi các kỹ thuật học máy đạt 67.86%. Với phương pháp đề xuất áp dụng TAG3P trong phát hiện tấn công trong trường hợp dữ liệu huấn luyện không có mẫu tấn công cho hiệu quả cao hơn hẳn các phương pháp trước đó. Điều này cho thấy TAG3P hiệu quả trong việc phát hiện các mẫu chưa từng biết tới trước đó hay chưa được huấn luyện. Nói cách khác, TAG3P có hiệu quả tốt trong việc giải quyết các bài toán chưa biết trước lời giải. Hình 9 biểu diễn giá trị fitness của các thí nghiệm trong kịch bản 1. 42 Tạp chí Khoa học và Kỹ thuật - Học viện KTQS - Số 184 (06-2017) 3.3.2. Kịch bản 2: Bảng 5. Kết quả các thí nghiệm của kịch bản 2 (%) Phương pháp J48 SVM Perc Bayes Navie RBF StandGP TAG3P Thí nghiệm 1 90.36 98.25 98.62 93.61 96.62 98.50 75.00 93.74 Thí nghiệm 2 96.59 93.41 95 97.5 92.95 92.95 100.00 94.76 Thí nghiệm 3 96.58 94.47 97.11 98.42 93.95 93.95 95.00 99.08 Hình 10. Giá trị fitness trung bình của TAG3P trong các thí nghiệm của kịch bản 2. Các kết quả trong bảng 5 cho thấy các thí nghiệm của kịch bản 2 với các phương pháp đề xuất GP chuẩn và TAG3P có kết quả phân loại tương đương với các kết quả phân loại trước đây, có một số ỹỹ thuật học máy có thể cho kết quả phân loại tốt hơn. Tuy nhiên trong trường hợp bộ dữ liệu có nhiều loại tấn công thì với TAG3P cho kết quả phân loại tốt hơn. Nhìn chung trong trường hợp huấn luyện và kiểm tra trên các bộ dữ liệu có các mẫu tấn công biết trước giữa các phương pháp phân loại tấn công không có sự chênh lệch quá lớn. Hình 10 biểu diễn giá trị fitness của các thí nghiệm trong kịch bản 2. 3.3.3. Kịch bản 3: Kết quả trong bảng 6 cho thấy rằng việc áp dụng phương pháp đề xuất trong trường hợp phân loại các mẫu tấn công mới đạt tỷ lệ cao hơn hẳn so với các phương pháp học máy đã được đề xuất trước đây. Hay nói cách khác, TAG3P có khả năng học và đưa ra khả năng dự đoán cao trong các trường hợp chưa biết dạng tấn công và các dạng tấn công mới. Hình 11 biểu diễn giá trị fitness của các thí nghiệm trong kịch bản 3. 43 Chuyên san Công nghệ thông tin và Truyền thông - Số 10 (06-2017) Bảng 6. Kết quả các thí nghiệm của kịch bản 3 (%) Phương pháp J48 SVM Perc Bayes Navie RBF StandGP TAG3P Kết quả 67.17 67.17 69.33 67.58 89.42 65.92 67.17 93.09 Hình 11. Giá trị fitness trung bình của TAG3P trong các thí nghiệm của kịch bản 3. 3.4. Kết luận và hướng nghiên cứu Bài báo trình bày nghiên cứu của nhóm chúng tôi về vấn đề cải thiện phát hiện tấn công mạng sử dụng lập trình gen dựa trên kỹ thuật văn phạm nối cây (TAG3P) và GP chuẩn. Các thực nghiệm cho thấy việc phân loại tấn công đã cải thiện đáng kể tỷ lệ phát hiện tấn công mạng. Qua thí nghiệm cho thấy kết quả phát hiện tấn công đối với các mẫu tấn công mới đạt được hiệu quả vượt trội hơn hẳn so với các phương pháp học máy đã được các tác giả đưa ra trong [25]. Trong thời gian tới, nhóm nghiên cứu sẽ tiếp tục cải tiến các phương pháp phát hiện tấn công dựa trên lập trình Gen với định hướng sử dụng mô hình thay thế (surrogate) nhằm cải thiện tốc độ huấn luyện và hiệu quả phân loại tấn công. Tài liệu tham khảo [1] M. S. Abadeh, J. Habibi, C. Lucas, “Intrusion detection using a fuzzy genetics-based learning algorithm”, Journal of Network and Computer Applications, Volume 30, Issue 1, Pages 414-428, 2007. [2] B. Abdullah, I. Abd-alghafar, Gouda I. Salama, A. Abd-alhafez, “Performance Evaluation of a Genetic Algorithm Based Approach to Network Intrusion Detection System”, 13th International Conference on Aerospace Sciences and Aviation Technology, 2009. 44 Tạp chí Khoa học và Kỹ thuật - Học viện KTQS - Số 184 (06-2017) [3] Adetunmbi A.Olusola., Adeola S.Oladele. and Daramola O.Abosede, “Analysis of KDD ’99 Intrusion Detection Dataset for Selection of Relevance Features ”, Proceedings of the World Congress on Engineering and Computer Science 2010, 2010. [4] I. Ahmad, M. Hussain, A. Alghamdi, A. Alelaiwi, "Enhancing SVM performance in intrusion detection using optimal feature subset selection based on genetic principal components", Springer, 2013 [5] Al-Jarrah, O. Y., Siddiqui, A., Elsalamouny, M., Yoo, P. D., Muhaidat, S., & Kim, K. "Machine-Learning-Based Feature Selection Techniques for Large-Scale Network Intrusion Detection". Distributed Computing Systems Workshops, 2014. [6] Anup Goyal, Chetan Kumar, “GA-NIDS: A Genetic Algorithm based Network Intrusion Detection System”, 2008 [7] S. M. Bridges, R. B. Vaughn, “Fuzzy data mining and genetic algorithms applied to intrusion detection”, Proc. of the Twenty-third National Information Systems Security Conference, pp. 13-31, October 2000. [8] M. Botha, R. Solms , “Utilizing Neural Networks For Effective Intrusion Detection”, ISSA, 2004. [9] Chittur A. "Model Generation for an Intrusion Detection System Using Genetic Algorithms", PhD Dissertation, 2006. [10] M. Crosbie, E. Spafford, “Applying Genetic Programming to Intrusion Detection”, Proceedings of the AAAI Fall Symposium, 1995. [11] Devarakonda, N., S. Pamidi, et al."Intrusion Detection System using Bayesian Network and Hidden Markov Model." Procedia Technology, 2012. [12] K. M. Faraoun, A. Boukelif, S.B.A., Algeria, “Genetic programming approach for multi-category pattern classification applied to network intrusions detection”, International Journal of Computational Intelligence and Applications, Volume 06, Issue 01, March 2006 [13] J. Gomez, D. Dasgupta, “Evolving fuzzy rules for intrusion detection”, in Proceedings of the Third Annual IEEE Information Assurance Workshop 2002 Conference, PP.68-75, 2002 [14] R. H. Gong, M. Zulkernine, P. Abolmaesumi, “A Software Implementation of a Genetic Algorithm Based Approach to Network Intrusion Detection”, 2005. International Journal of Network Security and Its Applications (IJNSA), Vol.4, No.2, March 2012 [15] N. X. Hoai, R. I. McKay, and H. A. Abbass, "Tree Adjoining Grammars, Language Bias, and Genetic Programming", Proceedings of EuroGP2003, pp. 335-344, 2003 [16] Zahra Karimi, Mohammad Mansour, and Ali Harounabadi, "Feature Ranking in Intrusion Detection Dataset using Combination of Filtering Methods", International Journal of Computer Applications, Volume 78 – No.4, September 2013 [17] KDD cup 1999 data, Available on: http:// kdd.ics.uci.edu/databases/kddcup99/kddcup99.html, Ocotber 2007. [18] H. Gu¨nes Kayacık, A. Nur Zincir-Heywood, Malcolm I. Heywood, "Selecting Features for Intrusion Detection: A Feature Relevance Analysis on KDD 99 Intrusion Detection Datasets" in Proceedings of the third annual conference on privacy, security and trust, 2005. [19] J. R. Koza, Genetic programming: on the programming of computers by means of natural selection, MIT Press, 1992. [20] W. Li, “Using Genetic Algorithm for Network Intrusion Detection”. SANS Institute, USA, 2004. [21] W. Lu, I. Traore, “Detecting new forms of network intrusion using genetic programming”, Computational Intelligence, Vol.20, Issue 3, 2004, pp. 475-494. [22] M. Middlemiss, G. Dick, “Feature selection of intrusion detection data using a hybrid genetic algorithm/KNN approach”, Design and application of hybrid intelligent systems, IOS Press, pp.519-527, 2003 [23] S. Mukkamala, Andrew H. Sung, Ajith Abraham, “Intrusion detection using an ensemble of intelligent paradigms”, Journal of Network and Computer Applications, Volume 28, Issue 2, April 2005, Pages 167-182 [24] Le Hai Nam, Hoang Tuan Hao, Vu Van Canh, "Self-adaptive Srossover and Mutation Parameters in Tree Adjoining Grammar Guided Genetic Programming", Tạp chí khoa học và kỹ thuật, chuyên san công nghệ thông tin, học viện kỹ thuật quân sự, Hà Nội, 4/2015, pp.5-15 [25] Truong Son Pham, Quang Uy Nguyen, Xuan Hoai Nguyen, "Generating artificial attack data for intrusion detection using machine learning", Conference Proceedings of the Fifth Symposium on Information and Communication Technology, Ha Noi, Vietnam, 2014, pp. 286-291 45 Chuyên san Công nghệ thông tin và Truyền thông - Số 10 (06-2017) [26] S. Peddabachigari, Ajith Abraham, C. Grosan, J. Thomas, “Modeling intrusion detection system using hybrid intelligent systems”, Journal of Network and Computer Applications?, Volume 30, Issue 1, January 2007, Pages 114–132 [27] T. Peng, C. Leckie, Kotagiri Ramamohanarao, “Information sharing for distributed intrusion detection systems”, Journal of Network and ComputerApplications, Volume 30, Issue 3, August 2007, Pages 877–899 [28] M. M. Pillai, J. H. P. Eloff, H. S. Venter, “An Approach to Implement a Network Intrusion Detection System using Genetic Algorithms”, Proceedings of SAICSIT, pp:221-228, 2004. [29] Siva Sathya, Geetha Ramani, K Sivaselvi, “Discriminant Analysis based Feature Selection in KDD Intrusion Dataset”, International Journal of Computer Applications, Volume 31– No.11, October 2011. [30] S. J. Stolfo, W. Fan, W. Lee, A. Prodromidis, and P. K. Chan, “Costbased modeling for fraud and intrusion detection: Results from the jam project,” discex, vol. 02, p. 1130, 2000. [31] Wei Wang, Sylvain Gombault, Thomas Guyet, "Towards Fast Detecting Intrusions: Using Key Attributes of Network Traffic", Internet Monitoring and Protection, 2008. [32] T. Xia, G. Qu, S. Hariri, M. Yousif, “An Efficient Network Intrusion Detection Method Based on Information Theory and Genetic Algorithm”, Proceedings of the 24th IEEE International Performance Computing and Communications Conference(IPCCC ‘05), Phoenix, AZ, USA. 2005. Ngày nhận bài 12-4-2017; Ngày chấp nhận đăng 23-8-2017. Vũ Văn Cảnh đã nhận bằng thạc sĩ chuyên ngành truyền dữ liệu và mạng máy tính tại Học viện Công nghệ Bưu chính viễn thông năm 2011. Hiện nay đang làm nghiên cứu sinh tại Khoa Công nghệ thông tin - Học viện Kỹ thuật Quân sự. Vũ Văn Cảnh đang nghiên cứu lĩnh vực tính toán thông minhạng, tính toán tiến hóa và an ninh mạng máy tính,. . . . Hoàng Tuấn Hảo đã nhận bằng tiến sỹ chuyên ngành Khoa học máy tính tại Đại học New South Wales, Australia, 2009. Hiện đang làm Giảng viên, Trường phòng thí nghiệm An ninh mạng, Khoa Công nghệ thông tin, Học viện Kỹ thuật Quân sự. Hoàng Tuấn Hảo đã xuất bản hơn 20 công trình nghiên cứu trong các lĩnh vực Evolutionary Computation, Developmental Genetic Programming, Network Security, . . . . Nguyễn Văn Quân Tốt nghiệp thạc sỹ tại trường Đại học Tổng hợp Quôc gia Bauman - Liên Bang Nga chuyên ngành Hệ thống thông tin và Robot kỹ thuật. Hiện đang là giáo viên khoa Công nghệ Thông tin, Trường Đại học Lê Quý Đôn. Nguyễn Văn Quân đang nghiên cứu trong các lĩnh vực an toàn thông tin, an ninh mạng,. . . . 46
File đính kèm:
- phuong_phap_phat_hien_xam_nhap_su_dung_van_pham_noi_cay_tron.pdf