Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen

Tóm tắt

Những năm gần đây vấn đề an ninh mạng đã trở nên cấp thiết và tác động lớn tới hiệu

quả hoạt động của các mạng máy tính hiện đại. Phát hiện và ngăn chặn tấn công mạng máy

tính đã và đang là chủ điểm nghiên cứu của nhiều nhà nghiên cứu trên thế giới. Một trong

những biện pháp bảo đảm an toàn cho các hệ thống mạng là Hệ thống phát hiện xâm nhập

trái phép. Tuy nhiên, các hệ thống phát hiện trái phép tỏ ra kém hiệu quả đối với các dạng

tấn công, xâm nhập mới, hoặc các biến thể của các dạng tấn công đã biết. Hướng tiếp cận

học máy ứng dụng trong phát hiện xâm nhập đã khắc phục được các hạn chế trên và ngày

càng thể hiện tính ưu việt trong phát hiện các mẫu tấn công mới với nhiều phương pháp khác

nhau. Trong bài báo này, chúng tôi sử dụng kỹ thuật lập trình gen (GP-Genetic Programming)

để cải thiện chất lượng phát hiện tấn công mạng. Trong thí nghiệm, chúng tôi sử dụng GP

chuẩn và kỹ thuật văn phạm nối cây (TAG3P), tiến hành trên bộ dữ liệu nhân tạo do nhóm

tác giả [25] đã đề xuất. Trên cơ sở các kết quả thí nghiệm và so sánh với một số kỹ thuật

đã được đề xuất trước, chúng tôi nhận thấy ứng dụng GP và TAG3P trong phát hiện tấn công

đạt hiệu quả tốt hơn các phương pháp trước đó.

Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen trang 1

Trang 1

Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen trang 2

Trang 2

Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen trang 3

Trang 3

Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen trang 4

Trang 4

Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen trang 5

Trang 5

Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen trang 6

Trang 6

Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen trang 7

Trang 7

Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen trang 8

Trang 8

Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen trang 9

Trang 9

Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 21 trang xuanhieu 10920
Bạn đang xem 10 trang mẫu của tài liệu "Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen

Phương pháp phát hiện xâm nhập sử dụng văn phạm nối cây trong lập trình gen
bình thường và dữ liệu tấn công nhằm đánh giá khả năng phát hiện tấn công của
phương pháp đề xuất. Thử nghiệm được tiến hành trên 3 thí nghiệm sau:
• Thí nghiệm cho kiểu tấn công DDoS:
– Dữ liệu huấn luyện: 0 mẫu Dữ liệu tấn công + 500 mẫu Dữ liệu bình thường
– Dữ liệu kiểm tra: 500 mẫu Dữ liệu tấn công + 1000 mẫu Dữ liệu bình thường
• Thí nghiệm cho kiểu tấn công PROBE:
– Dữ liệu huấn luyện: 0 mẫu Dữ liệu tấn công + 190 mẫu Dữ liệu bình thường
– Dữ liệu kiểm tra: 180 mẫu Dữ liệu tấn công + 380 mẫu Dữ liệu bình thường
• Thí nghiệm cho kiểu tấn công DDoS và PROBE:
– Dữ liệu huấn luyện: 0 mẫu Dữ liệu tấn công + 360 mẫu Dữ liệu bình thường
– Dữ liệu kiểm tra: 180 mẫu Dữ liệu tấn công PROBE + 180 mẫu Dữ liệu tấn
công DDoS + 320 mẫu Dữ liệu bình thường
40
Tạp chí Khoa học và Kỹ thuật - Học viện KTQS - Số 184 (06-2017)
2) Kịch bản 2
Trong giai đoạn huấn luyện, huấn luyện trên bộ dữ liệu có cả các mẫu dữ liệu tấn
công và bình thường. Trong giai đoạn kiểm tra, kiểm tra trên bộ dữ liệu có cả các
mẫu dữ liệu tấn công và mẫu không tấn công nhằm đánh giá khả năng phát hiện
tấn công của phương pháp đề xuất. Kịch bản thử nghiệm trên 03 thí nghiệm với
các kiểu tấn công: DDoS, PROBE và hỗn hợp DDoS-PROBE.
• Thí nghiệm cho kiểu tấn công DDoS: Dữ liệu đầu vào như sau
– Dữ liệu huấn luyện: 50 mẫu Dữ liệu tấn công + 150 mẫu Dữ liệu bình thường
– Dữ liệu kiểm tra: 300 mẫu Dữ liệu tấn công + 600 mẫu Dữ liệu bình thường
• Thí nghiệm cho kiểu tấn công PROBE: Dữ liệu đầu vào như sau
– Dữ liệu huấn luyện: 40 mẫu Dữ liệu tấn công + 80 mẫu Dữ liệu bình thường
– Dữ liệu kiểm tra: 140 mẫu Dữ liệu tấn công + 300 mẫu Dữ liệu bình thường
• Thí nghiệm cho kiểu tấn công PROBE và DDoS
– Dữ liệu huấn luyện: 30 mẫu Dữ liệu tấn công PROBE + 30 mẫu Dữ liệu
tấn công DDoS + 120 mẫu Dữ liệu bình thường
– Dữ liệu kiểm tra: 150 mẫu Dữ liệu tấn công PROBE + 150 mẫu Dữ liệu tấn
công DDoS + 320 mẫu Dữ liệu bình thường
3) Kịch bản 3
Trong giai đoạn huấn luyện trên bộ dữ liệu có chứa các mẫu tấn công smurf và
bình thường. Trong giai đoạn kiểm tra, kiểm tra trên bộ dữ liệu có cả các mẫu dữ
liệu bình thường và các mẫu tấn công mới nhằm đánh giá khả năng phát hiện các
mẫu tấn công mới, chưa biết của phương pháp đề xuất.
• Dữ liệu huấn luyện: 87 mẫu Dữ liệu tấn công smurf + 400 mẫu Dữ liệu bình
thường
• Dữ liệu kiểm tra: 400 mẫu Dữ liệu tấn công các kiểu DDoS (land, back, neptune,
pop, teardrop) + 800 mẫu Dữ liệu bình thường
3.3. Kết quả và phân tích
Phần này biểu diễn kết quả thử nghiệm ứng dụng một số kỹ thuật học máy và phương
pháp đã đề xuất. Các tham số của phương pháp đề xuất được đề cập đến trong bảng 3,
nhóm tác giả đã thực hiện với 30 lần chạy và lấy kết quả phân loại tấn công của tất cả
các lần thực hiện để làm giá trị thống kê và so sánh với các phương pháp khác. Hiệu
quả của phương pháp áp dụng cho mỗi tập dữ liệu thử nghiệm sẽ được tính theo tỷ lệ
% của các phân loại chính xác trên tập dữ liệu kiểm tra và kết quả thử nghiệm được
thống kê trên các bảng.
Các kết quả thống kê khi áp dụng phương pháp được đề xuất với GP chuẩn (StandGP)
và TAG3P cho vấn đề phát hiện tấn công được so sánh với một số phương pháp học máy
khác, như (cây quyết định (J48), SVM, hai kỹ thuật mạng nơ-ron nhân tạo (Multilayer
41
Chuyên san Công nghệ thông tin và Truyền thông - Số 10 (06-2017)
Perceptron: Perc và Resting Bitch Face: RBF), và mạng Bayes (mạng Bayes: Bayes và
NavieBayes: Navie)).
3.3.1. Kịch bản 1:
Bảng 4 biểu diễn các kết quả khi áp dụng một số phương pháp học máy, GP chuẩn
và TAG3P cho phát hiện xâm nhập trong trong kịch bản 1.
Bảng 4. Kết quả thí nghiệm 1 (%)
Phương pháp J48 SVM Perc Bayes Navie RBF StandGP TAG3P
Thí nghiệm 1 66.67 66.67 66.67 66.67 66.67 66.67 70.0 97.06
Thí nghiệm 2 67.86 67.86 67.86 67.86 67.86 67.86 65.0 99.29
Thí nghiệm 3 47.06 47.06 47.06 47.06 47.06 47.06 95.0 98.72
Hình 9. Giá trị fitness trung bình của TAG3P trong các thí nghiệm của kịch bản 1.
Từ kết quả bảng 4 cho thấy phương pháp đề xuất có hiệu quả cao hơn các phương
pháp học máy đã được nghiên cứu trước đây cho kịch bản 1. Các thí nghiệm trong kịch
bản 1 cho thấy với bộ dữ liệu huấn luyện mà không chứa mẫu dữ liệu tấn công thì hiệu
quả của các kỹ thuật học máy giống hệt nhau. Khi áp dụng GP chuẩn cho kịch bản này
trong thí nghiệm 1 và 3 cho hiệu quả cao hơn các kỹ thuật học máy khác là 70% và
95.0%. Tuy niên trong thí nghiệm 2 thì hiệu quả lại thấp hơn, chỉ đạt 65.0% trong khi
các kỹ thuật học máy đạt 67.86%. Với phương pháp đề xuất áp dụng TAG3P trong phát
hiện tấn công trong trường hợp dữ liệu huấn luyện không có mẫu tấn công cho hiệu
quả cao hơn hẳn các phương pháp trước đó. Điều này cho thấy TAG3P hiệu quả trong
việc phát hiện các mẫu chưa từng biết tới trước đó hay chưa được huấn luyện. Nói cách
khác, TAG3P có hiệu quả tốt trong việc giải quyết các bài toán chưa biết trước lời giải.
Hình 9 biểu diễn giá trị fitness của các thí nghiệm trong kịch bản 1.
42
Tạp chí Khoa học và Kỹ thuật - Học viện KTQS - Số 184 (06-2017)
3.3.2. Kịch bản 2:
Bảng 5. Kết quả các thí nghiệm của kịch bản 2 (%)
Phương pháp J48 SVM Perc Bayes Navie RBF StandGP TAG3P
Thí nghiệm 1 90.36 98.25 98.62 93.61 96.62 98.50 75.00 93.74
Thí nghiệm 2 96.59 93.41 95 97.5 92.95 92.95 100.00 94.76
Thí nghiệm 3 96.58 94.47 97.11 98.42 93.95 93.95 95.00 99.08
Hình 10. Giá trị fitness trung bình của TAG3P trong các thí nghiệm của kịch bản 2.
Các kết quả trong bảng 5 cho thấy các thí nghiệm của kịch bản 2 với các phương
pháp đề xuất GP chuẩn và TAG3P có kết quả phân loại tương đương với các kết quả
phân loại trước đây, có một số ỹỹ thuật học máy có thể cho kết quả phân loại tốt hơn.
Tuy nhiên trong trường hợp bộ dữ liệu có nhiều loại tấn công thì với TAG3P cho kết
quả phân loại tốt hơn. Nhìn chung trong trường hợp huấn luyện và kiểm tra trên các bộ
dữ liệu có các mẫu tấn công biết trước giữa các phương pháp phân loại tấn công không
có sự chênh lệch quá lớn. Hình 10 biểu diễn giá trị fitness của các thí nghiệm trong
kịch bản 2.
3.3.3. Kịch bản 3:
Kết quả trong bảng 6 cho thấy rằng việc áp dụng phương pháp đề xuất trong trường
hợp phân loại các mẫu tấn công mới đạt tỷ lệ cao hơn hẳn so với các phương pháp học
máy đã được đề xuất trước đây. Hay nói cách khác, TAG3P có khả năng học và đưa ra
khả năng dự đoán cao trong các trường hợp chưa biết dạng tấn công và các dạng tấn
công mới. Hình 11 biểu diễn giá trị fitness của các thí nghiệm trong kịch bản 3.
43
Chuyên san Công nghệ thông tin và Truyền thông - Số 10 (06-2017)
Bảng 6. Kết quả các thí nghiệm của kịch bản 3 (%)
Phương pháp J48 SVM Perc Bayes Navie RBF StandGP TAG3P
Kết quả 67.17 67.17 69.33 67.58 89.42 65.92 67.17 93.09
Hình 11. Giá trị fitness trung bình của TAG3P trong các thí nghiệm của kịch bản 3.
3.4. Kết luận và hướng nghiên cứu
Bài báo trình bày nghiên cứu của nhóm chúng tôi về vấn đề cải thiện phát hiện tấn
công mạng sử dụng lập trình gen dựa trên kỹ thuật văn phạm nối cây (TAG3P) và GP
chuẩn. Các thực nghiệm cho thấy việc phân loại tấn công đã cải thiện đáng kể tỷ lệ
phát hiện tấn công mạng. Qua thí nghiệm cho thấy kết quả phát hiện tấn công đối với
các mẫu tấn công mới đạt được hiệu quả vượt trội hơn hẳn so với các phương pháp học
máy đã được các tác giả đưa ra trong [25].
Trong thời gian tới, nhóm nghiên cứu sẽ tiếp tục cải tiến các phương pháp phát hiện
tấn công dựa trên lập trình Gen với định hướng sử dụng mô hình thay thế (surrogate)
nhằm cải thiện tốc độ huấn luyện và hiệu quả phân loại tấn công.
Tài liệu tham khảo
[1] M. S. Abadeh, J. Habibi, C. Lucas, “Intrusion detection using a fuzzy genetics-based learning algorithm”,
Journal of Network and Computer Applications, Volume 30, Issue 1, Pages 414-428, 2007.
[2] B. Abdullah, I. Abd-alghafar, Gouda I. Salama, A. Abd-alhafez, “Performance Evaluation of a Genetic Algorithm
Based Approach to Network Intrusion Detection System”, 13th International Conference on Aerospace Sciences
and Aviation Technology, 2009.
44
Tạp chí Khoa học và Kỹ thuật - Học viện KTQS - Số 184 (06-2017)
[3] Adetunmbi A.Olusola., Adeola S.Oladele. and Daramola O.Abosede, “Analysis of KDD ’99 Intrusion Detection
Dataset for Selection of Relevance Features ”, Proceedings of the World Congress on Engineering and Computer
Science 2010, 2010.
[4] I. Ahmad, M. Hussain, A. Alghamdi, A. Alelaiwi, "Enhancing SVM performance in intrusion detection using
optimal feature subset selection based on genetic principal components", Springer, 2013
[5] Al-Jarrah, O. Y., Siddiqui, A., Elsalamouny, M., Yoo, P. D., Muhaidat, S., & Kim, K. "Machine-Learning-Based
Feature Selection Techniques for Large-Scale Network Intrusion Detection". Distributed Computing Systems
Workshops, 2014.
[6] Anup Goyal, Chetan Kumar, “GA-NIDS: A Genetic Algorithm based Network Intrusion Detection System”,
2008
[7] S. M. Bridges, R. B. Vaughn, “Fuzzy data mining and genetic algorithms applied to intrusion detection”, Proc.
of the Twenty-third National Information Systems Security Conference, pp. 13-31, October 2000.
[8] M. Botha, R. Solms , “Utilizing Neural Networks For Effective Intrusion Detection”, ISSA, 2004.
[9] Chittur A. "Model Generation for an Intrusion Detection System Using Genetic Algorithms", PhD Dissertation,
2006.
[10] M. Crosbie, E. Spafford, “Applying Genetic Programming to Intrusion Detection”, Proceedings of the AAAI
Fall Symposium, 1995.
[11] Devarakonda, N., S. Pamidi, et al."Intrusion Detection System using Bayesian Network and Hidden Markov
Model." Procedia Technology, 2012.
[12] K. M. Faraoun, A. Boukelif, S.B.A., Algeria, “Genetic programming approach for multi-category pattern
classification applied to network intrusions detection”, International Journal of Computational Intelligence and
Applications, Volume 06, Issue 01, March 2006
[13] J. Gomez, D. Dasgupta, “Evolving fuzzy rules for intrusion detection”, in Proceedings of the Third Annual
IEEE Information Assurance Workshop 2002 Conference, PP.68-75, 2002
[14] R. H. Gong, M. Zulkernine, P. Abolmaesumi, “A Software Implementation of a Genetic Algorithm Based
Approach to Network Intrusion Detection”, 2005. International Journal of Network Security and Its Applications
(IJNSA), Vol.4, No.2, March 2012
[15] N. X. Hoai, R. I. McKay, and H. A. Abbass, "Tree Adjoining Grammars, Language Bias, and Genetic
Programming", Proceedings of EuroGP2003, pp. 335-344, 2003
[16] Zahra Karimi, Mohammad Mansour, and Ali Harounabadi, "Feature Ranking in Intrusion Detection Dataset
using Combination of Filtering Methods", International Journal of Computer Applications, Volume 78 – No.4,
September 2013
[17] KDD cup 1999 data, Available on: http:// kdd.ics.uci.edu/databases/kddcup99/kddcup99.html, Ocotber 2007.
[18] H. Gu¨nes Kayacık, A. Nur Zincir-Heywood, Malcolm I. Heywood, "Selecting Features for Intrusion Detection:
A Feature Relevance Analysis on KDD 99 Intrusion Detection Datasets" in Proceedings of the third annual
conference on privacy, security and trust, 2005.
[19] J. R. Koza, Genetic programming: on the programming of computers by means of natural selection, MIT Press,
1992.
[20] W. Li, “Using Genetic Algorithm for Network Intrusion Detection”. SANS Institute, USA, 2004.
[21] W. Lu, I. Traore, “Detecting new forms of network intrusion using genetic programming”, Computational
Intelligence, Vol.20, Issue 3, 2004, pp. 475-494.
[22] M. Middlemiss, G. Dick, “Feature selection of intrusion detection data using a hybrid genetic algorithm/KNN
approach”, Design and application of hybrid intelligent systems, IOS Press, pp.519-527, 2003
[23] S. Mukkamala, Andrew H. Sung, Ajith Abraham, “Intrusion detection using an ensemble of intelligent
paradigms”, Journal of Network and Computer Applications, Volume 28, Issue 2, April 2005, Pages 167-182
[24] Le Hai Nam, Hoang Tuan Hao, Vu Van Canh, "Self-adaptive Srossover and Mutation Parameters in Tree
Adjoining Grammar Guided Genetic Programming", Tạp chí khoa học và kỹ thuật, chuyên san công nghệ thông
tin, học viện kỹ thuật quân sự, Hà Nội, 4/2015, pp.5-15
[25] Truong Son Pham, Quang Uy Nguyen, Xuan Hoai Nguyen, "Generating artificial attack data for intrusion
detection using machine learning", Conference Proceedings of the Fifth Symposium on Information and
Communication Technology, Ha Noi, Vietnam, 2014, pp. 286-291
45
Chuyên san Công nghệ thông tin và Truyền thông - Số 10 (06-2017)
[26] S. Peddabachigari, Ajith Abraham, C. Grosan, J. Thomas, “Modeling intrusion detection system using hybrid
intelligent systems”, Journal of Network and Computer Applications?, Volume 30, Issue 1, January 2007, Pages
114–132
[27] T. Peng, C. Leckie, Kotagiri Ramamohanarao, “Information sharing for distributed intrusion detection systems”,
Journal of Network and ComputerApplications, Volume 30, Issue 3, August 2007, Pages 877–899
[28] M. M. Pillai, J. H. P. Eloff, H. S. Venter, “An Approach to Implement a Network Intrusion Detection System
using Genetic Algorithms”, Proceedings of SAICSIT, pp:221-228, 2004.
[29] Siva Sathya, Geetha Ramani, K Sivaselvi, “Discriminant Analysis based Feature Selection in KDD Intrusion
Dataset”, International Journal of Computer Applications, Volume 31– No.11, October 2011.
[30] S. J. Stolfo, W. Fan, W. Lee, A. Prodromidis, and P. K. Chan, “Costbased modeling for fraud and intrusion
detection: Results from the jam project,” discex, vol. 02, p. 1130, 2000.
[31] Wei Wang, Sylvain Gombault, Thomas Guyet, "Towards Fast Detecting Intrusions: Using Key Attributes of
Network Traffic", Internet Monitoring and Protection, 2008.
[32] T. Xia, G. Qu, S. Hariri, M. Yousif, “An Efficient Network Intrusion Detection Method Based on Information
Theory and Genetic Algorithm”, Proceedings of the 24th IEEE International Performance Computing and
Communications Conference(IPCCC ‘05), Phoenix, AZ, USA. 2005.
Ngày nhận bài 12-4-2017; Ngày chấp nhận đăng 23-8-2017.

Vũ Văn Cảnh đã nhận bằng thạc sĩ chuyên ngành truyền dữ liệu và mạng máy tính tại Học
viện Công nghệ Bưu chính viễn thông năm 2011. Hiện nay đang làm nghiên cứu sinh tại Khoa
Công nghệ thông tin - Học viện Kỹ thuật Quân sự. Vũ Văn Cảnh đang nghiên cứu lĩnh vực
tính toán thông minhạng, tính toán tiến hóa và an ninh mạng máy tính,. . . .
Hoàng Tuấn Hảo đã nhận bằng tiến sỹ chuyên ngành Khoa học máy tính tại Đại học New
South Wales, Australia, 2009. Hiện đang làm Giảng viên, Trường phòng thí nghiệm An ninh
mạng, Khoa Công nghệ thông tin, Học viện Kỹ thuật Quân sự. Hoàng Tuấn Hảo đã xuất bản
hơn 20 công trình nghiên cứu trong các lĩnh vực Evolutionary Computation, Developmental
Genetic Programming, Network Security, . . . .
Nguyễn Văn Quân Tốt nghiệp thạc sỹ tại trường Đại học Tổng hợp Quôc gia Bauman - Liên
Bang Nga chuyên ngành Hệ thống thông tin và Robot kỹ thuật. Hiện đang là giáo viên khoa
Công nghệ Thông tin, Trường Đại học Lê Quý Đôn. Nguyễn Văn Quân đang nghiên cứu trong
các lĩnh vực an toàn thông tin, an ninh mạng,. . . .
46

File đính kèm:

  • pdfphuong_phap_phat_hien_xam_nhap_su_dung_van_pham_noi_cay_tron.pdf