Một tiếp cận máy học để phân lớp các kiểu tấn công trong hệ thống phát hiện xâm nhập mạng

TÓM TẮT — Chức năng chính của hệ thống phát hiện xâm nhập mạng (Intrusion Detection System: IDS) là để bảo vệ hệ thống, phân tích và dự báo hành vi truy cập mạng của người sử dụng. Những hành vi này được xem xét là bình thường hoặc một cuộc tấn công. Các IDS ngoài việc xác định một hành vi là bình thường hoặc một cuộc tấn công dựa trên các mẫu đã lưu trữ, còn có khả năng học để nhận dạng các cuộc tấn công mới. Với mỗi kiểu tấn công cụ thể là DoS, Probe, R2L hoặc U2R, tập dữ liệu mẫu có các tính chất đặc thù. Bài viết này đề cập đến việc tìm kiếm kỹ thuật máy học tối ưu phù hợp với mỗi kiểu tấn công dựa trên các thuật toán máy học đã biết như: cây quyết định, K láng giềng gần nhất, máy vectơ hỗ trợ (SVM), mạng nơron nhân tạo, Từ đó, xây dựng một bộ phân lớp lai đa tầng trên cơ sở sử dụng các kỹ thuật máy học tối ưu phù hợp với mỗi kiểu tấn công ở mỗi tầng. Kết quả thí nghiệm trên tập dữ liệu KDD99 sử dụng đánh giá chéo 5-Fold cho thấy, bộ phân lớp lai đa tầng kết hợp các kỹ thuật máy học: cây quyết định, mạng nơron nhân tạo và SVM có độ chính xác dự báo cao nhất: 99.83% khi phân lớp các truy cập bình thường và 99.58% khi phân lớp các kiểu tấn công

Một tiếp cận máy học để phân lớp các kiểu tấn công trong hệ thống phát hiện xâm nhập mạng trang 1

Trang 1

Một tiếp cận máy học để phân lớp các kiểu tấn công trong hệ thống phát hiện xâm nhập mạng trang 2

Trang 2

Một tiếp cận máy học để phân lớp các kiểu tấn công trong hệ thống phát hiện xâm nhập mạng trang 3

Trang 3

Một tiếp cận máy học để phân lớp các kiểu tấn công trong hệ thống phát hiện xâm nhập mạng trang 4

Trang 4

Một tiếp cận máy học để phân lớp các kiểu tấn công trong hệ thống phát hiện xâm nhập mạng trang 5

Trang 5

Một tiếp cận máy học để phân lớp các kiểu tấn công trong hệ thống phát hiện xâm nhập mạng trang 6

Trang 6

Một tiếp cận máy học để phân lớp các kiểu tấn công trong hệ thống phát hiện xâm nhập mạng trang 7

Trang 7

pdf 7 trang xuanhieu 8640
Bạn đang xem tài liệu "Một tiếp cận máy học để phân lớp các kiểu tấn công trong hệ thống phát hiện xâm nhập mạng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Một tiếp cận máy học để phân lớp các kiểu tấn công trong hệ thống phát hiện xâm nhập mạng

Một tiếp cận máy học để phân lớp các kiểu tấn công trong hệ thống phát hiện xâm nhập mạng
 tra, được phân thành 4 nhóm: 
(1) Denial of Service (DoS), gồm các kiểu tấn công như: Neptune, Smurf, Pod, Teardrop. Ở đó, kẻ tấn công làm cho 
các tài nguyên tính toán hoặc bộ nhớ quá tải để xử lý các yêu cầu hợp lệ, hoặc từ chối người dùng hợp lệ truy cập máy. 
(2) Remote to Local (R2L), gồm các kiểu tấn công như: Guess-password, Ftp-write, Imap và Phf. Ở đó, kẻ tấn 
công tuy không có tài khoản nhưng có khả năng gửi các gói tin đến một máy qua mạng, sẽ khai thác một số lỗ hổng để 
đạt được quyền truy cập cục bộ như là người sử dụng của máy đó. 
(3) User to Root (U2R), gồm các kiểu tấn công như: Buffer-overflow, Load-module, Perl và Spy. Ở đó, kẻ tấn 
công bắt đầu với một quyền truy cập bình thường và sau đó khai thác một số lỗ hổng để đạt được quyền truy cập root 
trên hệ thống. 
(4) Probe, gồm các kiểu tấn công như: Port-sweep, IP-sweep và Nmap. Ở đó, kẻ tấn công nỗ lực thu thập thông 
tin về mạng máy tính nhằm phá vỡ khả năng kiểm soát an ninh của nó. 
Thông tin chi tiết về mỗi kiểu tấn công trong tập dữ liệu KDD99 được mô tả trong Bảng 1. 
Bảng 1. Thông tin chi tiết các tập dữ liệu huấn luyện và kiểm tra trong KDD99 
Tập dữ liệu huấn luyện Tập dữ liệu kiểm tra 
Kiểu tấn công Số mẫu Tỷ lệ % Kiểu tấn công Số mẫu Tỷ lệ % 
Normal 972.781 19,860 Normal 60.593 19,48 
DoS 3.883.370 79,280 DoS 229.853 73,90 
Probe 41.102 0,840 Probe 4.166 1,34 
R2L 1.126 0,023 R2L 16.374 5,26 
U2R 52 0,001 U2R 70 0,02 
IV. CÁC CHỈ SỐ ĐÁNH GIÁ 
Nếu FP là số mẫu bị phân lớp sai là dương tính; TP là số mẫu được phân lớp đúng là dương tính; FN là số mẫu 
bị phân lớp sai là âm tính; TN là số mẫu được phân lớp đúng là âm tính. Việc đánh giá hiệu năng của các IDS được 
thực hiện qua việc đo và so sánh các chỉ số: 
- Accuracy = (TP + TN) / (TP + FP + TN + FN) 
- Sensitivity = R = TPR = TP / (TP + FN) 
- Specificity = TNR = TN / (TN + FP) 
- Efficiency = (Sensitivity + Specificity) / 2 
- Độ chính xác cảnh báo: Precise = P = TP / (TP + FP) 
- Thời gian huấn luyện và kiểm tra. 
Có nhiều kỹ thuật đánh giá độ chính xác dự báo như: đánh giá chéo K-fold, Holdout, Re-substitution và Leave-
one-out [11]. Trong đó, đánh giá chéo K-fold được xem là hiệu quả, phù hợp với các IDS. Theo đó, các bản ghi được 
phân ngẫu nhiên thành k tập con; một tập con được chỉ định là tập dữ liệu kiểm tra và các tập con còn lại được xử lý 
như tập dữ liệu huấn luyện. Sau đó, quá trình đánh giá chéo lặp lại k lần, cũng như độ chính xác phân lớp có thể được 
kiểm tra thông qua các độ chính xác phân lớp trung bình từ k lần đánh giá. Đánh giá chéo K-fold đặc biệt phù hợp với 
nguồn dữ liệu huấn luyện lớn, trái với đánh giá Leave-one-out, tốn nhiều thời gian để thực hiện, gây trở ngại do thời 
gian đào tạo lớn. 
V. KIẾN TRÚC BỘ PHÂN LỚP LAI ĐA TẦNG VÀ KẾT QUẢ THÍ NGHIỆM 
Để phân lớp dữ liệu mạng bắt được thành các lớp ứng với từng kiểu tấn công cụ thể. Kiến trúc của bộ phân lớp 
lai đa tầng dựa trên mô hình phân đa lớp truyền thống One-Versus-Rest (OVR) được đề xuất như mô tả ở Hình 5. 
Theo đó, dữ liệu truy cập mạng được đưa vào tầng 1 để phân lớp là bình thường hoặc một cuộc tấn công , nếu 
truy cập là một cuộc tấn công, hệ thống sẽ cảnh báo cho người quản trị, đồng thời dữ liệu sẽ được chuyển sang tầng 
2 để xác định đó có phải là kiểu tấn công DoS hay không? nếu không, dữ liệu sẽ được chuyển sang các tầng kế tiếp 
để xác định chính xác kiểu tấn công cụ thể, trường hợp không xác định được, thì đó là kiểu tấn công mới chưa được 
biết đến. 
506 MỘT TIẾP CẬN MÁY HỌC ĐỂ PHÂN LỚP CÁC KIỂU TẤN CÔNG TRONG HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG 
Hình 5. Kiến trúc bộ phân lớp lai đa tầng dựa trên mô hình phân đa lớp truyền thống 
Việc lựa chọn thứ tự phân lớp kiểu tấn công dựa vào xác suất xuất hiện thực tế của mỗi kiểu tấn công nhằm tối 
ưu thời gian phân lớp, các kiểu tấn công có xác suất xuất hiện thấp hơn sẽ nằm ở các tầng cao hơn do thời gian phân 
lớp lớn hơn. 
Do tính chất đặc thù dữ liệu của mỗi kiểu tấn công, các bộ phân loại được sử dụng tại mỗi tầng sẽ khác nhau, để 
xác định chính xác kỹ thuật máy học nào là tối ưu tại mỗi tầng, chúng tôi sử dụng nhiều kỹ thuật máy học khác nhau để 
huấn luyện, kiểm tra và so sánh kết quả dựa trên các chỉ số đánh giá. 
Các tập dữ liệu dùng trong thí nghiệm được tạo ra bằng cách rút trích một cách ngẫu nhiên các mẫu tin từ tập dữ 
liệu KDD99, số mẫu tin cụ thể cho từng kiểu tấn công trong mỗi tập dữ liệu thí nghiệm được thống kê như Bảng 2. 
Bảng 2. Thông tin chi tiết 6 tập dữ liệu con được sử dụng trong thí nghiệm 
TT Tập dữ liệu 
Số mẫu tin ứng với từng kiểu tấn công 
Tổng số mẫu tin 
Normal DoS Probe R2L U2R 
1 Tập dữ liệu 1 9.623 38.891 462 9 0 48.985 
2 Tập dữ liệu 2 9.622 38.937 407 18 1 48.985 
3 Tập dữ liệu 3 9.903 38.629 437 13 3 48.985 
4 Tập dữ liệu 4 9.743 38.830 400 12 0 48.985 
5 Tập dữ liệu 5 9.706 38.856 416 7 0 48.985 
6 Tập dữ liệu 6 0 0 41.102 1.126 52 42.280 
Các tập dữ liệu 1-5 được sử dụng cho các phân lớp Normal và DoS. Tập dữ liệu 6, gồm tất cả các mẫu tin của 
các kiểu tấn công Probe, R2L và U2R rút trích từ tập dữ liệu KDD99, được sử dụng cho các phân lớp còn lại: Probe, 
R2L và U2R. Đó là do số lượng mẫu tin của các kiểu tấn công Probe, R2L và U2R ở các tập dữ liệu 1-5 ít, không đảm 
bảo độ chính xác phân lớp khi đánh giá hiệu quả của thuật toán. 
Kết quả, độ chính xác phân lớp (Accuracy) trung bình dựa trên đánh giá chéo 5-fold chạy trên cả 6 tập dữ liệu 
sử dụng các thuật toán: Naïve Bayes, SVM, mạng nơron, cây quyết định, hồi quy luận lý (Logistic Regression) và k 
láng giềng gần nhất được trình bày như ở Bảng 3. 
Bảng 3. Độ chính xác phân lớp trung bình ứng với mỗi thuật toán phân lớp 
TT Bộ phân lớp Normal DoS Probe R2L U2R 
1 Cây quyết định 99,83% 99,94% 99,81% 99,85% 99,90% 
2 K láng giềng gần nhất 99,79% 99,90% 99,88% 99,78% 99,85% 
3 Hồi quy luận lý 99,14% 99,39% 99,26% 99,17% 99,81% 
4 Hồi quy luận lý đa thức 99,33% 99,64% 99,53% 99,52% 99,80% 
5 Naïve Bayes 98,36% 99,57% 99,56% 99,36% 86,76% 
6 Mạng nơ ron 99,76% 99,90% 99,88% 99,83% 99,82% 
7 SVM tuyến tính 98,65% 99,45% 99,18% 98,93% 99,73% 
8 SVM với nhân dùng GRBF 99,63% 99,95% 99,87% 99,77% 99,87% 
Theo đó, số liệu ở cột Normal thể hiện độ chính xác phân lớp một truy cập là bình thường hay một cuộc tấn 
công, số liệu ở các cột còn lại thể hiện độ chính xác phân lớp với từng kiểu tấn công cụ thể là DoS, Probe, R2L hoặc 
U2R. Theo đó, bộ phân lớp sử dụng cây quyết định đạt độ chính xác cao nhất ở các tầng 1, 4 và 5; bộ phân lớp sử dụng 
mạng nơron đạt độ chính xác cao nhất ở tầng 3 và bộ phân lớp sử dụng SVM với nhân dùng GRBF đạt độ chính xác 
No 
Yes 
No 
No 
No 
No 
Yes 
Yes 
Yes 
Yes 
Kiểu tấn 
công DoS 
Kiểu tấn 
công R2L 
Kiểu tấn 
công U2R 
DoS? 
Probe? 
R2L? 
U2R? 
Tầng 2 
Tầng 3 
Tầng 4 
Kiểu tấn 
công Probe 
Tầng 5 
Tấn công 
chưa biết 
Tầng 1 Bình thường 
Dữ liệu 
truy cập 
mạng 
Cảnh báo 
cho 
người 
quản trị 
Normal? 
Hoàng Ngọc Thanh, Trần Văn Lăng, Hoàng Tùng 507 
cao nhất ở tầng 2. Để thực hiện SVM với nhân dùng GRBF, một thuật toán tìm kiếm lưới được sử dụng trên tập huấn 
luyện để có được tham số tối ưu dùng cho GRBF, tham số này sau đó được SVM sử dụng cho việc phân lớp. Kiến trúc 
bộ phân lớp lai đa tầng được hình thành từ các bộ phân lớp đơn tối ưu phù hợp với mỗi kiểu tấn công tại mỗi tầng được 
trình bày ở Hình 6. 
Hình 6. Kiến trúc bộ phân lớp lai đa tầng 
Theo kết quả thí nghiệm, độ chính xác dự báo tổng thể của bộ phân lớp lai đa tầng đạt 99.83% khi phân lớp các 
truy cập bình thường và 99.58% khi phân lớp các kiểu tấn công, tốt hơn so với việc áp dụng chỉ một kỹ thuật máy học 
đơn trong các IDS [15]. 
VI. KẾT LUẬN 
Từ kết quả thí nghiệm, ta nhận thấy: do tính chất đặc thù dữ liệu của mỗi kiểu tấn công, các kỹ thuật máy học tối 
ưu phù hợp đã được lựa chọn khi xây dựng các bộ phân lớp loại 2 lớp. Từ đó, kiến trúc một bộ phân lớp lai đa tầng dùng 
kỹ thuật OVR, trên cơ sở sử dụng các bộ phân lớp loại 2 lớp tối ưu đã chọn ở mỗi tầng để phân lớp các kiểu tấn công 
trong IDS. Đồng thời, kết quả thí nghiệm cũng đặt ra các vấn đề cần được tiếp tục nghiên cứu, đặc biệt là các nội dung: 
(1) Việc nghiên cứu tìm ra các bộ phân lớp phức tạp hơn so với các bộ phân lớp đơn ở mỗi tầng cần được xem 
xét. Xuất phát từ ý tưởng kết hợp nhiều bộ phân lớp để hợp tác thay vì cạnh tranh trong việc thực hiện nhiệm vụ, có thể 
sẽ đem lại hiệu năng cao hơn khi kết hợp các bộ phân lớp để phát triển các IDS. 
(2) Các bộ phân lớp cơ sở: việc lựa chọn các bộ phân lớp đơn như một bộ phân lớp cơ sở để so sánh và đánh giá 
các bộ phân lớp có vẻ không phải là lựa chọn tốt, sẽ tốt hơn nếu các bộ phân lớp lai hoặc kết hợp được sử dụng để so 
sánh độ chính xác dự báo. 
(3) Việc lựa chọn thuộc tính và phân cụm dữ liệu đã có nhiều hướng tiếp cận [7, 18, 19, 20]. Tuy nhiên, cần 
nghiên cứu tìm kiếm một thuật toán lựa chọn thuộc tính và phân cụm dữ liệu tối ưu, phù hợp nhất với kỹ thuật máy 
học, cũng như đặc thù dữ liệu của mỗi kiểu tấn công. 
(4) Năng lực xử lý dữ liệu cũng như tính toán của hệ thống máy đóng vai trò quan trọng trong việc khai thác 
thuật toán cũng như kỹ thuật máy học. Từ đó nâng cao hiệu quả xử lý, tiếp cận theo hướng trí tuệ nhân tạo. 
TÀI LIỆU THAM KHẢO 
1. Devarakonda, N., S. Pamidi, et al. - Intrusion Detection System using Bayesian Network and Hidden Markov Model. 
Procedia Technology, 2012, 4(0) 506-514. 
2. Bhat A. H., Patra S., Jena D. - Machine learning approach for intrusion detection on cloud virtual machines. International 
Journal of Application or Innovation in Engineering & Management (IJAIEM), 2013, 2(6) 56-66. 
3. Gaidhane R., Vaidya C., Raghuwanshi M. - Survey: Learning Techniques for Intrusion Detection System (IDS), International 
Journal of Advance Foundation and Research in Computer (IJAFRC), 2014, 1(2) 21-28. 
4. Omar S., Ngadi A., Jebur H. H. - Machine learning techniques for anomaly detection: an overview. International Journal of 
Computer Applications, 2013, 79(2) 33-41. 
5. Singh J., Nene M. J. - A Survey on Machine Learning Techniques for Intrusion Detection Systems. International Journal of 
Advanced Research in Computer and Communication Engineering, 2013, 2(11) 4349-4355. 
6. Wagh S. K., Pachghare V. K., Kolhe S. R. - Survey on intrusion detection system using machine learning techniques. 
International Journal of Computer Applications, 2013, 78(16) 30-37. 
7. Calix R. A., Sankaran R. - Feature Ranking and Support Vector Machines Classification Analysis of the NSL-KDD Intrusion 
Detection Corpus. Proceedings of the Twenty-Sixth International Florida Artificial Intelligence Research Society Conference, 
2013, 292-295. 
8. Reddy R. R., Kavya B., Ramadevi Y. - A Survey on SVM Classifiers for Intrusion Detection. International Journal of 
Computer Applications, 2014, 98(19) 38-44. 
9. Catania C.A., Bromberg F., et al. - An autonomous labeling approach to support vector machines algorithms for network 
traffic anomaly detection. Expert Systems with Applications, 2012, 39(2) 1822-1829. 
10. Guanghui S., Jiankang G., et al. - An Intrusion Detection Method Based on Multiple Kernel Support Vector Machine. Network 
Computing and Information Security (NCIS), 2011 International Conference on, IEEE, 2011, 119-123. 
11. Li W., Liu Z. - A method of SVM with Normalization in Intrusion Detection. Procedia Environmental Sciences 11, 2011, Part 
A(0) 256-262. 
Truy cập bình 
thường 
Bộ phân lớp 
dùng ANN 
Bộ phân lớp 
dùng DT 
Bộ phân lớp 
dùng DT 
Bộ phân lớp 
dùng SVM 
Kiểu tấn công 
DoS 
Kiểu tấn công 
R2L 
Kiểu tấn 
công U2R 
Kiểu tấn công 
Probe 
Tấn công 
chưa biết 
Dữ liệu 
truy cập 
mạng 
Bộ phân lớp 
dùng DT 
BỘ PHÂN LỚP LAI ĐA TẦNG 
508 MỘT TIẾP CẬN MÁY HỌC ĐỂ PHÂN LỚP CÁC KIỂU TẤN CÔNG TRONG HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG 
12. Mohammad M.N., Sulaiman N., et al. - A novel local network intrusion detection system based on support vector machine. 
Journal of Computer Science, 2011, 7(10) 1560-1564. 
13. Xiaozhao F., Wei Z,, et al. - A Research on Intrusion Detection Based on Support Vector Machines. Communications and 
Intelligence Information Security (ICCIIS), 2010 International Conference on, IEEE, 2010, 109-112. 
14. Xie Y., Zhang T., - An intelligent anomaly analysis for intrusion detection based on SVM. Computer Science and 
Information Processing (CSIP), 2012 International Conference on, IEEE, 2012, 739-742. 
15. Altwaijry H., Algarny S. - Bayesian based intrusion detection system. Journal of King Saud University - Computer and 
Information Sciences, 2012, 24(1) 1-6. 
16. Aburomma A. A., Reaz M. B. I. - Evolution of Intrusion Detection Systems Based on Machine Learning Methods. Australian 
Journal of Basic and Applied Sciences, 7(7) 799-813. 
17. Sanjaya S. K. S. S. S., Jena K. - A Detail Analysis on Intrusion Detection Datasets. In 2014 IEEE International Advance 
Computing Conference (IACC), 2014, 1348-1353. 
18. Al-Jarrah O. Y., Siddiqui A., et al. - Machine-Learning-Based Feature Selection Techniques for Large-Scale Network Intrusion 
Detection. In Distributed Computing Systems Workshops, 2014 IEEE 34th International Conference on, IEEE, 2014, 177-181. 
19. Moradi Koupaie H., Ibrahim S., Hosseinkhani J. - Outlier detection in stream data by machine learning and feature selection 
methods. International Journal of Advanced Computer Science and Information Technology (IJACSIT), 2014, 2 17-24. 
20. Patel S., Sondhi J. - A Review of Intrusion Detection Technique using Various Technique of Machine Learning and Feature 
Optimization Technique. International Journal of Computer Applications, 2014, 93(14) 43-47. 
A MACHINE LEARNING APPROACH TO CLASSIFY TYPES OF 
ATTACKS IN NETWORK INTRUSION DETECTION SYSTEM 
Hoang Ngoc Thanh, Tran Van Lang, Hoang Tung
ABSTRACT — The main function of Network Intrusion Detection Systems (IDS) is to protect the system, analyze and predict 
network access behavior of users. This behavior is considered normal or an attack. IDS than to identify the behavior is normal or an 
attack based on the stored data, has the ability to learn to identify new attacks. For each specific type of attack is DoS, Probe, R2L 
or U2R, dataset have peculiar characteristics. This article refers to finding the optimum machine learning techniques for each type 
of attack is based on known machine learning algorithms as: Decision Tree (DT), K Nearest Neighbor, Support Vector Machine 
(SVM), Artificial Neural Network (ANN),... Since then, built a multi-layer hybrid classifier based on the use of optimal machine 
learning techniques, best suited to type of attack on each layer. Results of experiments on the KDD99 dataset using 5-fold Cross 
Validation showed that the multi-layer hybrid classifier integrated machine learning techniques: DT, ANN and SVM have highest 
predicted accuracy: 99.83% when the classification of normal access and 99.58% when the classification of types of attacks. 

File đính kèm:

  • pdfmot_tiep_can_may_hoc_de_phan_lop_cac_kieu_tan_cong_trong_he.pdf