Mask: Phương pháp mới nâng cao hiệu quả phát hiện gian lận tài chính
Hiện nay, gian lận tài chính ngày càng phổ biến và gây ra những hậu quả nghiêm trọng.
Do đó, phát hiện và ngăn chặn gian lận tài chính đã và đang thu hút được sự quan tâm lớn
từ các nhà nghiên cứu. Bài toán phát hiện gian lận tài chính có thể được giải quyết với sự
hỗ trợ của các kỹ thuật khai phá dữ liệu, cụ thể như phân lớp là một phương pháp học có
giám sát được áp dụng phổ biến nhất. Tuy nhiên, do đặc thù dữ liệu tài chính, số lượng các
mẫu được xác định là gian lận ít hơn rất nhiều so với các mẫu hợp lệ, dẫn đến tình trạng
khó khăn trong phân lớp dữ liệu mất cân bằng. Một số phương pháp nổi tiếng giải quyết
vấn đề này như SMOTE, Borderline-SMOTE, và SPY mặc dù đã đạt được những kết quả
tích cực, nhưng một số trường hợp lại không đạt được kết quả mong đợi. Trong bài báo này,
chúng tôi đề xuất một phương pháp mới, Mask, nhằm đổi nhãn các phần tử lớp đa số dựa
trên phân phối mật độ của các phần tử lớp thiểu số. Kết quả thực nghiệm trên các bộ dữ
liệu chuẩn quốc tế như UCSD-FICO (cuộc thi data mining contest 2009), German Credit,
Australian Credit, và Yeast (từ kho dữ liệu chuẩn UCI) đã chỉ ra phương pháp mới hiệu quả
và nâng cao độ chính xác trong phát hiện gian lận tài chính so với các phương pháp ROS,
RUS, SMOTE, Borderline- SMOTE, và SPY.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Mask: Phương pháp mới nâng cao hiệu quả phát hiện gian lận tài chính
(59.02%, 56.86%), và SPY (74.07%, 73.97%). Như vậy, trong trường hợp này, khi sử dụng các giải thuật phân lớp đối với dữ liệu gốc, gần như không phát hiện ra bất kỳ tường hợp gian lận nào trong khi độ chính xác dự đoán những trường hợp không gian lận xấp xỉ 100%. Sau khi áp dụng các phương pháp điều chỉnh dữ liệu, hiệu quả phân lớp tăng lên rõ rệt. Trong đó, giá trị g-mean của phương pháp Mask đạt giá trị lớn nhất so với các phương pháp còn lại. Để minh chứng cho khả năng áp dụng của Mask chúng tôi thực nghiệm thêm một bộ dữ liệu y sinh học Yeast, và các kết quả cũng chỉ ra Mask đạt hiệu quả cao hơn, cụ thể như khi thực hiện phân lớp bằng SVM, Mask đạt giá trị g-mean là 83.52% cao hơn hẳn SPY (80.98%), dữ liệu gốc (19.55%), ROS (75.22%), RUS (76.63%), SMOTE (74.10%), BSO1 (64.34%). Tương tự, với việc sử dụng phân lớp bằng C5.0 và RF, Mask đều cho kết quả tốt hơn. Các giá trị p-value so sánh các giá trị G-mean cao nhất khi phân lớp bằng các giải thuật SVM, C5.0, và RF được thể hiện trong bảng 4, bảng 5 và bảng 6. Nếu giá trị p-value nhỏ hơn hoặc bằng 0.05 thì giá trị G-mean trung bình của thuật toán có ý nghĩa thống kê. 12 Tạp chí Khoa học và Kỹ thuật - Học viện KTQS - Số 184 (06-2017) Bảng 3. So sánh các giá trị sensitivity (SE), specificity (SP), và G-mean Dữ liệu Phương pháp SVM C5.0 RF SE SP G-mean SE SP G-mean SE SP G-mean Dữ liệu gốc 39.75 91.53 60.30 47.62 83.70 63.10 41.90 91.76 62.00 ROS 67.72 74.56 71.05 52.62 76.87 63.58 50.82 87.38 66.63 German RUS 73.48 68.92 71.16 65.57 65.74 65.63 73.37 69.38 71.34 Credit Data SMOTE 69.83 71.49 70.65 56.05 73.14 64.00 56.65 82.24 68.25 BSO1 65.55 75.64 70.41 50.32 80.65 63.68 48.38 87.80 65.17 SPY 70.23 72.26 71.22 63.13 69.53 66.24 71.02 70.61 70.81 Mask (β=0.3) 70.08 73.67 71.85 60.35 72.81 66.27 69.82 73.11 71.44 Dữ liệu gốc 0.00 100.00 0.00 0.65 99.61 3.12 23.70 99.62 48.37 ROS 56.30 91.57 71.73 46.74 96.21 66.90 35.43 99.34 59.27 RUS 71.30 62.53 66.65 68.04 59.95 63.72 80.00 68.50 73.96 UCSD-FICO SMOTE 49.78 95.07 68.73 31.30 95.34 54.45 32.17 98.85 56.29 BSO1 48.26 95.21 67.60 37.39 94.62 59.02 32.83 98.95 56.86 SPY 73.26 73.44 73.31 73.04 75.31 74.07 68.70 79.77 73.97 Mask (β=0.2) 73.26 76.35 74.76 73.26 79.01 76.04 79.78 70.46 74.95 Dữ liệu gốc 88.83 82.51 85.61 82.10 86.97 84.49 85.36 87.92 86.63 ROS 89.40 82.48 85.87 79.07 87.00 82.93 83.94 89.28 86.57 Australian RUS 91.40 80.43 85.74 84.97 85.00 84.98 87.79 86.31 87.04 Credit SMOTE 90.86 80.55 85.55 83.57 85.30 84.43 87.17 86.66 86.91 Approval BSO1 91.74 80.09 85.72 84.17 85.85 85.00 87.31 87.15 87.23 SPY 91.78 79.96 85.66 83.84 86.14 84.97 87.10 87.15 87.13 Mask (β=0.2) 89.02 82.90 85.91 82.59 87.17 84.84 86.03 88.09 87.05 Dữ liệu gốc 3.73 99.98 19.55 26.76 99.14 51.33 14.12 99.73 37.39 ROS 62.45 90.69 75.22 41.76 96.65 63.45 31.08 98.93 55.41 RUS 62.06 94.69 76.63 65.98 93.42 78.48 51.47 96.11 70.29 Yeast SMOTE 58.73 93.60 74.10 62.06 92.51 75.73 54.80 95.99 72.51 BSO1 42.45 97.60 64.34 30.39 99.04 54.78 24.41 99.06 49.10 SPY 70.59 92.92 80.98 70.49 92.19 80.60 68.73 92.11 79.54 Mask (β=0.15) 85.39 81.70 83.52 90.39 73.76 81.63 84.02 83.05 83.52 Ví dụ, đối với dữ liệu UCSD–FICO, giá trị p-value khi so sánh giá trị G-mean của dữ liệu ban đầu và các phương pháp điều chỉnh dữ liệu ROS, RUS, SMOTE, BSO1, SPY tương ứng là (2.2E-16, 2.2E-16, 2.2E-16, 2.2E-16 và 2.2E-16) và với Mask là 2.2E-16. Hơn nữa, dễ dàng nhận thấy rằng, phương pháp Mask hiệu quả hơn ROS, RUS, SMOTE, BSO1, và SPY với các giá trị p-value tương ứng là 7.76E-04, 5.13E-13, 1.56E-08, 2.32E-06, và 1.67E-02. Các giá trị trong bảng 3 và bảng 4, bảng 5 và bảng 6, cho thấy phương pháp điều chỉnh dữ liệu Mask đạt hiệu quả tốt và vượt trội hơn hẳn so với các thuật toán khác khi phân lớp bằng SVM. Mặt khác, đối với dữ liệu có tỷ lệ mất cân bằng nhỏ như Australian Credit Approval phương pháp Mask không làm giảm hiệu quả phân lớp. Các kết quả trên cho thấy, khi sử dụng phương pháp Mask giá trị g-mean cao hơn so với các phương pháp khác khi sử dụng giải thuật phân lớp bằng SVM, C5.0, RF và vượt trội hơn so với các phương pháp khác ở thuật toán phân lớp SVM. Từ đó, có thể thấy, việc điều chỉnh dữ liệu theo phương pháp Mask phù hợp với phân lớp dữ liệu bằng SVM, C5.0, và RF. Như vậy, độ chính xác dự đoán những trường hợp gian lận (phần tử lớp thiểu số) và trường hợp không gian lận (phần tử lớp đa số) tăng 13 Chuyên san Công nghệ thông tin và Truyền thông - Số 10 (06-2017) Bảng 4. Các giá trị p-value so sánh G-mean trung bình khi phân lớp bằng SVM Dữ liệu Phương pháp SVM Dữ liệu gốc ROS RUS SMOTE BSO1 SPY ROS 2.20E-16 German RUS 2.20E-16 3.17E-01 Credit SMOTE 2.20E-16 7.25E-02 2.55E-02 Data BSO1 2.20E-16 7.70E-03 1.51E-03 1.84E-01 SPY 2.20E-16 2.72E-01 4.19E-01 2.83E-02 2.71E-03 Mask 2.20E-16 1.84E-03 3.84E-03 4.70E-05 1.27E-06 1.43E-02 ROS 2.20E-16 RUS 2.20E-16 2.51E-06 UCSD -FICO SMOTE 2.20E-16 2.71E-03 1.47E-02 BSO1 2.20E-16 2.36E-03 2.34E-01 2.03E-01 SPY 2.20E-16 3.81E-02 6.90E-11 2.07E-06 4.67E-05 Mask 2.20E-16 7.76E-04 5.13E-13 1.56E-08 2.32E-06 1.67E-02 ROS 8.30E-02 Australian RUS 2.10E-01 1.84E-01 Credit SMOTE 3.58E-01 1.47E-02 4.17E-02 Approval BSO1 2.49E-01 1.49E-01 4.25E-01 6.15E-02 SPY 3.59E-01 9.34E-01 7.81E-01 1.18E-01 7.13E-01 Mask 4.27E-02 4.01E-01 8.50E-02 2.22E-03 6.24E-02 1.61E-02 ROS 1.09E-09 RUS 2.20E-16 2.70E-02 Yeast SMOTE 2.20E-16 7.77E-02 4.72E-04 BSO1 2.20E-16 1.05E-08 1.43E-09 7.21E-08 SPY 2.20E-16 1.90E-10 1.31E-09 2.23E-12 9.29E-12 Mask 2.20E-16 1.56E-13 3.15E-14 6.98E-15 1.27E-12 6.66E-08 Bảng 5. Các giá trị p-value so sánh G-mean trung bình khi phân lớp bằng C5.0 Dữ liệu Phương pháp C50 Dữ liệu gốc ROS RUS SMOTE BSO1 SPY ROS 1.84E-01 German RUS 5.71E-06 9.24E-06 Credit SMOTE 4.27E-02 1.68E-01 1.50E-04 Data BSO1 1.35E-01 4.07E-01 1.95E-05 2.34E-01 SPY 2.36E-07 2.58E-07 7.43E-02 3.82E-06 5.31E-07 Mask 1.04E-06 2.67E-06 9.62E-02 2.91E-05 5.00E-06 4.76E-01 ROS 2.20E-16 RUS 2.20E-16 9.89E-01 UCCD -FISO SMOTE 2.20E-16 1.65E-10 1.22E-08 BSO1 2.20E-16 1.63E-04 8.00E-03 1.25E-02 SPY 2.20E-16 2.65E-06 2.58E-11 2.20E-16 3.48E-09 Mask 2.20E-16 1.10E-08 1.02E-14 2.20E-16 5.37E-10 2.66E-02 ROS 6.53E-06 Australian RUS 4.09E-02 4.64E-09 Credit SMOTE 3.87E-01 7.92E-07 2.35E-03 Approval BSO1 4.60E-02 1.16E-08 4.68E-01 5.82E-03 SPY 6.97E-02 7.97E-08 5.07E-01 1.78E-02 5.33E-01 Mask 2.95E-01 1.38E-07 3.05E-01 4.10E-02 2.95E-01 3.39E-01 ROS 6.00E-12 RUS 2.20E-16 2.20E-16 Yeast SMOTE 2.20E-16 1.50E-15 3.07E-04 BSO1 3.74E-03 1.43E-10 2.20E-16 2.20E-16 SPY 2.20E-16 2.20E-16 4.55E-04 8.28E-09 2.20E-16 Mask 2.20E-16 2.20E-16 5.18E-06 1.65E-10 2.20E-16 2.38E-02 14 Tạp chí Khoa học và Kỹ thuật - Học viện KTQS - Số 184 (06-2017) Bảng 6. Các giá trị p-value so sánh G-mean trung bình khi phân lớp bằng RF Dữ liệu Phương pháp RF Dữ liệu gốc ROS RUS SMOTE BSO1 SPY ROS 2.20E-16 German RUS 2.20E-16 2.20E-16 Credit SMOTE 2.20E-16 1.67E-07 4.18E-14 Data BSO1 8.24E-14 1.88E-06 2.20E-16 1.35E-14 SPY 2.20E-16 2.20E-16 9.32E-01 7.21E-12 2.20E-16 Mask 2.20E-16 2.20E-16 2.39E-01 6.81E-14 2.20E-16 1.98E-02 ROS 2.69E-10 RUS 2.20E-16 2.20E-16 UCSD -FICO SMOTE 3.91E-07 2.56E-03 2.20E-16 BSO1 1.80E-07 1.52E-02 2.20E-16 3.14E-01 SPY 2.20E-16 2.20E-16 4.95E-01 2.20E-16 2.20E-16 Mask 2.20E-16 2.20E-16 8.82E-02 2.20E-16 2.20E-16 1.02E-01 ROS 3.43E-01 Australian RUS 2.47E-03 2.87E-03 Credit SMOTE 3.43E-01 5.00E-01 2.87E-03 Approval BSO1 2.48E-05 7.12E-05 9.63E-02 7.12E-05 SPY 3.00E-04 5.35E-04 2.79E-01 5.35E-04 7.70E-01 Mask 1.13E-01 2.55E-03 4.70E-01 2.55E-03 1.13E-01 6.92E-01 ROS 2.20E-16 RUS 2.20E-16 2.20E-16 Yeast SMOTE 2.20E-16 2.20E-16 8.13E-04 BSO1 3.12E-15 6.11E-09 2.20E-16 2.20E-16 SPY 2.20E-16 2.20E-16 3.53E-16 6.68E-16 2.20E-16 Mask 2.20E-16 2.20E-16 2.20E-16 2.20E-16 2.20E-16 8.10E-10 lên. Các phương pháp ROS, RUS, SMOTE, BOS1 đều làm thay đổi kích thước dữ liệu. Với phương pháp Mask, kích thước dữ liệu không thay đổi nhưng vẫn tăng cường các phần tử lớp đa số, làm giảm tính mất cân bằng dữ liệu và nâng cao hiệu quả phân lớp. 4. Kết luận Khai phá dữ liệu được ứng dụng rộng rãi trong phát hiện gian lận tài chính, trong đó phân lớp là kỹ thuật được sử dụng phổ biến với nhiều giải thuật phân lớp khác nhau được đề xuất. Tuy nhiên, các giải thuật phân lớp chuẩn thường gặp khó khăn đối với dữ liệu không cân bằng đặc biệt trong phát hiện gian lận tài chính do số lượng các trường hợp gian lận thường nhỏ hơn rất nhiều so với các trường hợp không gian lận. Chính vì vậy, trong nghiên cứu này, chúng tôi đã nghiên cứu và đề xuất một phương pháp mới, Mask, nhằm đổi nhãn các phần tử lớp đa số dựa trên phân phối mật độ của lớp thiểu số. Các kết quả thực nghiệm với dữ liệu tài chính và y sinh học đã cho thấy, phương pháp đề xuất Mask đạt hiệu quả hơn so với các phương pháp điều chỉnh dữ liệu như Random Over-sampling, Random Under-sampling, SMOTE, Borderline SMOTE1, và SPY. Mở rộng hơn, chúng tôi nhận thấy các phần tử nằm trên đường biên hoặc gần đường biên đóng vai trò quan trọng hơn trong việc phân lớp so với các phần tử xa đường biên [14]. Do vậy, trong thời gian tới, chúng tôi nghiên cứu và cải tiến phương pháp Mask nhằm tăng cường các phần tử biên lớp thiểu số theo phân bố dữ liệu. Tài liệu tham khảo [1] F. H. M. J. I. and S. S. , "A Two-Tier Classification Model for Financial Fraud Detection," International Journal of Computer Applications, vol. 118, no. 19, pp. 1-8, 2015. 15 Chuyên san Công nghệ thông tin và Truyền thông - Số 10 (06-2017) [2] A. S. and P. K. P. , "A Review of Financial Accounting Fraud Detection based on Data Mining Techniques," International Journal of Computer Applications, vol. 39, no. 1, pp. 37-47, 2012. [3] M. Z. and P. S. , "Application of Credit Card Fraud Detection: Based on Bagging Ensemble Classifier," in International Conference on Computer, Communication and Convergence (ICCC 2015), 2015. [4] S. Yanmin, W. Andrew K.C. and K. Mohamed S., "Classfiaction of imbalanced data: A Review," International Journal of Pattern Recognition and Artificial Intelligence, vol. 23, p. 687–719, 2009. [5] Bartosz Krawczyk, "Learning from imbalanced data: open challenges and future directions," Progress in Artificial Intelligence, vol. 5, no. 4, p. 221–232, 2016. [6] Z. Sun, Q. Song, X. Zhu, H. Sun, B. Xu and Y. Zhou, "A novel ensemble method for classifying imbalanced data," Pattern Recognit, vol. 48, p. 1623–1637, 2015. [7] Patel, Harshita and Ghanshyam Singh Thakur, "Classification of Imbalanced Data using a Modified Fuzzy- Neighbor Weighted Approach," International Journal of Intelligent Engineering and Systems 10.1 , pp. 56-64, 2017. [8] C. Beyan and R. B. Fisher, "Classifying Imbalanced Data Sets using Similarity Based Hierarchical Decompo- sition," Pattern Recognit, vol. 48, p. 1653–1672, 2014. [9] S. Vluymans, I. Triguero, C. Cornelis and Y. Saeys, "EPRENNID: An evolutionary prototype reduction based ensemble for nearest neighbor classification of imbalanced data," Neurocomputing, p. 596–610, 2016. [10] E. R. Y. C. R. B. and F. H. , "SMOTE-RSB*: a hybrid preprocessing approach based on oversampling and undersampling for high imbalanced datasets using SMOTE and rough sets theory," Knowledge and Information Systems, vol. 33, no. 2, pp. 245-265, 2011. [11]J.B łaszczynski´ and J. Stefanowsk, "Neighbourhood sampling in bagging for imbalanced data," Neuro computing, vol. 150, pp. 529-542, 2015. [12] Haibo He and Edwardo A. Garcia, "Learning from Imbalanced Data," IEEE Transactions on Knowledge and Data Engineering, vol. 21, no. 9, pp. 1263 - 1284, 2009. [13] C. Nitesh V., B. Kevin W., O. H. Lawrence and K. W. Philip, "SMOTE: Synthetic Minority Over-sampling Technique," Artificial Intelligence Research, vol. 16, p. 321–357, 2002. [14] H. Hui, W. Wen-Yuan and M. Bing-Huan, "Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning," in ICIC 2005, 2005. [15] C. B. K. S. and C. L. , "Safe-Level-SMOTE: Safe-Level-Synthetic Minority Over-Sampling TEchnique for Handling the Class Imbalanced Problem," in Advances in Knowledge Discovery and Data Mining, vol. 5476, Springer-Verlag Berlin Heidelberg, 2009, pp. 475-482. [16] Haibo He, Yang Bai, Edwardo A, Garcia and Shutao Li, "ADASYN: Adaptive synthetic sampling approach for imbalanced learning," IEEE INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, pp. 1322-1328, 2008. [17] Sáez, José A and et al., "SMOTE–IPF: Addressing the noisy and borderline examples problem in imbalanced classification by a re-sampling method with filtering," Information Sciences 291, pp. 184-203, 2015. [18] J. S. and S. W. , "Rough Sets for Handling Imbalanced Data: Combining Filtering and Rule-based Classi- fiers," Fundamenta Informaticae - SPECIAL ISSUE Fundamenta Informaticae - Special issue on concurrency specification and programming (CSP 2005), vol. 72, no. 1-3, pp. 379-391, 2006. [19] X. T. D. D. H. T. O. Hirose and K. Satou, "SPY: A Novel Resampling Method for Improving Classification Performance in Imbalanced Data," in Knowledge and Systems Engineering (KSE), 2015 Seventh International Conference on, 2015. [20] I. T. "Two Modifications of CNN," Transactions on Systems Man and Communications, vol. 6, no. 11, pp. 769-772, 1976. [21] Lichman, Artist, UCI Machine Learning Repository []. Irvine, CA: University of California, School of Information and Computer Science. [Art]. 2013. Ngày nhận bài 06-4-2017; Ngày chấp nhận đăng 23-8-2017. 16 Tạp chí Khoa học và Kỹ thuật - Học viện KTQS - Số 184 (06-2017) Nghiêm Thị Toàn tốt nghiệp Khoa CNTT Trường Đại học Sư Phạm Hà Nội năm 2013. Bảo vệ luận văn thạc sĩ CNTT tại Đại học Sư Phạm Hà Nội tháng 6/2016. Nơi công tác: Trường THPT Lý Nhân Tông, Bắc Ninh. Hướng nghiên cứu chính: Khai phá dữ liệu. E-mail: toannt.kinhbac@gmail.com Nghiêm Thị Lịch tốt nghiệp Khoa CNTT Trường Đại học Sư Phạm Hà Nội năm 2007. Năm 2009, nhận bằng thạc sĩ CNTT tại Đại học Sư Phạm Hà Nội. Nơi công tác: Khoa Hệ thống thông tin Kinh tế, Trường Đại học Thương Mại. Hướng nghiên cứu chính: Khai phá dữ liệu, tính toán mềm E-mail: lichnt72@gmail.com Bùi Dương Hưng tốt nghiệp đại học Trường ĐHBK Hà nội năm 2000. Thạc sỹ tại Học viện KTQS năm 2010; nghiên cứu sinh khoá 2015, Học viện Công nghệ Bưu chính Viễn thông. Nơi công tác: Khoa Tin học, Trường ĐH Công đoàn. Hướng nghiên cứu chính: Data Mining, Hệ thống thông tin, Xử lý ảnh trong sinh tin. E-mail: hungbd@dhcd.edu.vn Đặng Xuân Thọ tốt nghiệp Khoa CNTT Trường Đại học Sư Phạm Hà Nội năm 2007. Năm 2009, nhận bằng thạc sĩ CNTT tại Đại học Sư Phạm Hà Nội. Năm 2013, nhận bằng Tiến sĩ Trường Đại học Tổng hợp Kanazawa, Nhật Bản. Nơi công tác: Khoa CNTT Trường Đại học Sư Phạm Hà Nội. Hướng nghiên cứu chính: Khai phá dữ liệu, Học máy, Tin sinh học. E-mail: thodx@hnue.edu.vn 17
File đính kèm:
- mask_phuong_phap_moi_nang_cao_hieu_qua_phat_hien_gian_lan_ta.pdf