Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng
Tóm tắt. Khai phá quan điểm giúp xác định hướng quan điểm (tích cực, tiêu cực) của người
dùng về một chủ đề, sản phẩm hay dịch vụ. Có một số cách tiếp cận khác nhau về khai phá
quan điểm, trong đó phương pháp khai phá quan điểm dựa trên từ vựng là khá phổ biến. Độ
chính xác của phương pháp khai phá quan điểm dựa trên từ vựng phụ thuộc rất nhiều vào
từ điển được sử dụng, trong đó chứa các từ quan điểm về các lĩnh vực cụ thể. Một bộ dữ liệu
có thể thực hiện phân lớp tốt trong lĩnh vực này, nhưng lại kém hiệu quả đối với một số lĩnh
vực khác. VietSentiWordNet là từ điển quan điểm tiếng Việt được sử dụng khá phổ biến hiện
nay, nhưng thiếu nhiều từ quan điểm cho miền dữ liệu thuộc lĩnh vực du lịch. Bài báo này do
đó tập trung vào việc mở rộng từ điển VietSentiWordNet với việc làm giàu các từ quan điểm
thuộc lĩnh vực du lịch, trong đó một mô hình mở rộng từ điển VietSentiWordNet sử dụng
phương pháp dựa trên từ vựng được đề xuất và một tiến trình tiền xử lý dữ liệu với nhiều
chức năng được tích hợp cũng được bổ sung nhằm nâng cao hiệu quả phân lớp quan điểm.
Kết quả thực nghiệm cho thấy rằng việc từ điển VietSentiWordNet được mở rộng đã phân lớp quan
điểm chính xác hơn đối với các câu quan điểm trong lĩnh vực du lịch.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng
trọng số tích cực, tiêu cực cho từ quan điểm trong câu quan điểm. 3.4 Giai đoạn 4: Bổ sung và loại bỏ dữ liệu trong từ điển Dữ liệu của từ điển VietSentiWordNetPlus được mở rộng từ từ điển VietSentiWordNet của Vũ Xuân Sơn và cộng sự [10] với khoảng 900 tập từ quan điểm. Hệ thống tự động bổ sung từ quan điểm vào bộ từ điển dữ liệu này dựa vào kết quả phân lớp quan điểm câu bình luận ở giai đoạn 3 (phân lớp quan điểm). Để đảm bảo dữ liệu trong từ điển không trùng lặp, hệ thống kiểm tra sự tồn tại của từ quan điểm trong bộ từ điển, sau đó bổ sung dữ liệu vào từ điển theo đúng khuôn dạng được mô tả như trong Bảng 4. Quá trình chạy thực nghiệm đã bổ sung thêm hơn 1,710 từ quan điểm thuộc lĩnh vực du lịch vào từ điển VietSentiWordNetPlus. Như vậy, số lượng từ quan điểm thuộc lĩnh vực du lịch được bổ sung vào từ điển VietSentiWordNetPlus lớn hơn gần gấp hai lần (từ 900 lên 2,615) số từ quan điểm đã có trong từ điển VietSentiWordNet. Bảng 4. Khuôn dạng từ quan điểm trong từ điển dữ liệu STT PosScore NegScore SynsetTerms Gloss 1. 0,5 0 trong_lành Không khí trong lành 2. 0,625 0 tuyệt Cảnh vật đẹp tuyệt 3. 0 0,125 chật_hẹp Không gian chật hẹp lắm 4. 0,75 0 hùng_vĩ Phong cảnh hùng vĩ 5. 0 0,875 nghèo_nàn Thức ăn sáng nghèo nàn Lê Văn Hoà Tập 129, Số 2A, 2020 24 2612. 1 0 :relieved_face Biển đẹp, đồ ăn lại ngon nữa chứ 😌😌 2613. 0 0,625 nguy_hiểm Trời mưa đi nguy hiểm 2614. 0 0,875 lộn_xộn Biển dạo này đông đúc và lộn xộn lắm 2615. 0 0,625 gồ_ghề Đường kiệt vào khách sạn khá gồ ghề Ngoài ra, để nâng cao hiệu quả phân lớp của dữ liệu trong từ điển dữ liệu, chúng tôi thực hiện giai đoạn loại bỏ dữ liệu nhiễu. Mục đích của giai đoạn này nhằm loại bỏ những từ quan điểm trong từ điển phân lớp không chính xác thuộc lĩnh vực du lịch. Trong quá trình chạy thử nghiệm từ điển VietSentiWordNet ban đầu, chúng tôi đã phát hiện 12 từ quan điểm phân lớp không chính xác (câu tích cực mà hệ thống cho là câu tiêu cực). Bảng 5 mô tả danh sách các từ quan điểm phân lớp không chính xác. Bộ từ điển VietSentiWordNetPlus đã khắc phục được hạn chế này giúp cho kết quả phân lớp chính xác hơn. Bảng 5. Danh sách các từ quan điểm phân lớp không chính xác STT Từ quan điểm Ví dụ câu bình luận phân lớp không chính xác 1. cho Thuận tiện cho việc di chuyển; Địa điểm lí tưởng cho du lịch 2. lành Không khí rất trong lành 3. sống Chỗ này sống ảo thì tuyệt vời 4. mát mẻ Không khí trong lành mát mẻ .... 11. phong phú Mặt hàng phong phú; Kiến trúc phong phú 12. xanh Vườn cây xanh mát; Biển đẹp và xanh 4 Thực nghiệm và phân tích kết quả Trong thực nghiệm, có rất nhiều độ đo được sử dụng để đánh giá hiệu suất của bộ phân loại. Trong đó, bốn độ đo được sử dụng rộng rãi bao gồm: Accuracy, Precision, Recall, và F1-score [21]. Ngoài ra, ma trận Confusion là một công cụ rất hữu ích giúp phân tích mức độ hiệu quả mà bộ jos.hueuni.edu.vn Tập 129, Số 2A, 2020 25 phân loại có thể phân loại các mẫu dữ liệu của các lớp khác nhau. Ví dụ về các tham số của ma trận Confusion đối với hai lớp tích cực, tiêu cực được minh họa như trong Bảng 6. Bảng 6. Ma trận Confusion đối với hai lớp tích cực, tiêu cực Mẫu dữ liệu thực tế Tích cực (Positive) Tiêu cực (Negative) Bộ phân loại Tích cực (Positive) True Positive (TP) False Positive (FP) Tiêu cực (Negative) False Negative (FN) True Negative (TN) Ý nghĩa các tham số trong ma trận Confusion đối với hai lớp tích cực, tiêu cực: - True Positive (TP): số mẫu của lớp Positive được bộ phân loại dự đoán chính xác là Positive. - True Negative (TN): số mẫu của lớp Negative được bộ phân loại dự đoán chính xác là Negative. - False Positive (FP): số mẫu của lớp Negative bị bộ phân loại dự đoán nhầm thành Positive. - False Negative (FN): số mẫu của lớp Positive bị bộ phân loại dự đoán nhầm thành Negative. Một số độ đo đánh giá hiệu suất của bộ phân loại: Độ chính xác tổng quát (Accuracy) xác định hiệu suất của bộ phân loại là tỷ lệ phần trăm mẫu được dự đoán chính xác. Accuracy được tính bằng tỷ số giữa số mẫu được dự đoán chính xác (không phân biệt Positive hay Negative) trên tổng số mẫu. Công thức tính độ chính xác tổng quát (Accuracy): Accuracy = (TP + TN) (TP + TN + FP + FN) Độ chính xác (Precision) cho biết độ chính xác của bộ phân loại là tỷ lệ phần trăm của tất cả các mẫu được dự đoán tính cực thực sự là tính cực. Công thức tính độ chính xác (Precision): Precision = TP (TP + FP) Độ đầy đủ (Recall) thường liên quan đến thước đo mức độ đầy đủ của bộ phân loại là tỷ lệ phần trăm mẫu tích cực thực sự được dự đoán chính xác là tích cực. Công thức tính độ đầy đủ (Recall): Recall = TP (TP + FN) Độ đầy đủ điều hòa (F-score) là một thước đo phân tích thống kê có tính đến cả độ chính xác và mức độ đầy đủ, F-score có giá trị từ 0 đến 1. Giá trị F-score càng gần với 1 thì độ chính xác của bộ phân loại càng cao. Công thức tính độ đầy đủ điều hòa (F-score): F-score = 2 Precision × Recall (Precision + Recall) Lê Văn Hoà Tập 129, Số 2A, 2020 26 Một ví dụ minh họa về kết quả đánh giá thực nghiệm của hệ thống phân lớp sử dụng từ điển VietSentiWordNetPlus đối với điểm du lịch Đại Nội Huế được mô tả như trong Bảng 7. Bảng 7. Kết quả đánh giá thực nghiệm đối với điểm du lịch Đại Nội Huế Mẫu dữ liệu thực tế Kết quả đánh giá Positive Negative Accurac y Precisio n Recall F-score Hệ thống phân lớp Positive TP là 92 FP là 08 90,58 % 92,00 % 94,85 % 93,40 % Negativ e FN là 05 TN là 33 86,84 % 80,49 % 83,54 % Trung bình 89,42 % 87,67 % 88,47 % Từ kết quả đánh giá thực nghiệm trong Bảng 7, chúng ta thấy hiệu suất phân lớp sử dụng từ điển VietSentiWordNetPlus đối với điểm du lịch Đại Nội Huế là khá cao. Trong đó, hệ thống dự đoán một lớp là Positive có Precision(Positive) là 92,00%, Recall(Positive) là 94,85%, F- score(Positive) là 93,40%; dự đoán một lớp là Negative có Precision(Negative) là 86,84%, Recall(Negative) là 80,49%, F-score(Negative) là 83,54%; độ chính xác tổng quát (Accuracy) là 90,58%. Như vậy, hiệu suất phân lớp trung bình sử dụng từ điển VietSentiWordNetPlus đối với điểm du lịch Đại Nội Huế có độ chính xác tổng quát (Accuracy) là 90,58%, độ chính xác (Precision) là 89,42%, độ đầy đủ (Recall) là 87,67% và độ đầy đủ điều hòa (F-score) là 88,47%. Chúng tôi thực hiện cài đặt với các thiết lập tương tự như trong hệ thống phân lớp quan điểm của Vũ Xuân Sơn và cộng sự để so sánh kết quả thực nghiệm phân lớp quan điểm giữa bộ từ điển VietSentiWordNet và bộ từ điển VietSentiWordNetPlus (của chúng tôi mở rộng). Bảng 8 so sánh hiệu suất xác định hướng quan điểm (theo phương pháp Accuracy và Precision - Recall) của 10 điểm du lịch giữa từ điển VietSentiWordNetPlus với từ điển VietSentiWordNet. Kết quả đánh giá hiệu suất trung bình xác định hướng quan điểm của bộ từ điển VietSentiWordNetPlus về độ chính xác tổng quát, độ chính xác, độ đầy đủ, và độ đầy đủ điều hòa lần lượt là là 87,42%; 86,32%; 85,41%; 85,63% so với 60,34%; 57,73%; 57,75%; 57,16% của bộ từ điển VietSentiWordNet ban đầu. jos.hueuni.edu.vn Tập 129, Số 2A, 2020 27 Bảng 8. Hiệu suất xác định hướng quan điểm giữa từ điển VietSentiWordNetPlus và VietSentiWordNet TT Điểm du lịch N Pos/ Neg VSWN VSWNPlus Accuracy Precision Recall F-score Accuracy Precision Recall F-score 1 Đại Nội 146 97/41 52,17% 48,60% 48,38% 47,79% 90,58% 89,42% 87,67% 88,47% 2 Núi Bạch Mã` 123 77/42 61,34% 58,06% 58,23% 58,12% 85,71% 85,18% 83,01% 83,89% 3 Suối Thanh Tân 121 84/33 69,23% 62,01% 62,01% 62,01% 84,62% 82,22% 78,25% 79,83% 4 Biển Thuận An 116 62/51 61,06% 60,52% 59,82% 59,67% 85,84% 86,78% 85,01% 85,43% 5 Suối Voi 112 59/51 56,36% 55,80% 55,33% 54,87% 82,73% 84,29% 81,90% 82,20% 6 Chùa Thiên Mụ 109 74/29 54,37% 52,90% 53,56% 51,26% 86,41% 82,93% 84,25% 83,54% 7 Biển Lộc Bình 106 39/42 62,96% 64,41% 63,46% 62,50% 91,36% 91,34% 91,39% 91,35% 8 Biển Cảnh Dương 97 69/23 69,57% 61,96% 63,77% 62,47% 83,70% 78.15% 80.43% 79.14% 9 Đầm Lập An 85 46/34 63,75% 62,83% 62,72% 62,77% 90,00% 90.10% 89.39% 89.68% 10 Chùa Huyền Không 66 37/22 52,54% 50,18% 50,18% 50,12% 93,22% 92.75% 92.75% 92.75% Trung bình 60,34% 57,73% 57,75% 57,16% 87,42% 86,32% 85,41% 85,63% Trong đó, VSWN: từ điển VietSentiWordNet, VSWNPlus: từ điển VietSentiWordNetPlus, N: Số câu bình luận, Pos/Neg: tỉ lệ số câu tích cực/ tiêu cực, Accuracy là độ chính xác tổng quát, Precision là độ chính xác, Recall là độ đầy đủ, F-score là độ đầy đủ điều hòa. 5 Kết luận Trong bài báo này, chúng tôi đã đề xuất một mô hình mở rộng từ điển VietSentiWordNet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng. Cụ thể, chúng tôi đã mở rộng từ điển VietSentiWordNet với việc làm giàu thêm các từ quan điểm thuộc lĩnh vực du lịch và tích hợp các chức năng tiền xử lý dữ liệu bao gồm thêm dấu, chuẩn hóa láy âm tiết (đối với những từ thể hiện cảm xúc đặc biệt), chuẩn hóa chữ viết tắt, xử lý biểu tượng cảm xúc. Dựa trên kết quả thực nghiệm, từ điển VietSentiWordNetPlus đã cho kết quả phân lớp quan điểm tốt hơn, với trung bình độ chính xác tổng quát, độ chính xác, độ đầy đủ và độ đầy đủ điều hòa lần lượt là 87,42%; 86,32%; 85,41%; 85,63% so với 60,34%; 57,73%; 57,75%; 57,16% của bộ từ điển VietSentiWordNet ban đầu. Tuy nhiên, việc gán trọng số cho các từ quan điểm để xây dựng bộ từ quan điểm tiếng Việt có trọng số (VnOpinionWords) có mức độ chính xác phụ thuộc vào độ chính xác của từ điển Việt – Anh, nên cần có nhiều nghiên cứu hơn nữa để nâng cao hiệu quả của cách tiếp cận khai phá quan điểm dựa trên từ vựng này. Lê Văn Hoà Tập 129, Số 2A, 2020 28 Tài liệu tham khảo 1. A. Arora, C. Patil, S. Correia (2015), Opinion Mining: An Overview, International Journal of Advanced Research in Computer and Communication Engineering Vol. 4, Issue 11, pp. 94-98. 2. W. Medhat, A. Hassan, H. Korashy (2014), Sentiment analysis algorithms and applications: A survey. Ain Shams Engineering Journal, 5(4), pp. 1093-1113. 3. C. Bucur (2015), Using opinion mining techniques in tourism, in Proceedings of the 2nd Global Conference on Business, Economics, Management and Tourism, Procedia Economics and Finance 23, pp. 1666-1673. 4. S. Baccianella, A. Esuli, F. Sebastiani (2010), SentiWordNet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining, In: Proceedings of the 7th Conference on International Language Resources and Evaluation, pp. 2200–2204 5. V. Soni, M. Patel (2014), Unsupervised Opinion Mining From Text Reviews Using SentiWordNet, International Journal of Computer Trends and Technology (IJCTT) V11(5), pp. 234-238. 6. F. M. Kundi, A. Khan, S. Ahmad, M. Z. Asghar (2014), Lexicon-Based Sentiment Analysis in the Social Web, Journal of Basic and Applied Scientific Research, 4(6), pp. 238-248. 7. G. Qiu, X. He, F. Zhang, Y. Shi, J. Bu, C. Chen (2010), DASA: Dissatisfaction-oriented Advertising based on Sentiment Analysis. Expert Systems with Applications 37, pp. 6182–6191. 8. Kieu Thanh Binh, Pham Bao Son (2010), Sentiment Analysis for Vietnamese, In: 2010 Second International Conference on Knowledge and Systems Engineering, pp. 152–157. 9. Vu Tien Thanh, Pham Huyen Trang, Luu Cong To, Ha Quang Thuy (2011), A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese. In Semantic Methods for Knowledge Management and Communication (SCI 381), pp. 23-33. 10. Vu Xuan Son, P. Seong-Bae (2014), Construction of Vietnamese SentiWordNet by using Vietnamese Dictionary, The 40th Conference of the Korea Information Processing Society, pp. 745-748, South Korea. 11. P. Haseena Rahmath (2014), Opinion Mining and Sentiment Analysis challenges and Applications, International Journal of Application or Innovation in Engineering & Management. Volume 3, Issue 5. 12. Hong Nam Nguyen, Thanh Van Le, Hai Son Le, Tran Vu Pham, (2014). Domain Specific Sentiment Dictionary for Opinion Mining of Vietnamese Text. The 8th Multi-Disciplinary International Workshop on Artificial Intelligence (MIWAI 2014), pp. 136-148. 13. A. Sadia, F. Khan, F. Bashir (2018), An Overview of Lexicon-Based Approach For Sentiment Analysis, International Electrical Engineering Conference, IEP Centre, Karachi, Pakistan 14. K. Aung, N. Myo (2017), Sentiment Analysis of Students’ Comment Using Lexicon Based Approach, Computer and Information Science (ICIS), IEEE/ACIS 16th International Conference IEEE, pp. 149-154. 15. B. Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage data, Springer, Second Edition. 16. N. Mishra, C.K.Jha, PhD. (2012), Classification of Opinion Mining Techniques, International Journal of Computer Applications, Volume 56 – No.13. 17. Võ Tuyết Ngân, Đỗ Thanh Nghị (2015), Phân loại ý kiến trên Twitter, Tạp chı́ Khoa học Trường Đại học Cần Thơ, pp. 32-38. 18. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser (2017), Attention Is All You Need, arXiv:1706.03762v5 [cs.CL]. 19. T. Kim, K. Wurster (2015), emoji v.0.3.4, BSD License. 20. Viet Trung Tran (2016), Python Vietnamese Toolkit, MIT License. 21. M. Khalid, I. Ashraf, A. Mehmood, S. Ullah, M. Ahmad, G. S. Choi (2020), GBSVM: Sentiment Classification from Unstructured Reviews Using Ensemble Classifier, Appl. Sci. 10(8), 2788. jos.hueuni.edu.vn Tập 129, Số 2A, 2020 29 EXPANDING VIETSENTIWORDNET DICTIONARY FOR TOURISM DATA DOMAIN USED A LEXICON-BASED APPROACH Le Van Hoa* School of Hospitality and Tourism – Hue University Abstract. Opinion mining helps to determine the semantic orientations (positive, negative) of customers about a topic, product or service. There are several different approaches to opinion mining, in which the lexicon-based approach to opinion mining is relatively popular. The accuracy of the lexicon-based approach to opinion mining is highly dependent on the dictionary, in which contains opinion expressing words to specific domains. One data set may give very good classification in one domain, but it performs very poor in some other domains. Nowadays, VietSentiWordNet is a Vietnamese opinion dictionary that it is used relatively popular, but it lacks many opinion words for the tourism data domain. This paper focuses on expanding VietSentiWordNet dictionary with enrich opinion words belong to the tourism domain. In which a model for expanding VietSentiWordNet dictionary used a lexicon-based approach is proposed, and process data preprocessing consist of many functions also added to improve the efficiency of opinion classification. Evaluation results show that the expansion of VietSentiWordNet dictionary classifies opinion more accurately for opinion sentences in the tourism domain. Keywords: VietSentiWordNet dictionary; tourism data domain; opinion mining; lexicon- based approach; semantic orientations.
File đính kèm:
- mo_rong_tu_dien_vietsentiwordnet_cho_mien_du_lieu_thuoc_linh.pdf