Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng

Tóm tắt. Khai phá quan điểm giúp xác định hướng quan điểm (tích cực, tiêu cực) của người

dùng về một chủ đề, sản phẩm hay dịch vụ. Có một số cách tiếp cận khác nhau về khai phá

quan điểm, trong đó phương pháp khai phá quan điểm dựa trên từ vựng là khá phổ biến. Độ

chính xác của phương pháp khai phá quan điểm dựa trên từ vựng phụ thuộc rất nhiều vào

từ điển được sử dụng, trong đó chứa các từ quan điểm về các lĩnh vực cụ thể. Một bộ dữ liệu

có thể thực hiện phân lớp tốt trong lĩnh vực này, nhưng lại kém hiệu quả đối với một số lĩnh

vực khác. VietSentiWordNet là từ điển quan điểm tiếng Việt được sử dụng khá phổ biến hiện

nay, nhưng thiếu nhiều từ quan điểm cho miền dữ liệu thuộc lĩnh vực du lịch. Bài báo này do

đó tập trung vào việc mở rộng từ điển VietSentiWordNet với việc làm giàu các từ quan điểm

thuộc lĩnh vực du lịch, trong đó một mô hình mở rộng từ điển VietSentiWordNet sử dụng

phương pháp dựa trên từ vựng được đề xuất và một tiến trình tiền xử lý dữ liệu với nhiều

chức năng được tích hợp cũng được bổ sung nhằm nâng cao hiệu quả phân lớp quan điểm.

Kết quả thực nghiệm cho thấy rằng việc từ điển VietSentiWordNet được mở rộng đã phân lớp quan

điểm chính xác hơn đối với các câu quan điểm trong lĩnh vực du lịch.

Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng trang 1

Trang 1

Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng trang 2

Trang 2

Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng trang 3

Trang 3

Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng trang 4

Trang 4

Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng trang 5

Trang 5

Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng trang 6

Trang 6

Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng trang 7

Trang 7

Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng trang 8

Trang 8

Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng trang 9

Trang 9

Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 15 trang xuanhieu 3480
Bạn đang xem 10 trang mẫu của tài liệu "Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng

Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng
trọng số tích cực, tiêu cực cho từ quan điểm trong câu quan điểm. 
3.4 Giai đoạn 4: Bổ sung và loại bỏ dữ liệu trong từ điển 
Dữ liệu của từ điển VietSentiWordNetPlus được mở rộng từ từ điển VietSentiWordNet 
của Vũ Xuân Sơn và cộng sự [10] với khoảng 900 tập từ quan điểm. Hệ thống tự động bổ sung từ 
quan điểm vào bộ từ điển dữ liệu này dựa vào kết quả phân lớp quan điểm câu bình luận ở giai 
đoạn 3 (phân lớp quan điểm). Để đảm bảo dữ liệu trong từ điển không trùng lặp, hệ thống kiểm 
tra sự tồn tại của từ quan điểm trong bộ từ điển, sau đó bổ sung dữ liệu vào từ điển theo đúng 
khuôn dạng được mô tả như trong Bảng 4. Quá trình chạy thực nghiệm đã bổ sung thêm hơn 
1,710 từ quan điểm thuộc lĩnh vực du lịch vào từ điển VietSentiWordNetPlus. Như vậy, số lượng 
từ quan điểm thuộc lĩnh vực du lịch được bổ sung vào từ điển VietSentiWordNetPlus lớn hơn 
gần gấp hai lần (từ 900 lên 2,615) số từ quan điểm đã có trong từ điển VietSentiWordNet. 
Bảng 4. Khuôn dạng từ quan điểm trong từ điển dữ liệu 
STT PosScore NegScore SynsetTerms Gloss 
1. 0,5 0 trong_lành Không khí trong lành 
2. 0,625 0 tuyệt Cảnh vật đẹp tuyệt 
3. 0 0,125 chật_hẹp Không gian chật hẹp lắm 
4. 0,75 0 hùng_vĩ Phong cảnh hùng vĩ 
5. 0 0,875 nghèo_nàn Thức ăn sáng nghèo nàn 
Lê Văn Hoà Tập 129, Số 2A, 2020 
24 
2612. 1 0 :relieved_face Biển đẹp, đồ ăn lại ngon nữa chứ 
😌😌 
2613. 0 0,625 nguy_hiểm Trời mưa đi nguy hiểm 
2614. 0 0,875 lộn_xộn Biển dạo này đông đúc và lộn xộn 
lắm 
2615. 0 0,625 gồ_ghề Đường kiệt vào khách sạn khá gồ 
ghề 
Ngoài ra, để nâng cao hiệu quả phân lớp của dữ liệu trong từ điển dữ liệu, chúng tôi thực hiện 
giai đoạn loại bỏ dữ liệu nhiễu. Mục đích của giai đoạn này nhằm loại bỏ những từ quan điểm trong 
từ điển phân lớp không chính xác thuộc lĩnh vực du lịch. Trong quá trình chạy thử nghiệm từ điển 
VietSentiWordNet ban đầu, chúng tôi đã phát hiện 12 từ quan điểm phân lớp không chính xác (câu 
tích cực mà hệ thống cho là câu tiêu cực). Bảng 5 mô tả danh sách các từ quan điểm phân lớp 
không chính xác. Bộ từ điển VietSentiWordNetPlus đã khắc phục được hạn chế này giúp cho kết 
quả phân lớp chính xác hơn. 
Bảng 5. Danh sách các từ quan điểm phân lớp không chính xác 
STT Từ quan điểm Ví dụ câu bình luận phân lớp không chính xác 
1. cho Thuận tiện cho việc di chuyển; Địa điểm lí tưởng cho du lịch 
2. lành Không khí rất trong lành 
3. sống Chỗ này sống ảo thì tuyệt vời 
4. mát mẻ Không khí trong lành mát mẻ 
 .... 
11. phong phú Mặt hàng phong phú; Kiến trúc phong phú 
12. xanh Vườn cây xanh mát; Biển đẹp và xanh 
4 Thực nghiệm và phân tích kết quả 
Trong thực nghiệm, có rất nhiều độ đo được sử dụng để đánh giá hiệu suất của bộ phân loại. 
Trong đó, bốn độ đo được sử dụng rộng rãi bao gồm: Accuracy, Precision, Recall, và F1-score [21]. 
Ngoài ra, ma trận Confusion là một công cụ rất hữu ích giúp phân tích mức độ hiệu quả mà bộ 
jos.hueuni.edu.vn Tập 129, Số 2A, 2020 
25 
phân loại có thể phân loại các mẫu dữ liệu của các lớp khác nhau. Ví dụ về các tham số của ma trận 
Confusion đối với hai lớp tích cực, tiêu cực được minh họa như trong Bảng 6. 
Bảng 6. Ma trận Confusion đối với hai lớp tích cực, tiêu cực 
Mẫu dữ liệu thực tế 
Tích cực (Positive) 
Tiêu cực 
(Negative) 
Bộ 
phân loại 
Tích cực (Positive) True Positive (TP) False Positive (FP) 
Tiêu cực 
(Negative) 
False Negative 
(FN) 
True Negative 
(TN) 
Ý nghĩa các tham số trong ma trận Confusion đối với hai lớp tích cực, tiêu cực: 
- True Positive (TP): số mẫu của lớp Positive được bộ phân loại dự đoán chính xác là Positive. 
- True Negative (TN): số mẫu của lớp Negative được bộ phân loại dự đoán chính xác là Negative. 
- False Positive (FP): số mẫu của lớp Negative bị bộ phân loại dự đoán nhầm thành Positive. 
- False Negative (FN): số mẫu của lớp Positive bị bộ phân loại dự đoán nhầm thành Negative. 
Một số độ đo đánh giá hiệu suất của bộ phân loại: 
Độ chính xác tổng quát (Accuracy) xác định hiệu suất của bộ phân loại là tỷ lệ phần trăm mẫu 
được dự đoán chính xác. Accuracy được tính bằng tỷ số giữa số mẫu được dự đoán chính xác (không 
phân biệt Positive hay Negative) trên tổng số mẫu. Công thức tính độ chính xác tổng quát (Accuracy): 
Accuracy = 
(TP + TN)
(TP + TN + FP + FN)
Độ chính xác (Precision) cho biết độ chính xác của bộ phân loại là tỷ lệ phần trăm của tất cả các 
mẫu được dự đoán tính cực thực sự là tính cực. Công thức tính độ chính xác (Precision): 
Precision = 
TP
(TP + FP)
Độ đầy đủ (Recall) thường liên quan đến thước đo mức độ đầy đủ của bộ phân loại là tỷ lệ phần 
trăm mẫu tích cực thực sự được dự đoán chính xác là tích cực. Công thức tính độ đầy đủ (Recall): 
Recall =
TP
(TP + FN)
Độ đầy đủ điều hòa (F-score) là một thước đo phân tích thống kê có tính đến cả độ chính xác và 
mức độ đầy đủ, F-score có giá trị từ 0 đến 1. Giá trị F-score càng gần với 1 thì độ chính xác của bộ phân 
loại càng cao. Công thức tính độ đầy đủ điều hòa (F-score): 
F-score = 2
Precision × Recall
(Precision + Recall)
Lê Văn Hoà Tập 129, Số 2A, 2020 
26 
Một ví dụ minh họa về kết quả đánh giá thực nghiệm của hệ thống phân lớp sử dụng từ 
điển VietSentiWordNetPlus đối với điểm du lịch Đại Nội Huế được mô tả như trong Bảng 7. 
Bảng 7. Kết quả đánh giá thực nghiệm đối với điểm du lịch Đại Nội Huế 
Mẫu dữ liệu thực 
tế 
Kết quả đánh giá 
Positive Negative 
Accurac
y 
Precisio
n 
Recall F-score 
Hệ 
thống 
phân lớp 
Positive 
TP là 
92 
FP là 
08 90,58
% 
92,00
% 
94,85
% 
93,40
% 
Negativ
e 
FN là 
05 
TN là 
33 
86,84
% 
80,49
% 
83,54
% 
Trung bình 
89,42
% 
87,67
% 
88,47
% 
Từ kết quả đánh giá thực nghiệm trong Bảng 7, chúng ta thấy hiệu suất phân lớp sử dụng 
từ điển VietSentiWordNetPlus đối với điểm du lịch Đại Nội Huế là khá cao. Trong đó, hệ thống 
dự đoán một lớp là Positive có Precision(Positive) là 92,00%, Recall(Positive) là 94,85%, F-
score(Positive) là 93,40%; dự đoán một lớp là Negative có Precision(Negative) là 86,84%, 
Recall(Negative) là 80,49%, F-score(Negative) là 83,54%; độ chính xác tổng quát (Accuracy) là 
90,58%. Như vậy, hiệu suất phân lớp trung bình sử dụng từ điển VietSentiWordNetPlus đối với 
điểm du lịch Đại Nội Huế có độ chính xác tổng quát (Accuracy) là 90,58%, độ chính xác (Precision) 
là 89,42%, độ đầy đủ (Recall) là 87,67% và độ đầy đủ điều hòa (F-score) là 88,47%. 
Chúng tôi thực hiện cài đặt với các thiết lập tương tự như trong hệ thống phân lớp quan 
điểm của Vũ Xuân Sơn và cộng sự để so sánh kết quả thực nghiệm phân lớp quan điểm giữa bộ 
từ điển VietSentiWordNet và bộ từ điển VietSentiWordNetPlus (của chúng tôi mở rộng). Bảng 8 
so sánh hiệu suất xác định hướng quan điểm (theo phương pháp Accuracy và Precision - Recall) 
của 10 điểm du lịch giữa từ điển VietSentiWordNetPlus với từ điển VietSentiWordNet. Kết quả 
đánh giá hiệu suất trung bình xác định hướng quan điểm của bộ từ điển VietSentiWordNetPlus 
về độ chính xác tổng quát, độ chính xác, độ đầy đủ, và độ đầy đủ điều hòa lần lượt là là 87,42%; 
86,32%; 85,41%; 85,63% so với 60,34%; 57,73%; 57,75%; 57,16% của bộ từ điển VietSentiWordNet 
ban đầu. 
jos.hueuni.edu.vn Tập 129, Số 2A, 2020 
27 
Bảng 8. Hiệu suất xác định hướng quan điểm giữa từ điển VietSentiWordNetPlus và VietSentiWordNet 
TT Điểm du lịch N 
Pos/
Neg 
VSWN VSWNPlus 
Accuracy Precision Recall F-score Accuracy Precision Recall F-score 
1 Đại Nội 146 97/41 52,17% 48,60% 48,38% 47,79% 90,58% 89,42% 87,67% 88,47% 
2 Núi Bạch Mã` 123 77/42 61,34% 58,06% 58,23% 58,12% 85,71% 85,18% 83,01% 83,89% 
3 Suối Thanh Tân 121 84/33 69,23% 62,01% 62,01% 62,01% 84,62% 82,22% 78,25% 79,83% 
4 Biển Thuận An 116 62/51 61,06% 60,52% 59,82% 59,67% 85,84% 86,78% 85,01% 85,43% 
5 Suối Voi 112 59/51 56,36% 55,80% 55,33% 54,87% 82,73% 84,29% 81,90% 82,20% 
6 Chùa Thiên Mụ 109 74/29 54,37% 52,90% 53,56% 51,26% 86,41% 82,93% 84,25% 83,54% 
7 Biển Lộc Bình 106 39/42 62,96% 64,41% 63,46% 62,50% 91,36% 91,34% 91,39% 91,35% 
8 Biển Cảnh Dương 97 69/23 69,57% 61,96% 63,77% 62,47% 83,70% 78.15% 80.43% 79.14% 
9 Đầm Lập An 85 46/34 63,75% 62,83% 62,72% 62,77% 90,00% 90.10% 89.39% 89.68% 
10 Chùa Huyền Không 66 37/22 52,54% 50,18% 50,18% 50,12% 93,22% 92.75% 92.75% 92.75% 
Trung bình 60,34% 57,73% 57,75% 57,16% 87,42% 86,32% 85,41% 85,63% 
Trong đó, VSWN: từ điển VietSentiWordNet, VSWNPlus: từ điển VietSentiWordNetPlus, N: Số câu bình 
luận, Pos/Neg: tỉ lệ số câu tích cực/ tiêu cực, Accuracy là độ chính xác tổng quát, Precision là độ chính 
xác, Recall là độ đầy đủ, F-score là độ đầy đủ điều hòa. 
5 Kết luận 
Trong bài báo này, chúng tôi đã đề xuất một mô hình mở rộng từ điển VietSentiWordNet 
cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng. Cụ thể, chúng 
tôi đã mở rộng từ điển VietSentiWordNet với việc làm giàu thêm các từ quan điểm thuộc lĩnh 
vực du lịch và tích hợp các chức năng tiền xử lý dữ liệu bao gồm thêm dấu, chuẩn hóa láy âm tiết 
(đối với những từ thể hiện cảm xúc đặc biệt), chuẩn hóa chữ viết tắt, xử lý biểu tượng cảm xúc. 
Dựa trên kết quả thực nghiệm, từ điển VietSentiWordNetPlus đã cho kết quả phân lớp quan điểm 
tốt hơn, với trung bình độ chính xác tổng quát, độ chính xác, độ đầy đủ và độ đầy đủ điều hòa 
lần lượt là 87,42%; 86,32%; 85,41%; 85,63% so với 60,34%; 57,73%; 57,75%; 57,16% của bộ từ điển 
VietSentiWordNet ban đầu. Tuy nhiên, việc gán trọng số cho các từ quan điểm để xây dựng bộ 
từ quan điểm tiếng Việt có trọng số (VnOpinionWords) có mức độ chính xác phụ thuộc vào độ 
chính xác của từ điển Việt – Anh, nên cần có nhiều nghiên cứu hơn nữa để nâng cao hiệu quả của 
cách tiếp cận khai phá quan điểm dựa trên từ vựng này. 
Lê Văn Hoà Tập 129, Số 2A, 2020 
28 
Tài liệu tham khảo 
1. A. Arora, C. Patil, S. Correia (2015), Opinion Mining: An Overview, International Journal of Advanced 
Research in Computer and Communication Engineering Vol. 4, Issue 11, pp. 94-98. 
2. W. Medhat, A. Hassan, H. Korashy (2014), Sentiment analysis algorithms and applications: A survey. Ain 
Shams Engineering Journal, 5(4), pp. 1093-1113. 
3. C. Bucur (2015), Using opinion mining techniques in tourism, in Proceedings of the 2nd Global Conference 
on Business, Economics, Management and Tourism, Procedia Economics and Finance 23, pp. 1666-1673. 
4. S. Baccianella, A. Esuli, F. Sebastiani (2010), SentiWordNet 3.0: An enhanced lexical resource for sentiment 
analysis and opinion mining, In: Proceedings of the 7th Conference on International Language Resources 
and Evaluation, pp. 2200–2204 
5. V. Soni, M. Patel (2014), Unsupervised Opinion Mining From Text Reviews Using SentiWordNet, 
International Journal of Computer Trends and Technology (IJCTT) V11(5), pp. 234-238. 
6. F. M. Kundi, A. Khan, S. Ahmad, M. Z. Asghar (2014), Lexicon-Based Sentiment Analysis in the Social Web, 
Journal of Basic and Applied Scientific Research, 4(6), pp. 238-248. 
7. G. Qiu, X. He, F. Zhang, Y. Shi, J. Bu, C. Chen (2010), DASA: Dissatisfaction-oriented Advertising based on 
Sentiment Analysis. Expert Systems with Applications 37, pp. 6182–6191. 
8. Kieu Thanh Binh, Pham Bao Son (2010), Sentiment Analysis for Vietnamese, In: 2010 Second International 
Conference on Knowledge and Systems Engineering, pp. 152–157. 
9. Vu Tien Thanh, Pham Huyen Trang, Luu Cong To, Ha Quang Thuy (2011), A Feature-Based Opinion 
Mining Model on Product Reviews in Vietnamese. In Semantic Methods for Knowledge Management and 
Communication (SCI 381), pp. 23-33. 
10. Vu Xuan Son, P. Seong-Bae (2014), Construction of Vietnamese SentiWordNet by using Vietnamese 
Dictionary, The 40th Conference of the Korea Information Processing Society, pp. 745-748, South Korea. 
11. P. Haseena Rahmath (2014), Opinion Mining and Sentiment Analysis challenges and Applications, 
International Journal of Application or Innovation in Engineering & Management. Volume 3, Issue 5. 
12. Hong Nam Nguyen, Thanh Van Le, Hai Son Le, Tran Vu Pham, (2014). Domain Specific Sentiment 
Dictionary for Opinion Mining of Vietnamese Text. The 8th Multi-Disciplinary International Workshop on 
Artificial Intelligence (MIWAI 2014), pp. 136-148. 
13. A. Sadia, F. Khan, F. Bashir (2018), An Overview of Lexicon-Based Approach For Sentiment Analysis, 
International Electrical Engineering Conference, IEP Centre, Karachi, Pakistan 
14. K. Aung, N. Myo (2017), Sentiment Analysis of Students’ Comment Using Lexicon Based Approach, 
Computer and Information Science (ICIS), IEEE/ACIS 16th International Conference IEEE, pp. 149-154. 
15. B. Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage data, Springer, Second Edition. 
16. N. Mishra, C.K.Jha, PhD. (2012), Classification of Opinion Mining Techniques, International Journal of 
Computer Applications, Volume 56 – No.13. 
17. Võ Tuyết Ngân, Đỗ Thanh Nghị (2015), Phân loại ý kiến trên Twitter, Tạp chı́ Khoa học Trường Đại học 
Cần Thơ, pp. 32-38. 
18. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser (2017), Attention Is All 
You Need, arXiv:1706.03762v5 [cs.CL]. 
19. T. Kim, K. Wurster (2015), emoji v.0.3.4, BSD License. 
20. Viet Trung Tran (2016), Python Vietnamese Toolkit, MIT License. 
21. M. Khalid, I. Ashraf, A. Mehmood, S. Ullah, M. Ahmad, G. S. Choi (2020), GBSVM: Sentiment 
Classification from Unstructured Reviews Using Ensemble Classifier, Appl. Sci. 10(8), 2788. 
jos.hueuni.edu.vn Tập 129, Số 2A, 2020 
29 
EXPANDING VIETSENTIWORDNET DICTIONARY FOR TOURISM 
DATA DOMAIN USED A LEXICON-BASED APPROACH 
Le Van Hoa* 
School of Hospitality and Tourism – Hue University 
Abstract. Opinion mining helps to determine the semantic orientations (positive, negative) of 
customers about a topic, product or service. There are several different approaches to opinion 
mining, in which the lexicon-based approach to opinion mining is relatively popular. The 
accuracy of the lexicon-based approach to opinion mining is highly dependent on the 
dictionary, in which contains opinion expressing words to specific domains. One data set may 
give very good classification in one domain, but it performs very poor in some other domains. 
Nowadays, VietSentiWordNet is a Vietnamese opinion dictionary that it is used relatively 
popular, but it lacks many opinion words for the tourism data domain. This paper focuses on 
expanding VietSentiWordNet dictionary with enrich opinion words belong to the tourism 
domain. In which a model for expanding VietSentiWordNet dictionary used a lexicon-based 
approach is proposed, and process data preprocessing consist of many functions also added 
to improve the efficiency of opinion classification. Evaluation results show that the expansion 
of VietSentiWordNet dictionary classifies opinion more accurately for opinion sentences in 
the tourism domain. 
Keywords: VietSentiWordNet dictionary; tourism data domain; opinion mining; lexicon-
based approach; semantic orientations. 

File đính kèm:

  • pdfmo_rong_tu_dien_vietsentiwordnet_cho_mien_du_lieu_thuoc_linh.pdf