Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng

Tóm tắt. Khai phá quan điểm giúp xác định hướng quan điểm (tích cực, tiêu cực) của người

dùng về một chủ đề, sản phẩm hay dịch vụ. Có một số cách tiếp cận khác nhau về khai phá

quan điểm, trong đó phương pháp khai phá quan điểm dựa trên từ vựng là khá phổ biến. Độ

chính xác của phương pháp khai phá quan điểm dựa trên từ vựng phụ thuộc rất nhiều vào

từ điển được sử dụng, trong đó chứa các từ quan điểm về các lĩnh vực cụ thể. Một bộ dữ liệu

có thể thực hiện phân lớp tốt trong lĩnh vực này, nhưng lại kém hiệu quả đối với một số lĩnh

vực khác. VietSentiWordNet là từ điển quan điểm tiếng Việt được sử dụng khá phổ biến hiện

nay, nhưng thiếu nhiều từ quan điểm cho miền dữ liệu thuộc lĩnh vực du lịch. Bài báo này do

đó tập trung vào việc mở rộng từ điển VietSentiWordNet với việc làm giàu các từ quan điểm

thuộc lĩnh vực du lịch, trong đó một mô hình mở rộng từ điển VietSentiWordNet sử dụng

phương pháp dựa trên từ vựng được đề xuất và một tiến trình tiền xử lý dữ liệu với nhiều

chức năng được tích hợp cũng được bổ sung nhằm nâng cao hiệu quả phân lớp quan điểm.

Kết quả thực nghiệm cho thấy rằng việc từ điển VietSentiWordNet được mở rộng đã phân lớp quan

điểm chính xác hơn đối với các câu quan điểm trong lĩnh vực du lịch.

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

15 trang xuanhieu 12380

Download

Bạn đang xem 10 trang mẫu của tài liệu "Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng

trọng số tích cực, tiêu cực cho từ quan điểm trong câu quan điểm.
3.4 Giai đoạn 4: Bổ sung và loại bỏ dữ liệu trong từ điển
Dữ liệu của từ điển VietSentiWordNetPlus được mở rộng từ từ điển VietSentiWordNet
của Vũ Xuân Sơn và cộng sự [10] với khoảng 900 tập từ quan điểm. Hệ thống tự động bổ sung từ
quan điểm vào bộ từ điển dữ liệu này dựa vào kết quả phân lớp quan điểm câu bình luận ở giai
đoạn 3 (phân lớp quan điểm). Để đảm bảo dữ liệu trong từ điển không trùng lặp, hệ thống kiểm
tra sự tồn tại của từ quan điểm trong bộ từ điển, sau đó bổ sung dữ liệu vào từ điển theo đúng
khuôn dạng được mô tả như trong Bảng 4. Quá trình chạy thực nghiệm đã bổ sung thêm hơn
1,710 từ quan điểm thuộc lĩnh vực du lịch vào từ điển VietSentiWordNetPlus. Như vậy, số lượng
từ quan điểm thuộc lĩnh vực du lịch được bổ sung vào từ điển VietSentiWordNetPlus lớn hơn
gần gấp hai lần (từ 900 lên 2,615) số từ quan điểm đã có trong từ điển VietSentiWordNet.
Bảng 4. Khuôn dạng từ quan điểm trong từ điển dữ liệu
STT PosScore NegScore SynsetTerms Gloss
1. 0,5 0 trong_lành Không khí trong lành
2. 0,625 0 tuyệt Cảnh vật đẹp tuyệt
3. 0 0,125 chật_hẹp Không gian chật hẹp lắm
4. 0,75 0 hùng_vĩ Phong cảnh hùng vĩ
5. 0 0,875 nghèo_nàn Thức ăn sáng nghèo nàn
Lê Văn Hoà Tập 129, Số 2A, 2020
24
2612. 1 0 :relieved_face Biển đẹp, đồ ăn lại ngon nữa chứ
😌😌
2613. 0 0,625 nguy_hiểm Trời mưa đi nguy hiểm
2614. 0 0,875 lộn_xộn Biển dạo này đông đúc và lộn xộn
lắm
2615. 0 0,625 gồ_ghề Đường kiệt vào khách sạn khá gồ
ghề
Ngoài ra, để nâng cao hiệu quả phân lớp của dữ liệu trong từ điển dữ liệu, chúng tôi thực hiện
giai đoạn loại bỏ dữ liệu nhiễu. Mục đích của giai đoạn này nhằm loại bỏ những từ quan điểm trong
từ điển phân lớp không chính xác thuộc lĩnh vực du lịch. Trong quá trình chạy thử nghiệm từ điển
VietSentiWordNet ban đầu, chúng tôi đã phát hiện 12 từ quan điểm phân lớp không chính xác (câu
tích cực mà hệ thống cho là câu tiêu cực). Bảng 5 mô tả danh sách các từ quan điểm phân lớp
không chính xác. Bộ từ điển VietSentiWordNetPlus đã khắc phục được hạn chế này giúp cho kết
quả phân lớp chính xác hơn.
Bảng 5. Danh sách các từ quan điểm phân lớp không chính xác
STT Từ quan điểm Ví dụ câu bình luận phân lớp không chính xác
1. cho Thuận tiện cho việc di chuyển; Địa điểm lí tưởng cho du lịch
2. lành Không khí rất trong lành
3. sống Chỗ này sống ảo thì tuyệt vời
4. mát mẻ Không khí trong lành mát mẻ
....
11. phong phú Mặt hàng phong phú; Kiến trúc phong phú
12. xanh Vườn cây xanh mát; Biển đẹp và xanh
4 Thực nghiệm và phân tích kết quả
Trong thực nghiệm, có rất nhiều độ đo được sử dụng để đánh giá hiệu suất của bộ phân loại.
Trong đó, bốn độ đo được sử dụng rộng rãi bao gồm: Accuracy, Precision, Recall, và F1-score [21].
Ngoài ra, ma trận Confusion là một công cụ rất hữu ích giúp phân tích mức độ hiệu quả mà bộ
jos.hueuni.edu.vn Tập 129, Số 2A, 2020
25
phân loại có thể phân loại các mẫu dữ liệu của các lớp khác nhau. Ví dụ về các tham số của ma trận
Confusion đối với hai lớp tích cực, tiêu cực được minh họa như trong Bảng 6.
Bảng 6. Ma trận Confusion đối với hai lớp tích cực, tiêu cực
Mẫu dữ liệu thực tế
Tích cực (Positive)
Tiêu cực
(Negative)
Bộ
phân loại
Tích cực (Positive) True Positive (TP) False Positive (FP)
Tiêu cực
(Negative)
False Negative
(FN)
True Negative
(TN)
Ý nghĩa các tham số trong ma trận Confusion đối với hai lớp tích cực, tiêu cực:
- True Positive (TP): số mẫu của lớp Positive được bộ phân loại dự đoán chính xác là Positive.
- True Negative (TN): số mẫu của lớp Negative được bộ phân loại dự đoán chính xác là Negative.
- False Positive (FP): số mẫu của lớp Negative bị bộ phân loại dự đoán nhầm thành Positive.
- False Negative (FN): số mẫu của lớp Positive bị bộ phân loại dự đoán nhầm thành Negative.
Một số độ đo đánh giá hiệu suất của bộ phân loại:
Độ chính xác tổng quát (Accuracy) xác định hiệu suất của bộ phân loại là tỷ lệ phần trăm mẫu
được dự đoán chính xác. Accuracy được tính bằng tỷ số giữa số mẫu được dự đoán chính xác (không
phân biệt Positive hay Negative) trên tổng số mẫu. Công thức tính độ chính xác tổng quát (Accuracy):
Accuracy =
(TP + TN)
(TP + TN + FP + FN)
Độ chính xác (Precision) cho biết độ chính xác của bộ phân loại là tỷ lệ phần trăm của tất cả các
mẫu được dự đoán tính cực thực sự là tính cực. Công thức tính độ chính xác (Precision):
Precision =
TP
(TP + FP)
Độ đầy đủ (Recall) thường liên quan đến thước đo mức độ đầy đủ của bộ phân loại là tỷ lệ phần
trăm mẫu tích cực thực sự được dự đoán chính xác là tích cực. Công thức tính độ đầy đủ (Recall):
Recall =
TP
(TP + FN)
Độ đầy đủ điều hòa (F-score) là một thước đo phân tích thống kê có tính đến cả độ chính xác và
mức độ đầy đủ, F-score có giá trị từ 0 đến 1. Giá trị F-score càng gần với 1 thì độ chính xác của bộ phân
loại càng cao. Công thức tính độ đầy đủ điều hòa (F-score):
F-score = 2
Precision × Recall
(Precision + Recall)
Lê Văn Hoà Tập 129, Số 2A, 2020
26
Một ví dụ minh họa về kết quả đánh giá thực nghiệm của hệ thống phân lớp sử dụng từ
điển VietSentiWordNetPlus đối với điểm du lịch Đại Nội Huế được mô tả như trong Bảng 7.
Bảng 7. Kết quả đánh giá thực nghiệm đối với điểm du lịch Đại Nội Huế
Mẫu dữ liệu thực
tế
Kết quả đánh giá
Positive Negative
Accurac
y
Precisio
n
Recall F-score
Hệ
thống
phân lớp
Positive
TP là
92
FP là
08 90,58
%
92,00
%
94,85
%
93,40
%
Negativ
e
FN là
05
TN là
33
86,84
%
80,49
%
83,54
%
Trung bình
89,42
%
87,67
%
88,47
%
Từ kết quả đánh giá thực nghiệm trong Bảng 7, chúng ta thấy hiệu suất phân lớp sử dụng
từ điển VietSentiWordNetPlus đối với điểm du lịch Đại Nội Huế là khá cao. Trong đó, hệ thống
dự đoán một lớp là Positive có Precision(Positive) là 92,00%, Recall(Positive) là 94,85%, F-
score(Positive) là 93,40%; dự đoán một lớp là Negative có Precision(Negative) là 86,84%,
Recall(Negative) là 80,49%, F-score(Negative) là 83,54%; độ chính xác tổng quát (Accuracy) là
90,58%. Như vậy, hiệu suất phân lớp trung bình sử dụng từ điển VietSentiWordNetPlus đối với
điểm du lịch Đại Nội Huế có độ chính xác tổng quát (Accuracy) là 90,58%, độ chính xác (Precision)
là 89,42%, độ đầy đủ (Recall) là 87,67% và độ đầy đủ điều hòa (F-score) là 88,47%.
Chúng tôi thực hiện cài đặt với các thiết lập tương tự như trong hệ thống phân lớp quan
điểm của Vũ Xuân Sơn và cộng sự để so sánh kết quả thực nghiệm phân lớp quan điểm giữa bộ
từ điển VietSentiWordNet và bộ từ điển VietSentiWordNetPlus (của chúng tôi mở rộng). Bảng 8
so sánh hiệu suất xác định hướng quan điểm (theo phương pháp Accuracy và Precision - Recall)
của 10 điểm du lịch giữa từ điển VietSentiWordNetPlus với từ điển VietSentiWordNet. Kết quả
đánh giá hiệu suất trung bình xác định hướng quan điểm của bộ từ điển VietSentiWordNetPlus
về độ chính xác tổng quát, độ chính xác, độ đầy đủ, và độ đầy đủ điều hòa lần lượt là là 87,42%;
86,32%; 85,41%; 85,63% so với 60,34%; 57,73%; 57,75%; 57,16% của bộ từ điển VietSentiWordNet
ban đầu.
jos.hueuni.edu.vn Tập 129, Số 2A, 2020
27
Bảng 8. Hiệu suất xác định hướng quan điểm giữa từ điển VietSentiWordNetPlus và VietSentiWordNet
TT Điểm du lịch N
Pos/
Neg
VSWN VSWNPlus
Accuracy Precision Recall F-score Accuracy Precision Recall F-score
1 Đại Nội 146 97/41 52,17% 48,60% 48,38% 47,79% 90,58% 89,42% 87,67% 88,47%
2 Núi Bạch Mã` 123 77/42 61,34% 58,06% 58,23% 58,12% 85,71% 85,18% 83,01% 83,89%
3 Suối Thanh Tân 121 84/33 69,23% 62,01% 62,01% 62,01% 84,62% 82,22% 78,25% 79,83%
4 Biển Thuận An 116 62/51 61,06% 60,52% 59,82% 59,67% 85,84% 86,78% 85,01% 85,43%
5 Suối Voi 112 59/51 56,36% 55,80% 55,33% 54,87% 82,73% 84,29% 81,90% 82,20%
6 Chùa Thiên Mụ 109 74/29 54,37% 52,90% 53,56% 51,26% 86,41% 82,93% 84,25% 83,54%
7 Biển Lộc Bình 106 39/42 62,96% 64,41% 63,46% 62,50% 91,36% 91,34% 91,39% 91,35%
8 Biển Cảnh Dương 97 69/23 69,57% 61,96% 63,77% 62,47% 83,70% 78.15% 80.43% 79.14%
9 Đầm Lập An 85 46/34 63,75% 62,83% 62,72% 62,77% 90,00% 90.10% 89.39% 89.68%
10 Chùa Huyền Không 66 37/22 52,54% 50,18% 50,18% 50,12% 93,22% 92.75% 92.75% 92.75%
Trung bình 60,34% 57,73% 57,75% 57,16% 87,42% 86,32% 85,41% 85,63%
Trong đó, VSWN: từ điển VietSentiWordNet, VSWNPlus: từ điển VietSentiWordNetPlus, N: Số câu bình
luận, Pos/Neg: tỉ lệ số câu tích cực/ tiêu cực, Accuracy là độ chính xác tổng quát, Precision là độ chính
xác, Recall là độ đầy đủ, F-score là độ đầy đủ điều hòa.
5 Kết luận
Trong bài báo này, chúng tôi đã đề xuất một mô hình mở rộng từ điển VietSentiWordNet
cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng. Cụ thể, chúng
tôi đã mở rộng từ điển VietSentiWordNet với việc làm giàu thêm các từ quan điểm thuộc lĩnh
vực du lịch và tích hợp các chức năng tiền xử lý dữ liệu bao gồm thêm dấu, chuẩn hóa láy âm tiết
(đối với những từ thể hiện cảm xúc đặc biệt), chuẩn hóa chữ viết tắt, xử lý biểu tượng cảm xúc.
Dựa trên kết quả thực nghiệm, từ điển VietSentiWordNetPlus đã cho kết quả phân lớp quan điểm
tốt hơn, với trung bình độ chính xác tổng quát, độ chính xác, độ đầy đủ và độ đầy đủ điều hòa
lần lượt là 87,42%; 86,32%; 85,41%; 85,63% so với 60,34%; 57,73%; 57,75%; 57,16% của bộ từ điển
VietSentiWordNet ban đầu. Tuy nhiên, việc gán trọng số cho các từ quan điểm để xây dựng bộ
từ quan điểm tiếng Việt có trọng số (VnOpinionWords) có mức độ chính xác phụ thuộc vào độ
chính xác của từ điển Việt – Anh, nên cần có nhiều nghiên cứu hơn nữa để nâng cao hiệu quả của
cách tiếp cận khai phá quan điểm dựa trên từ vựng này.
Lê Văn Hoà Tập 129, Số 2A, 2020
28
Tài liệu tham khảo
1. A. Arora, C. Patil, S. Correia (2015), Opinion Mining: An Overview, International Journal of Advanced
Research in Computer and Communication Engineering Vol. 4, Issue 11, pp. 94-98.
2. W. Medhat, A. Hassan, H. Korashy (2014), Sentiment analysis algorithms and applications: A survey. Ain
Shams Engineering Journal, 5(4), pp. 1093-1113.
3. C. Bucur (2015), Using opinion mining techniques in tourism, in Proceedings of the 2nd Global Conference
on Business, Economics, Management and Tourism, Procedia Economics and Finance 23, pp. 1666-1673.
4. S. Baccianella, A. Esuli, F. Sebastiani (2010), SentiWordNet 3.0: An enhanced lexical resource for sentiment
analysis and opinion mining, In: Proceedings of the 7th Conference on International Language Resources
and Evaluation, pp. 2200–2204
5. V. Soni, M. Patel (2014), Unsupervised Opinion Mining From Text Reviews Using SentiWordNet,
International Journal of Computer Trends and Technology (IJCTT) V11(5), pp. 234-238.
6. F. M. Kundi, A. Khan, S. Ahmad, M. Z. Asghar (2014), Lexicon-Based Sentiment Analysis in the Social Web,
Journal of Basic and Applied Scientific Research, 4(6), pp. 238-248.
7. G. Qiu, X. He, F. Zhang, Y. Shi, J. Bu, C. Chen (2010), DASA: Dissatisfaction-oriented Advertising based on
Sentiment Analysis. Expert Systems with Applications 37, pp. 6182–6191.
8. Kieu Thanh Binh, Pham Bao Son (2010), Sentiment Analysis for Vietnamese, In: 2010 Second International
Conference on Knowledge and Systems Engineering, pp. 152–157.
9. Vu Tien Thanh, Pham Huyen Trang, Luu Cong To, Ha Quang Thuy (2011), A Feature-Based Opinion
Mining Model on Product Reviews in Vietnamese. In Semantic Methods for Knowledge Management and
Communication (SCI 381), pp. 23-33.
10. Vu Xuan Son, P. Seong-Bae (2014), Construction of Vietnamese SentiWordNet by using Vietnamese
Dictionary, The 40th Conference of the Korea Information Processing Society, pp. 745-748, South Korea.
11. P. Haseena Rahmath (2014), Opinion Mining and Sentiment Analysis challenges and Applications,
International Journal of Application or Innovation in Engineering & Management. Volume 3, Issue 5.
12. Hong Nam Nguyen, Thanh Van Le, Hai Son Le, Tran Vu Pham, (2014). Domain Specific Sentiment
Dictionary for Opinion Mining of Vietnamese Text. The 8th Multi-Disciplinary International Workshop on
Artificial Intelligence (MIWAI 2014), pp. 136-148.
13. A. Sadia, F. Khan, F. Bashir (2018), An Overview of Lexicon-Based Approach For Sentiment Analysis,
International Electrical Engineering Conference, IEP Centre, Karachi, Pakistan
14. K. Aung, N. Myo (2017), Sentiment Analysis of Students’ Comment Using Lexicon Based Approach,
Computer and Information Science (ICIS), IEEE/ACIS 16th International Conference IEEE, pp. 149-154.
15. B. Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage data, Springer, Second Edition.
16. N. Mishra, C.K.Jha, PhD. (2012), Classification of Opinion Mining Techniques, International Journal of
Computer Applications, Volume 56 – No.13.
17. Võ Tuyết Ngân, Đỗ Thanh Nghị (2015), Phân loại ý kiến trên Twitter, Tạp chı́ Khoa học Trường Đại học
Cần Thơ, pp. 32-38.
18. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser (2017), Attention Is All
You Need, arXiv:1706.03762v5 [cs.CL].
19. T. Kim, K. Wurster (2015), emoji v.0.3.4, BSD License.
20. Viet Trung Tran (2016), Python Vietnamese Toolkit, MIT License.
21. M. Khalid, I. Ashraf, A. Mehmood, S. Ullah, M. Ahmad, G. S. Choi (2020), GBSVM: Sentiment
Classification from Unstructured Reviews Using Ensemble Classifier, Appl. Sci. 10(8), 2788.
jos.hueuni.edu.vn Tập 129, Số 2A, 2020
29
EXPANDING VIETSENTIWORDNET DICTIONARY FOR TOURISM
DATA DOMAIN USED A LEXICON-BASED APPROACH
Le Van Hoa*
School of Hospitality and Tourism – Hue University
Abstract. Opinion mining helps to determine the semantic orientations (positive, negative) of
customers about a topic, product or service. There are several different approaches to opinion
mining, in which the lexicon-based approach to opinion mining is relatively popular. The
accuracy of the lexicon-based approach to opinion mining is highly dependent on the
dictionary, in which contains opinion expressing words to specific domains. One data set may
give very good classification in one domain, but it performs very poor in some other domains.
Nowadays, VietSentiWordNet is a Vietnamese opinion dictionary that it is used relatively
popular, but it lacks many opinion words for the tourism data domain. This paper focuses on
expanding VietSentiWordNet dictionary with enrich opinion words belong to the tourism
domain. In which a model for expanding VietSentiWordNet dictionary used a lexicon-based
approach is proposed, and process data preprocessing consist of many functions also added
to improve the efficiency of opinion classification. Evaluation results show that the expansion
of VietSentiWordNet dictionary classifies opinion more accurately for opinion sentences in
the tourism domain.
Keywords: VietSentiWordNet dictionary; tourism data domain; opinion mining; lexicon-
based approach; semantic orientations.

File đính kèm:

mo_rong_tu_dien_vietsentiwordnet_cho_mien_du_lieu_thuoc_linh.pdf