Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt

ABSTRACT

Muốn biết ý kiến của người dùng về một mặt

hàng, hoặc của cộng đồng về một vấn đề nóng

trong xã hội, , cách tốt nhất trong thời đại bùng

nổ thông tin trên internet và mạng xã hội, là khai

thác thông tin một cách hiệu quả từ những nguồn

này. Mỗi ý kiến không chỉ là một thông tin đơn

thuần, mà còn chứa cả cảm xúc của người viết.

Do đó, chúng có thể tạo nên một luồng dư luận

tác động đến cộng đồng mạng. Đây thật sự là

nguồn tài nguyên khổng lồ, có ý nghĩa to lớn đối

với nhiều lĩnh vực – từ kinh tế, chính trị đến văn

hóa xã hội – nếu có phương pháp khai thác thông

tin hiệu quả. Một hệ thống tự động để phân loại

ý kiến dựa trên cảm xúc là rất cần thiết để khai

thác hiệu quả nguồn tài nguyên này. Để hỗ trợ

người sử dụng khai thác thông tin hiệu quả hơn,

vấn đề tóm tắt thông tin cần được nghiên cứu giải

quyết, nhất là ở khía cạnh quan điểm và cảm xúc

trong mỗi ý kiến.

Hướng đến mục tiêu khai thác hiệu quả

nguồn tài nguyên, bài báo này sẽ giới thiệu mô

hình tóm tắt văn bản, không chỉ dựa vào ngữ

nghĩa mà còn dựa trên yếu tố cảm xúc. Chúng tôi

đã xây dựng một mô hình tổng quát để giải quyết

bài toán này. Từ các phương pháp phân tích ý

kiến và tóm tắt văn bản mà nhiều công trình

nghiên cứu đã sử dụng, bài báo đã kết hợp và

phát triển các phương pháp để tóm tắt văn bản

tiếng Việt trên cơ sở phân loại cảm xúc. Các văn

bản được tóm tắt là các trang báo mạng tiếng

Việt.

Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt trang 1

Trang 1

Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt trang 2

Trang 2

Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt trang 3

Trang 3

Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt trang 4

Trang 4

Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt trang 5

Trang 5

Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt trang 6

Trang 6

Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt trang 7

Trang 7

Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt trang 8

Trang 8

Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt trang 9

Trang 9

pdf 9 trang xuanhieu 3380
Bạn đang xem tài liệu "Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt

Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt
 để xác định G tương đồng với P lần trở lên, làm thành tập thực thể có yếu tố ngữ 
hoặc N. Vector G sẽ tương đồng với vector thành nghĩa, đặc trưng cho đối tượng chủ đề dùng cho 
phần có giá trị độ tương đồng lớn hơn. Nếu hai tóm tắt ý kiến ở khía cạnh nội dung. 
giá trị là bằng nhau chúng tôi xếp ý kiến vào lớp Rút trích các đối tượng có tên là một bài toán 
trung hòa (neutral). khá phức tạp. Chúng tôi xem các bài báo là những 
3.2 Tóm tắt văn bản văn bản chuẩn mực. Tức là, xác suất rất cao các 
 đối tượng có tên sẽ được viết hoa. Do đó, chúng 
 Mỗi ý kiến là của mỗi độc giả khác nhau và 
 tôi sẽ rút trích các đối tượng được đặt tên theo 
thường ngắn gọn. Nhưng số lượng ý kiến rất lớn. 
 nguyên tắc là các từ viết hoa. Do đặc trưng đặt và 
Do đó, việc tóm tắt các ý kiến là rất cần thiết cho 
 gọi tên trong tiếng Việt, một đối tượng có tên là 
khai thác thông tin. Chúng tôi sẽ dùng phương 
 một cụm từ thì có thể được gọi bằng một hoặc hai 
pháp tóm tắt rút trích (Extract Summarization) để 
 từ sau cùng, tính từ phải qua trái. 
tóm tắt các ý kiến. Việc lượng giá độ quan trọng 
sẽ dựa theo trọng số của các thực thể đặc trưng Ví dụ: Đối tượng “Vũ Lê Ngô” có thể được 
cảm xúc và đặc trưng ngữ nghĩa. Bản tóm tắt là gọi là “Ngô”, “Lê Ngô”, hay đầy đủ là “Vũ Lê 
những câu có độ quan trọng cao, số lượng câu tùy Ngô”. Do đó, với mỗi đối tượng có tên, chúng tôi 
thuộc tỷ lệ rút gọn thiết lập cho hệ thống. sẽ tạo một tập con gồm các từ và cụm từ kết hợp 
 từ phải qua trái. Cụ thể, với “Vũ Lê Ngô” thì tập 
3.3 Tóm tắt ý kiến dựa trên phân loại cảm xúc 
 con sẽ là {“Ngô”, “Lê Ngô”, “Vũ Lê Ngô”}. 
 Theo mô hình ở hình 1, mô đun Tóm tắt làm 
 Để rút trích các câu có nội dung quan trọng 
việc sau quá trình phân cực cảm xúc. Mô đun này 
 cho bản tóm tắt, chúng tôi dựa vào hai tiêu chí: 
sẽ rút gọn những ý kiến có nội dung dài, đế có thể 
khai thác chúng hiệu quả hơn, mà không làm thay Tiêu chí về ngữ nghĩa của thực thể 
đổi kết quả phân lớp của quá trình trước đó. 
 Các đại từ như: anh, chị, ông, bà, anh ấy, 
 ông ấy, chúng nó, họ, được bổ sung vào tập 
Trang 56 
 TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 19, SOÁ K5- 2016 
thực thể đặc trưng cho các đối tượng có tên của Độ quan trọng của câu xác định theo công 
Bài báo. Cùng với các đối tượng có tên, các đại 2
 n n 2
 thức: W  xi  yi (3.2) 
từ này nếu xuất hiện trong câu sẽ làm nội dung ý i 1 i 1
kiến hướng đến đối tượng chủ đề rõ ràng hơn. 
 Xét một ý kiến ví dụ về chiếc điện thoại 
 Chúng tôi không quan tâm đến tần suất Passport của hãng BlackBerry: 
xuất hiện của thực thể ngữ nghĩa trong ý kiến. 
 “Chiếc Passport cực kỳ ấn tượng ngay từ 
Mỗi thực thể xuất hiện được gán giá trị một (1) 
 cái nhìn đầu tiên. Phong cách thiết kế lịch lãm, 
vào tập thực thể đặc trưng ngữ nghĩa của câu. 
 cuốn hút và cá tính làm cho chiếc BlackBerry 
 Các câu có nhiều yếu tố nội dung (liên kết này không lẫn với ai. ” 
đến bài báo chủ đề) cũng cần được đánh giá cao 
 Các đặc trưng ngữ nghĩa, cảm xúc và trọng 
trong chọn lựa để rút trích. 
 số của chúng trong mỗi câu của ý kiến như sau: 
 Tiêu chí về trọng số cảm xúc 
 Câu 1: x1 = 1 (“Passport”), y1 = 3 (“cực 
 Do trọng số cảm xúc của một thực thể có thể kỳ ấn tượng”). 
có giá trị âm hoặc dương, nên khi tóm tắt, các câu 
 Câu 2: x1 = 1 (“BlackBerry”); y1 = 1 
có nhiều thực thể cảm xúc (dương hoặc âm), sẽ 
 (“lịch lãm”), y2 = 1 (“cuốn hút”), y3 = 1 (“cá 
được ưu tiên chọn. Tiêu chí này đạt được khi hệ 
 tính”). 
thống chỉ lấy độ lớn của trọng số cảm xúc. 
 Tổng trọng số đặc trưng cả hai câu đều là 4; 
 Cụm từ có mức cảm xúc cao là rất quan 
 tổng trọng số đặc trưng cảm xúc cả hai câu đều là 
trọng. Chủ đề có thể được nhấn mạnh bởi sự xuất 
 3. Độ quan trọng tính bằng công thức (3.2) cho 
hiện thường xuyên của từ khóa nhất định, còn 
 mỗi câu lần lượt là: W1 = 10, W2 = 4. Độ quan 
cảm xúc tổng thể có thể không tăng lên nếu lặp 
 trọng của câu 1 cao hơn do thực thể cảm xúc “cực 
lại sự xuất hiện của một số thực thể. Do đó, câu 
 kỳ ấn tượng” có trọng số bằng 3 thể hiện vai trò 
có số lượng ít các thực thể cảm xúc, nhưng chúng 
 khi được khuếch đại. 
lại có vai trò lớn (trọng số cảm xúc cao) cần được 
chọn cho bản tóm tắt để cung cấp thêm thông tin Sau khi tính độ quan trọng cho tất cả các câu 
về cảm xúc. Để hệ thống ghi nhận yếu tố này, cần của ý kiến, chúng sẽ được xếp theo thứ tự giảm 
khuếch đại các trọng số cảm xúc bằng phép bình dần của trọng số W. Hệ thống sẽ chọn từ trên 
phương mỗi trọng số cảm xúc trước khi tính tổng. xuống số câu theo tỷ lệ tóm tắt người dùng mong 
 muốn. Với các ý kiến chỉ có một câu thì sẽ mặc 
 Từ các tiêu chí phân tích ở trên, bài báo đề 
 nhiên được chọn, không cần qua mô đun Tóm tắt. 
xuất công thức (3.2) tính độ quan trọng của câu: 
 4. KẾT QUẢ THỰC NGHIỆM 
 Gọi: x1, x2, , xn là các trọng số ngữ 
nghĩa của các thực thể trong câu, Với mô hình trình bày ở hình 1. Chúng tôi 
 tiến hành thử nghiệm trên tập dữ liệu gồm 220 ý 
 y1, y2, , yn là các trọng số cảm xúc của các 
 kiến đối với 7 bài báo thuộc chủ đề Kinh doanh 
thực thể trong câu. 
 và chủ đề Xã hội, như phân loại của trang 
 VNExpress, địa chỉ  
 Đây là trang báo mạng có lượng người đọc rất 
 Trang 57 
SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 19, No.K5- 2016 
lớn. Với những vấn đề được quan tâm, có bài báo Bảng 2 trình bày kết quả thực nghiệm: 
được hàng nghìn độc giả đưa ý kiến tranh luận. 
 Bảng 2. Kết quả đánh giá ý kiến. 
4.1 Nguồn ngữ liệu thực nghiệm 
 Độ đúng Độ chính Độ truy 
 Lớp 
 Số liệu dữ liệu thử nghiệm như trong bảng đắn (%) xác (%) hồi (%) 
1. 
 Positive 80,41 75,73 
 Bảng 1. Số liệu nguồn ngữ liệu thực nghiệm 
 Neutral 74,57 68,18 50,00 
 Bài báo Số lượng Số ý kiến Negative 65,63 38,89 
 Chủ đề xã hội 3 79 Từ bảng 2, chúng tôi có một số nhận xét sau: 
 Độ đúng đắn (Accuracy) đạt 74,57% cho 
 Chủ đề kinh 
 4 141 thấy mô hình đề xuất là hiệu quả. Kết hợp Naïve 
 doanh 
 Bayes và Vector Space Model là mô hình khá 
 Tổng 7 220 triển vọng cho phân tích cảm xúc. 
 Bài báo có nhiều ý kiến nhất là 59, và ít nhất Độ chính xác (Precision) trong cả 3 lớp có 
là 14 ý kiến. Trung bình mỗi bài báo có khoảng kết quả khá tốt, trên 65%. Độ chính xác của lớp 
30 ý kiến. Lượng dữ liệu thử nghiệm này không negative thấp hơn nhiều so với lớp positive. 
lớn, nhưng phù hợp để có thể kiểm nghiệm kỹ sự Độ truy hồi (Recall) lớp position có kết 
vận hành của hệ thống trong giai đoạn đầu. quả khá tốt. Lớp neutral và negative có kết quả 
4.2 Phương pháp đánh giá thực nghiệm khá thấp, nhất là negative. 
 Để đánh giá hiệu quả của mô hình đề xuất, Nguyên nhân Precision và Recall thấp là 
chúng tôi sử dụng độ chính xác và độ truy hồi. do từ điển cảm xúc còn hạn chế, chưa phủ đầy đủ 
 các cách diễn đạt cảm xúc, nhất là dạng phủ định. 
 * Độ chính xác (Precision). 
 Khi xét riêng từng chủ đề, kết quả thực 
 c
 precision 
 Được tính bởi công thức: b nghiệm được thể hiện ở bảng 3 và bảng 4. 
(4.1) 
 * Độ truy hồi (Recall) Bảng 3. Kết quả đánh giá ý kiến chủ đề kinh 
 doanh 
 c
 recall 
 Được tính bởi công thức: a 
 Độ đúng Độ chính Độ truy 
(4.2) Lớp 
 đắn (%) xác (%) hồi (%) 
 Với a là số câu đúng của bản tóm tắt (theo 
 Positive 82,50 61,11 
tập tóm tắt mẫu), b là số câu của bản tóm tắt do 
máy tính thực hiện và c là số câu giao giữa a và Neutral 72,28 64,71 57,89 
b. Negative 66,67 48,65 
4.3 Phân loại cảm xúc 
Trang 58 
 TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 19, SOÁ K5- 2016 
 Bảng 4. Kết quả đánh giá ý kiến chủ đề xã hội bình phương trước khi tính tổng. Nguyên tắc này 
 tương đương công thức 3.2, nhưng triệt tiêu yếu 
 Độ đúng Độ chính Độ truy 
 Lớp n 2
 tố ngữ nghĩa (  xi ). Kết quả thể hiện ở bảng 6. 
 đắn (%) xác (%) hồi (%) i 1
 Positive 78,95 91,84 Bảng 5. Kết quả đánh giá quá trình tóm tắt ý 
 Neutral 77,78 80,00 36,36 kiến kết hợp ngữ nghĩa và cảm xúc. 
 Negative 60,00 17,65 Số P R 
 Bài báo a b c 
 câu (%) (%) 
 Các kết quả này thể hiện: 
 Chủ đề xã hội 128 82 84 76 90,48 92,68 
 Độ đúng đắn của phân cực cảm xúc các 
 Chủ đề kinh 
bài ý kiến chủ đề xã hội tốt hơn chủ đề kinh doanh 247 165 167 150 88,76 90,91 
khá nhiều, đến trên 5.5%. Có thể nguyên nhân doanh 
chính dẫn đến điều này là sự phù hợp của từ điển Tổng hợp 375 247 251 226 90,04 91,50 
cảm xúc đối với chủ đề. Bên cạnh đó, với chủ đề 
xã hội, chúng tôi nhận thấy độc giả thể hiện cảm Bảng 6. Kết quả đánh giá quá trình tóm tắt ý 
xúc nhiều hơn so với chủ đề kinh doanh. Bài báo kiến chỉ dựa vào cảm xúc. 
chủ đề kinh doanh nói về điện thoại thông minh 
(smartphone), máy tính mới, nên thu hút nhiều Số P R 
 Bài báo a b c 
độc giả trẻ. Còn các vấn đề xã hội có nhiều thành câu (%) (%) 
phần và độ tuổi khác nhau quan tâm. 
 Chủ đề xã hội 128 82 84 73 86,90 89,02 
 Độ truy hồi của cả hai chủ đề là khá thấp. 
Trong đó, độ truy hồi của lớp negative là thấp hơn 
 Chủ đề kinh 
nhiều so với lớp positive và neutral. Nguyên nhân 247 165 167 146 87,43 88,48 
 doanh 
như chúng tôi nói ở trên (mục 4.3) có thể cũng là 
yếu tố chính trong trường hợp này. Tổng hợp 375 247 251 219 87,25 88,66 
4.4 Tóm tắt trên cơ sở phân loại cảm xúc 
 Thực nghiệm tóm tắt ý kiến theo tỷ lệ rút 
 Tóm tắt văn bản thường dùng hai phép đo gọn 50%. Trong đó, ý kiến chỉ có một câu sẽ được 
phổ biến để đánh giá hiệu năng là độ chính xác giữ nguyên, không qua mô đun Tóm tắt để xử lý. 
(P) và độ truy hồi (R) (công thức 4.1 và 4.2). 
 Một số nhận xét từ kết quả ở hai bảng 5 và 
Chúng tôi sẽ dùng hai độ đo này để đánh giá hiệu 
 6: 
năng của mô đun Tóm tắt. Kết quả trình bày ở 
bảng 5. Số câu đúng trong bản tóm tắt a không đổi 
 do tập dữ liệu không đổi. Số câu của bản tóm tắt 
 Để đánh giá sự hiệu quả của phương pháp 
đề xuất với công thức 3.2, ngoài thử nghiệm với do máy tính thực hiện b là như nhau do chúng tôi 
 không thay đổi thiết lập tỷ lệ rút gọn ý kiến. 
phương pháp trên, bài báo còn thử nghiệm tóm 
tắt chỉ dựa trên yếu tố cảm xúc. Độ quan trọng Thành phần c, trong mọi trường hợp đánh 
của câu được lượng giá bằng trọng số của các giá, đều có kết quả cao hơn nếu kết hợp cả yếu tố 
thực thể cảm xúc. Các trọng số cảm xúc được cảm xúc và yếu tố ngữ nghĩa (bảng 5) khi so với 
 Trang 59 
SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 19, No.K5- 2016 
trường hợp chỉ sử dụng yếu tố cảm xúc (bảng 6). tóm tắt. Kết quả thu được từ thực nghiệm cho 
 thấy đây là cách tiếp cận khá triển vọng cho nhu 
 Mô hình đề xuất đánh giá độ quan trọng 
 cầu khai thác ý kiến một cách hiệu quả với một 
của câu ở phần 3.3, với công thức 3.2 (bảng 5) 
 đối tượng, hoặc vấn đề trên mạng. 
cho kết quả tốt hơn trong mọi trường hợp. Bằng 
kết quả thực nghiệm có thể kết luận phương pháp Trong tương lai, chúng tôi sẽ nâng cao khả 
đề xuất bài báo đã trình bày có tính hiệu quả hơn. năng phân loại cảm xúc bằng cách phân chia 
 nhiều mức trong mỗi lớp cảm xúc. Khả năng tóm 
5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 
 tắt ý kiến cũng được cải thiện hơn bằng việc khai 
 Bài báo đưa ra cách tiếp cận tóm tắt ý kiến thác ngữ nghĩa của thực thể kết hợp với xác định 
dựa trên phân tích cảm xúc bằng cách kết hợp hai cảm xúc một cách hiệu quả hơn. Vấn đề rút trích 
mô đun độc lập là Phân loại cảm xúc và Tóm tắt sẽ được quan tâm nghiên cứu hướng đến đặc 
cho văn bản tiếng Việt. Với mô đun Tóm tắt, bài trưng của ngôn ngữ tiếng Việt nhằm nâng cao 
báo đã đề xuất tiêu chí đánh giá độ quan trọng của hiệu quả của mô hình đã đề xuất. 
câu dựa trên ngữ nghĩa của thực thể và trọng số 
cảm xúc của câu (mục 3.3) để rút trích cho bản 
Text summarization based on sentiment 
classification of comments from online 
Vietnamese newspaper 
 Nguyen Ngoc Duy 1 
 Phan Thi Tuoi 2 
 1 Posts and Telecommunications Institute of Technology 
 2 Ho Chi Minh city University of Technology,VNU-HCM 
 ABSTRACT 
 To know opinions of consumers regarding and social network. Today is an era of 
products or public about important problems in information explosion through Internet and 
society, then the best and most effective way is to social networking, so we are able to exploit 
exploit information of community from Internet effectively information from the huge sources. 
Trang 60 
 TAÏP CHÍ PHAÙT TRIEÅN KH&CN, TAÄP 19, SOÁ K5- 2016 
The opinion of individuals is not only objective especially on side of the views and sentiments of 
information but also contains emotions of the each opinion. 
author. It through Internet has big power to make 
 To exploit the resource effectively to 
a stream of public opinion that will impact on 
 summary information, the paper will propose a 
network community. This is really an enormous 
 text Vietnamese summary model, not only based 
subjective information resource, then it will have 
 on semantics but also based on sentiment 
great meaning for many areas, such as 
 features. We have built a base model to solve this 
economics, politics, society and culture if we 
 problem. We have exploited and developted 
have methods and techniques to exploit it 
 methods summarizing and sentiment analysing 
effectively. An automatic system classifying 
 for our proposed model. Our system can draw 
comments based on sentiment is really necessary 
 Vietnamese comments from online Vietnamese 
to exploit efficiently this resource. In order to 
 newspaper, analyze the sentiments of comments, 
support users have more concise and appropriate 
 classify them and make a summary of opinions 
information, then question of summary 
 effectively. 
information should be studied and solved, 
 Keywords: Sentiment Analysis, Opinion Mining, Text Summarization, Sentiment Classification. 
 TÀI LIỆU THAM KHẢO 
[1]. Bo Pang and Lillian Lee, "Opinion mining Opinion Mining Model on Product Reviews 
 and sentiment analysis", Foundations and in Vietnamese”, Workshop on Semantic 
 Trends in Information Retrieval, 2, 1-2, 1– Methods for Knowledge Discovery and 
 135 (2008). Communication, 23-33 (2011). 
[2]. Balahur, A.; Kabadjov, M.;Steinberger, J.; [5]. Quang-Thuy Ha, Tien-Thanh Vu, Huyen-
 Steinberger, R.; Montoyo, A., Trang Pham, Cong-To Luu, “An Upgrading 
 "Summarizing Opinions in Blog Threads", Feature-based Opinion Mining Model on 
 Proceedings of the 23rd Pacific Asia Vietnamese Product Reviews”, Proceedings 
 Conference on Language, Information and of the 7th International Conference on 
 Computation (PACLIC), 606-613 (2009). Active Media Technology, 173-185 (2011). 
[3]. Vo Ngoc Phu, Phan Thi Tuoi, “Sentiment [6]. Tung-Hui Chiang, Jing-Shin Chang, Ming-
 Classification using enhanced Contextual Yu Lin, Keh-Yih Su, “Statistical Models for 
 Valence Shifters”, Proceedings of Word Segmentation and Unknown Word 
 International Conference on Asian Resolution”, Proceedings of 1992 R.O.C. 
 Language Processing, Malaysia (2014). Computational Linguistics Conference 
 (ROCLING V), 121-146 (1992). 
[4]. Tien-Thanh Vu, Huyen-Trang Pham, Cong-
 To Luu, Quang-Thuy Ha, “A Feature-based 
 Trang 61 

File đính kèm:

  • pdftom_tat_van_ban_tren_co_so_phan_loai_y_kien_doc_gia_cua_bao.pdf