Xây dựng các cặp câu hỏi - Câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng

Các trang web hỏi đáp cộng đồng có chứa

một lượng lớn thông tin hỏi - đáp có giá trị sinh

ra bởi những người sử dụng. Trong các trang web

hỏi đáp cộng đồng, người dùng có thể gửi các câu

hỏi, trả lời các câu hỏi của người khác, và cung cấp

thông tin phản hồi cho những câu hỏi/câu trả lời.

Trong nghiên cứu này chúng tôi sử dụng tiếp cận

học máy nhằm xây dựng các cặp câu hỏi - câu trả

lời chất lượng cao từ các trang web hỏi đáp cộng

đồng. Các cặp câu hỏi - câu trả lời này sẽ được sử

dụng làm nguồn dữ liệu cho các hệ thống hỏi đáp

tự động. Chúng tôi thực hiện trích rút những đặc

trưng quan trọng từ mỗi luồng hỏi đáp cũng như

thông tin của người gửi câu trả lời và xây dựng mô

hình phân loại để xác định được các cặp câu hỏi

- câu trả lời có ý nghĩa. Các kết quả thực nghiệm

trên bộ dữ liệu cung cấp bởi SemEval 2015 cho

thấy những đề xuất của chúng tôi sẽ mang lại kết

quả cao.

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

9 trang duykhanh 16460

Download

Bạn đang xem tài liệu "Xây dựng các cặp câu hỏi - Câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Xây dựng các cặp câu hỏi - Câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng

I CHẤT LƯỢNG CAO TỪ CÁC TRANG WEB...
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG30 Số 3 - 4 (CS.01) 2016
A. Tập dữ liệu
Trong các trang web hỏi đáp cộng đồng, mỗi câu
hỏi thường chứa một tiêu đề hỏi và một đoạn văn
bản ngắn mô tả về nội dung hỏi được đưa ra bởi
người hỏi. Phần tiêu đề hỏi và phần mô tả được coi
như là một câu hỏi duy nhất gồm nhiều câu [15].
Để thực hiện các thực nghiệm của mình, chúng tôi
đã sử dụng tập dữ liệu từ SemEval 20154. Tập dữ
liệu này được trích rút từ các trang web hỏi đáp
cộng đồng, bao gồm các câu hỏi và mỗi câu hỏi
gồm một tập các câu trả lời tương ứng. Tất cả các
cặp câu hỏi - câu trả lời đều được trình bày bằng
ngôn ngữ tiếng Anh. Tập dữ liệu này bao gồm 3 tập
con: train - tập dữ liệu dùng để huấn luyện mô hình
phân loại, dev - tập dữ liệu dùng để đánh giá mô
hình phân loại và test - tập dữ liệu dùng để kiểm tra
tính hiệu quả của mô hình phân loại. Bảng VI trình
bày một số thống kê trên tập dữ liệu này.
Bảng VI. Thống kê tập dữ liệu được sử dụng
Tập dữ
liệu
Số câu
hỏi
Số câu
trả lời
Số câu trả lời trung
bình của mỗi câu hỏi
Train 2270 11503 5.07
Dev 255 1178 4.62
Test 317 1526 4.81
B. Các thực nghiệm
Thực nghiệm 1:
Bảng VII. Kết quả phân loại sử dụng
các đặc trưng từ vựng
Tập dữ
liệu Accuracy Precision Recall F1-measure
Dev 56.37% 49.64% 48.62% 47.91%
Test 61.53% 48.03% 47.72% 47.73%
Trong thực nghiệm này chúng tôi muốn kiểm tra
tính hiệu quả của việc sử dụng các đặc trưng từ
vựng như được trình bày trong mục V.A. Các đặc
trưng từ vựng này bao gồm: đặc trưng Unigram, số
từ trong câu hỏi, số từ trong câu trả lời, số lượng
câu (sentence) trong câu trả lời, tỷ lệ giữa số câu
của câu trả lời và câu hỏi, chồng chéo n-gram từ
giữa câu hỏi và câu trả lời. Bảng VII trình bày các
kết quả của thực nghiệm này.
4
Thực nghiệm 2:
Thực nghiệm thứ 2 này chúng tôi sử dụng các đặc
trưng tính toán sự giống nhau giữa câu hỏi và câu
trả lời. Để tính toán được các độ đo sự giống nhau
giữa câu hỏi và câu trả lời, chúng tôi thực hiện:
(1) loại bỏ các từ stopword trong mỗi câu hỏi và
câu trả lời; (2) biểu diễn mỗi câu hỏi và câu trả lời
dưới dạng các bag-of-word; (3) sử dụng các độ đo
euclidean, manhattan, minkowski, cosine, jaccard
để tính toán độ tương tự giữa câu hỏi và các câu trả
lời của nó. Kết quả của thực nghiệm này được trình
bày trong bảng VIII.
Bảng VIII. Kết quả phân loại sử dụng
các đặc trưng tính toán độ tương tự
Tập dữ
liệu Accuracy Precision Recall F1-measure
Dev 54.84% 41.85% 42.13% 41.96%
Test 57.93% 41.25% 42.15% 41.57%
Thực nghiệm 3:
Thực nghiệm này được thực hiện với việc sử dụng
đặc trưng trích rút từ thông tin người sử dụng
(những người gửi câu hỏi, câu trả lời). Kết quả của
thực nghiệm được trình bày trong bảng IX.
Bảng IX. Kết quả phân loại sử dụng đặc trưng
trích rút từ thông tin người dùng
Tập dữ
liệu Accuracy Precision Recall F1-measure
Dev 61.63% 34.29% 38.89% 30.94%
Test 66.32% 35.36% 85.34% 30.44%
Thực nghiệm 4:
Trong thực nghiệm này chúng tôi sử dụng các đặc
trưng tính toán độ giống nhau về mặt ngữ nghĩa
giữa các thành phần của câu hỏi với câu trả lời.
Để tính toán độ tương tự ngữ nghĩa giữa các thành
phần của câu hỏi và câu trả lời, chúng tôi sử dụng
các tập dữ liệu đã được loại bỏ các từ stopword
và tập dữ liệu gốc (chưa loại bỏ các từ stopword).
Tuy nhiên khi thực nghiệm phân loại chúng tôi
thấy rằng việc sử dụng tập dữ liệu đã loại các từ
stopword cho kết quả phân loại thấp hơn việc sử
dụng tập dữ liệu gốc. Vì vậy chúng tôi quyết định
chỉ sử dụng tập dữ liệu gốc cho việc tính toán độ
Nguyễn Văn Tú, Lê Anh Cường, Nguyễn Hà Nam
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG
Số 3 - 4 (CS.01) 2016 31
tương tự ngữ nghĩa. Kết quả phân loại của thực
nghiệm 4 được trình bày trong bảng X.
Bảng X. Kết quả phân loại sử dụng
các đặc trưng tính toán độ tương tự ngữ nghĩa
Tập dữ
liệu Accuracy Precision Recall
F1-
measure
Dev 60.61% 43.42% 52.32% 45.16%
Test 59.90% 46.83% 46.27% 46.38%
Thực nghiệm 5:
Trong thực nghiệm này chúng tôi thực hiện phân
loại các cặp câu hỏi - câu trả lời bằng cách kết hợp
tất cả các loại đặc trưng đã được thực hiện trong
các thực nghiệm trên. Các kết quả phân loại của
thực nghiệm này được trình bày trong bảng XI.
Bảng XI. Kết quả phân loại sử dụng sự kết hợp
của nhiều loại đặc trưng
Tập dữ
liệu Accuracy Precision Recall
F1-
measure
Dev 65.62% 52.92% 56.88% 54.41%
Test 69.72% 50.91% 62.87% 53.84%
Từ các kết quả của các thực nghiệm trên chúng tôi
nhận thấy rằng việc phân loại các cặp câu hỏi - câu
trả lời trong các hệ thống hỏi đáp cộng đồng cần sự
kết hợp của nhiều loại đặc trưng khác nhau để cho
kết quả tốt. Các đặc trưng về từ vựng đóng một vai
trò quan trọng trong nhiệm vụ này. Điều này là do
các câu trả lời của người dùng thường được viết
một cách tự do, không theo một cấu trúc nhất định,
có nhiều câu trả lời trình bày sai cấu trúc cú pháp
hoặc chứa những từ không liên quan đến câu hỏi.
Các kết quả từ thực nghiệm 4 cho thấy việc trích
rút các đặc trưng dựa trên sự biểu diễn vectơ từ (ở
đây là word2vec) cũng có ý nghĩa quan trọng trong
việc phân loại các cặp câu hỏi - câu trả lời. Việc
huấn luyện lại mô hình word2vec và sử dụng nó
trong việc tính toán độ tương tự ngữ nghĩa giữa các
thành phần của câu hỏi với câu trả lời, giữa câu trả
lời với các loại của câu hỏi đã cho kết quả phân loại
cao. Trong thực nghiệm 5 chúng tôi đã thực hiện
việc kết hợp của nhiều loại đặc trưng khác nhau
và đã đạt được kết quả phân loại cao nhất trong tất
cả các độ đo mà chúng tôi sử dụng. Điều này cũng
chứng minh rằng vấn đề phân loại các cặp câu hỏi
- câu trả lời trong các trang web hỏi đáp cộng đồng
cần sự kết hợp của nhiều loại đặc trưng khác nhau.
Chúng tôi cũng thực hiện so sánh các kết quả
nghiên cứu của chúng tôi với các kết quả nghiên
cứu của các tác giả khác. Các nghiên cứu mà chúng
tôi sử dụng để so sánh ở đây cũng sử dụng tập dữ
liệu từ SemEval 2015 và sử dụng cùng số lớp phân
loại. Bảng XII trình bày một số kết quả nghiên cứu
của các tác giả khác để so sánh với các kết quả của
chúng tôi trong vấn đề phân loại các cặp câu hỏi -
câu trả lời.
Bảng XII. So sánh với các kết quả nghiên cứu khác
Nghiên cứu của tác giả F1-measure Accuracy
Massimo Nicosia (2015)[6] 53.74% 70.50%
Liang Yi (2015)[16] 53.47% 70.55%
Xiaoqiang Zhou (2015)[17] 49.60% 67.86%
Yonatan Belinkov (2015)[18] 49.10% 66.45%
Amin Heydari (2015)[19] 47.34% 56.83%
Vo (2015)[20] 47.32% 69.13%
Ivan Zamanov (2015)[21] 46.07% 62.35%
Nghiên cứu của chúng tôi 53.84% 69.72%
Từ bảng so sánh cho thấy nghiên cứu của chúng
tôi cho kết quả phân loại cao nhất về độ đo
F1-measure.
VII. KếT lUẬN VÀ HướNG pHÁT TRIỂN
Bài báo đã trình bày những đề xuất của chúng tôi
trong việc xây dựng các cặp câu hỏi - câu trả lời
chất lượng cao từ các dữ liệu thu thập trên các trang
web hỏi đáp cộng đồng. Chúng tôi đã thực hiện
trích rút nhiều loại đặc trưng khác nhau từ các đặc
trưng từ vựng, các đặc trưng dựa trên sự tính toán
độ tương tự giữa câu hỏi và câu trả lời, các đặc trưng
dựa trên sự biểu diễn vectơ từ (ở đây là word2vec)
và sử dụng bộ phân loại Support Vector Machines
để phân loại các cặp câu hỏi - câu trả lời. Các kết
quả của thực nghiệm cho thấy bộ phân loại đã đạt
kết quả phân loại với độ đo F1-measure cao nhất là
53.84% khi sử dụng sự kết hợp của nhiều loại đặc
trưng. Từ các kết quả nghiên cứu trên, chúng tôi đã
xây dựng được một bộ dữ liệu bao gồm các cặp câu
XÂY DỰNG CÁC CẶP CÂU HỎI - CÂU TRẢ LỜI CHẤT LƯỢNG CAO TỪ CÁC TRANG WEB...
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG32 Số 3 - 4 (CS.01) 2016
hỏi - câu trả lời chất lượng để phục vụ làm nguồn
dữ liệu cho việc xây dựng các hệ thống hỏi đáp tự
động. Các nghiên cứu tiếp theo chúng tôi sẽ thực
hiện xây dựng các cặp câu hỏi - câu trả lời có ý
nghĩa từ nhiều nguồn hỏi đáp cộng đồng khác nhau
để làm phong phú thêm nguồn dữ liệu hỏi đáp phục
vụ xây dựng các hệ thống hỏi đáp tự động.
TÀI lIỆU THAm KHảO
[1] Zeyi Wen, Rui Zhang, Kotagiri Ramamohanarao.
Enabling Precision/Recall Preferences for Semi-
supervised SVM Training, CIKM’14, pp. 421-
430, 2014.
[2] Valentin Jijkoun and Maarten de Rijke. Retrieving
answers from frequently asked questions pages
on the web. In CIKM ’05, pp. 76-83, 2005.
[3] Adam Berger, Rich Caruana, David Cohn, Dayne
Freitag, and Vibhu Mittal. Bridging the lexical
chasm: Statistical approaches to answer-finding.
In Proceedings of SIGIR, pp. 192-199, 2000.
[4] C. Shah, J. Pomerantz. Evaluating and predicting
answer quality in community QA. In Proceedings
of SIGIR, 2010.
[5] H. Toba, Z. Y. Ming, M. Adriani, T. Chua.
Discovering high quality answers in community
question answering archives using a hierarchy of
classifiers. Information Sciences 261, pp. 101-
115, 2014.
[6] Massimo Nicosia1, Simone Filice, et al. QCRI:
Answer Selection for Community Question
Answering – Experiments for Arabic and
English. In Proceedings of SemEval, pp. 203-
209, 2015.
[7] J. Lou, Y. Fang, K.H. Lim, J.Z. Peng. Contributing
high quantity and quality knowledge to online
q&a communities. Journal of the American
Society for Information Science and Technology
64(2), pp. 356-371, 2013.
[8] H. Hu, B. Liu, B. Wang, M. Liu, X. Wang.
Multimodal DBN for predicting high-quality
answers in cQA portals. In Proceedings of ACL,
pp. 843-847, 2013.
[9] Mihai Surdeanu, Massimiliano Ciaramita, and
Hugo Zaragoza. Learning to rank answers on
large online QA collections. In Proceedings of
ACL-08: HLT. Association for Computational
Linguistics, pp. 719-727, 2008.
[10] Zhiheng Huang, Marcus Thint, and Zengchang
Qin. Question classification using head words
and their hypernyms. In Proceedings of the
Conference on Empirical Methods in Natural
Language Processing, (EMNLP ’08), pp. 927-
936, 2008.
[11] Vijay Krishnan, Sujatha Das, and Soumen
Chakrabarti. Enhanced answer type inference
from questions using sequential models. In
Proceedings of the conference on Human
Language Technology and Empirical Methods in
Natural Language Processing, HLT ’05, pp. 315-
322, 2005.
[12] Babak Loni, Gijs van Tulder, Pascal Wiggers,
David M.J. Tax, and Marco Loog. Question
classification with weighted combination of
lexical, syntactical and semantic features. In
Proceedings of the 15th international conference
of Text, Dialog and Speech, pp. 243-250, 2011.
[13] T. Mikolov, K. Chen, G. Corrado, and J.
Dean. (2013a) Efficient Estimation of Word
Representations in Vector Space. CoRR,
abs/1301.3781.
[14] T. Mikolov, I. Sutskever, K. Chen, G. Corrado,
and J. Dean. (2013b) Distributed Representations
of Words and Phrases and their Compositionality.
CoRR, abs/1310.4546.
[15] Vinay Pande, Tanmoy Mukherjee, Vasudeva
Varma. Summarizing Answers For Community
Question Answer Services, The International
Conference of the German Society for
Computational Linguistics and Language
Technology, pp. 151-161, 2013.
[16] Liang Yi, Jianxiang Wang, Man Lan. ECNU:
Using Multiple Sources of CQA-based
Information for Answer Selection and YES/NO
Response Inference. In Proceedings of SemEval,
pp. 236-241, 2015.
[17] Xiaoqiang Zhou Baotian Hu Jiaxin Lin Yang
Xiang Xiaolong Wang. ICRC-HIT: A Deep
Learning based Comment Sequence Labeling
System for Answer Selection Challenge. In
Proceedings of SemEval, pp. 210-214, 2015.
Nguyễn Văn Tú, Lê Anh Cường, Nguyễn Hà Nam
Tạp chí KHOA HỌC CÔNG NGHỆ
THÔNG TIN VÀ TRUYỀN THÔNG
Số 3 - 4 (CS.01) 2016 33
[18] Yonatan Belinkov, Mitra Mohtarami, Scott
Cyphers, James Glass. VectorSLU: A Continuous
Word Vector Approach to Answer Selection in
Community Question Answering Systems. In
Proceedings of SemEval, pp. 282-287, 2015.
[19] Amin Heydari, Alashty Saeed Rahmani Meysam
Roostaee Mostafa Fakhrahmad. Shiraz: A
Proposed List Wise Approach to Answer
Validation. In Proceedings of SemEval, pp. 220-
225, 2015.
[20] Ngoc Phuoc An Vo, Simone Magnolini, Octavian
Popescu. FBK-HLT: An Application of Semantic
Textual Similarity for Answer Selection in
Community Question Answering. In Proceedings
of SemEval, pp. 231-235, 2015.
[21] Ivan Zamanov, Nelly Hateva, et al. Voltron: A
Hybrid System For Answer Validation Based On
Lexical And Distance Features. In Proceedings
of SemEval, pp. 242-246, 2015.
CONsTRUCTING HIGH-qUAlITY
qUesTION-ANsWeR pAIRs FROm
COmmUNITY qUesTION ANsWeRING
sITes
Abstract: Community Question Answering (cQA)
sites that contains a large amount of valuable
information generated by the users. In cQA sites,
users can post questions, answer other people’s
questions and provide feedback to the questions
/ answers. In this paper, we use machine learning
approach to constructing high-quality question -
answer pairs from community question answering
sites. These question - answer pairs will be used
as the data source for the automatic question
answering systems. We extracted important
features from each question-answer thread as well
as the users information and build classification
model to identify the meaningful question - answer
pairs. The experimental results on the data provided
by SemEval 2015 showed that our proposal will
bring good results.
Keywords: Community Question Answering,
classification, Support Vector Machines, Automatic
Question Answering system.
Nguyễn Văn Tú tốt nghiệp cử nhân
tại khoa Toán trường Đại học Sư
phạm Thái Nguyên ngành Sư phạm
tin năm 2005, tốt nghiệp thạc sĩ tại
trường Đại học Sư phạm Hà Nội năm
2009. ThS. Nguyễn Văn Tú hiện đang
làm nghiên cứu sinh tại trường Đại
học Công nghệ và làm việc tại trường
Đại học Tây Bắc. Hướng nghiên cứu
bao gồm: Các kỹ thuật học máy, xử lý
ngôn ngữ tự nhiên.
Lê Anh Cường tốt nghiệp cử nhân
và thạc sĩ Công nghệ Thông tin tại
trường Đại học Công nghệ, Đại học
Quốc gia Hà Nội vào năm 1998 và
2001, và nhận bằng tiến sĩ tại Trường
Khoa học thông tin - Viện Khoa học
và Công nghệ tiên tiến Nhật Bản
(Japan Advanced Institute of Science
and Technology) vào năm 2007. Hiện
nay, PGS. TS Lê Anh Cường đang là
giảng viên tại khoa Công nghệ thông
tin, trường Đại học Tôn Đức Thắng.
Lĩnh vực nghiên cứu bao gồm: xử lý
ngôn ngữ tự nhiên, khai phá văn bản,
học máy.
Nguyễn Hà Nam tốt nghiệp cử nhân
tại trường Đại học Khoa học Tự nhiên,
Đại học Quốc gia Hà Nội năm 2001,
nhận bằng thạc sĩ tại trường Đại học
Chungwoon, Hàn Quốc năm 2003 và
tiến sĩ tại trường Đại học Hàng không,
Hàn Quốc năm 2007. Hiện nay, PGS.
TS Nguyễn Hà Nam đang là giảng
viên tại khoa Công nghệ thông tin,
trường Đại học Công nghệ - Đại học
Quốc gia Hà Nội. Lĩnh vực nghiên cứu
bao gồm: trí tuệ nhân tạo, khai phá
dữ liệu, học máy, phân tích thống kê,
cơ sở dữ liệu, kho dữ liệu và OLAP.

File đính kèm:

xay_dung_cac_cap_cau_hoi_cau_tra_loi_chat_luong_cao_tu_cac_t.pdf