Xây dựng các cặp câu hỏi - Câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng
Các trang web hỏi đáp cộng đồng có chứa
một lượng lớn thông tin hỏi - đáp có giá trị sinh
ra bởi những người sử dụng. Trong các trang web
hỏi đáp cộng đồng, người dùng có thể gửi các câu
hỏi, trả lời các câu hỏi của người khác, và cung cấp
thông tin phản hồi cho những câu hỏi/câu trả lời.
Trong nghiên cứu này chúng tôi sử dụng tiếp cận
học máy nhằm xây dựng các cặp câu hỏi - câu trả
lời chất lượng cao từ các trang web hỏi đáp cộng
đồng. Các cặp câu hỏi - câu trả lời này sẽ được sử
dụng làm nguồn dữ liệu cho các hệ thống hỏi đáp
tự động. Chúng tôi thực hiện trích rút những đặc
trưng quan trọng từ mỗi luồng hỏi đáp cũng như
thông tin của người gửi câu trả lời và xây dựng mô
hình phân loại để xác định được các cặp câu hỏi
- câu trả lời có ý nghĩa. Các kết quả thực nghiệm
trên bộ dữ liệu cung cấp bởi SemEval 2015 cho
thấy những đề xuất của chúng tôi sẽ mang lại kết
quả cao.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Tóm tắt nội dung tài liệu: Xây dựng các cặp câu hỏi - Câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng
I CHẤT LƯỢNG CAO TỪ CÁC TRANG WEB... Tạp chí KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG30 Số 3 - 4 (CS.01) 2016 A. Tập dữ liệu Trong các trang web hỏi đáp cộng đồng, mỗi câu hỏi thường chứa một tiêu đề hỏi và một đoạn văn bản ngắn mô tả về nội dung hỏi được đưa ra bởi người hỏi. Phần tiêu đề hỏi và phần mô tả được coi như là một câu hỏi duy nhất gồm nhiều câu [15]. Để thực hiện các thực nghiệm của mình, chúng tôi đã sử dụng tập dữ liệu từ SemEval 20154. Tập dữ liệu này được trích rút từ các trang web hỏi đáp cộng đồng, bao gồm các câu hỏi và mỗi câu hỏi gồm một tập các câu trả lời tương ứng. Tất cả các cặp câu hỏi - câu trả lời đều được trình bày bằng ngôn ngữ tiếng Anh. Tập dữ liệu này bao gồm 3 tập con: train - tập dữ liệu dùng để huấn luyện mô hình phân loại, dev - tập dữ liệu dùng để đánh giá mô hình phân loại và test - tập dữ liệu dùng để kiểm tra tính hiệu quả của mô hình phân loại. Bảng VI trình bày một số thống kê trên tập dữ liệu này. Bảng VI. Thống kê tập dữ liệu được sử dụng Tập dữ liệu Số câu hỏi Số câu trả lời Số câu trả lời trung bình của mỗi câu hỏi Train 2270 11503 5.07 Dev 255 1178 4.62 Test 317 1526 4.81 B. Các thực nghiệm Thực nghiệm 1: Bảng VII. Kết quả phân loại sử dụng các đặc trưng từ vựng Tập dữ liệu Accuracy Precision Recall F1-measure Dev 56.37% 49.64% 48.62% 47.91% Test 61.53% 48.03% 47.72% 47.73% Trong thực nghiệm này chúng tôi muốn kiểm tra tính hiệu quả của việc sử dụng các đặc trưng từ vựng như được trình bày trong mục V.A. Các đặc trưng từ vựng này bao gồm: đặc trưng Unigram, số từ trong câu hỏi, số từ trong câu trả lời, số lượng câu (sentence) trong câu trả lời, tỷ lệ giữa số câu của câu trả lời và câu hỏi, chồng chéo n-gram từ giữa câu hỏi và câu trả lời. Bảng VII trình bày các kết quả của thực nghiệm này. 4 Thực nghiệm 2: Thực nghiệm thứ 2 này chúng tôi sử dụng các đặc trưng tính toán sự giống nhau giữa câu hỏi và câu trả lời. Để tính toán được các độ đo sự giống nhau giữa câu hỏi và câu trả lời, chúng tôi thực hiện: (1) loại bỏ các từ stopword trong mỗi câu hỏi và câu trả lời; (2) biểu diễn mỗi câu hỏi và câu trả lời dưới dạng các bag-of-word; (3) sử dụng các độ đo euclidean, manhattan, minkowski, cosine, jaccard để tính toán độ tương tự giữa câu hỏi và các câu trả lời của nó. Kết quả của thực nghiệm này được trình bày trong bảng VIII. Bảng VIII. Kết quả phân loại sử dụng các đặc trưng tính toán độ tương tự Tập dữ liệu Accuracy Precision Recall F1-measure Dev 54.84% 41.85% 42.13% 41.96% Test 57.93% 41.25% 42.15% 41.57% Thực nghiệm 3: Thực nghiệm này được thực hiện với việc sử dụng đặc trưng trích rút từ thông tin người sử dụng (những người gửi câu hỏi, câu trả lời). Kết quả của thực nghiệm được trình bày trong bảng IX. Bảng IX. Kết quả phân loại sử dụng đặc trưng trích rút từ thông tin người dùng Tập dữ liệu Accuracy Precision Recall F1-measure Dev 61.63% 34.29% 38.89% 30.94% Test 66.32% 35.36% 85.34% 30.44% Thực nghiệm 4: Trong thực nghiệm này chúng tôi sử dụng các đặc trưng tính toán độ giống nhau về mặt ngữ nghĩa giữa các thành phần của câu hỏi với câu trả lời. Để tính toán độ tương tự ngữ nghĩa giữa các thành phần của câu hỏi và câu trả lời, chúng tôi sử dụng các tập dữ liệu đã được loại bỏ các từ stopword và tập dữ liệu gốc (chưa loại bỏ các từ stopword). Tuy nhiên khi thực nghiệm phân loại chúng tôi thấy rằng việc sử dụng tập dữ liệu đã loại các từ stopword cho kết quả phân loại thấp hơn việc sử dụng tập dữ liệu gốc. Vì vậy chúng tôi quyết định chỉ sử dụng tập dữ liệu gốc cho việc tính toán độ Nguyễn Văn Tú, Lê Anh Cường, Nguyễn Hà Nam Tạp chí KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Số 3 - 4 (CS.01) 2016 31 tương tự ngữ nghĩa. Kết quả phân loại của thực nghiệm 4 được trình bày trong bảng X. Bảng X. Kết quả phân loại sử dụng các đặc trưng tính toán độ tương tự ngữ nghĩa Tập dữ liệu Accuracy Precision Recall F1- measure Dev 60.61% 43.42% 52.32% 45.16% Test 59.90% 46.83% 46.27% 46.38% Thực nghiệm 5: Trong thực nghiệm này chúng tôi thực hiện phân loại các cặp câu hỏi - câu trả lời bằng cách kết hợp tất cả các loại đặc trưng đã được thực hiện trong các thực nghiệm trên. Các kết quả phân loại của thực nghiệm này được trình bày trong bảng XI. Bảng XI. Kết quả phân loại sử dụng sự kết hợp của nhiều loại đặc trưng Tập dữ liệu Accuracy Precision Recall F1- measure Dev 65.62% 52.92% 56.88% 54.41% Test 69.72% 50.91% 62.87% 53.84% Từ các kết quả của các thực nghiệm trên chúng tôi nhận thấy rằng việc phân loại các cặp câu hỏi - câu trả lời trong các hệ thống hỏi đáp cộng đồng cần sự kết hợp của nhiều loại đặc trưng khác nhau để cho kết quả tốt. Các đặc trưng về từ vựng đóng một vai trò quan trọng trong nhiệm vụ này. Điều này là do các câu trả lời của người dùng thường được viết một cách tự do, không theo một cấu trúc nhất định, có nhiều câu trả lời trình bày sai cấu trúc cú pháp hoặc chứa những từ không liên quan đến câu hỏi. Các kết quả từ thực nghiệm 4 cho thấy việc trích rút các đặc trưng dựa trên sự biểu diễn vectơ từ (ở đây là word2vec) cũng có ý nghĩa quan trọng trong việc phân loại các cặp câu hỏi - câu trả lời. Việc huấn luyện lại mô hình word2vec và sử dụng nó trong việc tính toán độ tương tự ngữ nghĩa giữa các thành phần của câu hỏi với câu trả lời, giữa câu trả lời với các loại của câu hỏi đã cho kết quả phân loại cao. Trong thực nghiệm 5 chúng tôi đã thực hiện việc kết hợp của nhiều loại đặc trưng khác nhau và đã đạt được kết quả phân loại cao nhất trong tất cả các độ đo mà chúng tôi sử dụng. Điều này cũng chứng minh rằng vấn đề phân loại các cặp câu hỏi - câu trả lời trong các trang web hỏi đáp cộng đồng cần sự kết hợp của nhiều loại đặc trưng khác nhau. Chúng tôi cũng thực hiện so sánh các kết quả nghiên cứu của chúng tôi với các kết quả nghiên cứu của các tác giả khác. Các nghiên cứu mà chúng tôi sử dụng để so sánh ở đây cũng sử dụng tập dữ liệu từ SemEval 2015 và sử dụng cùng số lớp phân loại. Bảng XII trình bày một số kết quả nghiên cứu của các tác giả khác để so sánh với các kết quả của chúng tôi trong vấn đề phân loại các cặp câu hỏi - câu trả lời. Bảng XII. So sánh với các kết quả nghiên cứu khác Nghiên cứu của tác giả F1-measure Accuracy Massimo Nicosia (2015)[6] 53.74% 70.50% Liang Yi (2015)[16] 53.47% 70.55% Xiaoqiang Zhou (2015)[17] 49.60% 67.86% Yonatan Belinkov (2015)[18] 49.10% 66.45% Amin Heydari (2015)[19] 47.34% 56.83% Vo (2015)[20] 47.32% 69.13% Ivan Zamanov (2015)[21] 46.07% 62.35% Nghiên cứu của chúng tôi 53.84% 69.72% Từ bảng so sánh cho thấy nghiên cứu của chúng tôi cho kết quả phân loại cao nhất về độ đo F1-measure. VII. KếT lUẬN VÀ HướNG pHÁT TRIỂN Bài báo đã trình bày những đề xuất của chúng tôi trong việc xây dựng các cặp câu hỏi - câu trả lời chất lượng cao từ các dữ liệu thu thập trên các trang web hỏi đáp cộng đồng. Chúng tôi đã thực hiện trích rút nhiều loại đặc trưng khác nhau từ các đặc trưng từ vựng, các đặc trưng dựa trên sự tính toán độ tương tự giữa câu hỏi và câu trả lời, các đặc trưng dựa trên sự biểu diễn vectơ từ (ở đây là word2vec) và sử dụng bộ phân loại Support Vector Machines để phân loại các cặp câu hỏi - câu trả lời. Các kết quả của thực nghiệm cho thấy bộ phân loại đã đạt kết quả phân loại với độ đo F1-measure cao nhất là 53.84% khi sử dụng sự kết hợp của nhiều loại đặc trưng. Từ các kết quả nghiên cứu trên, chúng tôi đã xây dựng được một bộ dữ liệu bao gồm các cặp câu XÂY DỰNG CÁC CẶP CÂU HỎI - CÂU TRẢ LỜI CHẤT LƯỢNG CAO TỪ CÁC TRANG WEB... Tạp chí KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG32 Số 3 - 4 (CS.01) 2016 hỏi - câu trả lời chất lượng để phục vụ làm nguồn dữ liệu cho việc xây dựng các hệ thống hỏi đáp tự động. Các nghiên cứu tiếp theo chúng tôi sẽ thực hiện xây dựng các cặp câu hỏi - câu trả lời có ý nghĩa từ nhiều nguồn hỏi đáp cộng đồng khác nhau để làm phong phú thêm nguồn dữ liệu hỏi đáp phục vụ xây dựng các hệ thống hỏi đáp tự động. TÀI lIỆU THAm KHảO [1] Zeyi Wen, Rui Zhang, Kotagiri Ramamohanarao. Enabling Precision/Recall Preferences for Semi- supervised SVM Training, CIKM’14, pp. 421- 430, 2014. [2] Valentin Jijkoun and Maarten de Rijke. Retrieving answers from frequently asked questions pages on the web. In CIKM ’05, pp. 76-83, 2005. [3] Adam Berger, Rich Caruana, David Cohn, Dayne Freitag, and Vibhu Mittal. Bridging the lexical chasm: Statistical approaches to answer-finding. In Proceedings of SIGIR, pp. 192-199, 2000. [4] C. Shah, J. Pomerantz. Evaluating and predicting answer quality in community QA. In Proceedings of SIGIR, 2010. [5] H. Toba, Z. Y. Ming, M. Adriani, T. Chua. Discovering high quality answers in community question answering archives using a hierarchy of classifiers. Information Sciences 261, pp. 101- 115, 2014. [6] Massimo Nicosia1, Simone Filice, et al. QCRI: Answer Selection for Community Question Answering – Experiments for Arabic and English. In Proceedings of SemEval, pp. 203- 209, 2015. [7] J. Lou, Y. Fang, K.H. Lim, J.Z. Peng. Contributing high quantity and quality knowledge to online q&a communities. Journal of the American Society for Information Science and Technology 64(2), pp. 356-371, 2013. [8] H. Hu, B. Liu, B. Wang, M. Liu, X. Wang. Multimodal DBN for predicting high-quality answers in cQA portals. In Proceedings of ACL, pp. 843-847, 2013. [9] Mihai Surdeanu, Massimiliano Ciaramita, and Hugo Zaragoza. Learning to rank answers on large online QA collections. In Proceedings of ACL-08: HLT. Association for Computational Linguistics, pp. 719-727, 2008. [10] Zhiheng Huang, Marcus Thint, and Zengchang Qin. Question classification using head words and their hypernyms. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, (EMNLP ’08), pp. 927- 936, 2008. [11] Vijay Krishnan, Sujatha Das, and Soumen Chakrabarti. Enhanced answer type inference from questions using sequential models. In Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, HLT ’05, pp. 315- 322, 2005. [12] Babak Loni, Gijs van Tulder, Pascal Wiggers, David M.J. Tax, and Marco Loog. Question classification with weighted combination of lexical, syntactical and semantic features. In Proceedings of the 15th international conference of Text, Dialog and Speech, pp. 243-250, 2011. [13] T. Mikolov, K. Chen, G. Corrado, and J. Dean. (2013a) Efficient Estimation of Word Representations in Vector Space. CoRR, abs/1301.3781. [14] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean. (2013b) Distributed Representations of Words and Phrases and their Compositionality. CoRR, abs/1310.4546. [15] Vinay Pande, Tanmoy Mukherjee, Vasudeva Varma. Summarizing Answers For Community Question Answer Services, The International Conference of the German Society for Computational Linguistics and Language Technology, pp. 151-161, 2013. [16] Liang Yi, Jianxiang Wang, Man Lan. ECNU: Using Multiple Sources of CQA-based Information for Answer Selection and YES/NO Response Inference. In Proceedings of SemEval, pp. 236-241, 2015. [17] Xiaoqiang Zhou Baotian Hu Jiaxin Lin Yang Xiang Xiaolong Wang. ICRC-HIT: A Deep Learning based Comment Sequence Labeling System for Answer Selection Challenge. In Proceedings of SemEval, pp. 210-214, 2015. Nguyễn Văn Tú, Lê Anh Cường, Nguyễn Hà Nam Tạp chí KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Số 3 - 4 (CS.01) 2016 33 [18] Yonatan Belinkov, Mitra Mohtarami, Scott Cyphers, James Glass. VectorSLU: A Continuous Word Vector Approach to Answer Selection in Community Question Answering Systems. In Proceedings of SemEval, pp. 282-287, 2015. [19] Amin Heydari, Alashty Saeed Rahmani Meysam Roostaee Mostafa Fakhrahmad. Shiraz: A Proposed List Wise Approach to Answer Validation. In Proceedings of SemEval, pp. 220- 225, 2015. [20] Ngoc Phuoc An Vo, Simone Magnolini, Octavian Popescu. FBK-HLT: An Application of Semantic Textual Similarity for Answer Selection in Community Question Answering. In Proceedings of SemEval, pp. 231-235, 2015. [21] Ivan Zamanov, Nelly Hateva, et al. Voltron: A Hybrid System For Answer Validation Based On Lexical And Distance Features. In Proceedings of SemEval, pp. 242-246, 2015. CONsTRUCTING HIGH-qUAlITY qUesTION-ANsWeR pAIRs FROm COmmUNITY qUesTION ANsWeRING sITes Abstract: Community Question Answering (cQA) sites that contains a large amount of valuable information generated by the users. In cQA sites, users can post questions, answer other people’s questions and provide feedback to the questions / answers. In this paper, we use machine learning approach to constructing high-quality question - answer pairs from community question answering sites. These question - answer pairs will be used as the data source for the automatic question answering systems. We extracted important features from each question-answer thread as well as the users information and build classification model to identify the meaningful question - answer pairs. The experimental results on the data provided by SemEval 2015 showed that our proposal will bring good results. Keywords: Community Question Answering, classification, Support Vector Machines, Automatic Question Answering system. Nguyễn Văn Tú tốt nghiệp cử nhân tại khoa Toán trường Đại học Sư phạm Thái Nguyên ngành Sư phạm tin năm 2005, tốt nghiệp thạc sĩ tại trường Đại học Sư phạm Hà Nội năm 2009. ThS. Nguyễn Văn Tú hiện đang làm nghiên cứu sinh tại trường Đại học Công nghệ và làm việc tại trường Đại học Tây Bắc. Hướng nghiên cứu bao gồm: Các kỹ thuật học máy, xử lý ngôn ngữ tự nhiên. Lê Anh Cường tốt nghiệp cử nhân và thạc sĩ Công nghệ Thông tin tại trường Đại học Công nghệ, Đại học Quốc gia Hà Nội vào năm 1998 và 2001, và nhận bằng tiến sĩ tại Trường Khoa học thông tin - Viện Khoa học và Công nghệ tiên tiến Nhật Bản (Japan Advanced Institute of Science and Technology) vào năm 2007. Hiện nay, PGS. TS Lê Anh Cường đang là giảng viên tại khoa Công nghệ thông tin, trường Đại học Tôn Đức Thắng. Lĩnh vực nghiên cứu bao gồm: xử lý ngôn ngữ tự nhiên, khai phá văn bản, học máy. Nguyễn Hà Nam tốt nghiệp cử nhân tại trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội năm 2001, nhận bằng thạc sĩ tại trường Đại học Chungwoon, Hàn Quốc năm 2003 và tiến sĩ tại trường Đại học Hàng không, Hàn Quốc năm 2007. Hiện nay, PGS. TS Nguyễn Hà Nam đang là giảng viên tại khoa Công nghệ thông tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội. Lĩnh vực nghiên cứu bao gồm: trí tuệ nhân tạo, khai phá dữ liệu, học máy, phân tích thống kê, cơ sở dữ liệu, kho dữ liệu và OLAP.
File đính kèm:
- xay_dung_cac_cap_cau_hoi_cau_tra_loi_chat_luong_cao_tu_cac_t.pdf