Hướng tiếp cận không toàn văn cho bài toán phân lớp tự động bản tin tiếng Việt
Tóm tắt—Trong bài báo này chúng tôi trình bày một
hướng tiếp cận phân lớp các bản tin tiếng Việt mà
không dựa trên nội dung toàn văn của bản tin đó.
Chúng tôi đề xuất sử dụng một trong hai thông tin: 1-
tóm tắt; 2- từ khóa đại diện, trong đó tóm tắt và từ khóa
đại diện được tạo tự động từ nội dung của văn bản, để
phân lớp văn bản. Chúng tôi sử dụng tổng cộng 2000
bản tin được tải về từ các trang báo điện tử như
vnexpress.net, vietnamnet.vn để kiểm thử giải pháp đề
xuất. Kết quả thực nghiệm cho thấy hướng tiếp cận
không toàn văn cho bài toán phân lớp văn bản là khả
thi và có thể cải tiến để ứng dụng thực tế
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Bạn đang xem tài liệu "Hướng tiếp cận không toàn văn cho bài toán phân lớp tự động bản tin tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Hướng tiếp cận không toàn văn cho bài toán phân lớp tự động bản tin tiếng Việt
ủa Công nghệ thông tin và truyền thông – Quy Nhơn, 23-24/11/2017 thuộc vào chủ đề đó. Trong phạm vi của nghiên cứu Đối với giải pháp rút trích từ khóa đại điện, trong này, chúng tôi đề xuất sử dụng độ đo Jaccard [14] để phạm vi của nghiên cứu này, với mỗi chủ đề chúng xác định độ tương đồng giữa hai tập hợp. Lý do chúng tôi chỉ chọn 30 từ khóa làm đại diện, một trong số các tôi chọn độ đo Jaccard là vì tập từ khóa đại diện cho lý do là vì các bản tin tải về từ các trang báo điện tử văn bản và tập từ khóa đại diện cho chủ đề đơn thuần có nội dung không nhiều. Bảng III sau đây mô tả danh chỉ là tập các phần tử không có trọng số. Độ đo sách 30 từ khóa đại diện cho mỗi chủ đề. Jaccard được định nghĩa như sau: (A∩B) |A∩B| J(A, B)= = BẢNG III. DANH SÁCH CÁC TỪ KHÓA ĐẠI DIỆN CHỦ ĐỀ (A∪B) |A|+|B|-|A∩B| Chủ đề Từ khóa III. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT Vi tính dùng; sản phẩm; máy; triệu; điện thoại; màn hình; bán; chip; thiết bị; việc làm; apple; QUẢ samsung; giá; máy tính; microsoft; usd; hãng; chạy; công nghệ; gb; đồng; hd; tablet; A. Dữ liệu thực nghiệm mỹ; công ty; lõi; thế giới; smartphone; so Theo hiểu biết của chúng tôi thì với lĩnh vực phân sánh. Kinh doanh giá; đồng; công ty; triệu; giảm; tháng; mức; lớp văn bản tiếng Việt chưa có bất kỳ một tập tài liệu usd; tăng; tỷ giá; bán; việc làm; cao; số; kiểm thử chuẩn nào được công bố. Để đánh giá cho doanh nghiệp; lớn; khoảng; thị trường; cho giải pháp đề xuất, chúng tôi đã tải về 2000 bản tin từ biết; đầu tư; nước; việt nam; đây; chưa; ngân các trang báo điện tử vnexpress.net và vietnamnet.vn. hàng; tới; hà nội; hàng hóa; thế giới; sáng. Các tài liệu này được chia đều trong 10 chủ đề, cụ thể Làm đẹp da; làm; giúp; công nghệ; vùng; phương như bảng I. pháp; điều trị; hiệu quả; làn da; mỡ; hay; cơ thể; sử dụng; gây mê; sản phẩm; bác sĩ; giảm; việc làm; cần; quá trình; đau; nhỏ; tạo; lông; BẢNG I. TẬP DỮ LIỆU KIỂM THỬ phẫu thuật; rf; khoảng; ánh sáng; triệt; đẹp. Chủ đề Số lượng tài liệu Kích thước (MB) Giáo dục thi; thí sinh; thpt; học sinh; gd&đt; trường; Vi tính 200 6.69 sở; bắc giang; tốt nghiệp; clip; làm; sinh viên; Kinh doanh 200 7.62 môn; thanh tra; ném; phòng; quay; hội đồng; việc; tỉnh; giải; tổ chức; đại học; kỳ; tỷ lệ; Làm đẹp 200 6.80 điểm; nói; chưa; xếp loại; cho biết. Giáo dục 200 7.34 Sức khỏe bệnh; bác sĩ; phát hiện; cho biết; đây; nghiên Sức khỏe 200 7.00 cứu; cao; y tế; bé; chị; điều trị; bệnh viện; Thể thao 200 7.06 khám; giảm; thấy; việc; trẻ; nguy cơ; giúp; Khoa học 200 6.94 đốt; cơ thể; tp hcm; bệnh nhân; trung quốc; Du lịch 200 7.25 phòng khám; tuổi; sở; kiểm tra; loại; tăng. Gia đình 200 7.70 Thể thao trận; đấu; cầu thủ; đội; thắng; hlv; việt nam; Ẩm thực 200 7.06 anh; bóng; tuyển; chơi; tới; giải; sân; euro; bảng; nhà; phút; tốt; đội tuyển; tây ban nha; Đối với phương pháp mà chúng tôi đề xuất thì số mùa; thua; chiến thắng; phan thanh hùng; lượng đặc trưng sử dụng cho bộ phân lớp chắc chắn vòng; lần; qua; việc; nói. sẽ giảm rất nhiều so với cách sử dụng nội dung toàn Khoa học khả năng; tới; mỹ; sử dụng; nghiên cứu; công nghệ; đưa; loại; thiết bị; nhóm; tạo; công ty; văn. Tuy nhiên thời gian thực hiện phân lớp cũng là chế tạo; robot; sản xuất; điện tử; điện; hoạt một vấn đề cần được quan tâm vì đây là giai đoạn thực động; thử nghiệm; đại học; giúp; pin; đường; hiện online. Thông tin về số lượng đặc trưng trung bay; cao; chuyên gia; cơ thể; tin; máy bay; bình, thời gian tạo tóm tắt trung bình, thời gian rút chống. trích từ khóa đại diện trung bình được cho ở bảng II. Du lịch du khách; du lịch; phòng; giá; khu vực; khách; đồng; biển; đây; chương trình; việt Các thông số này được ghi nhận khi thực nghiệm trên nam; nước; thành phố; hay; hà nội; khách máy tính cá nhân Asus X202E, CORE i3, 4GB RAM, sạn; đà nẵng; đêm; tp hcm; hạ long; nơi; giữa; WINDOWS 8.1. qua; điểm; thế giới; thư giãn; dịch vụ; nghỉ ngơi; thiên nhiên; vé. BẢNG II. ĐẶC TÍNH CÁC GIẢI PHÁP ĐỀ XUẤT Gia đình mình; làm; chồng; biết; nhà; vợ; thấy; anh; gia đình; mẹ; lần; gì; nói; việc; em; lúc; chị; Số lượng đặc trưng trung bình Thời gian thực hiện bà; trẻ; tuổi; chuyện; cần; muốn; cách; khác; trung bình (giây) vợ chồng; học; đàn ông; bố mẹ; con cái. Toàn văn Tóm tắt Từ khóa Tóm tắt Từ khóa Ẩm thực món; ăn; nhà hàng; ngon; thịt; thực khách; 462 123 30 1.4 1.2 nướng; loại; nước; chế biến; thưởng thức; hương vị; thơm; mang; vừa; dùng; đây; tươi; B. Đánh giá kết quả gia vị; thành; đồng; việt nam; vị; bếp; làm; Dù là hướng tiếp cận nào đi nữa thì chúng tôi cũng buffet; màu; khoảng; nguyên liệu; phong sử đụng 2/3 tập tài liệu cho giai đoạn huấn luyện và cách. 1/3 tập dữ liệu còn lại cho kiểm thử. Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông – Quy Nhơn, 23-24/11/2017 Bảng IV cho thấy giải pháp mà chúng tôi đề xuất được thực hiện trên mức câu nên đã giúp giữ lại phần là khả thi, đặc biệt là giải pháp dựa trên tóm tắt. nào ngữ nghĩa của văn bản; 3- Mô hình tóm tắt tự động văn bản mà chúng tôi đề xuất trong nghiên cứu BẢNG IV. KẾT QUẢ THỰC NGHIỆM TRÊN 10 CHỦ ĐỀ trước đây thật sự là khả thi. Điểm mấu chốt của bài Chủ đề Phân lớp Phân lớp Phân lớp toán tóm tắt là tính độ tương tự giữa các câu và tính dựa trên dựa trên từ dùng nội điểm xếp hạng các câu dựa trên mô hình đồ thị. Độ tóm tắt khóa dung toàn tương tự giữa các câu được tính thông qua độ đo (J48) văn (J48) Jaccard có chú trọng đến mối tương quan về độ dài Vi tính 84.5% 84% 79% của các câu. Thuật toán PageRank dùng để tính điểm Kinh doanh 72.9% 88% 66.5% xếp hạng các câu đưa vào tóm tắt là thuật toán xếp Làm đẹp 83.5% 94% 65% Giáo dục 85.9% 82% 86.5% hạng các trang web và đã chứng tỏ được tính khả thi Sức khỏe 77.5% 62% 63.5% khi được ứng dụng thành công trong các bộ máy tìm Thể thao 92% 82% 83.5% kiếm thông tin web. Một ưu điểm khác của mô hình Khoa học 84.5% 78% 70.9% tóm tắt tự động đó là quá trình tóm tắt không cần tập Du lịch 83% 72% 62% ngữ liệu huấn luyện, cũng như không cần xem xét tính Gia đình 75.5% 60% 74.7% ngữ nghĩa và cấu trúc ngữ pháp của câu và việc tóm Ẩm thực 85% 86% 84% tắt được áp dụng trên từng văn bản đơn. Trung bình 82.4% 79% 73.6% Với mô hình phân lớp dựa trên từ khóa thì kết quả bước đầu cũng thể hiện tính khả thi của giải pháp đề Chúng ta có thể dễ dàng nhận thấy rằng về độ xuất, tuy nhiên cũng bộ lộ một số điểm cần cải tiến. chính xác trung bình thì cả 2 giải pháp mà chúng tôi Trước tiên đối với mô-đun rút trích từ khóa đại diện đề xuất đều vượt trội so với phương pháp truyền cho văn bản, trong phạm vi nghiên cứu này chúng tôi thống. Nếu xét từng chủ đề thì giải pháp mà chúng tôi chưa quan tâm đến từ loại của từ khóa mà chỉ xử lý đề xuất chỉ thua giải pháp truyền thống ở chủ đề giáo loại bỏ từ dừng (stop words) ở giai đoạn tiền xử lý, dục, sức khỏe, thể thao, gia đình cho trường hợp đề điều này có thể dẫn đến nhiễu khi xây dựng tập từ xuất dựa trên từ khóa trong khi đó giải pháp dựa trên khóa đại diện cho chủ đề. Thiết nghĩ các từ loại có thể tóm tắt đều vượt so với giải pháp truyền thống. dùng để đại diện cho chủ đề đó là danh từ, động từ và tính từ. Bên cạnh đó, khi xây dựng tập từ khóa đại IV. KẾT LUẬN diện cho chủ đề, chúng tôi đã sử dụng đồng nhất một Trong bài báo này chúng tôi giới thiệu mô hình trọng số cho tất cả các từ và vì thế khi so khớp sự trùng phân lớp văn bản không dựa trên nội dung toàn văn lắp giữa hai tập từ khóa, chúng tôi chỉ có thể sử dụng của văn bản. Đây là một hướng tiếp cận mới và chưa độ đo Jaccard, điều này dẫn đến xác định sai chủ đề có nhiều nghiên cứu trên thế giới cũng như ở Việt cho văn bản khi từ khóa đại diện cho một văn bản có Nam vì đại bộ phận đều cho rằng khi thực hiện tóm có thể thuộc vào cùng lúc nhiều chủ đề (số từ khóa đại tắt văn bản thì thông tin dùng cho phân lớp đã mất đi diện cho chủ đề nhỏ, chỉ là 30, và chưa được gán trọng khá nhiều. Kết quả thực nghiệm cho thấy giải pháp số). Tập dữ liệu dùng cho huấn luyện và kiểm thử mà chúng tôi đề xuất có thể giảm đáng kể số đặc trưng chưa đủ lớn và có thời gian xuất bản nằm trong cho bộ phân lớp từ đó có thể giảm được độ phức tạp khoảng thời gian ngắn nên chưa có tính đại diện. Nhãn của hệ thống phân lớp. Kết quả mà chúng tôi thu được chủ đề bản tin là chủ đề của các trang báo điện tử vì từ nghiên cứu này là hết sức khả quan và thiết nghĩ là thế đôi khi cũng không thật chính xác dẫn đến nhiễu hoàn toàn khả thi khi ứng dụng vào thực tế. trong việc xây dựng từ khóa đại diện cho mỗi chủ đề. Kết quả khả quan của mô hình dựa trên tóm tắt có Mặc dù kết quả nghiên cứu bước đầu đã khẳng thể được lý giải bởi nhiều nguyên nhân: 1- Tóm tắt định mô hình đề xuất phân lớp văn bản không dựa vào của một văn bản về lý thuyết sẽ tóm lược được nội nội dung toàn văn là hoàn toàn khả thi và hoàn toàn dung cốt lõi truyền tải bởi văn bản. Một khi đã tóm có thể áp dụng vào thực tế, tuy nhiên kết quả ấy cũng lược được nội dung chính thì chủ đề của văn bản hoàn chỉ được thực nghiệm trên một tập chưa đủ lớn các tài toàn có thể xác định được. 2- Cách thức biểu diễn văn liệu và cũng chỉ mới kiểm thử với phương pháp phân bản đã thể hiện tốt nội dung, ngữ nghĩa của văn bản. lớp là cây quyết định. Chúng tôi thiết nghĩ giải pháp Thật vậy, trong nghiên cứu của mình, chúng tôi dựa dựa trên từ khóa có thể có kết quả tốt hơn nếu như chỉ trên “mô hình túi từ - bag of words” để biểu diễn nội giữ lại các loại từ là danh từ, động từ và tính từ. Hơn dung văn bản, phương pháp này có ưu điểm là cài đặt nữa thay vì đồng hóa trọng số cho tất cả các từ khóa đơn giản nhưng có hạn chế lớn là làm mất đi ngữ thì sẽ tốt hơn nếu mỗi từ khóa biểu diễn cho một chủ nghĩa của văn bản vì không quan tâm đến vị trí của từ đề với trọng số khác nhau. Khi đó các độ đo tương mà chỉ quan tâm đến tần suất xuất hiện của từ. Việc đồng khác có tính đến trọng số của các phần tử (ví dụ sử dụng thư viện vnTokenizer có khả năng nhận biết như cosine) sẽ là phù hợp hơn so với độ đo Jaccard. chính xác từ đơn và từ ghép đồng thời việc tạo tóm tắt Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông – Quy Nhơn, 23-24/11/2017 Một giải pháp khả dĩ cần được kiểm chứng trong [13] Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard nghiên cứu tiêp theo đó là kết hợp rút trích từ khóa đại Pfahringer, Peter Reutemann, Ian H. Witten (2009), “The WEKA Data Mining Software: An Update”, SIGKDD diện trên tóm tắt của văn bản để giảm tiểu nhiễu đến Explorations, Volume 11, Issue 1. mức tối thiểu. Và để kết quả nghiên cứu có tính thuyết [14] Jaccard P., “Étude comparative de la distribution florale dans phục hơn thì tập dữ liệu thực nghiệm cần có kích une portion des Alpes et des Jura”, Bulletin de la Société thước lớn hơn nữa (số lượng văn bản cũng như nội Vaudoise des Sciences Naturelles 37: 547–579. dung của mỗi văn bản). [15] Huỳnh Quyết Thắng, Đinh Thị Phương Thu, “Tiếp cận phương pháp học không giám sát trong học có giám sát với TÀI LIỆU THAM KHẢO bài toán phân lớp văn bản tiếng Việt và đề xuất cải tiến công thức tính độ liên quan giữa hai văn bản trong mô hình vector”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội [1] Fang Lu Qingyuan Bai, “A Refined Weighted K-Nearest 2005. Neighbours Algorithm for Text Categorization”, IEEE 2010. [16] Nguyễn Ngọc Bình, “Dùng lý thuyết tập thô và các kỹ thuật [2] Jingnian Chen, Houkuan Huang, Shengfeng Tian, Youli khác để phân loại, phân cụm văn bản tiếng Việt”, Kỷ yếu hội Qua, “Feature selection for text classification with Naïve”, thảo ICT.rda’04. Hà nội 2004. China Expert Systems with Applications, vol. 36, p. 5432– [17] Nguyễn Linh Giang, Nguyễn Duy Hải, “Mô hình thống kê 5435, 2009. hình vị tiếng Việt và ứng dụng”, Chuyên san “Các công trình [3] Peerapon Vateekul and Miroslav Kubat, “Fast Induction of nghiên cứu, triển khai Công nghệ Thông tin và Viễn thông, Multiple Decision Trees in Text Categorization From Large Tạp chí Bưu chính Viễn thông, số 1, tháng 7-1999, trang 61- Scale,Imbalanced, and Multi-label Data”, IEEE International 67. 1999. Conference on Data Mining, 2009. [18] Bùi Khánh Linh, Nguyễn Quỳnh Anh, Nguyễn Nhật An, [4] Cheng Hua Li , Soon Choel Park “An efficient document Nguyễn Thị Thu Hà, Đào Thanh Tĩnh, “Phân loại văn bản classification model using an improved back propagation tiếng việt dựa trên mô hình chủ đề và lý thuyết Naive Bayes”, neural network and singular value decomposition”, Expert Tạp chí Nghiên cứu Khoa học Công nghệ quân sự, Số 37, tập Systems with Applications, 3208–3215, 2009. 2, trang 89-95, 2015. [5] Joachims, T. “Text categorization with support vector [19] Trương Quốc Định, Nguyễn Quang Dũng, “Một giải pháp machines: learning with many relevant features”. In tóm tắt văn bản tiếng Việt tự động”, Kỷ yếu hội thảo khoa Proceedings of ECML-98, 10th European Conference on học quốc gia lần thứ XV, trang 233-238, Nhà xuất bản Khoa Machine Learning (Chemnitz, DE), pp. 137–142 1998. học. [6] Chen donghui, Liu zhijing, “A new text categorization method based on HMM and SVM”, 2010 2nd Int. Conf. Comput. Eng. Technol., IEEE (2010). [7] Giang-Son Nguyen, Xiaoying Gao, and Peter Andreae, “Vietnamese Document Representation and Classification”. In Proceedings of the 22nd Australasian Joint Conference on Advances in Artificial Intelligence (AI '09), Ann Nicholson and Xiaodong Li (Eds.). Springer-Verlag, Berlin, Heidelberg, 577-586. DOI= 642-10439-8_58 [8] Vu Thanh Nguyen, Nguyen Tri Hai, Nguyen Hoang Nghia, and Tuan Dinh Le, “A Term Weighting Scheme Approach for Vietnamese Text Classification”, In Proceedings of the Second International Conference on Future Data and Security Engineering - Volume 9446 (FDSE 2015), Tran Khanh Dang, Roland Wagner, Josef Küng, Nam Thoai, Makoto Takizawa, and Erich Neuhold (Eds.), Vol. 9446. Springer-Verlag New York, Inc., New York, NY, USA, 46- 53. DOI: [9] Phan Thi Ha, Nguyen Quynh Chi, “Automatic Classification for Vietnamese News”, Advances in Computer Science: an International Journal, Vol. 4, No. 4, p.126-135, 2015. [10] Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, Language and Automata Theory and Applications: Second International Conference, LATA 2008, Tarragona, Spain, March 13-19, 2008. [11] Blei, D., and Lafferty, J. 2009. “Topic models”. In Srivastava, A., and Sahami, M., eds., Text Mining: Theory and Applications. Taylor and Francis. [12] Matsuo, Y., Ishizuka, M., “Keyword extraction from a single document using word co-occurrence statistical information”, Int. Journal on AI Tools 13(1), 157-169 (2004). View publication stats
File đính kèm:
- huong_tiep_can_khong_toan_van_cho_bai_toan_phan_lop_tu_dong.pdf