Hướng tiếp cận không toàn văn cho bài toán phân lớp tự động bản tin tiếng Việt

Tóm tắt—Trong bài báo này chúng tôi trình bày một
hướng tiếp cận phân lớp các bản tin tiếng Việt mà
không dựa trên nội dung toàn văn của bản tin đó.
Chúng tôi đề xuất sử dụng một trong hai thông tin: 1-
tóm tắt; 2- từ khóa đại diện, trong đó tóm tắt và từ khóa
đại diện được tạo tự động từ nội dung của văn bản, để
phân lớp văn bản. Chúng tôi sử dụng tổng cộng 2000
bản tin được tải về từ các trang báo điện tử như
vnexpress.net, vietnamnet.vn để kiểm thử giải pháp đề
xuất. Kết quả thực nghiệm cho thấy hướng tiếp cận
không toàn văn cho bài toán phân lớp văn bản là khả
thi và có thể cải tiến để ứng dụng thực tế
Download
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
6 trang xuanhieu 19360
Download
Bạn đang xem tài liệu "Hướng tiếp cận không toàn văn cho bài toán phân lớp tự động bản tin tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Hướng tiếp cận không toàn văn cho bài toán phân lớp tự động bản tin tiếng Việt

ủa Công nghệ thông tin và truyền thông – Quy Nhơn, 23-24/11/2017 
thuộc vào chủ đề đó. Trong phạm vi của nghiên cứu Đối với giải pháp rút trích từ khóa đại điện, trong 
này, chúng tôi đề xuất sử dụng độ đo Jaccard [14] để phạm vi của nghiên cứu này, với mỗi chủ đề chúng 
xác định độ tương đồng giữa hai tập hợp. Lý do chúng tôi chỉ chọn 30 từ khóa làm đại diện, một trong số các 
tôi chọn độ đo Jaccard là vì tập từ khóa đại diện cho lý do là vì các bản tin tải về từ các trang báo điện tử 
văn bản và tập từ khóa đại diện cho chủ đề đơn thuần có nội dung không nhiều. Bảng III sau đây mô tả danh 
chỉ là tập các phần tử không có trọng số. Độ đo sách 30 từ khóa đại diện cho mỗi chủ đề. 
Jaccard được định nghĩa như sau: 
 (A∩B) |A∩B|
J(A, B)= = BẢNG III. DANH SÁCH CÁC TỪ KHÓA ĐẠI DIỆN CHỦ ĐỀ 
 (A∪B) |A|+|B|-|A∩B|
 Chủ đề Từ khóa 
 III. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT Vi tính dùng; sản phẩm; máy; triệu; điện thoại; màn 
 hình; bán; chip; thiết bị; việc làm; apple; 
 QUẢ samsung; giá; máy tính; microsoft; usd; 
 hãng; chạy; công nghệ; gb; đồng; hd; tablet; 
A. Dữ liệu thực nghiệm mỹ; công ty; lõi; thế giới; smartphone; so 
 Theo hiểu biết của chúng tôi thì với lĩnh vực phân sánh. 
 Kinh doanh giá; đồng; công ty; triệu; giảm; tháng; mức; 
lớp văn bản tiếng Việt chưa có bất kỳ một tập tài liệu usd; tăng; tỷ giá; bán; việc làm; cao; số; 
kiểm thử chuẩn nào được công bố. Để đánh giá cho doanh nghiệp; lớn; khoảng; thị trường; cho 
giải pháp đề xuất, chúng tôi đã tải về 2000 bản tin từ biết; đầu tư; nước; việt nam; đây; chưa; ngân 
các trang báo điện tử vnexpress.net và vietnamnet.vn. hàng; tới; hà nội; hàng hóa; thế giới; sáng. 
Các tài liệu này được chia đều trong 10 chủ đề, cụ thể Làm đẹp da; làm; giúp; công nghệ; vùng; phương 
như bảng I. pháp; điều trị; hiệu quả; làn da; mỡ; hay; cơ 
 thể; sử dụng; gây mê; sản phẩm; bác sĩ; giảm; 
 việc làm; cần; quá trình; đau; nhỏ; tạo; lông; 
 BẢNG I. TẬP DỮ LIỆU KIỂM THỬ phẫu thuật; rf; khoảng; ánh sáng; triệt; đẹp. 
 Chủ đề Số lượng tài liệu Kích thước (MB) Giáo dục thi; thí sinh; thpt; học sinh; gd&đt; trường; 
 Vi tính 200 6.69 sở; bắc giang; tốt nghiệp; clip; làm; sinh viên; 
 Kinh doanh 200 7.62 môn; thanh tra; ném; phòng; quay; hội đồng; 
 việc; tỉnh; giải; tổ chức; đại học; kỳ; tỷ lệ; 
 Làm đẹp 200 6.80 
 điểm; nói; chưa; xếp loại; cho biết. 
 Giáo dục 200 7.34 
 Sức khỏe bệnh; bác sĩ; phát hiện; cho biết; đây; nghiên 
 Sức khỏe 200 7.00 
 cứu; cao; y tế; bé; chị; điều trị; bệnh viện; 
 Thể thao 200 7.06 khám; giảm; thấy; việc; trẻ; nguy cơ; giúp; 
 Khoa học 200 6.94 đốt; cơ thể; tp hcm; bệnh nhân; trung quốc; 
 Du lịch 200 7.25 phòng khám; tuổi; sở; kiểm tra; loại; tăng. 
 Gia đình 200 7.70 Thể thao trận; đấu; cầu thủ; đội; thắng; hlv; việt nam; 
 Ẩm thực 200 7.06 anh; bóng; tuyển; chơi; tới; giải; sân; euro; 
 bảng; nhà; phút; tốt; đội tuyển; tây ban nha; 
 Đối với phương pháp mà chúng tôi đề xuất thì số mùa; thua; chiến thắng; phan thanh hùng; 
lượng đặc trưng sử dụng cho bộ phân lớp chắc chắn vòng; lần; qua; việc; nói. 
sẽ giảm rất nhiều so với cách sử dụng nội dung toàn Khoa học khả năng; tới; mỹ; sử dụng; nghiên cứu; công 
 nghệ; đưa; loại; thiết bị; nhóm; tạo; công ty; 
văn. Tuy nhiên thời gian thực hiện phân lớp cũng là chế tạo; robot; sản xuất; điện tử; điện; hoạt 
một vấn đề cần được quan tâm vì đây là giai đoạn thực động; thử nghiệm; đại học; giúp; pin; đường; 
hiện online. Thông tin về số lượng đặc trưng trung bay; cao; chuyên gia; cơ thể; tin; máy bay; 
bình, thời gian tạo tóm tắt trung bình, thời gian rút chống. 
trích từ khóa đại diện trung bình được cho ở bảng II. Du lịch du khách; du lịch; phòng; giá; khu vực; 
 khách; đồng; biển; đây; chương trình; việt 
Các thông số này được ghi nhận khi thực nghiệm trên nam; nước; thành phố; hay; hà nội; khách 
máy tính cá nhân Asus X202E, CORE i3, 4GB RAM, sạn; đà nẵng; đêm; tp hcm; hạ long; nơi; giữa; 
WINDOWS 8.1. qua; điểm; thế giới; thư giãn; dịch vụ; nghỉ 
 ngơi; thiên nhiên; vé. 
 BẢNG II. ĐẶC TÍNH CÁC GIẢI PHÁP ĐỀ XUẤT Gia đình mình; làm; chồng; biết; nhà; vợ; thấy; anh; 
 gia đình; mẹ; lần; gì; nói; việc; em; lúc; chị; 
 Số lượng đặc trưng trung bình Thời gian thực hiện bà; trẻ; tuổi; chuyện; cần; muốn; cách; khác; 
 trung bình (giây) vợ chồng; học; đàn ông; bố mẹ; con cái. 
 Toàn văn Tóm tắt Từ khóa Tóm tắt Từ khóa Ẩm thực món; ăn; nhà hàng; ngon; thịt; thực khách; 
 462 123 30 1.4 1.2 nướng; loại; nước; chế biến; thưởng thức; 
 hương vị; thơm; mang; vừa; dùng; đây; tươi; 
B. Đánh giá kết quả gia vị; thành; đồng; việt nam; vị; bếp; làm; 
 Dù là hướng tiếp cận nào đi nữa thì chúng tôi cũng buffet; màu; khoảng; nguyên liệu; phong 
sử đụng 2/3 tập tài liệu cho giai đoạn huấn luyện và cách. 
1/3 tập dữ liệu còn lại cho kiểm thử. 
 Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông – Quy Nhơn, 23-24/11/2017 
 Bảng IV cho thấy giải pháp mà chúng tôi đề xuất được thực hiện trên mức câu nên đã giúp giữ lại phần 
là khả thi, đặc biệt là giải pháp dựa trên tóm tắt. nào ngữ nghĩa của văn bản; 3- Mô hình tóm tắt tự 
 động văn bản mà chúng tôi đề xuất trong nghiên cứu 
 BẢNG IV. KẾT QUẢ THỰC NGHIỆM TRÊN 10 CHỦ ĐỀ trước đây thật sự là khả thi. Điểm mấu chốt của bài 
 Chủ đề Phân lớp Phân lớp Phân lớp toán tóm tắt là tính độ tương tự giữa các câu và tính 
 dựa trên dựa trên từ dùng nội điểm xếp hạng các câu dựa trên mô hình đồ thị. Độ 
 tóm tắt khóa dung toàn tương tự giữa các câu được tính thông qua độ đo 
 (J48) văn (J48) Jaccard có chú trọng đến mối tương quan về độ dài 
 Vi tính 84.5% 84% 79% của các câu. Thuật toán PageRank dùng để tính điểm 
 Kinh doanh 72.9% 88% 66.5% xếp hạng các câu đưa vào tóm tắt là thuật toán xếp 
 Làm đẹp 83.5% 94% 65% 
 Giáo dục 85.9% 82% 86.5% hạng các trang web và đã chứng tỏ được tính khả thi 
 Sức khỏe 77.5% 62% 63.5% khi được ứng dụng thành công trong các bộ máy tìm 
 Thể thao 92% 82% 83.5% kiếm thông tin web. Một ưu điểm khác của mô hình 
 Khoa học 84.5% 78% 70.9% tóm tắt tự động đó là quá trình tóm tắt không cần tập 
 Du lịch 83% 72% 62% ngữ liệu huấn luyện, cũng như không cần xem xét tính 
 Gia đình 75.5% 60% 74.7% ngữ nghĩa và cấu trúc ngữ pháp của câu và việc tóm 
 Ẩm thực 85% 86% 84% tắt được áp dụng trên từng văn bản đơn. 
 Trung bình 82.4% 79% 73.6% Với mô hình phân lớp dựa trên từ khóa thì kết quả 
 bước đầu cũng thể hiện tính khả thi của giải pháp đề 
 Chúng ta có thể dễ dàng nhận thấy rằng về độ xuất, tuy nhiên cũng bộ lộ một số điểm cần cải tiến. 
chính xác trung bình thì cả 2 giải pháp mà chúng tôi Trước tiên đối với mô-đun rút trích từ khóa đại diện 
đề xuất đều vượt trội so với phương pháp truyền cho văn bản, trong phạm vi nghiên cứu này chúng tôi 
thống. Nếu xét từng chủ đề thì giải pháp mà chúng tôi chưa quan tâm đến từ loại của từ khóa mà chỉ xử lý 
đề xuất chỉ thua giải pháp truyền thống ở chủ đề giáo loại bỏ từ dừng (stop words) ở giai đoạn tiền xử lý, 
dục, sức khỏe, thể thao, gia đình cho trường hợp đề điều này có thể dẫn đến nhiễu khi xây dựng tập từ 
xuất dựa trên từ khóa trong khi đó giải pháp dựa trên khóa đại diện cho chủ đề. Thiết nghĩ các từ loại có thể 
tóm tắt đều vượt so với giải pháp truyền thống. dùng để đại diện cho chủ đề đó là danh từ, động từ và 
 tính từ. Bên cạnh đó, khi xây dựng tập từ khóa đại 
 IV. KẾT LUẬN 
 diện cho chủ đề, chúng tôi đã sử dụng đồng nhất một 
 Trong bài báo này chúng tôi giới thiệu mô hình trọng số cho tất cả các từ và vì thế khi so khớp sự trùng 
phân lớp văn bản không dựa trên nội dung toàn văn lắp giữa hai tập từ khóa, chúng tôi chỉ có thể sử dụng 
của văn bản. Đây là một hướng tiếp cận mới và chưa độ đo Jaccard, điều này dẫn đến xác định sai chủ đề 
có nhiều nghiên cứu trên thế giới cũng như ở Việt cho văn bản khi từ khóa đại diện cho một văn bản có 
Nam vì đại bộ phận đều cho rằng khi thực hiện tóm có thể thuộc vào cùng lúc nhiều chủ đề (số từ khóa đại 
tắt văn bản thì thông tin dùng cho phân lớp đã mất đi diện cho chủ đề nhỏ, chỉ là 30, và chưa được gán trọng 
khá nhiều. Kết quả thực nghiệm cho thấy giải pháp số). Tập dữ liệu dùng cho huấn luyện và kiểm thử 
mà chúng tôi đề xuất có thể giảm đáng kể số đặc trưng chưa đủ lớn và có thời gian xuất bản nằm trong 
cho bộ phân lớp từ đó có thể giảm được độ phức tạp khoảng thời gian ngắn nên chưa có tính đại diện. Nhãn 
của hệ thống phân lớp. Kết quả mà chúng tôi thu được chủ đề bản tin là chủ đề của các trang báo điện tử vì 
từ nghiên cứu này là hết sức khả quan và thiết nghĩ là thế đôi khi cũng không thật chính xác dẫn đến nhiễu 
hoàn toàn khả thi khi ứng dụng vào thực tế. trong việc xây dựng từ khóa đại diện cho mỗi chủ đề. 
 Kết quả khả quan của mô hình dựa trên tóm tắt có Mặc dù kết quả nghiên cứu bước đầu đã khẳng 
thể được lý giải bởi nhiều nguyên nhân: 1- Tóm tắt định mô hình đề xuất phân lớp văn bản không dựa vào 
của một văn bản về lý thuyết sẽ tóm lược được nội nội dung toàn văn là hoàn toàn khả thi và hoàn toàn 
dung cốt lõi truyền tải bởi văn bản. Một khi đã tóm có thể áp dụng vào thực tế, tuy nhiên kết quả ấy cũng 
lược được nội dung chính thì chủ đề của văn bản hoàn chỉ được thực nghiệm trên một tập chưa đủ lớn các tài 
toàn có thể xác định được. 2- Cách thức biểu diễn văn liệu và cũng chỉ mới kiểm thử với phương pháp phân 
bản đã thể hiện tốt nội dung, ngữ nghĩa của văn bản. lớp là cây quyết định. Chúng tôi thiết nghĩ giải pháp 
Thật vậy, trong nghiên cứu của mình, chúng tôi dựa dựa trên từ khóa có thể có kết quả tốt hơn nếu như chỉ 
trên “mô hình túi từ - bag of words” để biểu diễn nội giữ lại các loại từ là danh từ, động từ và tính từ. Hơn 
dung văn bản, phương pháp này có ưu điểm là cài đặt nữa thay vì đồng hóa trọng số cho tất cả các từ khóa 
đơn giản nhưng có hạn chế lớn là làm mất đi ngữ thì sẽ tốt hơn nếu mỗi từ khóa biểu diễn cho một chủ 
nghĩa của văn bản vì không quan tâm đến vị trí của từ đề với trọng số khác nhau. Khi đó các độ đo tương 
mà chỉ quan tâm đến tần suất xuất hiện của từ. Việc đồng khác có tính đến trọng số của các phần tử (ví dụ 
sử dụng thư viện vnTokenizer có khả năng nhận biết như cosine) sẽ là phù hợp hơn so với độ đo Jaccard. 
chính xác từ đơn và từ ghép đồng thời việc tạo tóm tắt 
 Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông – Quy Nhơn, 23-24/11/2017 
 Một giải pháp khả dĩ cần được kiểm chứng trong [13] Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard 
 nghiên cứu tiêp theo đó là kết hợp rút trích từ khóa đại Pfahringer, Peter Reutemann, Ian H. Witten (2009), “The 
 WEKA Data Mining Software: An Update”, SIGKDD 
 diện trên tóm tắt của văn bản để giảm tiểu nhiễu đến Explorations, Volume 11, Issue 1. 
 mức tối thiểu. Và để kết quả nghiên cứu có tính thuyết [14] Jaccard P., “Étude comparative de la distribution florale dans 
 phục hơn thì tập dữ liệu thực nghiệm cần có kích une portion des Alpes et des Jura”, Bulletin de la Société 
 thước lớn hơn nữa (số lượng văn bản cũng như nội Vaudoise des Sciences Naturelles 37: 547–579. 
 dung của mỗi văn bản). [15] Huỳnh Quyết Thắng, Đinh Thị Phương Thu, “Tiếp cận 
 phương pháp học không giám sát trong học có giám sát với 
 TÀI LIỆU THAM KHẢO bài toán phân lớp văn bản tiếng Việt và đề xuất cải tiến công 
 thức tính độ liên quan giữa hai văn bản trong mô hình 
 vector”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 
 [1] Fang Lu Qingyuan Bai, “A Refined Weighted K-Nearest 2005. 
 Neighbours Algorithm for Text Categorization”, IEEE 2010. 
 [16] Nguyễn Ngọc Bình, “Dùng lý thuyết tập thô và các kỹ thuật 
 [2] Jingnian Chen, Houkuan Huang, Shengfeng Tian, Youli khác để phân loại, phân cụm văn bản tiếng Việt”, Kỷ yếu hội 
 Qua, “Feature selection for text classification with Naïve”, thảo ICT.rda’04. Hà nội 2004. 
 China Expert Systems with Applications, vol. 36, p. 5432– [17] Nguyễn Linh Giang, Nguyễn Duy Hải, “Mô hình thống kê 
 5435, 2009. 
 hình vị tiếng Việt và ứng dụng”, Chuyên san “Các công trình 
 [3] Peerapon Vateekul and Miroslav Kubat, “Fast Induction of nghiên cứu, triển khai Công nghệ Thông tin và Viễn thông, 
 Multiple Decision Trees in Text Categorization From Large Tạp chí Bưu chính Viễn thông, số 1, tháng 7-1999, trang 61-
 Scale,Imbalanced, and Multi-label Data”, IEEE International 67. 1999. 
 Conference on Data Mining, 2009. 
 [18] Bùi Khánh Linh, Nguyễn Quỳnh Anh, Nguyễn Nhật An, 
 [4] Cheng Hua Li , Soon Choel Park “An efficient document Nguyễn Thị Thu Hà, Đào Thanh Tĩnh, “Phân loại văn bản 
 classification model using an improved back propagation tiếng việt dựa trên mô hình chủ đề và lý thuyết Naive Bayes”, 
 neural network and singular value decomposition”, Expert Tạp chí Nghiên cứu Khoa học Công nghệ quân sự, Số 37, tập 
 Systems with Applications, 3208–3215, 2009. 2, trang 89-95, 2015. 
 [5] Joachims, T. “Text categorization with support vector [19] Trương Quốc Định, Nguyễn Quang Dũng, “Một giải pháp 
 machines: learning with many relevant features”. In tóm tắt văn bản tiếng Việt tự động”, Kỷ yếu hội thảo khoa 
 Proceedings of ECML-98, 10th European Conference on học quốc gia lần thứ XV, trang 233-238, Nhà xuất bản Khoa 
 Machine Learning (Chemnitz, DE), pp. 137–142 1998. học. 
 [6] Chen donghui, Liu zhijing, “A new text categorization 
 method based on HMM and SVM”, 2010 2nd Int. Conf. 
 Comput. Eng. Technol., IEEE (2010). 
 [7] Giang-Son Nguyen, Xiaoying Gao, and Peter Andreae, 
 “Vietnamese Document Representation and Classification”. 
 In Proceedings of the 22nd Australasian Joint Conference on 
 Advances in Artificial Intelligence (AI '09), Ann Nicholson 
 and Xiaodong Li (Eds.). Springer-Verlag, Berlin, 
 Heidelberg, 577-586. DOI=
 642-10439-8_58 
 [8] Vu Thanh Nguyen, Nguyen Tri Hai, Nguyen Hoang Nghia, 
 and Tuan Dinh Le, “A Term Weighting Scheme Approach 
 for Vietnamese Text Classification”, In Proceedings of the 
 Second International Conference on Future Data and 
 Security Engineering - Volume 9446 (FDSE 2015), Tran 
 Khanh Dang, Roland Wagner, Josef Küng, Nam Thoai, 
 Makoto Takizawa, and Erich Neuhold (Eds.), Vol. 9446. 
 Springer-Verlag New York, Inc., New York, NY, USA, 46-
 53. DOI:  
 [9] Phan Thi Ha, Nguyen Quynh Chi, “Automatic Classification 
 for Vietnamese News”, Advances in Computer Science: an 
 International Journal, Vol. 4, No. 4, p.126-135, 2015. 
 [10] Le Hong Phuong, Nguyen Thi Minh Huyen, Azim 
 Roussanaly, Ho Tuong Vinh, “A Hybrid Approach to Word 
 Segmentation of Vietnamese Texts”, Language and 
 Automata Theory and Applications: Second International 
 Conference, LATA 2008, Tarragona, Spain, March 13-19, 
 2008. 
 [11] Blei, D., and Lafferty, J. 2009. “Topic models”. In 
 Srivastava, A., and Sahami, M., eds., Text Mining: Theory 
 and Applications. Taylor and Francis. 
 [12] Matsuo, Y., Ishizuka, M., “Keyword extraction from a single 
 document using word co-occurrence statistical information”, 
 Int. Journal on AI Tools 13(1), 157-169 (2004). 
View publication stats
File đính kèm:
huong_tiep_can_khong_toan_van_cho_bai_toan_phan_lop_tu_dong.pdf