Hợp nhất lọc cộng tác và lọc nội dung bằng phương pháp học bán giám sát
Tóm tắt: Hệ tư vấn là hệ thống tự động cung cấp thông tin phù hợp và gỡ bỏ thông tin không phù hợp cho mỗi người dùng. Hệ tư vấn được xây dựng dựa trên hai kỹ thuật lọc thông tin chính: lọc cộng tác và lọc nội dung. Lọc nội dung thực hiện hiệu quả trên các loại tài liệu văn bản nhưng gặp phải vấn đề trích chọn đặc trưng trên các dạng thông tin đa phương tiện. Lọc cộng tác thực hiện tốt trên tất cả các dạng thông tin nhưng gặp phải vấn đề dữ liệu thưa, người dùng mới và sản phẩm mới. Trong bài báo này, chúng tôi đề xuất một phương pháp hợp nhất giữa lọc cộng tác và lọc nội dung bằng phương pháp đồng huấn luyện. Kết quả thử nghiệm trên các bộ dữ liệu thực tế cho thấy phương pháp đề xuất tận dụng hiệu quả ưu điểm và hạn chế đáng kể nhược điểm của mỗi phương pháp lọc truyền thống
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Hợp nhất lọc cộng tác và lọc nội dung bằng phương pháp học bán giám sát
sản phẩm x có giá trị rix( ) lớn nhất tư vấn cho Để đánh giá hiệu quả của các phương pháp tư vấn kết người dùng i. hợp đề xuất, chúng tôi tiến hành thử nghiệm trên bộ dữ 8 Tập V-2, Số 18 (38), 12/2017 liệu thực về phim [14]. Phương pháp trình bày ở trên được toán mô tả ở trên. Với mỗi người dùng i thuộc tập dữ liệu đánh giá và so sánh với các phương pháp khác theo thủ tục kiểm tra, các đánh giá (đã có) của người dùng được chia mô tả dưới đây. làm hai phần Oi và Pi. Oi được coi là đã biết, trong khi đó Pi là đánh giá cần dự đoán từ dữ liệu huấn luyện và O [7, 8]. 1. Dữ liệu thử nghiệm i Sai số dự đoán MAEu với mỗi khách hàng u thuộc tập dữ Thuật toán học bán giám sát cho lọc kết hợp được liệu kiểm tra được tính bằng trung bình cộng sai số tuyệt thử nghiệm trên bộ dữ liệu MovieLens của nhóm nghiên đối giữa giá trị dự đoán và giá trị thực đối với tất cả mặt cứu GroupLens thuộc trường đại học Minnesota [14]. Tập hàng thuộc tập Pu, dữ liệu MovieLens có ba lựa chọn với kích thước khác 1 nhau lần lượt là: MovieLens 100 KB, MovieLens 1 MB MAEu = rˆuy ruy . (34) Pu − và MovieLens 10 MB. Trong đó, tập dữ liệu MovieLens y Pu | | Õ∈ 100 KB là tập con của tập MovieLens 1 MB. Tập dữ liệu Sai số dự đoán trên toàn tập dữ liệu kiểm tra, MAE, được MovieLens 1 MB cung cấp đầy đủ tập đặc trưng sản phẩm tính bằng trung bình cộng sai số dự đoán cho mỗi khách và người dùng kèm theo tập đánh giá người dùng. Tập dữ hàng thuộc Ute, liệu MovieLens 10 M tuy lớn nhưng không cung cấp tập đặc trưng người dùng và tập đặc trưng sản phẩm. Chính vì MAEu u U vậy, chúng tôi sử dụng tập dữ liêu MovieLens 1 M để tiến MAE = Õ∈ te . (35) U hành thử nghiệm cho phương pháp đề xuất. | te| Tập dữ liệu MovieLens gồm 1MB đánh giá của 6040 Giá trị MAE nhỏ thì phương pháp dự đoán có độ chính xác người dùng cho 3952 phim. Giá trị đánh giá được thực hiện cao [2, 7]. từ 1 đến 5. Mức độ thưa thớt dữ liệu đánh giá là 99.1%. Dữ liệu cụ thể được cung cấp trong các tệp tin sau [14]: 3. So sánh và đánh giá u.data: Tệp tin lưu trữ đầy đủ 1 MB đánh giá của 6040 ◦ Phương pháp học bán giám sát đề xuất trong mục 3 (ký người dùng cho 3952 phim. Mỗi người dùng đánh giá hiệu là Semi-Learning) được thử nghiệm và so sánh với ít nhất 20 phim. Mỗi hàng đều có cùng cấu trúc: user những phương pháp sau: id | item id | rating | timestamp. Phương pháp tư vấn cộng tác dựa vào người dùng u.info: Tệp tin lưu số lượng người dùng, số lượng sản ◦ ◦ sử dụng độ tương quan Pearson (ký hiệu là CF- phẩm, số lượng xếp hạng của tập dữ liệu. UserBased) [3, 9]. u.item: Tệp tin lưu thông tin về phim. ◦ Phương pháp tư vấn cộng tác dựa vào sản phẩm u.genre: Tệp tin lưu danh sách 19 thể loại phim khác ◦ ◦ sử dụng độ tương quan Pearson (ký hiệu là CF- nhau. Đây là tập đặc trưng nội dung sản phẩm được ItemBased) [3, 10]. dùng trong thử nghiệm phương pháp đề xuất. Ngoài ra, Phương pháp tư vấn nội dung dựa vào hồ sơ người ứng với mỗi phim chúng tôi tách trong IMDB (Internet ◦ dùng sử dụng độ tương quan Pearson (ký hiệu là CBF- Movie Database) [15] để lấy tập đặc trưng nước sản UserBased) [4]. xuất, hãng phim, đạo diễn, diễn viên chính để làm tập Phương pháp tư vấn nội dung dựa vào hồ sơ sản phẩm đặc trưng phim. ◦ sử dụng độ tương quan Pearson (ký hiệu là CBF- u.user: Tệp tin lưu thông tin về những người dùng. ◦ ItemBased) [5]. Các hàng có cấu trúc chung: user id | age | gender | Phương pháp tư vấn kết hợp dựa vào người dùng và tập occupation | zip code. user id được sử dụng trong tập ◦ đặc trưng sản phẩm sử dụng độ tương quan Pearson dữ liệu u.data. (ký hiệu là Hybrid-UserBased). Đây là phương pháp u.occupation: Tệp tin lưu danh sách các nghề nghiệp. ◦ tư vấn kết hợp dựa vào độ tương quan Pearson được Đây là tập đặc trưng nội dung người dùng được dùng đề xuất theo công thức (16). trong thử nghiệm phương pháp đề xuất. Phương pháp tư vấn kết hợp dựa theo sản phẩm và tập ◦ đặc trưng người dùng sử dụng độ tương quan Pearson 2. Phương pháp thử nghiệm (ký hiệu là Hybrid-ItemBased). Đây là phương pháp Trước tiên, toàn bộ dữ liệu thử nghiệm được chia thành tư vấn kết hợp dựa vào độ tương quan Pearson được đề xuất theo công thức (27). hai phần, một phần Utr được sử dụng làm dữ liệu huấn luyện, phần còn lại Ute được sử dụng để kiểm tra. Tập Utr Lấy ngẫu nhiên 4000 người dùng trong tập MovieLens chứa 80% đánh giá và tập Ute chứa 20% đánh giá. Dữ liệu làm dữ liệu huấn luyện. Chọn ngẫu nhiên 1000 người dùng huấn luyện được sử dụng để xây dựng mô hình theo thuật trong số còn lại để làm 4 tập dữ liệu kiểm tra (test1.inp, 9 Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông Bảng VIII UserBased và CF-UserBased cho lại giá trị MAE lần lượt là GIÁ TRỊ MAE CỦA CÁC PHƯƠNG PHÁP 0,865; 0,859; 0,855; 0,835 và 0,824; 0,817; 0,821; 0,813 so với 0,793; 0,792; 0,791; 0,702 của phương pháp Hybrid- Số lượng đánh giá biết trước UserBased. Phương pháp Hybrid-ItemBased cũng cho lại Phương pháp trong tập kiểm tra giá trị MAE thấp hơn so với phương pháp CBF-ItemBased 5 10 15 20 và CF-ItemBased. Với số lượng đánh giá biết trước trong tập CBF-USERBASED 0,865 0,859 0,855 0,835 kiểm tra là 5, 10, 15, 20 thì phương pháp CBF-ItemBased và CBF-ITEMBASED 0,894 0,883 0,875 0,845 CF-ItemBased cho lại giá trị MAE lần lượt là 0,894; 0,833; CF-USERBASED 0,824 0,817 0,821 0,813 0,875; 0,845 và 0,846; 0,841; 0,836; 0,815 so với 0,798; CF-ITEMBASED 0,846 0,841 0,836 0,815 0,788; 0,782; 0,695 của phương pháp Hybrid-ItemBased. HYBRID-USERBASED 0,793 0,792 0,791 0,702 Điều này chỉ có thể lý giải phương pháp tính toán mức độ HYBRID-ITEMBASED 0,798 0,788 0,782 0,695 tương tự giữa các cặp người dùng trên tập đánh giá người SEMI-LEARNING 0,672 0,629 0,617 0,585 dùng cùng các đặc trưng sản phẩm chính xác hơn so với phương pháp tính toán mức độ tương tự giữa các cặp người dùng chỉ dựa vào đánh giá người dùng hoặc hồ sơ người test2.inp, test3.inp, test4.inp). Đối với mỗi tập dữ liệu kiểm dùng. Phương pháp tính toán mức độ tương tự giữa các cặp tra, chúng tôi thực hiện loại bỏ ngẫu nhiên các đánh giá sản phẩm trên tập đánh giá sản phẩm cùng các đặc trưng sao cho số các đánh giá biết trước của mỗi người dùng người dùng chính xác hơn so với phương pháp tính toán đối với sản phẩm chỉ còn lại là 5, 10, 15 và 20 đánh giá. mức độ tương tự giữa các cặp sản phẩm chỉ dựa vào đánh Tập test1.inp, test2.inp, test3.inp có số đánh giá giá biết giá sản phẩm hoặc hồ sơ sản phẩm. trước lần lượt của mỗi người dùng là 5, 10, 15 tương ứng Phương pháp Semi-Learning cho lại giá trị MAE thấp với trường hợp dữ liệu huấn luyện thưa. Tập test4.inp có nhất ở tất cả các mức độ thưa thớt dữ liệu khác nhau. số đánh giá giá biết trước là 20 tương ứng với trường hợp Đối với tập dữ liệu kiểm tra chỉ có 5 đánh giá biết trước, dữ liệu huấn luyện tương đối đầy đủ. Chọn θ = 4, 8, 12, phương pháp Hybrid-UserBased và Hybrid-ItemBased cho 15 ứng với mỗi bộ dữ liệu kiểm tra (test1.inp, test2.inp, lại giá trị MAE lần lượt là 0,793; 0,798 so với 0,672 của test3.inp, test4.inp) theo thứ tự để xác định xác định wis, phương pháp Semi-Learning. Với tập dữ liệu kiểm tra chỉ νqx theo công thức (6), (10). Chọn θ1 = 4, 8, 12, 15 (cho có 10 đánh giá biết trước, phương pháp Hybrid-UserBased mỗi tập dữ liệu theo thứ tự), θ2 = 10 và α = 0, 9 (cho tất cả và Hybrid-ItemBased cho lại giá trị MAE lần lượt là 0,792; các tập dữ liệu kiểm tra) để xác định Si, uij , Ki theo công 0,788 so với 0,629 của phương pháp Semi-Learning. Với thức (12), (16), (21), và Sx, pxy, Kx theo công thức (23), tập dữ liệu kiểm tra chỉ có 15 đánh giá biết trước, phương (27), (32). Giá trị MAE trong Bảng VIII được lấy trung pháp Hybrid-UserBased và Hybrid-ItemBased cho lại giá bình của 10 lần thử nghiệm ngẫu nhiên. Giá trị MAE nhỏ trị MAE lần lượt là 0,791; 0,782 so với 0,617 của phương chứng tỏ phương pháp có kết quả dự đoán tốt [2, 7, 12]. pháp Semi-Learning. Đặc biệt, với tập dữ liệu kiểm tra có 20 đánh giá biết trước, phương pháp cho lại giá trị MAE là Kết quả trong Bảng VIII cho thấy phương pháp tư vấn 0,585. Điều này có thể khẳng định phương pháp xác định nội dung dựa vào hồ sơ người dùng và hồ sơ sản phẩm độ tương tự dựa trên tập không thưa đối với người dùng và cho lại giá trị MAE lớn nhất so với các phương pháp còn sản phẩm là hoàn toàn tin cậy. Phương pháp chuyển giao lại. Phương pháp tư vấn cộng tác dựa vào đánh giá người kết quả dự đoán giữa quá trình bán giám sát tập đánh giá dùng và đánh giá sản phẩm cho lại giá trị MAE nhỏ hơn người dùng cùng tập đặc trưng sản phẩm và tập đánh giá so với các phương pháp tư vấn theo nội dung. Cụ thể, ứng sản phẩm cùng tập đặc trưng người dùng đã hạn chế hiệu với số lượng đánh giá biết trước trong tập kiểm tra là 5, quả vấn đề dữ liệu thưa của các phương pháp lọc. 10, 15, 20, phương pháp CBF-UerBased và CBF-Itembased cho lại giá trị MAE lần lượt là 0,865; 0,859; 0,855; 0,835 và 0,894; 0,883; 0,876; 0,845 theo thứ tự. Trong khi đó, V. KẾT LUẬN phương pháp CF-UserBased và CF-ItemBased cho lại giá Bài báo đã đề xuất một mô hình hợp nhất giữa lọc cộng MAE trị lần lượt là 0,824; 0,817; 0,821; 0,813 và 0,846; tác và lọc theo nội dung bằng phương pháp học bán giám 0,841; 0,836; 0,815 theo thứ tự. Kết quả này hoàn toàn phù sát. Phương pháp được tiến hành bằng cách hợp nhất biểu hợp với những nghiên cứu trước đây [1–3]. diễn giá trị các đặc trưng sản phẩm vào lọc cộng tác để Phương pháp Hybrid-UserBased cho lại giá trị MAE thấp thống nhất các phương pháp dự đoán dựa vào người dùng. hơn nhiều so với phương pháp CBF-UserBased và CF- Sau đó, xây dựng phương pháp hợp nhất biểu diễn giá trị UserBased. Cụ thể ứng với số lượng đánh giá biết trước các đặc trưng người dùng vào lọc cộng tác để thống nhất các trong tập kiểm tra là 5, 10, 15, 20 thì phương pháp CBF- phương pháp dự đoán dựa vào sản phẩm. Cuối cùng, chúng 10 Tập V-2, Số 18 (38), 12/2017 tôi xây dựng phương pháp học bán giám sát để chuyển giao [10] B. Sarwar, G. Karypis, J. Konstan, and J. Riedl, “Item- kết quả dự đoán giữa hai phương pháp dự đoán theo người based collaborative filtering recommendation algorithms,” in Proceedings of the 10th International Conference on World dùng và dự đoán theo sản phẩm. Wide Web. ACM, 2001, pp. 285–295. Để phát huy ưu điểm và hạn chế nhược điểm của các [11] R. Burke, F. Vahedian, and B. Mobasher, “Hybrid rec- phương pháp lọc, chúng tôi đề xuất xây dựng hai kiểu bán ommendation in heterogeneous networks,” in International Conference on User Modeling, Adaptation, and Personaliza- giám sát: bán giám sát trên tập đánh giá người dùng cùng tion. Springer, 2014, pp. 49–60. tập đặc trưng sản phẩm và bán giám sát tập đánh giá sản [12] S. Raghavan, S. Gunasekar, and J. Ghosh, “Review quality phẩm cùng tập đặc trưng người dùng. Bán giám sát tập aware collaborative filtering,” in Proceedings of the sixth ACM Conference on Recommender systems. ACM, 2012, đánh giá người dùng cùng tập đặc trưng sản phẩm được pp. 123–130. tiến hành bằng cách xây dựng tập không thưa đối với mỗi [13] J. Wang, A. P. De Vries, and M. J. Reinders, “Unifying user- người dùng. Bán giám sát tập đánh giá sản phẩm cùng tập based and item-based collaborative filtering approaches by th đặc trưng người dùng được tiến hành bằng cách xác định similarity fusion,” in Proceedings of the 29 Annual Interna- tional ACM SIGIR Conference on Research and Development tập không thưa đối với mỗi sản phẩm. Dựa trên các tập in Information Retrieval. ACM, 2006, pp. 501–508. không thưa đối với mỗi người dùng và sản phẩm, chúng tôi [14] đã hạn chế được quá trình tính toán mức độ tương tự giữa [15] các cặp người dùng, tập láng giềng của của người dùng và sản phẩm để xác định các kết quả dự đoán chắc chắn. Trên cơ sở của hai quá trình bán giám sát đã được xây dựng, chúng tôi đề xuất xây dựng thuật toán học bán giám sát để chuyển giao kết quả dự đoán giữa các quá trình bán giám sát. Kết quả thực nghiệm trên bộ dữ liệu thực về phim cho Đỗ Thị Liên tốt nghiệp Đại học và nhận bằng Thạc sĩ tại Học viện Công nghệ Bưu thấy, phương pháp đề xuất cho lại kết quả dự đoán khá tốt chính Viễn thông vào các năm 2010 và trong trường hợp dữ liệu thưa. 2013. Hiện nay, tác giả là giảng viên tại Học viện Công nghệ Bưu chính Viễn thông. TÀI LIỆU THAM KHẢO Lĩnh vực nghiên cứu chính của tác giả là [1] M. D. Ekstrand, J. T. Riedl, J. A. Konstan et al., “Col- học máy ứng dụng trong lọc thông tin và laborative filtering recommender systems,” Foundations and Trends R in Human–Computer Interaction, vol. 4, no. 2, pp. phát triển ứng dụng đa phương tiện. 81–173, 2011. [2] R. Burke, “Hybrid recommender systems: Survey and ex- periments,” User Modeling and User-Adapted Interaction, vol. 12, no. 4, pp. 331–370, 2002. [3] X. Su and T. M. Khoshgoftaar, “A survey of collaborative filtering techniques,” Advances in Artificial Intelligence, vol. Nguyễn Duy Phương tốt nghiệp Đại học 2009, pp. 1–20, 2009. và nhận bằng Thạc sĩ tại Trường Đại học [4] T. Miranda, M. Claypool, A. Gokhale, T. Mir, P. Murnikov, Tổng hợp Hà Nội vào các năm 1988 và D. Netes, and M. Sartin, “Combining content-based and col- 1997. Năm 2010, ông bảo vệ luận án Tiến laborative filters in an online newspaper,” in In Proceedings of ACM SIGIR Workshop on Recommender Systems, 1999. sĩ tại Đại học Quốc gia Hà Nội. Hiện nay, [5] M. J. Pazzani, “A framework for collaborative, content-based ông là Phó Trưởng khoa Công nghệ Thông and demographic filtering,” Artificial Intelligence Review, tin, Học viện Công nghệ Bưu chính Viễn vol. 13, no. 5-6, pp. 393–408, 1999. thông. Lĩnh vực nghiên cứu chính của ông [6] A. Gunawardana and C. Meek, “A unified approach to là học máy ứng dụng trong lọc thông tin. building hybrid recommender systems,” in Proceedings of the third ACM Conference on Recommender Systems. ACM, 2009, pp. 117–124. [7] J. L. Herlocker, J. A. Konstan, L. G. Terveen, and J. T. Riedl, “Evaluating collaborative filtering recommender systems,” ACM Transactions on Information Systems (TOIS), vol. 22, Từ Minh Phương tốt nghiệp Trường Đại no. 1, pp. 5–53, 2004. [8] A. Gunawardana and G. Shani, “A survey of accuracy học Bách khoa Taskent năm 1993 và bảo evaluation metrics of recommendation tasks,” Journal of vệ Tiến sĩ tại Viện Hàn lâm Khoa học Machine Learning Research, vol. 10, no. Dec, pp. 2935– Uzbekistant, Taskent năm 1995. Hiện nay, 2962, 2009. ông là Phó Giáo sư, Trưởng Khoa Công [9] J. S. Breese, D. Heckerman, and C. Kadie, “Empirical nghệ Thông tin, Học viện Công nghệ Bưu analysis of predictive algorithms for collaborative filtering,” chính Viễn thông. Lĩnh vực nghiên cứu in Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence. Morgan Kaufmann Publishers Inc., chính của ông là trí tuệ nhân tạo, học máy, 1998, pp. 43–52. tin sinh học. 11
File đính kèm:
- hop_nhat_loc_cong_tac_va_loc_noi_dung_bang_phuong_phap_hoc_b.pdf