Hợp nhất lọc cộng tác và lọc nội dung bằng phương pháp học bán giám sát

Tóm tắt: Hệ tư vấn là hệ thống tự động cung cấp thông tin phù hợp và gỡ bỏ thông tin không phù hợp cho mỗi người dùng. Hệ tư vấn được xây dựng dựa trên hai kỹ thuật lọc thông tin chính: lọc cộng tác và lọc nội dung. Lọc nội dung thực hiện hiệu quả trên các loại tài liệu văn bản nhưng gặp phải vấn đề trích chọn đặc trưng trên các dạng thông tin đa phương tiện. Lọc cộng tác thực hiện tốt trên tất cả các dạng thông tin nhưng gặp phải vấn đề dữ liệu thưa, người dùng mới và sản phẩm mới. Trong bài báo này, chúng tôi đề xuất một phương pháp hợp nhất giữa lọc cộng tác và lọc nội dung bằng phương pháp đồng huấn luyện. Kết quả thử nghiệm trên các bộ dữ liệu thực tế cho thấy phương pháp đề xuất tận dụng hiệu quả ưu điểm và hạn chế đáng kể nhược điểm của mỗi phương pháp lọc truyền thống

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

11 trang xuanhieu 14280

Download

Bạn đang xem 10 trang mẫu của tài liệu "Hợp nhất lọc cộng tác và lọc nội dung bằng phương pháp học bán giám sát", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Hợp nhất lọc cộng tác và lọc nội dung bằng phương pháp học bán giám sát

sản phẩm x có giá trị rix( ) lớn nhất tư vấn cho Để đánh giá hiệu quả của các phương pháp tư vấn kết
người dùng i. hợp đề xuất, chúng tôi tiến hành thử nghiệm trên bộ dữ
8
Tập V-2, Số 18 (38), 12/2017
liệu thực về phim [14]. Phương pháp trình bày ở trên được toán mô tả ở trên. Với mỗi người dùng i thuộc tập dữ liệu
đánh giá và so sánh với các phương pháp khác theo thủ tục kiểm tra, các đánh giá (đã có) của người dùng được chia
mô tả dưới đây. làm hai phần Oi và Pi. Oi được coi là đã biết, trong khi
đó Pi là đánh giá cần dự đoán từ dữ liệu huấn luyện và
O [7, 8].
1. Dữ liệu thử nghiệm i
Sai số dự đoán MAEu với mỗi khách hàng u thuộc tập dữ
Thuật toán học bán giám sát cho lọc kết hợp được
liệu kiểm tra được tính bằng trung bình cộng sai số tuyệt
thử nghiệm trên bộ dữ liệu MovieLens của nhóm nghiên
đối giữa giá trị dự đoán và giá trị thực đối với tất cả mặt
cứu GroupLens thuộc trường đại học Minnesota [14]. Tập
hàng thuộc tập Pu,
dữ liệu MovieLens có ba lựa chọn với kích thước khác
1
nhau lần lượt là: MovieLens 100 KB, MovieLens 1 MB MAEu = rˆuy ruy . (34)
Pu −
và MovieLens 10 MB. Trong đó, tập dữ liệu MovieLens y Pu
| | Õ∈
100 KB là tập con của tập MovieLens 1 MB. Tập dữ liệu
Sai số dự đoán trên toàn tập dữ liệu kiểm tra, MAE, được
MovieLens 1 MB cung cấp đầy đủ tập đặc trưng sản phẩm
tính bằng trung bình cộng sai số dự đoán cho mỗi khách
và người dùng kèm theo tập đánh giá người dùng. Tập dữ
hàng thuộc Ute,
liệu MovieLens 10 M tuy lớn nhưng không cung cấp tập
đặc trưng người dùng và tập đặc trưng sản phẩm. Chính vì MAEu
u U
vậy, chúng tôi sử dụng tập dữ liêu MovieLens 1 M để tiến MAE = Õ∈ te . (35)
U
hành thử nghiệm cho phương pháp đề xuất. | te|
Tập dữ liệu MovieLens gồm 1MB đánh giá của 6040 Giá trị MAE nhỏ thì phương pháp dự đoán có độ chính xác
người dùng cho 3952 phim. Giá trị đánh giá được thực hiện cao [2, 7].
từ 1 đến 5. Mức độ thưa thớt dữ liệu đánh giá là 99.1%.
Dữ liệu cụ thể được cung cấp trong các tệp tin sau [14]: 3. So sánh và đánh giá
u.data: Tệp tin lưu trữ đầy đủ 1 MB đánh giá của 6040
◦ Phương pháp học bán giám sát đề xuất trong mục 3 (ký
người dùng cho 3952 phim. Mỗi người dùng đánh giá hiệu là Semi-Learning) được thử nghiệm và so sánh với
ít nhất 20 phim. Mỗi hàng đều có cùng cấu trúc: user những phương pháp sau:
id | item id | rating | timestamp.
Phương pháp tư vấn cộng tác dựa vào người dùng
u.info: Tệp tin lưu số lượng người dùng, số lượng sản ◦
◦ sử dụng độ tương quan Pearson (ký hiệu là CF-
phẩm, số lượng xếp hạng của tập dữ liệu.
UserBased) [3, 9].
u.item: Tệp tin lưu thông tin về phim.
◦ Phương pháp tư vấn cộng tác dựa vào sản phẩm
u.genre: Tệp tin lưu danh sách 19 thể loại phim khác ◦
◦ sử dụng độ tương quan Pearson (ký hiệu là CF-
nhau. Đây là tập đặc trưng nội dung sản phẩm được
ItemBased) [3, 10].
dùng trong thử nghiệm phương pháp đề xuất. Ngoài ra,
Phương pháp tư vấn nội dung dựa vào hồ sơ người
ứng với mỗi phim chúng tôi tách trong IMDB (Internet ◦
dùng sử dụng độ tương quan Pearson (ký hiệu là CBF-
Movie Database) [15] để lấy tập đặc trưng nước sản
UserBased) [4].
xuất, hãng phim, đạo diễn, diễn viên chính để làm tập
Phương pháp tư vấn nội dung dựa vào hồ sơ sản phẩm
đặc trưng phim. ◦
sử dụng độ tương quan Pearson (ký hiệu là CBF-
u.user: Tệp tin lưu thông tin về những người dùng.
◦ ItemBased) [5].
Các hàng có cấu trúc chung: user id | age | gender |
Phương pháp tư vấn kết hợp dựa vào người dùng và tập
occupation | zip code. user id được sử dụng trong tập ◦
đặc trưng sản phẩm sử dụng độ tương quan Pearson
dữ liệu u.data.
(ký hiệu là Hybrid-UserBased). Đây là phương pháp
u.occupation: Tệp tin lưu danh sách các nghề nghiệp.
◦ tư vấn kết hợp dựa vào độ tương quan Pearson được
Đây là tập đặc trưng nội dung người dùng được dùng
đề xuất theo công thức (16).
trong thử nghiệm phương pháp đề xuất.
Phương pháp tư vấn kết hợp dựa theo sản phẩm và tập
◦
đặc trưng người dùng sử dụng độ tương quan Pearson
2. Phương pháp thử nghiệm (ký hiệu là Hybrid-ItemBased). Đây là phương pháp
Trước tiên, toàn bộ dữ liệu thử nghiệm được chia thành tư vấn kết hợp dựa vào độ tương quan Pearson được
đề xuất theo công thức (27).
hai phần, một phần Utr được sử dụng làm dữ liệu huấn
luyện, phần còn lại Ute được sử dụng để kiểm tra. Tập Utr Lấy ngẫu nhiên 4000 người dùng trong tập MovieLens
chứa 80% đánh giá và tập Ute chứa 20% đánh giá. Dữ liệu làm dữ liệu huấn luyện. Chọn ngẫu nhiên 1000 người dùng
huấn luyện được sử dụng để xây dựng mô hình theo thuật trong số còn lại để làm 4 tập dữ liệu kiểm tra (test1.inp,
9
Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông
Bảng VIII UserBased và CF-UserBased cho lại giá trị MAE lần lượt là
GIÁ TRỊ MAE CỦA CÁC PHƯƠNG PHÁP 0,865; 0,859; 0,855; 0,835 và 0,824; 0,817; 0,821; 0,813 so
với 0,793; 0,792; 0,791; 0,702 của phương pháp Hybrid-
Số lượng đánh giá biết trước
UserBased. Phương pháp Hybrid-ItemBased cũng cho lại
Phương pháp trong tập kiểm tra
giá trị MAE thấp hơn so với phương pháp CBF-ItemBased
5 10 15 20
và CF-ItemBased. Với số lượng đánh giá biết trước trong tập
CBF-USERBASED 0,865 0,859 0,855 0,835
kiểm tra là 5, 10, 15, 20 thì phương pháp CBF-ItemBased và
CBF-ITEMBASED 0,894 0,883 0,875 0,845 CF-ItemBased cho lại giá trị MAE lần lượt là 0,894; 0,833;
CF-USERBASED 0,824 0,817 0,821 0,813 0,875; 0,845 và 0,846; 0,841; 0,836; 0,815 so với 0,798;
CF-ITEMBASED 0,846 0,841 0,836 0,815 0,788; 0,782; 0,695 của phương pháp Hybrid-ItemBased.
HYBRID-USERBASED 0,793 0,792 0,791 0,702 Điều này chỉ có thể lý giải phương pháp tính toán mức độ
HYBRID-ITEMBASED 0,798 0,788 0,782 0,695 tương tự giữa các cặp người dùng trên tập đánh giá người
SEMI-LEARNING 0,672 0,629 0,617 0,585 dùng cùng các đặc trưng sản phẩm chính xác hơn so với
phương pháp tính toán mức độ tương tự giữa các cặp người
dùng chỉ dựa vào đánh giá người dùng hoặc hồ sơ người
test2.inp, test3.inp, test4.inp). Đối với mỗi tập dữ liệu kiểm dùng. Phương pháp tính toán mức độ tương tự giữa các cặp
tra, chúng tôi thực hiện loại bỏ ngẫu nhiên các đánh giá sản phẩm trên tập đánh giá sản phẩm cùng các đặc trưng
sao cho số các đánh giá biết trước của mỗi người dùng người dùng chính xác hơn so với phương pháp tính toán
đối với sản phẩm chỉ còn lại là 5, 10, 15 và 20 đánh giá. mức độ tương tự giữa các cặp sản phẩm chỉ dựa vào đánh
Tập test1.inp, test2.inp, test3.inp có số đánh giá giá biết giá sản phẩm hoặc hồ sơ sản phẩm.
trước lần lượt của mỗi người dùng là 5, 10, 15 tương ứng Phương pháp Semi-Learning cho lại giá trị MAE thấp
với trường hợp dữ liệu huấn luyện thưa. Tập test4.inp có nhất ở tất cả các mức độ thưa thớt dữ liệu khác nhau.
số đánh giá giá biết trước là 20 tương ứng với trường hợp Đối với tập dữ liệu kiểm tra chỉ có 5 đánh giá biết trước,
dữ liệu huấn luyện tương đối đầy đủ. Chọn θ = 4, 8, 12, phương pháp Hybrid-UserBased và Hybrid-ItemBased cho
15 ứng với mỗi bộ dữ liệu kiểm tra (test1.inp, test2.inp, lại giá trị MAE lần lượt là 0,793; 0,798 so với 0,672 của
test3.inp, test4.inp) theo thứ tự để xác định xác định wis, phương pháp Semi-Learning. Với tập dữ liệu kiểm tra chỉ
νqx theo công thức (6), (10). Chọn θ1 = 4, 8, 12, 15 (cho có 10 đánh giá biết trước, phương pháp Hybrid-UserBased
mỗi tập dữ liệu theo thứ tự), θ2 = 10 và α = 0, 9 (cho tất cả và Hybrid-ItemBased cho lại giá trị MAE lần lượt là 0,792;
các tập dữ liệu kiểm tra) để xác định Si, uij , Ki theo công 0,788 so với 0,629 của phương pháp Semi-Learning. Với
thức (12), (16), (21), và Sx, pxy, Kx theo công thức (23), tập dữ liệu kiểm tra chỉ có 15 đánh giá biết trước, phương
(27), (32). Giá trị MAE trong Bảng VIII được lấy trung pháp Hybrid-UserBased và Hybrid-ItemBased cho lại giá
bình của 10 lần thử nghiệm ngẫu nhiên. Giá trị MAE nhỏ trị MAE lần lượt là 0,791; 0,782 so với 0,617 của phương
chứng tỏ phương pháp có kết quả dự đoán tốt [2, 7, 12]. pháp Semi-Learning. Đặc biệt, với tập dữ liệu kiểm tra có
20 đánh giá biết trước, phương pháp cho lại giá trị MAE là
Kết quả trong Bảng VIII cho thấy phương pháp tư vấn
0,585. Điều này có thể khẳng định phương pháp xác định
nội dung dựa vào hồ sơ người dùng và hồ sơ sản phẩm
độ tương tự dựa trên tập không thưa đối với người dùng và
cho lại giá trị MAE lớn nhất so với các phương pháp còn
sản phẩm là hoàn toàn tin cậy. Phương pháp chuyển giao
lại. Phương pháp tư vấn cộng tác dựa vào đánh giá người
kết quả dự đoán giữa quá trình bán giám sát tập đánh giá
dùng và đánh giá sản phẩm cho lại giá trị MAE nhỏ hơn
người dùng cùng tập đặc trưng sản phẩm và tập đánh giá
so với các phương pháp tư vấn theo nội dung. Cụ thể, ứng
sản phẩm cùng tập đặc trưng người dùng đã hạn chế hiệu
với số lượng đánh giá biết trước trong tập kiểm tra là 5,
quả vấn đề dữ liệu thưa của các phương pháp lọc.
10, 15, 20, phương pháp CBF-UerBased và CBF-Itembased
cho lại giá trị MAE lần lượt là 0,865; 0,859; 0,855; 0,835
và 0,894; 0,883; 0,876; 0,845 theo thứ tự. Trong khi đó, V. KẾT LUẬN
phương pháp CF-UserBased và CF-ItemBased cho lại giá Bài báo đã đề xuất một mô hình hợp nhất giữa lọc cộng
MAE
trị lần lượt là 0,824; 0,817; 0,821; 0,813 và 0,846; tác và lọc theo nội dung bằng phương pháp học bán giám
0,841; 0,836; 0,815 theo thứ tự. Kết quả này hoàn toàn phù sát. Phương pháp được tiến hành bằng cách hợp nhất biểu
hợp với những nghiên cứu trước đây [1–3]. diễn giá trị các đặc trưng sản phẩm vào lọc cộng tác để
Phương pháp Hybrid-UserBased cho lại giá trị MAE thấp thống nhất các phương pháp dự đoán dựa vào người dùng.
hơn nhiều so với phương pháp CBF-UserBased và CF- Sau đó, xây dựng phương pháp hợp nhất biểu diễn giá trị
UserBased. Cụ thể ứng với số lượng đánh giá biết trước các đặc trưng người dùng vào lọc cộng tác để thống nhất các
trong tập kiểm tra là 5, 10, 15, 20 thì phương pháp CBF- phương pháp dự đoán dựa vào sản phẩm. Cuối cùng, chúng
10
Tập V-2, Số 18 (38), 12/2017
tôi xây dựng phương pháp học bán giám sát để chuyển giao [10] B. Sarwar, G. Karypis, J. Konstan, and J. Riedl, “Item-
kết quả dự đoán giữa hai phương pháp dự đoán theo người based collaborative filtering recommendation algorithms,” in
Proceedings of the 10th International Conference on World
dùng và dự đoán theo sản phẩm. Wide Web. ACM, 2001, pp. 285–295.
Để phát huy ưu điểm và hạn chế nhược điểm của các [11] R. Burke, F. Vahedian, and B. Mobasher, “Hybrid rec-
phương pháp lọc, chúng tôi đề xuất xây dựng hai kiểu bán ommendation in heterogeneous networks,” in International
Conference on User Modeling, Adaptation, and Personaliza-
giám sát: bán giám sát trên tập đánh giá người dùng cùng tion. Springer, 2014, pp. 49–60.
tập đặc trưng sản phẩm và bán giám sát tập đánh giá sản [12] S. Raghavan, S. Gunasekar, and J. Ghosh, “Review quality
phẩm cùng tập đặc trưng người dùng. Bán giám sát tập aware collaborative filtering,” in Proceedings of the sixth
ACM Conference on Recommender systems. ACM, 2012,
đánh giá người dùng cùng tập đặc trưng sản phẩm được pp. 123–130.
tiến hành bằng cách xây dựng tập không thưa đối với mỗi [13] J. Wang, A. P. De Vries, and M. J. Reinders, “Unifying user-
người dùng. Bán giám sát tập đánh giá sản phẩm cùng tập based and item-based collaborative filtering approaches by
th
đặc trưng người dùng được tiến hành bằng cách xác định similarity fusion,” in Proceedings of the 29 Annual Interna-
tional ACM SIGIR Conference on Research and Development
tập không thưa đối với mỗi sản phẩm. Dựa trên các tập in Information Retrieval. ACM, 2006, pp. 501–508.
không thưa đối với mỗi người dùng và sản phẩm, chúng tôi [14]
đã hạn chế được quá trình tính toán mức độ tương tự giữa [15]
các cặp người dùng, tập láng giềng của của người dùng và
sản phẩm để xác định các kết quả dự đoán chắc chắn. Trên
cơ sở của hai quá trình bán giám sát đã được xây dựng,
chúng tôi đề xuất xây dựng thuật toán học bán giám sát để
chuyển giao kết quả dự đoán giữa các quá trình bán giám
sát. Kết quả thực nghiệm trên bộ dữ liệu thực về phim cho Đỗ Thị Liên tốt nghiệp Đại học và nhận
bằng Thạc sĩ tại Học viện Công nghệ Bưu
thấy, phương pháp đề xuất cho lại kết quả dự đoán khá tốt
chính Viễn thông vào các năm 2010 và
trong trường hợp dữ liệu thưa. 2013. Hiện nay, tác giả là giảng viên tại
Học viện Công nghệ Bưu chính Viễn thông.
TÀI LIỆU THAM KHẢO
Lĩnh vực nghiên cứu chính của tác giả là
[1] M. D. Ekstrand, J. T. Riedl, J. A. Konstan et al., “Col-
học máy ứng dụng trong lọc thông tin và
laborative filtering recommender systems,” Foundations and
Trends R in Human–Computer Interaction, vol. 4, no. 2, pp. phát triển ứng dụng đa phương tiện.
81–173,
2011.
[2] R. Burke, “Hybrid recommender systems: Survey and ex-
periments,” User Modeling and User-Adapted Interaction,
vol. 12, no. 4, pp. 331–370, 2002.
[3] X. Su and T. M. Khoshgoftaar, “A survey of collaborative
filtering techniques,” Advances in Artificial Intelligence, vol. Nguyễn Duy Phương tốt nghiệp Đại học
2009, pp. 1–20, 2009. và nhận bằng Thạc sĩ tại Trường Đại học
[4] T. Miranda, M. Claypool, A. Gokhale, T. Mir, P. Murnikov, Tổng hợp Hà Nội vào các năm 1988 và
D. Netes, and M. Sartin, “Combining content-based and col- 1997. Năm 2010, ông bảo vệ luận án Tiến
laborative filters in an online newspaper,” in In Proceedings
of ACM SIGIR Workshop on Recommender Systems, 1999. sĩ tại Đại học Quốc gia Hà Nội. Hiện nay,
[5] M. J. Pazzani, “A framework for collaborative, content-based ông là Phó Trưởng khoa Công nghệ Thông
and demographic filtering,” Artificial Intelligence Review, tin, Học viện Công nghệ Bưu chính Viễn
vol. 13, no. 5-6, pp. 393–408, 1999. thông. Lĩnh vực nghiên cứu chính của ông
[6] A. Gunawardana and C. Meek, “A unified approach to là học máy ứng dụng trong lọc thông tin.
building hybrid recommender systems,” in Proceedings of
the third ACM Conference on Recommender Systems. ACM,
2009, pp. 117–124.
[7] J. L. Herlocker, J. A. Konstan, L. G. Terveen, and J. T. Riedl,
“Evaluating collaborative filtering recommender systems,”
ACM Transactions on Information Systems (TOIS), vol. 22,
Từ Minh Phương tốt nghiệp Trường Đại
no. 1, pp. 5–53, 2004.
[8] A. Gunawardana and G. Shani, “A survey of accuracy học Bách khoa Taskent năm 1993 và bảo
evaluation metrics of recommendation tasks,” Journal of vệ Tiến sĩ tại Viện Hàn lâm Khoa học
Machine Learning Research, vol. 10, no. Dec, pp. 2935– Uzbekistant, Taskent năm 1995. Hiện nay,
2962, 2009. ông là Phó Giáo sư, Trưởng Khoa Công
[9] J. S. Breese, D. Heckerman, and C. Kadie, “Empirical nghệ Thông tin, Học viện Công nghệ Bưu
analysis of predictive algorithms for collaborative filtering,”
chính Viễn thông. Lĩnh vực nghiên cứu
in Proceedings of the Fourteenth Conference on Uncertainty
in Artificial Intelligence. Morgan Kaufmann Publishers Inc., chính của ông là trí tuệ nhân tạo, học máy,
1998, pp. 43–52. tin sinh học.
11

File đính kèm:

hop_nhat_loc_cong_tac_va_loc_noi_dung_bang_phuong_phap_hoc_b.pdf