Đề xuất thuật toán khuyến nghị theo phân bố dựa trên mô hình hỗn hợp Gaussian

Tóm tắt—Ngày nay, các hệ thống khuyến nghị

được tích hợp vào hầu hết các trang thương mai

điện tử giúp tăng cường năng suất bán hàng cho các

doanh nghiệp bằng cách hỗ trợ người tiêu dùng tìm

được những sản phẩm phù hợp, chất lượng nhất.

Hiện nay, có khá nhiều thuật toán khuyến nghị tốt

và hiệu quả, tuy nhiên, thuật toán content-based

recommendation vẫn là thuật toán phổ biến nhất

được sử dụng trong giai đoạn đầu của các dự án.

Trong một số trường hợp, độ chính xác của kết

quả từ thuật toán content-based vẫn là một điều lo

ngại khi bài toán liên quan đến độ tương tự về phân

phối giữa các thành phần. Thêm nữa, các phương

pháp để đo độ tương đồng cũng là một vấn đề quan

trọng ảnh hưởng đến độ chính xác của các thuật

toán content-based trong các bài toán về độ tương

đồng giữa các phân phối. Để giải quyết hai vấn đề

này, chúng tôi đề xuất một thuật toán content-based

mới dựa trên mô hình hỗn hợp gaussian giúp tăng

độ chính xác cho kết quả đầu ra. Mô hình đề xuất

được thực nghiệm trên một bộ dữ liệu về rượu bao

gồm 6 chỉ số về mùi vị, dữ liệu tag mô tả về vị của

rượu và một số trường thông tin khác. Thuật toán

này sẽ gom n bản ghi dựa trên n vectors 6 chiều

thành k nhóm (k < n)="" trước="" khi="" áp="" dụng="" một="">

thức để sắp xếp các kết quả trả về. So sánh kết quả

mô hình đề xuất với 2 thuật toán phổ biến khác

trên bộ dữ liệu trên, kết quả thực nghiệm thu được

không chỉ đạt được độ chính xác tốt hơn, mà thời

gian thực thi của mô hình cũng vượt qua điều kiện

cho việc áp dụng vào các ứng dụng thực tế.

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

12 trang xuanhieu 18760

Download

Bạn đang xem 10 trang mẫu của tài liệu "Đề xuất thuật toán khuyến nghị theo phân bố dựa trên mô hình hỗn hợp Gaussian", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Đề xuất thuật toán khuyến nghị theo phân bố dựa trên mô hình hỗn hợp Gaussian

FF: Lý do cho thí
nghiệm này là để xác thực tác động của GMM lên
độ chính xác của kết quả đầu ra so với thuật toán
BOW. Do đó, ở thí nghiệm này chúng tôi áp dụng
BOW kết hợp với GFF để cho kết quả đầu ra. Đầu
tiên, chúng tôi thực hiện tiền xử lý dữ liệu cho các
dữ liệu văn bản như stemming, replace synonyms,
filling missing data,... [22]. Như đã đề cập ở mục
trước, các trường văn bản quan trọng được viết
dưới ngôn ngữ Nhật, nên chúng tôi sử dụng một
số công cụ thư viện xử lý tiếng Nhật như Ginza
[9], Janome [10], JapaneseStemmer [18], được lấy
cảm hứng từ thuật toán Porter Stemming [28], để
tiền xử lý.
Trước khi sử dụng GFF cho việc sắp xếp kết
quả, chúng tôi sử dụng BOW cho các trường văn
bản đã được tiền xử lý để tìm ra ma trận vector
biểu diễn cho các sản phẩm. Bước kế tiếp, chúng
tôi sử dụng ma trận này như dữ liệu đầu vào cho
thuật tóan K-nearest neighbors (KNN) dựa trên
ý tưởng thuật toán không giám sát KNN Scikit-
Learn [20] để tìm ra top các sản phẩm tương đồng
nhau dựa vào các vectors này. Trong top các sản
phẩm này, chúng tôi áp dụng công thức S(i, j)
trong (13) để lấy ra những kết quả tốt nhất.
2) Thí nghiệm 2: GMM + ED: Ở mục này,
chúng tôi sẽ tận dụng GMM để gom nhóm n sản
phẩm vào k nhóm. Tuy nhiên, đầu tiên chúng tôi
vẫn áp dụng các bước tiền xử lý cho dữ liệu văn
bản như ở Thí nghiệm 1. Sau đó, chúng tôi xây
dựng một ma trận 6 chiều cho n sản phẩm, ma
trận này biểu diễn cho các chỉ số 6 mùi vị và
được đưa vào GMM để huấn luyện. Sau khi huấn
luyện, kết quả cụm cho từng sản phẩm sẽ được
lưu lại.
Ở bước tiếp theo, chúng tôi sẽ chuyển dữ liệu
văn bản tags mùi vị thành ma trận biểu diễn các
từ dưới dạng tần suất xuất hiện của từng từ trong
toàn bộ danh sách tags mùi vị bằng cách sử dụng
CountVectorizer của Scikit-Learn [20], và ghép
với ma trận (n, 6) bên trên để có được vector cuối
cùng biểu diễn đặc trưng cho từng sản phẩm. Bước
cuối cùng, để trả về được top sản phẩm tương tự
nhất với 1 sản phẩm đầu vào, chúng tôi chỉ cần
tìm đến cụm chứa sản phẩm đó và áp dụng công
thức ED rồi sắp xếp kết quả trả về.
Nguyễn Văn Đạt, Tạ Minh Thanh
Hình 7: MSE áp dụng BOW+GFF
3) Thí nghiệm 3: GMM + GFF: Hai thí
nghiệm trên của chúng tôi là để chứng minh tầm
quan trọng của GMM và GFF trong mô hình đề
xuất của chúng tôi ở thí nghiệm này. Tương tự
như xử lý trên, chúng tôi vẫn thực hiện các bước
tiền xử lý dữ liệu văn bản như ở hai thí nghiệm
trước. Tiếp theo chúng tôi xây dựng một ma trận
(n, 6) biểu diễn 6 chỉ số mùi vị cho n sản phẩm
và đưa vào GMM như dữ liệu đầu vào để đào tạo.
Lưu lại các giá trị cụm tương ứng của từng sản
phẩm.
Để gợi ý ra những sản phẩm tương đồng nhất
với một sản phẩm, chúng tôi chỉ cần tìm đến cụm
mà sản phẩm này thuộc về và coi nó như trung
tâm của cụm đó rồi sử dụng công thức (13) từng
cặp từng cặp với các sản phẩm khác trong cụm
đó. Sắp xếp các giá trị thu được theo thứ tự giảm
dần chúng ta sẽ thu được kết quả tốt nhất từ hệ
thống khuyến nghị.
C. Kết quả thí nghiệm và so sánh
Tại phần này, chúng tôi so sánh thuật toán
đề xuất của mình với kết quả khuyến nghị từ
Sakenowa và 2 thuật toán CB khác. Chúng tôi kết
luận rằng độ chính xác thuật toán của chúng tôi
là tốt hơn Sakenowa và hai thuật toán còn lại. Kết
quả so sánh được thể hiện trong Hình 7, Hình 8
và Hình 9.
Cả 3 thí nghiệm của chúng tôi đều trả về top 10
Hình 8: MSE áp dụng GMM+ED, GMM+GFF
Hình 9: Biểu đồ thống kê mức độ tương đồng kết
quả với sakenowa
sản phẩm gần nhất cho mỗi sản phẩm trong bộ dữ
liệu. Kết quả khuyến nghị từ Sakenowa cho mỗi
sản phẩm được trả về từ bộ API2; trong đó, f1...6
là giá trị tương ứng cho từng chỉ số mùi vị.
Ở Hình 7, danh sách giá trị của MSE được hiện
thị và chịu ảnh hưởng bởi các số neighboors khác
2https://sakenowa.com/api/v1/brands/flavor?f=0&fv =
f1, f2, f3, f4, f5, f6
Đề xuất thuật toán khuyến nghị theo phân bố dựa trên mô hình hỗn hợp Gaussian
nhau trong khoảng [25-39] của KNN. Chúng ta có
thể dễ dàng nhận ra, mặc dù có xu hướng giảm,
nhưng nó là không đáng kể và thời gian cho một
lần tính toán là rất chậm do số neighboors tăng
lên.
Tại Hình 8, khoảng cách của MSE giữa
GMM+ED và GMM+DFF được hiển thị. Dựa vào
biểu đồ này, có thể thấy GMM+GFF cho kết quả
tốt hơn so với GMM+ED và chứng minh được tác
dụng của GFF trong việc so sánh mức độ tương
đồng. Cả 2 thí nghiệm đều hiển thị sự ảnh hưởng
của số cụm GMM lên MSE trong khoảng [65-85].
Tại Hình 9, biểu đồ so sánh kết quả dự đoán
trên toàn bộ dữ liệu của mô hình chúng tôi với
kết quả gợi ý từ Sakenowa và xây dựng một danh
sách thống kê phần trăm tương đồng qua từng giá
trị cụm khác nhau.
Ở Bảng II và Bảng III, chúng tôi xây dựng
bảng thống kê giá trị của MSE được sinh ra từ
GMM+ED, BOW+GFF, GMM+GFF và kết quả
từ Sakenowa. Dựa vào bảng thống kê này có thể
nhận thấy rằng thuật toán GMM+GFF của chúng
tôi cho kết quả tốt hơn hoàn toàn so với các thuật
toán còn lại, và chứng minh được tính hiệu quả
của thuật toán đề xuất trên bộ dữ liệu. Thêm nữa,
thời gian xử lý của chúng tôi được thể hiện trong
Bảng IV cũng cho thấy tốt hơn và nhanh hơn so
với các thuật toán được đề xuất trước đây.
Bảng II: Giá trị MSE theo số lượng cụm GMM
khác nhau
Số cụm GMM+ED GMM+GFF Sakenowa
65 0.02211 0.01738 0.01868
70 0.02135 0.01680 0.01868
75 0.02074 0.01613 0.01868
80 0.01939 0.01628 0.01868
85 0.01873 0.01580 0.01868
Bảng III: Giá trị MSE ảnh hưởng bởi số neigh-
boors trong KNN
Số neighbors BOW+GFF Sakenowa results
20 0.05254 0.01868
25 0.04624 0.01868
30 0.04228 0.01868
35 0.03895 0.01868
39 0.03709 0.01868
Bảng IV: Thời gian dự đoán cho một lần thực
hiện
BOW+GFF GMM+ED GMM+GFF
Thời gian 0.1856s 0.0174s 0.0156s
V. KẾT LUẬN
Ở bài báo này, chúng tôi đã đề xuất một thuật
toán hiệu quả cho các bài toán gợi ý dựa theo
phân phối thuộc tính trong các hệ thống khuyến
nghị sử dụng thuật toán CB, và ứng dụng cho việc
giải quyết bài toán gợi ý rượu trong một ứng dụng
thực đang triển khai ở Nhật bản. Ngoài ra, chúng
tôi cũng đề xuất một công thức sắp xếp mới cho
danh sách kết quả tiềm năng thay vì sử dụng các
công thức phổ biến như Cosine hay Euclidean.
Thuật toán đề xuất không chỉ đạt được độ chính
xác cao, mà còn đạt được tốc độ xử lý rất nhanh
phù hợp với các ứng dụng thực tế. Thuật toán
hoàn toàn có thể áp dụng cho nhiều hoặc ít hơn
6 thuộc tính ở các bộ dữ liệu khác thay vì như thí
nghiệm trên bộ dữ liệu về rượu của chúng tôi. Mặc
dù có rất nhiều ưu điểm, tuy nhiên điểm hạn chế
của thuật toán là cần huấn luyện lại mô hình sau
khi có thêm một lượng các sản phẩm mới được
thêm vào. Hướng nghiên cúu trong tương lai của
chúng tôi là tìm cách cải thiện mô hình GMM
trong khâu phân cụm sản phẩm để đạt được kết
quả tốt hơn nữa.
TÀI LIỆU THAM KHẢO
[1] Sounak Bhattacharya and Ankit Lundia.
“Movie Recommendation System Using
Bag Of Words and Scikit-learn”. In: In-
ternational Journal of Engineering Applied
Sciences and Technology 04 (Oct. 2019),
pp. 526–528. DOI: 10.33564/IJEAST.2019.
v04i05.076.
[2] Dirk Bollen, Bart Knijnenburg, and Mark
Willemsen. “Understanding choice over-
load in recommender systems”. In: Jan.
2010, pp. 63–70. DOI: 10.1145/1864708.
1864724.
[3] Rui Chen, Qingyi Hua, and Gao. “A Hybrid
Recommender System for Gaussian Mix-
ture Model and Enhanced Social Matrix
Factorization Technology Based on Multi-
ple Interests”. In: Mathematical Problems
Nguyễn Văn Đạt, Tạ Minh Thanh
in Engineering 2018 (Oct. 2018), pp. 1–22.
DOI: 10.1155/2018/9109647.
[4] Kong Fan-sheng. “Hybrid Gaussian pLSA
model and item based collaborative filter-
ing recommendation”. In: Computer Engi-
neering and Applications (2010).
[5] Dilan Go¨ru¨r and Carl Rasmussen. “Dirich-
let Process Gaussian Mixture Models:
Choice of the Base Distribution”. In: J.
Comput. Sci. Technol. 25 (July 2010),
pp. 653–664. DOI: 10.1007/s11390- 010-
9355-8.
[6] Vairaprakash Gurusamy and Subbu Kan-
nan. “Preprocessing Techniques for Text
Mining”. In: Oct. 2014.
[7] Ido Guy and David Carmel. “Social
Recommender Systems”. In: Jan. 2011,
pp. 283–284. DOI: 10 . 1145 / 1963192 .
1963312.
[8] Rishin Haldar and Debajyoti Mukhopad-
hyay. “Levenshtein Distance Technique in
Dictionary Lookup Methods: An Improved
Approach”. In: Computing Research Repos-
itory - CORR (Jan. 2011).
[9] Mai Hiroshi and Masayuki. “Ginza NLP
Library”. In: 25 (2019). URL:
anlp.jp/proceedings/annual_meeting/2019/
pdf_dir/F2-3.pdf.
[10] Janomepy. Janome. 2019. URL: https : / /
github.com/mocobeta/janome.
[11] Shah Khusro, Zafar Ali, and Irfan Ul-
lah. “Recommender Systems: Issues, Chal-
lenges, and Research Opportunities”. In:
Feb. 2016, pp. 1179–1189. ISBN: 978-981-
10-0556-5. DOI: 10 . 1007 / 978 - 981 - 10 -
0557-2_112.
[12] Dar-Shyang Lee, Jonathan Hull, and B.
Erol. “A Bayesian framework for Gaussian
mixture background modeling”. In: vol. 3.
Oct. 2003, pp. III–973. DOI: 10.1109/ICIP.
2003.1247409.
[13] Leo Liberti, Carlile Lavor, and Maculan.
“Euclidean Distance Geometry and Appli-
cations”. In: SIAM Review 56 (May 2012).
DOI: 10.1137/120875909.
[14] Pasquale Lops, Marco de Gemmis, and
Giovanni Semeraro. “Content-based Rec-
ommender Systems: State of the Art and
Trends”. In: Jan. 2011, pp. 73–105. DOI:
10.1007/978-0-387-85820-3_3.
[15] Linyuan Lu¨, Matúsˇ Medo, and Chi Ho Ye-
ung. “Recommender systems”. English. In:
Physics Reports 519.1 (Oct. 2012), pp. 1–
49. ISSN: 0370-1573. DOI: 10 . 1016 / j .
physrep.2012.02.006.
[16] Yang Lu, Xuemei Bai, and Feng Wang.
“Music Recommendation System Design
Based on Gaussian Mixture Model”. In:
ICM 2015. 2015.
[17] Prem Melville and Vikas Sindhwani.
“Recommender Systems”. In: Jan. 2011,
pp. 829–838. DOI: 10 .1007 /978- 0 - 387-
30164-8_705.
[18] MrBrickPanda. Japanese Stemmer. 2019.
URL: https : / / github . com /MrBrickPanda /
Japanese-stemmer.
[19] Suphakit Niwattanakul, Jatsada Singth-
ongchai, and Naenudorn. “Using of Jaccard
Coefficient for Keywords Similarity”. In:
Mar. 2013.
[20] Fabian Pedregosa, Alexandre Varoquaux,
and Michel. “Scikit-learn: Machine learn-
ing in Python”. In: Journal of machine
learning research 12.Oct (2011), pp. 2825–
2830.
[21] Simon Philip, Peter Shola, and Ovye Abari.
“Application of Content-Based Approach
in Research Paper Recommendation Sys-
tem for a Digital Library”. In: International
Journal of Advanced Computer Science
and Applications 5 (Oct. 2014). DOI: 10.
14569/IJACSA.2014.051006.
[22] Reza Rahutomo, Febrian Lubis, and Muljo.
“Preprocessing Methods and Tools in Mod-
elling Japanese for Text Classification”. In:
Aug. 2019. DOI: 10.1109/ICIMTech.2019.
8843796.
[23] Martin Rajman and Romaric Besanc¸on.
“Text Mining: Natural Language techniques
and Text Mining applications”. In: Pro-
ceedings of the 7th IFIP Working Confer-
ence on Database Semantics (DS-7) (Jan.
1997). DOI: 10.1007/978- 0- 387- 35300-
5_3.
[24] Carl Rasmussen. “The Infinite Gaussian
Mixture Model”. In: vol. 12. Apr. 2000,
pp. 554–560.
[25] Douglas Reynolds. “Gaussian Mixture
Models”. In: Encyclopedia of Biometrics
Đề xuất thuật toán khuyến nghị theo phân bố dựa trên mô hình hỗn hợp Gaussian
(Jan. 2008). DOI: 10 . 1007 / 978 - 0 - 387 -
73003-5_196.
[26] Philip Sedgwick. “Pearson’s correlation co-
efficient”. In: BMJ 345 (July 2012), e4483–
e4483. DOI: 10.1136/bmj.e4483.
[27] Guy Shani and Asela Gunawardana. “Eval-
uating Recommendation Systems”. In:
vol. 12. Jan. 2011, pp. 257–297. DOI: 10.
1007/978-0-387-85820-3_8.
[28] Karen Sparck Jones and Peter Willett,
eds. Readings in Information Retrieval. San
Francisco, CA, USA: Morgan Kaufmann
Publishers Inc., 1997. ISBN: 1558604545.
[29] Hangyu Yan and Yan Tang. “Collaborative
Filtering based on Gaussian Mixture Model
and Improved Jaccard Similarity”. In: IEEE
Access PP (Aug. 2019), pp. 1–1. DOI: 10.
1109/ACCESS.2019.2936630.
[30] Kazuyoshi Yoshii, Masataka Goto, and
Kazunori Komatani. “Hybrid Collaborative
and Content-based Music Recommendation
Using Probabilistic Model with Latent User
Preferences.” In: Jan. 2006, pp. 296–301.
[31] Bo Zhu, Jesus Bobadilla, and Fernando Or-
tega. “Reliability quality measures for rec-
ommender systems”. In: Information Sci-
ences (May 2018).
[32] B. Ziolko, Jakub Gałka, and Dawid Skur-
zok. “Modified Weighted Levenshtein Dis-
tance in Automatic Speech Recognition”.
In: Jan. 2010.
[33] Harry Zisopoulos, Savvas Karagiannidis,
and Demirtsoglou. “Content-Based Recom-
mendation Systems”. In: (Nov. 2008).
A PROPOSAL OF ROBUST CONTENT-
BASED RECOMMENDATION SYSTEM US-
ING GAUSSIAN MIXTURE MODEL
Tóm tắt—Recommendation systems play an very
important role in boosting purchasing consumption
for many manufacturers by helping consumers find
the most appropriate items. Furthermore, there is
quite a range of recommendation algorithms that
can be efficient; however, a content-based algorithm
is always the most popular, powerful, and produc-
tive method taken at the begin time of any project.
In the negative aspect, somehow content-based al-
gorithm results accuracy is still a concern that
correlates to probabilistic similarity. In addition,
the similarity calculation method is another crucial
that affect the accuracy of content-based recom-
mendation in probabilistic problems. Face with
these problems, we propose a new content-based
recommendation based on the Gaussian mixture
model to improve the accuracy with more sensitive
results for probabilistic recommendation problems.
Our proposed method experimented in a liquor
dataset including six main flavor taste, liquor main
taste tags, and some other criteria. The method
clusters n liquor records relied on n vectors of six
dimensions into k group (k < n) before applying a
formula to sort the results. Compared our proposed
algorithm with two other popular models on the
above dataset, the accuracy of the experimental
results not only outweighs the comparison to those
of two other models but also attain a very speedy
response time in real-life applications.
Từ khóa—Recommendation system, Content-
Based, Gaussian Mixture Model - GMM, Gaussian
Filter Function, Collaborative Filtering.
Nguyễn Văn Đạt đang theo học Thạc
sĩ Khoa học Máy tính tại Đại học
công nghệ Đại học quốc gia hà nội,
đã tốt nghiệp bằng Kỹ sư Phần mềm
tại trường Đại học Lê Quý Đôn năm
2017.
Lĩnh vực nghiên cứu là thị giác máy
và các hệ thống khuyến nghị.
Tạ Minh Thanh nhận bằng kỹ sư
CNTT và Thạc sĩ Khoa học Máy tính
của Học viện Phòng vệ Nhật Bản,
vào năm 2005 và 2008. Ông Thanh
là giảng viên của trường Đại học Lê
Quý Đôn từ năm 2005. Năm 2015,
ông nhận bằng Tiến sĩ Khoa học Máy
tính của Học viện Công nghệ Tokyo,
Nhật Bản. Ông đã được công nhận
chức danh Phó giáo sư của Hội đồng Giáo sư nhà nước vào
năm 2019. Ông cũng là thành viên của Hiệp hội IPSJ Nhật
Bản và Hiệp hội IEEE.
Lĩnh vực nghiên cứu của ông thuộc lĩnh vực thủy vân số,
công nghệ mạng, bảo mật thông tin và thị giác máy.

File đính kèm:

de_xuat_thuat_toan_khuyen_nghi_theo_phan_bo_dua_tren_mo_hinh.pdf