Đề xuất thuật toán khuyến nghị theo phân bố dựa trên mô hình hỗn hợp Gaussian
Tóm tắt—Ngày nay, các hệ thống khuyến nghị
được tích hợp vào hầu hết các trang thương mai
điện tử giúp tăng cường năng suất bán hàng cho các
doanh nghiệp bằng cách hỗ trợ người tiêu dùng tìm
được những sản phẩm phù hợp, chất lượng nhất.
Hiện nay, có khá nhiều thuật toán khuyến nghị tốt
và hiệu quả, tuy nhiên, thuật toán content-based
recommendation vẫn là thuật toán phổ biến nhất
được sử dụng trong giai đoạn đầu của các dự án.
Trong một số trường hợp, độ chính xác của kết
quả từ thuật toán content-based vẫn là một điều lo
ngại khi bài toán liên quan đến độ tương tự về phân
phối giữa các thành phần. Thêm nữa, các phương
pháp để đo độ tương đồng cũng là một vấn đề quan
trọng ảnh hưởng đến độ chính xác của các thuật
toán content-based trong các bài toán về độ tương
đồng giữa các phân phối. Để giải quyết hai vấn đề
này, chúng tôi đề xuất một thuật toán content-based
mới dựa trên mô hình hỗn hợp gaussian giúp tăng
độ chính xác cho kết quả đầu ra. Mô hình đề xuất
được thực nghiệm trên một bộ dữ liệu về rượu bao
gồm 6 chỉ số về mùi vị, dữ liệu tag mô tả về vị của
rượu và một số trường thông tin khác. Thuật toán
này sẽ gom n bản ghi dựa trên n vectors 6 chiều
thành k nhóm (k < n)="" trước="" khi="" áp="" dụng="" một="">
thức để sắp xếp các kết quả trả về. So sánh kết quả
mô hình đề xuất với 2 thuật toán phổ biến khác
trên bộ dữ liệu trên, kết quả thực nghiệm thu được
không chỉ đạt được độ chính xác tốt hơn, mà thời
gian thực thi của mô hình cũng vượt qua điều kiện
cho việc áp dụng vào các ứng dụng thực tế.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Đề xuất thuật toán khuyến nghị theo phân bố dựa trên mô hình hỗn hợp Gaussian
FF: Lý do cho thí nghiệm này là để xác thực tác động của GMM lên độ chính xác của kết quả đầu ra so với thuật toán BOW. Do đó, ở thí nghiệm này chúng tôi áp dụng BOW kết hợp với GFF để cho kết quả đầu ra. Đầu tiên, chúng tôi thực hiện tiền xử lý dữ liệu cho các dữ liệu văn bản như stemming, replace synonyms, filling missing data,... [22]. Như đã đề cập ở mục trước, các trường văn bản quan trọng được viết dưới ngôn ngữ Nhật, nên chúng tôi sử dụng một số công cụ thư viện xử lý tiếng Nhật như Ginza [9], Janome [10], JapaneseStemmer [18], được lấy cảm hứng từ thuật toán Porter Stemming [28], để tiền xử lý. Trước khi sử dụng GFF cho việc sắp xếp kết quả, chúng tôi sử dụng BOW cho các trường văn bản đã được tiền xử lý để tìm ra ma trận vector biểu diễn cho các sản phẩm. Bước kế tiếp, chúng tôi sử dụng ma trận này như dữ liệu đầu vào cho thuật tóan K-nearest neighbors (KNN) dựa trên ý tưởng thuật toán không giám sát KNN Scikit- Learn [20] để tìm ra top các sản phẩm tương đồng nhau dựa vào các vectors này. Trong top các sản phẩm này, chúng tôi áp dụng công thức S(i, j) trong (13) để lấy ra những kết quả tốt nhất. 2) Thí nghiệm 2: GMM + ED: Ở mục này, chúng tôi sẽ tận dụng GMM để gom nhóm n sản phẩm vào k nhóm. Tuy nhiên, đầu tiên chúng tôi vẫn áp dụng các bước tiền xử lý cho dữ liệu văn bản như ở Thí nghiệm 1. Sau đó, chúng tôi xây dựng một ma trận 6 chiều cho n sản phẩm, ma trận này biểu diễn cho các chỉ số 6 mùi vị và được đưa vào GMM để huấn luyện. Sau khi huấn luyện, kết quả cụm cho từng sản phẩm sẽ được lưu lại. Ở bước tiếp theo, chúng tôi sẽ chuyển dữ liệu văn bản tags mùi vị thành ma trận biểu diễn các từ dưới dạng tần suất xuất hiện của từng từ trong toàn bộ danh sách tags mùi vị bằng cách sử dụng CountVectorizer của Scikit-Learn [20], và ghép với ma trận (n, 6) bên trên để có được vector cuối cùng biểu diễn đặc trưng cho từng sản phẩm. Bước cuối cùng, để trả về được top sản phẩm tương tự nhất với 1 sản phẩm đầu vào, chúng tôi chỉ cần tìm đến cụm chứa sản phẩm đó và áp dụng công thức ED rồi sắp xếp kết quả trả về. Nguyễn Văn Đạt, Tạ Minh Thanh Hình 7: MSE áp dụng BOW+GFF 3) Thí nghiệm 3: GMM + GFF: Hai thí nghiệm trên của chúng tôi là để chứng minh tầm quan trọng của GMM và GFF trong mô hình đề xuất của chúng tôi ở thí nghiệm này. Tương tự như xử lý trên, chúng tôi vẫn thực hiện các bước tiền xử lý dữ liệu văn bản như ở hai thí nghiệm trước. Tiếp theo chúng tôi xây dựng một ma trận (n, 6) biểu diễn 6 chỉ số mùi vị cho n sản phẩm và đưa vào GMM như dữ liệu đầu vào để đào tạo. Lưu lại các giá trị cụm tương ứng của từng sản phẩm. Để gợi ý ra những sản phẩm tương đồng nhất với một sản phẩm, chúng tôi chỉ cần tìm đến cụm mà sản phẩm này thuộc về và coi nó như trung tâm của cụm đó rồi sử dụng công thức (13) từng cặp từng cặp với các sản phẩm khác trong cụm đó. Sắp xếp các giá trị thu được theo thứ tự giảm dần chúng ta sẽ thu được kết quả tốt nhất từ hệ thống khuyến nghị. C. Kết quả thí nghiệm và so sánh Tại phần này, chúng tôi so sánh thuật toán đề xuất của mình với kết quả khuyến nghị từ Sakenowa và 2 thuật toán CB khác. Chúng tôi kết luận rằng độ chính xác thuật toán của chúng tôi là tốt hơn Sakenowa và hai thuật toán còn lại. Kết quả so sánh được thể hiện trong Hình 7, Hình 8 và Hình 9. Cả 3 thí nghiệm của chúng tôi đều trả về top 10 Hình 8: MSE áp dụng GMM+ED, GMM+GFF Hình 9: Biểu đồ thống kê mức độ tương đồng kết quả với sakenowa sản phẩm gần nhất cho mỗi sản phẩm trong bộ dữ liệu. Kết quả khuyến nghị từ Sakenowa cho mỗi sản phẩm được trả về từ bộ API2; trong đó, f1...6 là giá trị tương ứng cho từng chỉ số mùi vị. Ở Hình 7, danh sách giá trị của MSE được hiện thị và chịu ảnh hưởng bởi các số neighboors khác 2https://sakenowa.com/api/v1/brands/flavor?f=0&fv = f1, f2, f3, f4, f5, f6 Đề xuất thuật toán khuyến nghị theo phân bố dựa trên mô hình hỗn hợp Gaussian nhau trong khoảng [25-39] của KNN. Chúng ta có thể dễ dàng nhận ra, mặc dù có xu hướng giảm, nhưng nó là không đáng kể và thời gian cho một lần tính toán là rất chậm do số neighboors tăng lên. Tại Hình 8, khoảng cách của MSE giữa GMM+ED và GMM+DFF được hiển thị. Dựa vào biểu đồ này, có thể thấy GMM+GFF cho kết quả tốt hơn so với GMM+ED và chứng minh được tác dụng của GFF trong việc so sánh mức độ tương đồng. Cả 2 thí nghiệm đều hiển thị sự ảnh hưởng của số cụm GMM lên MSE trong khoảng [65-85]. Tại Hình 9, biểu đồ so sánh kết quả dự đoán trên toàn bộ dữ liệu của mô hình chúng tôi với kết quả gợi ý từ Sakenowa và xây dựng một danh sách thống kê phần trăm tương đồng qua từng giá trị cụm khác nhau. Ở Bảng II và Bảng III, chúng tôi xây dựng bảng thống kê giá trị của MSE được sinh ra từ GMM+ED, BOW+GFF, GMM+GFF và kết quả từ Sakenowa. Dựa vào bảng thống kê này có thể nhận thấy rằng thuật toán GMM+GFF của chúng tôi cho kết quả tốt hơn hoàn toàn so với các thuật toán còn lại, và chứng minh được tính hiệu quả của thuật toán đề xuất trên bộ dữ liệu. Thêm nữa, thời gian xử lý của chúng tôi được thể hiện trong Bảng IV cũng cho thấy tốt hơn và nhanh hơn so với các thuật toán được đề xuất trước đây. Bảng II: Giá trị MSE theo số lượng cụm GMM khác nhau Số cụm GMM+ED GMM+GFF Sakenowa 65 0.02211 0.01738 0.01868 70 0.02135 0.01680 0.01868 75 0.02074 0.01613 0.01868 80 0.01939 0.01628 0.01868 85 0.01873 0.01580 0.01868 Bảng III: Giá trị MSE ảnh hưởng bởi số neigh- boors trong KNN Số neighbors BOW+GFF Sakenowa results 20 0.05254 0.01868 25 0.04624 0.01868 30 0.04228 0.01868 35 0.03895 0.01868 39 0.03709 0.01868 Bảng IV: Thời gian dự đoán cho một lần thực hiện BOW+GFF GMM+ED GMM+GFF Thời gian 0.1856s 0.0174s 0.0156s V. KẾT LUẬN Ở bài báo này, chúng tôi đã đề xuất một thuật toán hiệu quả cho các bài toán gợi ý dựa theo phân phối thuộc tính trong các hệ thống khuyến nghị sử dụng thuật toán CB, và ứng dụng cho việc giải quyết bài toán gợi ý rượu trong một ứng dụng thực đang triển khai ở Nhật bản. Ngoài ra, chúng tôi cũng đề xuất một công thức sắp xếp mới cho danh sách kết quả tiềm năng thay vì sử dụng các công thức phổ biến như Cosine hay Euclidean. Thuật toán đề xuất không chỉ đạt được độ chính xác cao, mà còn đạt được tốc độ xử lý rất nhanh phù hợp với các ứng dụng thực tế. Thuật toán hoàn toàn có thể áp dụng cho nhiều hoặc ít hơn 6 thuộc tính ở các bộ dữ liệu khác thay vì như thí nghiệm trên bộ dữ liệu về rượu của chúng tôi. Mặc dù có rất nhiều ưu điểm, tuy nhiên điểm hạn chế của thuật toán là cần huấn luyện lại mô hình sau khi có thêm một lượng các sản phẩm mới được thêm vào. Hướng nghiên cúu trong tương lai của chúng tôi là tìm cách cải thiện mô hình GMM trong khâu phân cụm sản phẩm để đạt được kết quả tốt hơn nữa. TÀI LIỆU THAM KHẢO [1] Sounak Bhattacharya and Ankit Lundia. “Movie Recommendation System Using Bag Of Words and Scikit-learn”. In: In- ternational Journal of Engineering Applied Sciences and Technology 04 (Oct. 2019), pp. 526–528. DOI: 10.33564/IJEAST.2019. v04i05.076. [2] Dirk Bollen, Bart Knijnenburg, and Mark Willemsen. “Understanding choice over- load in recommender systems”. In: Jan. 2010, pp. 63–70. DOI: 10.1145/1864708. 1864724. [3] Rui Chen, Qingyi Hua, and Gao. “A Hybrid Recommender System for Gaussian Mix- ture Model and Enhanced Social Matrix Factorization Technology Based on Multi- ple Interests”. In: Mathematical Problems Nguyễn Văn Đạt, Tạ Minh Thanh in Engineering 2018 (Oct. 2018), pp. 1–22. DOI: 10.1155/2018/9109647. [4] Kong Fan-sheng. “Hybrid Gaussian pLSA model and item based collaborative filter- ing recommendation”. In: Computer Engi- neering and Applications (2010). [5] Dilan Go¨ru¨r and Carl Rasmussen. “Dirich- let Process Gaussian Mixture Models: Choice of the Base Distribution”. In: J. Comput. Sci. Technol. 25 (July 2010), pp. 653–664. DOI: 10.1007/s11390- 010- 9355-8. [6] Vairaprakash Gurusamy and Subbu Kan- nan. “Preprocessing Techniques for Text Mining”. In: Oct. 2014. [7] Ido Guy and David Carmel. “Social Recommender Systems”. In: Jan. 2011, pp. 283–284. DOI: 10 . 1145 / 1963192 . 1963312. [8] Rishin Haldar and Debajyoti Mukhopad- hyay. “Levenshtein Distance Technique in Dictionary Lookup Methods: An Improved Approach”. In: Computing Research Repos- itory - CORR (Jan. 2011). [9] Mai Hiroshi and Masayuki. “Ginza NLP Library”. In: 25 (2019). URL: anlp.jp/proceedings/annual_meeting/2019/ pdf_dir/F2-3.pdf. [10] Janomepy. Janome. 2019. URL: https : / / github.com/mocobeta/janome. [11] Shah Khusro, Zafar Ali, and Irfan Ul- lah. “Recommender Systems: Issues, Chal- lenges, and Research Opportunities”. In: Feb. 2016, pp. 1179–1189. ISBN: 978-981- 10-0556-5. DOI: 10 . 1007 / 978 - 981 - 10 - 0557-2_112. [12] Dar-Shyang Lee, Jonathan Hull, and B. Erol. “A Bayesian framework for Gaussian mixture background modeling”. In: vol. 3. Oct. 2003, pp. III–973. DOI: 10.1109/ICIP. 2003.1247409. [13] Leo Liberti, Carlile Lavor, and Maculan. “Euclidean Distance Geometry and Appli- cations”. In: SIAM Review 56 (May 2012). DOI: 10.1137/120875909. [14] Pasquale Lops, Marco de Gemmis, and Giovanni Semeraro. “Content-based Rec- ommender Systems: State of the Art and Trends”. In: Jan. 2011, pp. 73–105. DOI: 10.1007/978-0-387-85820-3_3. [15] Linyuan Lu¨, Matúsˇ Medo, and Chi Ho Ye- ung. “Recommender systems”. English. In: Physics Reports 519.1 (Oct. 2012), pp. 1– 49. ISSN: 0370-1573. DOI: 10 . 1016 / j . physrep.2012.02.006. [16] Yang Lu, Xuemei Bai, and Feng Wang. “Music Recommendation System Design Based on Gaussian Mixture Model”. In: ICM 2015. 2015. [17] Prem Melville and Vikas Sindhwani. “Recommender Systems”. In: Jan. 2011, pp. 829–838. DOI: 10 .1007 /978- 0 - 387- 30164-8_705. [18] MrBrickPanda. Japanese Stemmer. 2019. URL: https : / / github . com /MrBrickPanda / Japanese-stemmer. [19] Suphakit Niwattanakul, Jatsada Singth- ongchai, and Naenudorn. “Using of Jaccard Coefficient for Keywords Similarity”. In: Mar. 2013. [20] Fabian Pedregosa, Alexandre Varoquaux, and Michel. “Scikit-learn: Machine learn- ing in Python”. In: Journal of machine learning research 12.Oct (2011), pp. 2825– 2830. [21] Simon Philip, Peter Shola, and Ovye Abari. “Application of Content-Based Approach in Research Paper Recommendation Sys- tem for a Digital Library”. In: International Journal of Advanced Computer Science and Applications 5 (Oct. 2014). DOI: 10. 14569/IJACSA.2014.051006. [22] Reza Rahutomo, Febrian Lubis, and Muljo. “Preprocessing Methods and Tools in Mod- elling Japanese for Text Classification”. In: Aug. 2019. DOI: 10.1109/ICIMTech.2019. 8843796. [23] Martin Rajman and Romaric Besanc¸on. “Text Mining: Natural Language techniques and Text Mining applications”. In: Pro- ceedings of the 7th IFIP Working Confer- ence on Database Semantics (DS-7) (Jan. 1997). DOI: 10.1007/978- 0- 387- 35300- 5_3. [24] Carl Rasmussen. “The Infinite Gaussian Mixture Model”. In: vol. 12. Apr. 2000, pp. 554–560. [25] Douglas Reynolds. “Gaussian Mixture Models”. In: Encyclopedia of Biometrics Đề xuất thuật toán khuyến nghị theo phân bố dựa trên mô hình hỗn hợp Gaussian (Jan. 2008). DOI: 10 . 1007 / 978 - 0 - 387 - 73003-5_196. [26] Philip Sedgwick. “Pearson’s correlation co- efficient”. In: BMJ 345 (July 2012), e4483– e4483. DOI: 10.1136/bmj.e4483. [27] Guy Shani and Asela Gunawardana. “Eval- uating Recommendation Systems”. In: vol. 12. Jan. 2011, pp. 257–297. DOI: 10. 1007/978-0-387-85820-3_8. [28] Karen Sparck Jones and Peter Willett, eds. Readings in Information Retrieval. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1997. ISBN: 1558604545. [29] Hangyu Yan and Yan Tang. “Collaborative Filtering based on Gaussian Mixture Model and Improved Jaccard Similarity”. In: IEEE Access PP (Aug. 2019), pp. 1–1. DOI: 10. 1109/ACCESS.2019.2936630. [30] Kazuyoshi Yoshii, Masataka Goto, and Kazunori Komatani. “Hybrid Collaborative and Content-based Music Recommendation Using Probabilistic Model with Latent User Preferences.” In: Jan. 2006, pp. 296–301. [31] Bo Zhu, Jesus Bobadilla, and Fernando Or- tega. “Reliability quality measures for rec- ommender systems”. In: Information Sci- ences (May 2018). [32] B. Ziolko, Jakub Gałka, and Dawid Skur- zok. “Modified Weighted Levenshtein Dis- tance in Automatic Speech Recognition”. In: Jan. 2010. [33] Harry Zisopoulos, Savvas Karagiannidis, and Demirtsoglou. “Content-Based Recom- mendation Systems”. In: (Nov. 2008). A PROPOSAL OF ROBUST CONTENT- BASED RECOMMENDATION SYSTEM US- ING GAUSSIAN MIXTURE MODEL Tóm tắt—Recommendation systems play an very important role in boosting purchasing consumption for many manufacturers by helping consumers find the most appropriate items. Furthermore, there is quite a range of recommendation algorithms that can be efficient; however, a content-based algorithm is always the most popular, powerful, and produc- tive method taken at the begin time of any project. In the negative aspect, somehow content-based al- gorithm results accuracy is still a concern that correlates to probabilistic similarity. In addition, the similarity calculation method is another crucial that affect the accuracy of content-based recom- mendation in probabilistic problems. Face with these problems, we propose a new content-based recommendation based on the Gaussian mixture model to improve the accuracy with more sensitive results for probabilistic recommendation problems. Our proposed method experimented in a liquor dataset including six main flavor taste, liquor main taste tags, and some other criteria. The method clusters n liquor records relied on n vectors of six dimensions into k group (k < n) before applying a formula to sort the results. Compared our proposed algorithm with two other popular models on the above dataset, the accuracy of the experimental results not only outweighs the comparison to those of two other models but also attain a very speedy response time in real-life applications. Từ khóa—Recommendation system, Content- Based, Gaussian Mixture Model - GMM, Gaussian Filter Function, Collaborative Filtering. Nguyễn Văn Đạt đang theo học Thạc sĩ Khoa học Máy tính tại Đại học công nghệ Đại học quốc gia hà nội, đã tốt nghiệp bằng Kỹ sư Phần mềm tại trường Đại học Lê Quý Đôn năm 2017. Lĩnh vực nghiên cứu là thị giác máy và các hệ thống khuyến nghị. Tạ Minh Thanh nhận bằng kỹ sư CNTT và Thạc sĩ Khoa học Máy tính của Học viện Phòng vệ Nhật Bản, vào năm 2005 và 2008. Ông Thanh là giảng viên của trường Đại học Lê Quý Đôn từ năm 2005. Năm 2015, ông nhận bằng Tiến sĩ Khoa học Máy tính của Học viện Công nghệ Tokyo, Nhật Bản. Ông đã được công nhận chức danh Phó giáo sư của Hội đồng Giáo sư nhà nước vào năm 2019. Ông cũng là thành viên của Hiệp hội IPSJ Nhật Bản và Hiệp hội IEEE. Lĩnh vực nghiên cứu của ông thuộc lĩnh vực thủy vân số, công nghệ mạng, bảo mật thông tin và thị giác máy.
File đính kèm:
- de_xuat_thuat_toan_khuyen_nghi_theo_phan_bo_dua_tren_mo_hinh.pdf