Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết

Tóm tắt - Phát hiện quan tâm của người dùng trên các mạng xã

hội là một trong những chủ đề thu hút nhiều nghiên cứu và được

áp dụng trong nhiều ứng dụng như khuyến nghị người dùng, các

chương trình quảng cáo cá nhân hóa hoặc phân loại người dùng.

Trong bài báo này, nhóm tác giả đề xuất một mô hình dựa trên

việc phân tích các bài viết của người dùng trên các mạng xã hội

để phát hiện và so sánh tương quan về quan tâm của họ. Mô

hình đề xuất được đánh giá bằng thực nghiệm với dữ liệu thực.

Kết quả thực nghiệm cho thấy rằng nếu hai người dùng có nhiều

bài viết giống nhau thì sẽ có quan tâm tương tự nhau và ngược

lại, nếu hai người dùng có quan tâm giống nhau thì cũng có nhiều

bài viết tương tự nhau.

Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết trang 1

Trang 1

Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết trang 2

Trang 2

Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết trang 3

Trang 3

Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết trang 4

Trang 4

Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết trang 5

Trang 5

pdf 5 trang xuanhieu 8320
Bạn đang xem tài liệu "Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết

Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết
 Gọi , ∈ 푈 là hai người dùng, mỗi người dùng có tập 
 Khi đó, việc ước lượng độ tương tự giữa hai bài viết 푖 푗
 푙 các bài viết 푖, 푗 ∈ và mỗi người dùng sẽ có một véc-tơ 
푒푖 ∈ 푖 ủ 푖 ∈ 푈 푣à 푒푗 ∈ 푗 của 푗 ∈ 푈 được tính toán 
 ⃗⃗⃗⃗푤⃗ ⃗⃗⃗⃗푤⃗ 
bằng cách tích hợp có trọng số các độ tương tự của 5 thuộc trọng số biểu diễn các bài viết của họ tương ứng là 푖 , 푗 . 
30 Nguyễn Thị Hội, Trần Đình Quế 
 Với mỗi cặp người dùng 푖, 푗 ∈ 푈 thì mỗi thành phần 2.2.3. Độ quan tâm tương tự của người dùng theo chủ đề 
 푤 
 푖 của véc-tơ ⃗⃗⃗⃗푖⃗ được tính như sau: Với mỗi 푒푖 ∈ 푖 của Bây giờ ta có thể định nghĩa mức độ quan tâm của 
 푙
 푖 tính độ tương tự của 푒푖 với tất cả các bài viết 푒푗 ∈ 푗 người dùng theo chủ đề như sau. Với mỗi 푖 ∈ 푈 trên mạng 
 xã hội cùng tập các bài viết 푖 ∈ , độ quan tâm của người 
của 푗 ∈ 푈. Mỗi thành phần 푖 được tính theo công thức: 
 dùng 푖 ∈ 푈 với chủ đề 푡푗 ∈ được biểu diễn bằng véc-tơ 
 ∑ 푠푖 푒푛푡 (푒 ,푒푗) 푗
 1 ⃗⃗⃗⃗ 
 = (4) 푞푖 (gọi là véc-tơ độ quan tâm của người dùng 푖 đến chủ 
 푖 
 đề 푡푗 trên mạng xã hội) như sau: 
 Mỗi thành phần của véc-tơ ⃗⃗⃗⃗푤⃗ cũng được tính 
 푗 푗 ⃗⃗⃗⃗ 푗 푗 푗 푗
tương tự. 푖푛푡푒 푒푠푡 푠푒 −푡표 푖 ( 푖, 푡푗) = 푞푖 =(푞푖1, 푞푖2, . . , 푞푖푛) 
 푗
 Khi đó, độ tương tự của hai người dùng 푖, 푗 ∈ 푈 dựa Trong đó, 푞푖 với k = 1 ... n là độ quan tâm của mỗi bài 
trên bài viết được tính bằng: viết 푒푖 ∈ 푖 của người dùng 푖 với chủ đề 푡푗 tính theo công 
 푤 푤 thức (6). 
 푠푖 푠푒 −푒푛푡 ( 푖, 푗) = 표푠푖푛푒( ⃗⃗⃗⃗푖⃗ , ⃗⃗⃗푗⃗⃗ . ) (5) 
 Gọi 푞⃗⃗⃗⃗ là véc-tơ quan tâm của người dùng ∈ 푈 trên 
 Có thể thấy rằng 푠푖 푠푒 −푒푛푡 ( 푖, 푗) nằm trong 푖 푖
 ⃗⃗⃗⃗ 
khoảng [0, 1]. mạng xã hội đến chủ đề 푡푗 ∈ và 푞푗 là véc-tơ quan tâm 
2.2. Ước lượng quan tâm của người dùng theo chủ đề của người dùng 푗 ∈ 푈 trên mạng xã hội đến chủ đề 푡푗 ∈
2.2.1. Xác định các chủ đề trên mạng xã hội . Khi đó, độ tương tự quan tâm của hai người dùng 
 , ∈ 푈 với chủ đề 푡 ∈ được tính bằng: 
 Phát hiện các chủ đề và các quan tâm đến các chủ đề 푖 푗 푗
 ⃗⃗⃗⃗ ⃗⃗⃗⃗ 
của người dùng đã được rất nhiều nghiên cứu đưa ra như 푠푖 푠푒 −푡표 푖 ( 푖, 푗, 푡 ) = 표푠푖푛푒(푞푖 , 푞푗 ) (7) 
các nghiên cứu của Bhattacharya và cộng sự [2], Diana và 
 Có thể thấy rằng 푠푖 ( , , 푡 ) nằm trong 
cộng sự [7], Li Xin và cộng sự [9], Sheng Bin và cộng sự 푠푒 −푡표 푖 푖 푗 
[13]. Bài báo dựa trên các kết quả nghiên cứu có được từ khoảng [0, 1]. 
tiếng Anh, sau đó tiến hành xây dựng và cải tiến danh sách Sau khi đề xuất hướng tiếp cận ước lượng độ tương tự 
chủ đề phổ biến bằng tiếng Việt trong một nghiên cứu trước giữa hai người dùng dựa trên bài viết và độ quan tâm tương 
đó của nhóm tác giả [11]. Sử dụng kết quả từ nghiên cứu tự của người dùng theo chủ đề, bài báo đề xuất giả thuyết 
[11], nhóm tác giả có được một danh sách gồm 21 chủ đề rằng: Nếu hai người dùng tương tự nhau dựa trên các bài 
chính và 81 chủ đề con được sử dụng phổ biến trên mạng viết thì họ sẽ quan tâm đến một số chủ đề tương tự nhau và 
xã hội. Ví dụ một số chủ đề được minh họa trong Bảng 2. ngược lại. Phần 3 bài báo trình bày thực nghiệm dựa trên 
 Bảng 2. Ví dụ về chủ đề và danh sách từ khóa tương ứng dữ liệu thực để kiểm nghiệm và đánh giá lại giả thuyết này. 
 Chủ đề Danh sách từ khóa 3. Thực nghiệm và đánh giá 
 Giáo dục Giáo dục, tiếng Anh, học tập, kiến thức, thói Như bài báo đã trình bày cuối mục 2.2.3, mục đích của 
 quen, thế hệ, giảng dạy, đào tạo, nghiên cứu, trải thực nghiệm là kiểm nghiệm giả thuyết đã nêu đánh giá dựa 
 nghiệm, giáo dục, tiểu học, trung học, từ nguyên, trên dữ liệu thực. 
 từ đồng, tiếng Việt, toàn cầu, quốc tế, kinh tế, xã 
 hội, văn hóa, quốc công, cha mẹ, trực tuyến, Liên 3.1. Thu thập dữ liệu và xây dựng tập mẫu 
 Hiệp Quốc, học trực tuyến, giáo dục tiểu học,  Nhóm tác giả thực hiện việc thu thập dữ liệu từ trang 
 Môi trường Môi trường, tổ hợp, tự nhiên, xã hội, hệ thống, mạng xã hội Facebook.com và Twitter.com với 150 người 
 tập hợp, tương tác, định nghĩa, con người, không dùng cho mỗi trang. Mỗi người dùng được chọn 10 bài viết 
 khí, độ ẩm, sinh vật, loài người, môi trường, vật gần với thời điểm lấy dữ liệu nhất. Trong mô hình đề xuất, 
 chất, đối tượng, tập hợp con,  bài báo chỉ xem xét các bài viết chứa văn bản tiếng Việt, 
 Mỗi chủ đề sau khi xác định danh sách từ khóa được còn các bài viết không chứa văn bản, hoặc chứa các ngôn 
 ⃗⃗⃗푤⃗ ngữ khác bị loại bỏ khỏi tập dữ liệu. Sau khi đã xử lý, nhóm 
biểu diễn bằng một véc-tơ trọng số 푡 được tính toán theo 
công thức (2). Trong đó, chỉ số k là chủ đề thứ k trong danh tác giả thu được 150 người dùng và thực hiện việc xây dựng 
sách các chủ đề và w là ký hiệu véc-tơ chứa trọng số các từ bộ mẫu dữ liệu thực nghiệm như sau: 
khóa của chủ đề thứ k. Mỗi mẫu là một cặp người dùng với tập 10 bài viết tiếng 
2.2.2. Xác định quan tâm bài viết theo các chủ đề Việt tương ứng được sinh tự động bằng cách ghép cặp các 
 người dùng, sau đó, tự động loại bỏ các cặp trùng nhau, ví 
 Với mỗi bài viết 푒푖 ∈ của 푖 ∈ 푈 theo chủ đề 푡푗 ∈ dụ (A, B) và (B, A) sẽ bị loại bỏ đi một, các cặp dạng 
thì mức độ quan tâm được tính bằng công thức sau đây: (A, A) cũng bị loại bỏ khỏi bộ mẫu. Cuối cùng, nhóm tác 
 푤 푤
 푠푖 푒푛푡 −푡표 푖 (푒푖, 푡푗) = 표푠푖푛푒(푣⃗⃗⃗푖⃗⃗ , 푡⃗⃗푗⃗⃗ ) (6) giả thu được bộ mẫu dữ liệu trong Bảng 3. 
 푤 Bảng 3. Bộ mẫu dữ liệu thực nghiệm 
 Trong đó, 푣⃗⃗⃗푖⃗⃗ là véc-tơ trọng số của bài viết 푒푖 ∈ của 
 푤 Facebook.com Twitter.com 
 푖 ∈ 푈 và 푡⃗⃗푗⃗⃗ là véc-tơ trọng số của chủ đề 푡푗 ∈ . Nghĩa là 
độ quan tâm của bài viết theo chủ đề dựa trên độ tương tự Số lượng người dùng 150 150 
của các từ khóa của bài viết và từ khóa của chủ đề đang Số lượng bài viết 1.500 1.500 
xem xét. Dễ dàng thấy rằng 푠푖 (푒 , 푡 ) nằm 
 푒푛푡 −푡표 푖 푖 푗 Số cặp người dùng 11.100 11.100 
trong khoảng [0, 1]. 
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 7(128).2018 31 
3.2. Các bước thực nghiệm Dựa vào Bảng 5 và công thức (7) để ước lượng độ 
 Để tiến hành đánh giá mối tương quan dựa trên thực tương tự quan tâm của người dùng theo các chủ đề. Để xác 
nghiệm, mỗi mẫu trong bộ dữ liệu lần lượt được thực hiện định hai người dùng có độ quan tâm tương tự nhau, bài báo 
như sau: lựa chọn ngưỡng 푠푖 푠푒 −푡표 푖 ( 푖, 푗, 푡 ) >= 0,55. Những 
 Bước 1: Mỗi bài viết 푒 ∈ của mỗi người dùng cặp nào không thỏa mãn được ngưỡng này được coi là quan 
 푖 푖 tâm ít tương tự nhau theo các chủ đề trên mạng xã hội. 
 푖 ∈ 푈 được phân tích và ước lượng véc-tơ trọng số theo 
công thức (2) và lưu lại kết quả. Bảng 6. Độ tương tự quan tâm của người dùng theo chủ đề 
 Bước 2: Ước lượng độ tương tự của hai người dùng dựa U001 U003 U006 U007 U008 U010 
trên các bài viết theo công thức (5) và lưu lại kết quả. Minh 
 U001 1,0 
họa kết quả trình bày trong Bảng 4. 
 U003 0,633 1,0 
 Bước 3: Xây dựng véc-tơ trọng số cho mỗi chủ đề. 
 Bước 4: Xác định độ quan tâm của người dùng với các U006 0,590 0,720 1,0 
chủ đề theo công thức (6). Minh họa kết quả ở Bảng 5. U007 0,573 0,803 0,733 1,0 
 Bước 5: Ước lượng độ tương tự quan tâm của người U008 0,643 0,816 0,644 0,679 1,0 
dùng theo chủ đề theo công thức (7). Minh họa kết quả U010 0,674 0,872 0,667 0,654 0,742 1,0 
trong Bảng 6. 
 3.3. Đánh giá 
 Bước 6: Ước lượng độ tương quan giữa kết quả của 
Bảng 4 và Bảng 6. Để đánh giá độ tương quan của công thức (5) và công 
 thức (7), bài báo sử dụng giá trị trung bình độ lệch tuyệt đối 
 Bước 7: Đánh giá và thảo luận các kết quả. 
 và giá trị trung bình độ lệch tương đối để đánh giá như sau: 
 Bảng 4. Độ tương tự của người dùng theo bài viết 
 Đánh giá theo trung bình độ lệch tuyệt đối: 
 U001 U003 U006 U007 U008 U010 Trung bình độ lệch tuyệt đối được tính bằng giá trị tuyệt 
 U001 1,0 đối của trung bình chung hiệu giữa độ đo tương tự của các 
 U003 0,712 1,0 cặp người dùng theo bài viết và độ đo tương tự của mỗi cặp 
 người dùng theo chủ đề và được tính như sau: 
 U006 0,623 0,804 1,0 
 TBTĐ=|푠푖 ( , )-푠푖 ( , , 푡 )| 
 U007 0,644 0,912 0,733 1,0 푠푒 −푒푛푡 푖 푗 푠푒 −푡표 푖 푖 푗 
 (8) 
 U008 0,810 0,941 0,687 0,711 1,0 
 Với kết quả từ thực nghiệm trong bộ mẫu dữ liệu thì mô 
 U010 0,743 0,894 0,791 0,765 0,824 1,0 hình đề xuất có trung bình độ lệch tuyệt đối là 0,077. Khi 
 Độ tương tự của hai người dùng được tính theo công đó, độ chính xác của mô hình đề xuất là: 
thức (5) và minh họa trong Bảng 4. Trong bài báo này, hai Độ chính xác = (1 - trung bình độ lệch tuyệt đối)*100% (9) 
người dùng được coi là tương tự nhau dựa trên bài viết nếu 
 Và độ chính xác bằng 92,3%. 
푠푖 ( , ) ≥ 0,55, ngược lại được coi là có 
 푠푒 −푒푛푡 푖 푗 Đánh giá theo trung bình độ lệch tương đối: 
nhiều bài viết khác nhau. Từ Bảng 4, có thể thấy rằng nếu 
hai người dùng càng có nhiều bài viết tương tự nhau thì độ Trung bình độ lệch tương đối được tính bằng thương 
tương tự sẽ gần đến giá trị 1. Ngược lại, nếu có nhiều bài của trung bình chung của giá trị tuyệt đối của độ tương tự 
viết không tương tự nhau thì độ tương tự của hai người của hai người dùng theo bài viết và độ tương tự của hai 
dùng càng xa giá trị 1. người dùng theo chủ đề chia cho giá trị lớn nhất của độ đo 
 Bảng 5. Độ quan tâm của người dùng với các chủ đề tương tự theo bài viết và độ đo tương tự theo chủ đề và 
 được tính theo công thức: 
 Môi Chính Sức Công Giáo Hôn 
 Du lịch |푠푖 푠푒 −푒푛푡 ( 푖, 푗)− 푠푖 푠푒 −푡표 푖 ( 푖, 푗,푡 )| 
 trường trị khỏe nghệ dục nhân TBTgĐ= 
 MAX(푠푖 푠푒 −푒푛푡 ( 푖, 푗) ,푠푖 푠푒 −푡표 푖 ( 푖, 푗,푡 ))
 U001 0,0159 0,0 0,0133 0,0400 0,0293 0,0135 0,0482 (10) 
 U003 0,0357 0,0242 0,0259 0,0242 0,0319 0,0338 0,0244 Với kết quả từ thực nghiệm trong bộ mẫu dữ liệu thì mô 
 U006 0,0357 0,0265 0,0167 0,0264 0,0095 0,0281 0,0 hình đề xuất có trung bình độ lệch tương đối sẽ là 0,084. 
 Khi đó, độ chính xác của mô hình đề xuất là: 
 U007 0,0349 0,0326 0,0218 0,0298 0,0247 0,0269 0,0229 
 Độ chính xác = (1 - trung bình độ lệch tương đối)*100% (11) 
 U008 0,0366 0,0400 0,0318 0,0210 0,0170 0,0268 0,1213 Và độ chính xác bằng 91,2%. 
 U010 0,0429 0,0499 0,0262 0,0239 0,0282 0,0 0,0274 Bảng 7. Đánh giá mô hình và sự tương quan 
 Độ quan tâm của người dùng đối với các chủ đề phổ Trung bình Trung bình Độ chính xác Độ chính xác 
biến trên các mạng xã hội được tính theo công thức (6). độ lệch độ lệch theo độ lệch theo độ lệch 
Nhìn vào Bảng 5 có thể thấy rằng các ô có giá trị 0,0 là tuyệt đối tương đối tuyệt đối tương đối 
không có bài viết nào tương tự với các chủ đề được xây Facebook 0,76 0,84 92,4% 91,6% 
dựng. Hay nói cách khác là người dùng không quan tâm 
đến chủ đề đó trong thời điểm hiện tại. Twitter 0,87 0,91 91,3% 90,9% 
32 Nguyễn Thị Hội, Trần Đình Quế 
 1 [5] D. Manning, Prabhakar Raghavan, Hinrich Schutze, Introduction to 
 Information Retrieval, 27 Oct 2013. 
 0,8 [6] Dekang Lin, An Information-Theoretic Definition of Similarity, in 
 Proc. 15th International Conf. on Machine Learning, Morgan 
 0,6 Kaufmann, San Francisco, CA, 1998, pp. 296-304. 
 Sentry [7] Diana Palsetia, Md. Mostofa, Ali Patwary, Kunpeng Zhang, Kathy 
 0,4 Lee, Christopher Moran, Yves Xie, Daniel Honbo, Ankit Agrawal, 
 Stopic Wei-keng Liao, Alok Choudhary, User-Interest based Community 
 0,2 Extraction in Social Networks, ACM, NY, USA, 2012. 
 [8] Elie Raad, Richard Chbeir, and Albert Dipanda, User Profile Matching 
 0 in Social Networks, in Proceedings of the 2010 13th International 
 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Conference on Network Based Information Systems, NBIS’10, 
 Washington, DC, USA, 2010, IEEE Computer Society, pp. 297-304. 
 [9] Li Xin, Guo Lei, Zhao Yihong Eric, Tag-based Social Interest 
Hình 1. Độ tương tự người dùng dựa trên bài viết và các chủ đề Discovery, Proceedings of the 17th International Conference on World 
 Biểu diễn ví dụ minh họa với một số cặp người dùng Wide Web Beijing, China, ACM, New York, NY, USA, pp. 675- 684. 
đầu tiên thể hiện trong Hình 1. Hình 1 cho thấy rõ có sự [10] Manh Hung Nguyen and Thi Hoi Nguyen, “General Model for 
tương quan giữa các bài viết của người dùng và các chủ đề Similarity Measurement Between Objects”, International Journal of 
 Advanced Computer Science and Applications (IJACSA), 6(2), 2015, 
người dùng quan tâm trên các mạng xã hội. pp. 235-239. 
 [11] Nguyễn Thị Hội, Đàm Gia Mạnh, Trần Đình Quế, Độ tương đồng 
4. Kết luận ngữ nghĩa các bài viết trên mạng xã hội dựa trên Wikipedia, Hội 
 Bài báo này đã đề xuất mô hình ước lượng độ tương tự nghị Khoa học Quốc gia Nghiên cứu cơ bản và ứng dụng CNTT lần 
quan tâm của người dùng dựa trên các bài viết và mối tương 10 - FAIR'10, 8/2017. 
 [12] Pavan Kapanipathi, Prateek Jain, Chitra Venkataramani, Amit 
quan giữa các bài viết và chủ đề quan tâm của người dùng Sheth, User Interests Identification on Twitter Using a Hierarchical 
trên các mạng xã hội. Mô hình đề xuất có thể áp dụng trong Knowledge Base, 11th ESWC 2014 (ESWC2014), May 2014. 
việc phân loại người dùng trên các mạng xã hội hoặc xác [13] Sheng Bin, Gengxin Sun, Peijian Zhang and Yixin Zhou, “Tag-
định quan tâm của người dùng theo các chủ đề ứng dụng Based Interest-Matching Users Discovery Approach in Online 
trong các chương trình quảng cáo, các hệ thống khuyến Social Network”, International Journal of Hybrid Information 
nghị người dùng,  Technology, Vol. 9, No. 5, 2016, pp. 61-70. 
 [14] Sheetal A Takale, Sushma S Nandgaonkar, “Measuring Semantic 
 Similarity Between Words Using Web Documents”, International 
 TÀI LIỆU THAM KHẢO Journal of Advanced Computer Science and Applications (IJACSA), 
 Vol. 1, Issue 4, 2010, pp. 78-85. 
[1] Ashton Anderson, Daniel Huttenlocher, Jon Kleinberg, và Jure 
 Leskovec, Effects of user similarity in social media, Proceedings of the [15] Nguyen T. H., Tran D. Q., Dam G. M., Nguyen M. H., Integrated 
 Fifth ACM International Conference on Web Search and Data Mining, Sentiment and Emotion into Estimating the Similarity Among Entries 
 WSDM’12, New York, NY, USA, 2012, ACM, pp. 703-712. on Social Network, International Conference on Industrial Networks 
 and Intelligent Systems, INISCOM 2017: Industrial Networks and 
[2] Bhattacharya Parantapa, Zafar Muhammad Bilal, Ganguly Niloy, Intelligent Systems, Vol. 221, 2018, pp. 242-253. 
 Ghosh Saptarshi, Gummadi Krishna P, Inferring User Interests in 
 the Twitter Social Networki, Proceedings of the 8th ACM [16] W. B. Cavnar and J. M. Trenkle, N-gram-Based Text 
 Conference on Recommender Systems, RecSys ’14, ACM, New Categorization, Environmental Research Institute of Michigan, Ann 
 York, NY, USA, pp. 357-360. Arbor MI, 48113(2), 1994, pp. 161-175. 
[3] Bruno Ohana and Brendan Tierney, Sentiment Classification of [17] Zhao Zhe, Cheng Zhiyuan, Hong Lichan, Hsin Chi Ed Huai, 
 Reviews Using Sentiwordnet, 2009. Improving User Topic Interest Profiles by Behavior Factorization, 
 Department of EECS, University of Michigan, ACM, New York, 
[4] Chihli Hung and Hao-Kai Lin, “Using Objective Words in NY, USA, 2015, pp. 1406-1416.
 Sentiwordnet to Improve Word-of-Mouth Sentiment Classification”, 
 IEEE Intelligent Systems, 28(2), 2013, pp. 47-54. 
 (BBT nhận bài: 01/4/2018, hoàn tất thủ tục phản biện: 03/6/2018) 

File đính kèm:

  • pdfuoc_luong_quan_tam_nguoi_dung_tren_mang_xa_hoi_dua_tren_tuon.pdf