Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết

Tóm tắt - Phát hiện quan tâm của người dùng trên các mạng xã

hội là một trong những chủ đề thu hút nhiều nghiên cứu và được

áp dụng trong nhiều ứng dụng như khuyến nghị người dùng, các

chương trình quảng cáo cá nhân hóa hoặc phân loại người dùng.

Trong bài báo này, nhóm tác giả đề xuất một mô hình dựa trên

việc phân tích các bài viết của người dùng trên các mạng xã hội

để phát hiện và so sánh tương quan về quan tâm của họ. Mô

hình đề xuất được đánh giá bằng thực nghiệm với dữ liệu thực.

Kết quả thực nghiệm cho thấy rằng nếu hai người dùng có nhiều

bài viết giống nhau thì sẽ có quan tâm tương tự nhau và ngược

lại, nếu hai người dùng có quan tâm giống nhau thì cũng có nhiều

bài viết tương tự nhau.

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

5 trang xuanhieu 19660

Download

Bạn đang xem tài liệu "Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết

Gọi , ∈ 푈 là hai người dùng, mỗi người dùng có tập
Khi đó, việc ước lượng độ tương tự giữa hai bài viết 푖 푗
푙 các bài viết 푖, 푗 ∈ và mỗi người dùng sẽ có một véc-tơ
푒푖 ∈ 푖 ủ 푖 ∈ 푈 푣à 푒푗 ∈ 푗 của 푗 ∈ 푈 được tính toán
⃗⃗⃗⃗푤⃗ ⃗⃗⃗⃗푤⃗
bằng cách tích hợp có trọng số các độ tương tự của 5 thuộc trọng số biểu diễn các bài viết của họ tương ứng là 푖 , 푗 .
30 Nguyễn Thị Hội, Trần Đình Quế
Với mỗi cặp người dùng 푖, 푗 ∈ 푈 thì mỗi thành phần 2.2.3. Độ quan tâm tương tự của người dùng theo chủ đề
푤
푖 của véc-tơ ⃗⃗⃗⃗푖⃗ được tính như sau: Với mỗi 푒푖 ∈ 푖 của Bây giờ ta có thể định nghĩa mức độ quan tâm của
푙
푖 tính độ tương tự của 푒푖 với tất cả các bài viết 푒푗 ∈ 푗 người dùng theo chủ đề như sau. Với mỗi 푖 ∈ 푈 trên mạng
xã hội cùng tập các bài viết 푖 ∈ , độ quan tâm của người
của 푗 ∈ 푈. Mỗi thành phần 푖 được tính theo công thức:
dùng 푖 ∈ 푈 với chủ đề 푡푗 ∈ được biểu diễn bằng véc-tơ
∑ 푠푖 푒푛푡 (푒 ,푒푗) 푗
1 ⃗⃗⃗⃗
= (4) 푞푖 (gọi là véc-tơ độ quan tâm của người dùng 푖 đến chủ
푖
đề 푡푗 trên mạng xã hội) như sau:
Mỗi thành phần của véc-tơ ⃗⃗⃗⃗푤⃗ cũng được tính
푗 푗 ⃗⃗⃗⃗ 푗 푗 푗 푗
tương tự. 푖푛푡푒 푒푠푡 푠푒 −푡표 푖 ( 푖, 푡푗) = 푞푖 =(푞푖1, 푞푖2, . . , 푞푖푛)
푗
Khi đó, độ tương tự của hai người dùng 푖, 푗 ∈ 푈 dựa Trong đó, 푞푖 với k = 1 ... n là độ quan tâm của mỗi bài
trên bài viết được tính bằng: viết 푒푖 ∈ 푖 của người dùng 푖 với chủ đề 푡푗 tính theo công
푤 푤 thức (6).
푠푖 푠푒 −푒푛푡 ( 푖, 푗) = 표푠푖푛푒( ⃗⃗⃗⃗푖⃗ , ⃗⃗⃗푗⃗⃗ . ) (5)
Gọi 푞⃗⃗⃗⃗ là véc-tơ quan tâm của người dùng ∈ 푈 trên
Có thể thấy rằng 푠푖 푠푒 −푒푛푡 ( 푖, 푗) nằm trong 푖 푖
⃗⃗⃗⃗
khoảng [0, 1]. mạng xã hội đến chủ đề 푡푗 ∈ và 푞푗 là véc-tơ quan tâm
2.2. Ước lượng quan tâm của người dùng theo chủ đề của người dùng 푗 ∈ 푈 trên mạng xã hội đến chủ đề 푡푗 ∈
2.2.1. Xác định các chủ đề trên mạng xã hội . Khi đó, độ tương tự quan tâm của hai người dùng
, ∈ 푈 với chủ đề 푡 ∈ được tính bằng:
Phát hiện các chủ đề và các quan tâm đến các chủ đề 푖 푗 푗
⃗⃗⃗⃗ ⃗⃗⃗⃗
của người dùng đã được rất nhiều nghiên cứu đưa ra như 푠푖 푠푒 −푡표 푖 ( 푖, 푗, 푡 ) = 표푠푖푛푒(푞푖 , 푞푗 ) (7)
các nghiên cứu của Bhattacharya và cộng sự [2], Diana và
Có thể thấy rằng 푠푖 ( , , 푡 ) nằm trong
cộng sự [7], Li Xin và cộng sự [9], Sheng Bin và cộng sự 푠푒 −푡표 푖 푖 푗
[13]. Bài báo dựa trên các kết quả nghiên cứu có được từ khoảng [0, 1].
tiếng Anh, sau đó tiến hành xây dựng và cải tiến danh sách Sau khi đề xuất hướng tiếp cận ước lượng độ tương tự
chủ đề phổ biến bằng tiếng Việt trong một nghiên cứu trước giữa hai người dùng dựa trên bài viết và độ quan tâm tương
đó của nhóm tác giả [11]. Sử dụng kết quả từ nghiên cứu tự của người dùng theo chủ đề, bài báo đề xuất giả thuyết
[11], nhóm tác giả có được một danh sách gồm 21 chủ đề rằng: Nếu hai người dùng tương tự nhau dựa trên các bài
chính và 81 chủ đề con được sử dụng phổ biến trên mạng viết thì họ sẽ quan tâm đến một số chủ đề tương tự nhau và
xã hội. Ví dụ một số chủ đề được minh họa trong Bảng 2. ngược lại. Phần 3 bài báo trình bày thực nghiệm dựa trên
Bảng 2. Ví dụ về chủ đề và danh sách từ khóa tương ứng dữ liệu thực để kiểm nghiệm và đánh giá lại giả thuyết này.
Chủ đề Danh sách từ khóa 3. Thực nghiệm và đánh giá
Giáo dục Giáo dục, tiếng Anh, học tập, kiến thức, thói Như bài báo đã trình bày cuối mục 2.2.3, mục đích của
quen, thế hệ, giảng dạy, đào tạo, nghiên cứu, trải thực nghiệm là kiểm nghiệm giả thuyết đã nêu đánh giá dựa
nghiệm, giáo dục, tiểu học, trung học, từ nguyên, trên dữ liệu thực.
từ đồng, tiếng Việt, toàn cầu, quốc tế, kinh tế, xã
hội, văn hóa, quốc công, cha mẹ, trực tuyến, Liên 3.1. Thu thập dữ liệu và xây dựng tập mẫu
Hiệp Quốc, học trực tuyến, giáo dục tiểu học, Nhóm tác giả thực hiện việc thu thập dữ liệu từ trang
Môi trường Môi trường, tổ hợp, tự nhiên, xã hội, hệ thống, mạng xã hội Facebook.com và Twitter.com với 150 người
tập hợp, tương tác, định nghĩa, con người, không dùng cho mỗi trang. Mỗi người dùng được chọn 10 bài viết
khí, độ ẩm, sinh vật, loài người, môi trường, vật gần với thời điểm lấy dữ liệu nhất. Trong mô hình đề xuất,
chất, đối tượng, tập hợp con, bài báo chỉ xem xét các bài viết chứa văn bản tiếng Việt,
Mỗi chủ đề sau khi xác định danh sách từ khóa được còn các bài viết không chứa văn bản, hoặc chứa các ngôn
⃗⃗⃗푤⃗ ngữ khác bị loại bỏ khỏi tập dữ liệu. Sau khi đã xử lý, nhóm
biểu diễn bằng một véc-tơ trọng số 푡 được tính toán theo
công thức (2). Trong đó, chỉ số k là chủ đề thứ k trong danh tác giả thu được 150 người dùng và thực hiện việc xây dựng
sách các chủ đề và w là ký hiệu véc-tơ chứa trọng số các từ bộ mẫu dữ liệu thực nghiệm như sau:
khóa của chủ đề thứ k. Mỗi mẫu là một cặp người dùng với tập 10 bài viết tiếng
2.2.2. Xác định quan tâm bài viết theo các chủ đề Việt tương ứng được sinh tự động bằng cách ghép cặp các
người dùng, sau đó, tự động loại bỏ các cặp trùng nhau, ví
Với mỗi bài viết 푒푖 ∈ của 푖 ∈ 푈 theo chủ đề 푡푗 ∈ dụ (A, B) và (B, A) sẽ bị loại bỏ đi một, các cặp dạng
thì mức độ quan tâm được tính bằng công thức sau đây: (A, A) cũng bị loại bỏ khỏi bộ mẫu. Cuối cùng, nhóm tác
푤 푤
푠푖 푒푛푡 −푡표 푖 (푒푖, 푡푗) = 표푠푖푛푒(푣⃗⃗⃗푖⃗⃗ , 푡⃗⃗푗⃗⃗ ) (6) giả thu được bộ mẫu dữ liệu trong Bảng 3.
푤 Bảng 3. Bộ mẫu dữ liệu thực nghiệm
Trong đó, 푣⃗⃗⃗푖⃗⃗ là véc-tơ trọng số của bài viết 푒푖 ∈ của
푤 Facebook.com Twitter.com
푖 ∈ 푈 và 푡⃗⃗푗⃗⃗ là véc-tơ trọng số của chủ đề 푡푗 ∈ . Nghĩa là
độ quan tâm của bài viết theo chủ đề dựa trên độ tương tự Số lượng người dùng 150 150
của các từ khóa của bài viết và từ khóa của chủ đề đang Số lượng bài viết 1.500 1.500
xem xét. Dễ dàng thấy rằng 푠푖 (푒 , 푡 ) nằm
푒푛푡 −푡표 푖 푖 푗 Số cặp người dùng 11.100 11.100
trong khoảng [0, 1].
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 7(128).2018 31
3.2. Các bước thực nghiệm Dựa vào Bảng 5 và công thức (7) để ước lượng độ
Để tiến hành đánh giá mối tương quan dựa trên thực tương tự quan tâm của người dùng theo các chủ đề. Để xác
nghiệm, mỗi mẫu trong bộ dữ liệu lần lượt được thực hiện định hai người dùng có độ quan tâm tương tự nhau, bài báo
như sau: lựa chọn ngưỡng 푠푖 푠푒 −푡표 푖 ( 푖, 푗, 푡 ) >= 0,55. Những
Bước 1: Mỗi bài viết 푒 ∈ của mỗi người dùng cặp nào không thỏa mãn được ngưỡng này được coi là quan
푖 푖 tâm ít tương tự nhau theo các chủ đề trên mạng xã hội.
푖 ∈ 푈 được phân tích và ước lượng véc-tơ trọng số theo
công thức (2) và lưu lại kết quả. Bảng 6. Độ tương tự quan tâm của người dùng theo chủ đề
Bước 2: Ước lượng độ tương tự của hai người dùng dựa U001 U003 U006 U007 U008 U010
trên các bài viết theo công thức (5) và lưu lại kết quả. Minh
U001 1,0
họa kết quả trình bày trong Bảng 4.
U003 0,633 1,0
Bước 3: Xây dựng véc-tơ trọng số cho mỗi chủ đề.
Bước 4: Xác định độ quan tâm của người dùng với các U006 0,590 0,720 1,0
chủ đề theo công thức (6). Minh họa kết quả ở Bảng 5. U007 0,573 0,803 0,733 1,0
Bước 5: Ước lượng độ tương tự quan tâm của người U008 0,643 0,816 0,644 0,679 1,0
dùng theo chủ đề theo công thức (7). Minh họa kết quả U010 0,674 0,872 0,667 0,654 0,742 1,0
trong Bảng 6.
3.3. Đánh giá
Bước 6: Ước lượng độ tương quan giữa kết quả của
Bảng 4 và Bảng 6. Để đánh giá độ tương quan của công thức (5) và công
thức (7), bài báo sử dụng giá trị trung bình độ lệch tuyệt đối
Bước 7: Đánh giá và thảo luận các kết quả.
và giá trị trung bình độ lệch tương đối để đánh giá như sau:
Bảng 4. Độ tương tự của người dùng theo bài viết
Đánh giá theo trung bình độ lệch tuyệt đối:
U001 U003 U006 U007 U008 U010 Trung bình độ lệch tuyệt đối được tính bằng giá trị tuyệt
U001 1,0 đối của trung bình chung hiệu giữa độ đo tương tự của các
U003 0,712 1,0 cặp người dùng theo bài viết và độ đo tương tự của mỗi cặp
người dùng theo chủ đề và được tính như sau:
U006 0,623 0,804 1,0
TBTĐ=|푠푖 ( , )-푠푖 ( , , 푡 )|
U007 0,644 0,912 0,733 1,0 푠푒 −푒푛푡 푖 푗 푠푒 −푡표 푖 푖 푗
(8)
U008 0,810 0,941 0,687 0,711 1,0
Với kết quả từ thực nghiệm trong bộ mẫu dữ liệu thì mô
U010 0,743 0,894 0,791 0,765 0,824 1,0 hình đề xuất có trung bình độ lệch tuyệt đối là 0,077. Khi
Độ tương tự của hai người dùng được tính theo công đó, độ chính xác của mô hình đề xuất là:
thức (5) và minh họa trong Bảng 4. Trong bài báo này, hai Độ chính xác = (1 - trung bình độ lệch tuyệt đối)*100% (9)
người dùng được coi là tương tự nhau dựa trên bài viết nếu
Và độ chính xác bằng 92,3%.
푠푖 ( , ) ≥ 0,55, ngược lại được coi là có
푠푒 −푒푛푡 푖 푗 Đánh giá theo trung bình độ lệch tương đối:
nhiều bài viết khác nhau. Từ Bảng 4, có thể thấy rằng nếu
hai người dùng càng có nhiều bài viết tương tự nhau thì độ Trung bình độ lệch tương đối được tính bằng thương
tương tự sẽ gần đến giá trị 1. Ngược lại, nếu có nhiều bài của trung bình chung của giá trị tuyệt đối của độ tương tự
viết không tương tự nhau thì độ tương tự của hai người của hai người dùng theo bài viết và độ tương tự của hai
dùng càng xa giá trị 1. người dùng theo chủ đề chia cho giá trị lớn nhất của độ đo
Bảng 5. Độ quan tâm của người dùng với các chủ đề tương tự theo bài viết và độ đo tương tự theo chủ đề và
được tính theo công thức:
Môi Chính Sức Công Giáo Hôn
Du lịch |푠푖 푠푒 −푒푛푡 ( 푖, 푗)− 푠푖 푠푒 −푡표 푖 ( 푖, 푗,푡 )|
trường trị khỏe nghệ dục nhân TBTgĐ=
MAX(푠푖 푠푒 −푒푛푡 ( 푖, 푗) ,푠푖 푠푒 −푡표 푖 ( 푖, 푗,푡 ))
U001 0,0159 0,0 0,0133 0,0400 0,0293 0,0135 0,0482 (10)
U003 0,0357 0,0242 0,0259 0,0242 0,0319 0,0338 0,0244 Với kết quả từ thực nghiệm trong bộ mẫu dữ liệu thì mô
U006 0,0357 0,0265 0,0167 0,0264 0,0095 0,0281 0,0 hình đề xuất có trung bình độ lệch tương đối sẽ là 0,084.
Khi đó, độ chính xác của mô hình đề xuất là:
U007 0,0349 0,0326 0,0218 0,0298 0,0247 0,0269 0,0229
Độ chính xác = (1 - trung bình độ lệch tương đối)*100% (11)
U008 0,0366 0,0400 0,0318 0,0210 0,0170 0,0268 0,1213 Và độ chính xác bằng 91,2%.
U010 0,0429 0,0499 0,0262 0,0239 0,0282 0,0 0,0274 Bảng 7. Đánh giá mô hình và sự tương quan
Độ quan tâm của người dùng đối với các chủ đề phổ Trung bình Trung bình Độ chính xác Độ chính xác
biến trên các mạng xã hội được tính theo công thức (6). độ lệch độ lệch theo độ lệch theo độ lệch
Nhìn vào Bảng 5 có thể thấy rằng các ô có giá trị 0,0 là tuyệt đối tương đối tuyệt đối tương đối
không có bài viết nào tương tự với các chủ đề được xây Facebook 0,76 0,84 92,4% 91,6%
dựng. Hay nói cách khác là người dùng không quan tâm
đến chủ đề đó trong thời điểm hiện tại. Twitter 0,87 0,91 91,3% 90,9%
32 Nguyễn Thị Hội, Trần Đình Quế
1 [5] D. Manning, Prabhakar Raghavan, Hinrich Schutze, Introduction to
Information Retrieval, 27 Oct 2013.
0,8 [6] Dekang Lin, An Information-Theoretic Deﬁnition of Similarity, in
Proc. 15th International Conf. on Machine Learning, Morgan
0,6 Kaufmann, San Francisco, CA, 1998, pp. 296-304.
Sentry [7] Diana Palsetia, Md. Mostofa, Ali Patwary, Kunpeng Zhang, Kathy
0,4 Lee, Christopher Moran, Yves Xie, Daniel Honbo, Ankit Agrawal,
Stopic Wei-keng Liao, Alok Choudhary, User-Interest based Community
0,2 Extraction in Social Networks, ACM, NY, USA, 2012.
[8] Elie Raad, Richard Chbeir, and Albert Dipanda, User Proﬁle Matching
0 in Social Networks, in Proceedings of the 2010 13th International
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Conference on Network Based Information Systems, NBIS’10,
Washington, DC, USA, 2010, IEEE Computer Society, pp. 297-304.
[9] Li Xin, Guo Lei, Zhao Yihong Eric, Tag-based Social Interest
Hình 1. Độ tương tự người dùng dựa trên bài viết và các chủ đề Discovery, Proceedings of the 17th International Conference on World
Biểu diễn ví dụ minh họa với một số cặp người dùng Wide Web Beijing, China, ACM, New York, NY, USA, pp. 675- 684.
đầu tiên thể hiện trong Hình 1. Hình 1 cho thấy rõ có sự [10] Manh Hung Nguyen and Thi Hoi Nguyen, “General Model for
tương quan giữa các bài viết của người dùng và các chủ đề Similarity Measurement Between Objects”, International Journal of
Advanced Computer Science and Applications (IJACSA), 6(2), 2015,
người dùng quan tâm trên các mạng xã hội. pp. 235-239.
[11] Nguyễn Thị Hội, Đàm Gia Mạnh, Trần Đình Quế, Độ tương đồng
4. Kết luận ngữ nghĩa các bài viết trên mạng xã hội dựa trên Wikipedia, Hội
Bài báo này đã đề xuất mô hình ước lượng độ tương tự nghị Khoa học Quốc gia Nghiên cứu cơ bản và ứng dụng CNTT lần
quan tâm của người dùng dựa trên các bài viết và mối tương 10 - FAIR'10, 8/2017.
[12] Pavan Kapanipathi, Prateek Jain, Chitra Venkataramani, Amit
quan giữa các bài viết và chủ đề quan tâm của người dùng Sheth, User Interests Identification on Twitter Using a Hierarchical
trên các mạng xã hội. Mô hình đề xuất có thể áp dụng trong Knowledge Base, 11th ESWC 2014 (ESWC2014), May 2014.
việc phân loại người dùng trên các mạng xã hội hoặc xác [13] Sheng Bin, Gengxin Sun, Peijian Zhang and Yixin Zhou, “Tag-
định quan tâm của người dùng theo các chủ đề ứng dụng Based Interest-Matching Users Discovery Approach in Online
trong các chương trình quảng cáo, các hệ thống khuyến Social Network”, International Journal of Hybrid Information
nghị người dùng, Technology, Vol. 9, No. 5, 2016, pp. 61-70.
[14] Sheetal A Takale, Sushma S Nandgaonkar, “Measuring Semantic
Similarity Between Words Using Web Documents”, International
TÀI LIỆU THAM KHẢO Journal of Advanced Computer Science and Applications (IJACSA),
Vol. 1, Issue 4, 2010, pp. 78-85.
[1] Ashton Anderson, Daniel Huttenlocher, Jon Kleinberg, và Jure
Leskovec, Eﬀects of user similarity in social media, Proceedings of the [15] Nguyen T. H., Tran D. Q., Dam G. M., Nguyen M. H., Integrated
Fifth ACM International Conference on Web Search and Data Mining, Sentiment and Emotion into Estimating the Similarity Among Entries
WSDM’12, New York, NY, USA, 2012, ACM, pp. 703-712. on Social Network, International Conference on Industrial Networks
and Intelligent Systems, INISCOM 2017: Industrial Networks and
[2] Bhattacharya Parantapa, Zafar Muhammad Bilal, Ganguly Niloy, Intelligent Systems, Vol. 221, 2018, pp. 242-253.
Ghosh Saptarshi, Gummadi Krishna P, Inferring User Interests in
the Twitter Social Networki, Proceedings of the 8th ACM [16] W. B. Cavnar and J. M. Trenkle, N-gram-Based Text
Conference on Recommender Systems, RecSys ’14, ACM, New Categorization, Environmental Research Institute of Michigan, Ann
York, NY, USA, pp. 357-360. Arbor MI, 48113(2), 1994, pp. 161-175.
[3] Bruno Ohana and Brendan Tierney, Sentiment Classiﬁcation of [17] Zhao Zhe, Cheng Zhiyuan, Hong Lichan, Hsin Chi Ed Huai,
Reviews Using Sentiwordnet, 2009. Improving User Topic Interest Profiles by Behavior Factorization,
Department of EECS, University of Michigan, ACM, New York,
[4] Chihli Hung and Hao-Kai Lin, “Using Objective Words in NY, USA, 2015, pp. 1406-1416.
Sentiwordnet to Improve Word-of-Mouth Sentiment Classiﬁcation”,
IEEE Intelligent Systems, 28(2), 2013, pp. 47-54.
(BBT nhận bài: 01/4/2018, hoàn tất thủ tục phản biện: 03/6/2018)

File đính kèm:

uoc_luong_quan_tam_nguoi_dung_tren_mang_xa_hoi_dua_tren_tuon.pdf