Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF
TÓM TẮT
Mạng xã hội ngày càng đóng vai trò rất to lớn và không thể thay thế trong thời đại
số hiện nay. Việc sử dụng có hiệu quả dữ liệu mạng xã hội cho các dịch vụ thông
tin đa dạng trong phát triển kinh tế, xã hội, khoa học và giáo dục. Dữ liệu mạng xã
hội, chẳng hạn như Facebook, Tweeter hay Zalo đều cơ bản được biểu diễn theo
mô hình dữ liệu đồ thị với các liên kết định kiểu giữa các đối tượng thông tin.
Trong khi đó, RDF và Linked Data là những tiêu chuẩn dữ liệu dựa trên mô hình
dữ liệu bộ ba làm cơ sở cho mạng ngữ nghĩa, đã thể hiện tính hiệu quả trong biểu
diễn và mô tả tài nguyên dữ kiệu trên không gian Web hiện nay. Việc chuyển đổi
dữ liệu mạng xã hội trong biểu diễn dạng RDF/Linked Data góp phần tạo nên một
nền tảng dữ liệu liên kết có ý nghĩa và sẽ góp phần trong việc nâng cao hiệu quả
của việc phân tích dữ liệu của các mạng xã hội.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF
rung gian. Các kho dữ liệu RDF của dữ liệu MXH chứa nhiều các đồ thị RDF và thông tin bản ghi về mỗi đồ thị và nó cho phép một ứng dụng để thực hiện các truy vấn có liên quan đến thông tin từ nhiều hơn một đồ thị. Một Tập dữ liệu RDF (RDF datasset) đại diện cho một tập hợp các đồ thị. Nó bao gồm một đồ thị mặc định (defaut graph) và hoặc không có hoặc có nhiều đồ thị được đặt tên (named graph). Trong đó các đồ thị được đặt tên được định danh bởi một URI. Đồ thị được sử dụng cho việc đối sánh một basic mẫu đồ thị cơ sở là đồ thị đang hoạt động (active graph).Ở trong các phần trước tất cả các truy vấn đều được thực thi đối với một đơn đồ thị điều đó có nghĩa là đồ thị mặc định của RDF Dataset chính là đồ thị đang hoạt động. Định nghĩa của Tập dữ liệu RDF không hạn chế mối quan hệ của đồ thị được đặt tên và đồ thị mặc định. Thông tin có thể được lặp đi lặp lại trong các đồ thị khác nhau và các mối quan hệ giữa các đồ thị có thể đươc phơi bày. Có hai chú ý hữu dụng mà ta cần xem xét: Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF 6 - Để có thông tin trong đồ thị mặc định phải bao gồm các thông tin gốc trên các đồ thị được đặt tên. - Nên bao gồm các thông tin trên đồ thị đặt tên trong đồ thị mặc định. Hình 2. Minh hoạ truy xuất các đồ thị trong RDF dataset Khi truy vấn một tập hợp các đồ thị, từ khóa GRAPH được sử dụng để đối sánh các mẫu với các đồ thị được đặt tên. GRAPH có thể cung cấp một IRI để lựa chọn một đồ thị hoặc hoặc sử dụng một biến chỉ các IRI trong truy vấn RDF Dataset. Xét ví dụ dưới đây với hai đồ thị với dữ liệu MXH (profile) như sau: # Named graph: @prefix foaf: . @prefix rdf: . @prefix rdfs: . _:a foaf:name "Alice" . _:a foaf:mbox . _:a foaf:knows _:b . _:b foaf:name "Bob" . _:b foaf:mbox . _:b foaf:nick "Bobby" . TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 15, Số 1 (2020) 7 _:b rdfs:seeAlso . rdf:type foaf:PersonalProfileDocument . # Named graph: @prefix foaf: . @prefix rdf: . @prefix rdfs: . _:z foaf:mbox . _:z rdfs:seeAlso . _:z foaf:nick "Robert" . rdf:type foaf:PersonalProfileDocument . Sử dụng truy vấn SPARQL chúng ta có thể truy vấn các thông tin “lệch” nhau được lưu trữ trên các profile được cho ở trên: PREFIX foaf: SELECT ?src ?bobNick FROM NAMED FROM NAMED WHERE { GRAPH ?src { ?x foaf:mbox . ?x foaf:nick ?bobNick } } Sẽ cho ra kết quả là: scr bobNick "Bobby" "Robert" Xem xét một ví dụ khác, ta xét một truy vấn khác dựa trên các tập dữ liệu MXH dạng RDF như đã cho ở trên: Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF 8 PREFIX data: PREFIX foaf: PREFIX rdfs: SELECT ?mbox ?nick ?ppd FROM NAMED FROM NAMED WHERE { GRAPH data:aliceFoaf { ?alice foaf:mbox ; foaf:knows ?whom . ?whom foaf:mbox ?mbox ; rdfs:seeAlso ?ppd . ?ppd a foaf:PersonalProfileDocument . } . GRAPH ?ppd { ?w foaf:mbox ?mbox ; foaf:nick ?nick } } Kết quả truy vấn: mbox nick ppd "Robert" Kết quả này cho thấy được cách thức truy vấn dữ liệu MXH dạng RDF được thể hiện bằng các truy vấn SPQARQL thuận lợi và cách để kiểm chứng thông tin. 3. KIẾN TRÚC HỆ THỐNG KHUNG XỬ LÝ Hệ thống Chuyển đổi và Phân tích dữ liệu mạng xã hội (gọi tên là iSDA) được thiết kế với mục tiêu là thu thập các nguồn dữ liệu mạng xã hôi, sau đó chuyển đổi biểu diễn dạng RDF và ứng dụng các phương pháp phân tích dữ liệu MXH. Hệ thống iSDA vì vậy sẽ nhắm đến các tác vụ sau: TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 15, Số 1 (2020) 9 Thu thập dữ liệu MXH theo cơ chế bán thời gian thực; Xử lý và chuyển đổi dữ liệu sang dạng biểu diễn giàu ngữ nghĩa; Tích hợp và Phân tích dữ liệu MXH theo mô hình RDF. 3.1. Module cho Thu thập dữ liệu Mạng xã hội Dữ liệu mạng xã hội sẽ được thu thập thông qua các crawler được lập trình để quét những nhóm người sử dụng, fanpage, các kênh theo đặc thù. MXH phổ biến nhất hiện nay tại Việt Nam là Facebook thì không cung cấp các API để có thể giao tiếp thu thập thông tin dễ dàng, do đó, đề tài sẽ đề xuất mô hình crawler (social media crawler) phù hợp để quét những dữ liệu MXH có trọng tâm theo cơ chế bán thời gian thực. Dữ liệu Facebook cơ bản là dạng dữ liệu đồ thị (graph data), do đó việc chuyển đổi qua mô hình dữ liệu RDF là một sự chuyển đổi tự nhiên và có thể giữ được các mối quan hệ mang thông tin và dữ liệu của đặc trưng dữ liệu MXH. Một cơ chế crawling dữ liệu đồ thị là hướng tiếp cận của đề tài đề xuất. Hình 3. Kiến trúc hệ thống chuyển đổi và xử lý dữ liệu dựa trên công nghệ Web ngữ nghĩa. 3.2. Module cho Xử lý và Chuyển đổi dữ liệu MXH Như vừa đề cập ở trên, dữ liệu MXH cơ bản là dạng đồ thị, và các liên kết giữa các đối tượng dữ liệu của dữ liệu MXH là các liên kết đối tượng với đối tượng, tức là các mối quan hệ có chứ thông tin và dữ liệu mang ngữ nghía. Việc biểu diễn các dữ liệu MXH Facebook nếu dùng cơ chế mô hình và biểu diễn truyền thống sẽ làm mất đi các ngữ nghĩa hiện có của dữ liệu MXH mà ta thu thập được. Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF 10 Việc xử lý sơ bộ các dữ liệu thu thập được và đảm bảo tính ngữ nghĩa của dữ liệu cũng như các mối quan hệ, đề tài đề xuất xây dựng một mô hình biểu diễn dữ liệu và thông tin của MXH thu thập được gồm 2 phần: - Các ontology miền: đóng vai trò như cơ sở tri thức biểu diễn không gian các khái niệm hiện có trong các MXH cũng như sử dụng lại và liên đến đến các không gian và cơ sở tri thức đã được định nghĩa trên mạng dữ liệu liên kết toàn cầu (Linked Open Data cloud). Một phần quan trọng của cơ sở tri thức này là một Máy suy diễn dựa trên tri thức miền này. - Dữ liệu MXH được thu thập sẽ được xử lý (làm sạch) và chuyển đổi sang dạng RDF/Linked Data đảm bảo được ngữ nghĩa của dữ liệu cũng như bảo toàn các mối quan hệ thông tin và đối tượng là đặc tính quan trong của dữ liệu MXH. Mô hình dữ liệu của RDF/Linked Data/OWL là mô hình dữ liệu bộ ba (tripple) bao gồm ; trong đó S là Subject chứa URI của một tài nguyên (đối tượng dữ liệu), P là thuộc tính (Propoerty) của S, biểu diễn ngữ nghĩa của S và có giá trị là O (object) là giá trị Literal hoặc là một tài nguyên (đối tượng dữ liệu) khác. Ví dụ: “Hanh Hoang” “Happy” 3.3. Module cho Tích hợp và Phân tích dữ liệu MXH Dữ liệu sau khi được chuyển đổi (và lưu trữ trong CSDL ngữ nghĩa Triple Store) sẽ được xử lý tích hợp theo hình thức mashup: ánh xạ các thuộc tính ngữ nghĩa từ ontology miền về miền tri thức chính theo ngữ cảnh để xử lý. Việc truy xuất các CSTT ontology có thể sử dụng các cơ chế suy diễn để tìm ra các mối quan hệ thông tin ẩn chứa trong các dữ liệu MXH; Việc biểu diễn dữ liệu MXH theo mô hình RDF/Linked Data cho phép biểu diễn giàu hơn các ngữ nghĩa của dữ liệu và thông tin thông qua các thuộc tính và các khái niệm tri thức miền. Các thuật toán về phân tích dữ liệu cho các dữ liệu dạng RDF/Linked Data sẽ được phát triển để tận dụng tối đã hình thức biểu diễn này, cũng như qua các tri thức miền ontology. Các thuật toán về phân tích dữ liệu MXH theo hình thức và mô hình biểu diễn giàu ngữ nghĩa này cũng sẽ tập trung vào: việc phân cụm dữ liệu và dự báo về xu hướng của các luồng thông tin MXH. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 15, Số 1 (2020) 11 4. iSDA - HỆ THỐNG PHÂN TÍCH DỮ LIỆU MẠNG XÃ HỘI FACEBOOK 4.1. Thu thập dữ liệu Dữ liệu mạng xã hội đóng một vai trò quan trọng trong kỷ nguyên của cuộc cách mạng công nghiệp 4.0 hiện nay. Dữ liệu mạng xã hội hay các nguồn dữ liệu cơ bản được biểu diễn dưới dạng dữ liệu đồ thị. Việc sử dụng RDF để chuyển đổi dữ liệu mạng xã hội đối với báo chí dữ liệu là một tiếp cận tự nhiên. Các nguồn dữ liệu được thu thập từ Facebook với hơn 88 Triệu tài khoản Facebook; 3 Triệu groups; 2 Triệu pages; 30 Triệu tín hiệu/ngày. Các dạng dữ liệu của Facebook: Posts/Pictures/Videos, Likes/Shares/Comments. - Hệ thống iSDA thu thập: o Blog/news/forum: 900 đầu báo chính thống, 100 trang tổng hợp tin tức, 88 Forum, 150 Blog o Các loại dữ liệu thu thập được: Bài báo, Bài viết/Hình ảnh/Videos, Bình luận, cảm xúc,... - Tống số lượng thu thập: o 30 triệu bài viết / ngày từ các nguồn MXH, Báo chí, Forums, Blog. o Dễ dàng bổ sung nguồn dữ liệu , tài khoản FB, trang báo chí, forum, blog cần theo dõi , thu thập dữ liệu o Lưu trữ dữ liệu trực tiếp trên hệ thống , có thể xem đ ư ợc nội dung ngay cả khi bài viết bị xóa Do đó phát triển hệ thống phân tích dữ liệu mạng xã hội nhằm cung cấp một giải pháp tổng thể về thu thập và phân tích từ nhiều nguồn dữ liệu khác nhau như Mạng xã hội, báo chí,< Cho phép theo dõi các nhân vật chủ đề sự kiện cần lưu ý, tự động cảnh báo khi phát hiện vấn đề hỗ trợ phân tích cảnh báo sớm khủng hoảng truyền thông. 4.2. Các thành phần hệ thống Kiến trúc hệ thống Phân tích dữ liệu Mạng xã hội bao gồm các module sau: Thu thập dữ liệu: thu thập dữ liệu từ các nguồn dữ liệu xác định và chuyển đổi qua mô hình RDF/Linked Data [5][7]. Khai phá và Phân tích dữ liệu: Sử dụng SPARQL và các phương pháp cơ bản để tổng hợp phân tích dữ liệu [4][6]. Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF 12 Lưu trữ và truy vấn: lưu trữ mô hình dữ liệu vật lý và các hệ quản trị cơ sở dữ liệu cho mô hình bộ ba RDF và Linked Data [8]. Và cung cấp các ứng dụng: cung cấp các khung nhìn thông tin được trích xuất dữ liệu. 4.3. Các tính năng của hệ thống Hệ thống iSDA được host tại địa chỉ cung cấp các tính năng sau: Phân tích xu hướng chủ đề sự kiện Thu thập và cập nhập thông tin từ mạng xã hội , báo chí , forums và blogs Quản lý, thống kê nguồn thông tin Theo dõi, cảnh báo thông tin Hình 4. Dashboard hiện thị thông tin và dữ liệu thổng hợp với biểu đồ số lượng thống kế bài viết Facebook. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 15, Số 1 (2020) 13 Hình 5. Kết quả hệ thống tự động thu thập về theo dõi biểu tình tại Hongkong từ 01/07/2019 đến 05/07/2019. 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo trình bày kết quả nghiên cứu ứng dụng trong mô hình hoá dữ liệu với thông tin ngữ nghĩa. Mô hình RDF/Linked Data đáp ứng các yêu cầu cho việc biểu diễn và phân tích dữ liệu với các trích dẫn và chú thích ngữ nghĩa như dữ liệu mạng xã hội. Việc triển khải hệ thống iSDA vào thực tiễn là một đóng góp thực tiễn của bài báo. Trong tương lại, nhóm tác giả sẽ tập trung đẩy mạnh nghiên cứu các phương pháp phân tích dữ liệu cải tiến để tận dụng lợi thế của việc biểu diễn theo ngữ nghĩa này. Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF 14 TÀI LIỆU THAM KHẢO [1]. Paolillo, J. C., & Wright, E. (2006). Social network analysis on the semantic web: Techniques and challenges for visualizing FOAF. In Visualizing the semantic web (pp. 229-241). [2]. FOAF ontology (2014). Website: [3]. Resource Description Framework (RDF) (2014). Website: https://www.w3.org/RDF/ [4]. SPARQL 1.1 Query Language (2013). Website: https://www.w3.org/TR/sparql11-query/ [5]. M. San Martín and C. Gutierrez (2009). Representing, Querying and Transforming Social Networks with RDF/SPARQL, Proc. ESWC. Boston, LNCS 5554, pp. 293-307. [6]. S. Elbassuoni, M. Ramanath, R. Schenkel, G. Weikum (2010). Searching RDF Graphs with SPARQL and Keywords, IEEE Data Eng. Bull., 33(1), pp.16-24. [7]. Linked Data (2019). Website: https://www.w3.org/standards/semanticweb/data [8]. Apache Jena (2019). Website: https://jena.apache.org/ SOCIAL NETWORK DATA TRANSFORMATION AND ANALYSIS USING RDF DATA MODEL Hoang Huu Hanh*, Pham Vu Minh Tu, Vu Tien Thanh, Ngo Tien Dat Posts and Telecommunications Institute of Technolgy *Email: hoanghuuhanh@ptit.edu.vn ABSTRACT Social networks play important rols in our present digital age. Effectively using social networks’ data can contribute into the eco-socio development throught its diversity of information in economic, social and educational areas. The social networks’ data such as Facebook, Tweeter or Zalo are basically presented in the form of graph data model with links between information objects or data items. Meanwhile, RDF or Linked Data are standards for data modelling in triple model which forming a foundation for semantic networks and showing its effectiveness in resoure representation in our Web data space. Therefore, transforming social network data into the representation of RDF/Linked Data eventually makes a meaningful linked data foundation in advancing social data analysis. Keywords: Facebook, Linked Data, Social network, Data analysis, RDF. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 15, Số 1 (2020) 15 Hoàng Hữu Hạnh sinh ngày 13/04/1974 tại Huế. Năm 1996, ông tốt nghiệp Cử nhân ngành Toán-Tin học tại Trường Đại học Sư phạm Huế, Thạc sĩ khoa học ngành Công nghệ thông tin tại Trường Đại học Bách khoa Hà Nội. Năm 2007, ông nhận học vị Tiến sĩ chuyên ngành Hệ thống thông tin tại Trường Đại học Công nghệ Vienna, Cộng hoà Áo. Năm 2012, ông nhận Chức danh Phó giáo sư tại Việt Nam. Từ năm 1996-2018 đến nay, ông là Giảng viên Khoa Công nghệ Thông tin, Trường ĐH Khoa học Huế; đồng thời đảm tách các nhiệm vụ quản lý tại Đại học Huế từ 2008 đến 2018. Từ tháng 10 năm 2018 ông là Giảng viên cao cấp tại Học viện Công nghệ Bưu chính Viễn thông (PTIT). Hiện nay là Giám đốc Trung tâm Đào tạo Quốc tế của PTIT. Lĩnh vực nghiên cứu: Biểu diễn tri thức, Web ngữ nghĩa, Linked Data, Ontology, Công nghệ phần mềm, Công nghệ dữ liệu, Quản lý quy trình nghệp vụ. Phạm Vũ Minh Tú sinh ngày 30/09/1990 tại thành phố Hà Nội. Năm 2013, ông tốt nghiệp kỹ sư ngành Kỹ thuật Điện – Điện tử tại Học Viện Công Nghệ Bưu Chính Viễn Thông. Năm 2015, ông tốt nghiệp thạc sĩ chuyên ngành Kỹ thuật Viễn Thông tại trường Học Viện Công Nghệ Bưu Chính Viễn Thông . Từ năm 2015 đến nay,ông giảng dạy tại trường Học Viện Công Nghệ Bưu Chính Viễn Thông. Lĩnh vực nghiên cứu: Truyền thông quang không dây, Xử lý tín hiệu số, Dữ liệu đa phương tiện Vũ Tiến Thành sinh ngày 02/01/1991 tại Thành phố Hà Nội. Năm 2013, ông tốt nghiệp Cử nhân ngành Báo chí và Truyền thông tại Trường Đại học Khoa học Xã hội & Nhân Văn, Đại học QGHN. Năm 2016, ông tốt nghiệp thạc sĩ chuyên ngành Báo chí và Truyền thông tại Trường Đại học Khoa học Xã hội & Nhân Văn, Đại học QGHN. Từ năm 2016 đến nay giảng dạy tại Học viện Công nghệ Bưu chính Viễn Thông. Lĩnh vực nghiên cứu: Báo chí và Truyền thông Mạng. Ngô Tiến Đạt sinh ngày 01/07/1998 tại Thành phố Bắc Ninh, là sinh viên năm cuối Chương trình Kỹ sư ngành Công nghệ Đa Phương Tiện tại Học Viện Công Nghệ Bưu Chính Viễn Thông. Lĩnh vực nghiên cứu: Truyền thông mạng, Dữ liệu đa phương tiện Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF 16
File đính kèm:
- chuyen_doi_va_phan_tich_du_lieu_mang_xa_hoi_voi_mo_hinh_du_l.pdf