Mô hình quản lý tập dữ liệu văn bản lớn cho phép tìm kiếm toàn văn và phân tích thống kê trực quan

TÓM TẮT— Mục tiêu của bài viết là đề xuất mô hình mới cho phép quản lý tập dữ liệu lớn phi cấu trúc, tồn tại dưới dạng các tập tin văn bản, bảng tính. Mô hình đề xuất dựa trên một tập các công nghệ nguồn mở của Big Data theo hướng tích hợp dịch vụ và chuẩn hóa dữ liệu nối kết, bao gồm : (1) HDFS (Hadoop Distributed File System) của Hadoop dùng trong quản lý tập tin, (2) Lucene để lập chỉ mục nghịch đảo (Inverted Index) cho văn bản tiếng Việt, Apache Solr hỗ trợ cơ chế quản lý chỉ mục nghịch đảo, tìm kiếm toàn văn và một số chức năng tìm kiếm nâng cao và (3) Bộ trực quan hóa dữ liệu dựa trên Banana. Kết quả thực nghiệm được thực hiện trên tập dữ liệu tất cả các bài báo khoa học đăng trên Tạp chí Khoa học trường Đại học Cần Thơ từ năm 2011 đến 2015

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

9 trang xuanhieu 8780

Download

Bạn đang xem tài liệu "Mô hình quản lý tập dữ liệu văn bản lớn cho phép tìm kiếm toàn văn và phân tích thống kê trực quan", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Mô hình quản lý tập dữ liệu văn bản lớn cho phép tìm kiếm toàn văn và phân tích thống kê trực quan

kiếm đa diện (faceted search), tìm kiếm theo điểm nhấn (hit highlighting). Bên cạnh đó, Solr cũng cung cấp cơ chế vận
hành hiệu quả trên nhiều nút nhằm giúp tăng cường hiệu năng tìm kiếm của hệ thống.
- Trong Apache Solr, chúng tôi cũng tích hợp thêm bộ phân tích tiếng Việt đó là VnAnalyzer [4], giúp việc
phân tích và tìm kiếm thêm tài liệu với ngôn ngữ tiếng Việt được dễ dàng.
(3) Bộ trực quan hóa dữ liệu:
- Đây là thành phần đóng vai trò lọc dữ liệu và trực quan hóa thống kê kết quả tìm kiếm được cung cấp bởi
thành phần (2).
IV. KẾT QUẢ THỰC NGHIỆM
Xây dựng hệ thống quản lý, tìm kiếm văn bản và trực quan hóa thống kê kết quả tìm kiếm để kiểm tra tính khả
thi của các công nghệ đã được nghiên cứu, đồng thời ứng dụng hệ thống để đánh giá sự tương quan giữa các nghiên
cứu trên tạp chí này với định hướng nghiên cứu khoa học ưu tiên. Ở đây, chúng tôi căn cứ theo các định hướng nghiên
cứu của Đại học Cần Thơ tại Biên bản họp số 1919/BB-ĐHCT-HĐKHĐT ngày 30 tháng 9 năm 2015 của trường Đại
học Cần Thơ, theo đó các lĩnh vực ưu tiên trong nghiên cứu bao gồm: (a) Ứng dụng công nghệ cao trong nông nghiệp,
thủy sản và môi trường; (b) Quản lý và sử dụng bền vững tài nguyên thiên nhiên; (c) Kỹ thuật công nghệ và công nghệ
thông tin – truyền thông; (d) Khoa học giáo dục, luật và xã hội nhân văn; (e) Phát triển kinh tế, thị trường. Các lĩnh vực
nghiên cứu này được sử dụng như các từ khóa hoặc cụm từ khóa chính để tìm kiếm và trực quan hóa.Chúng tôi tiến
hành thực nghiệm trên tất cả 1.584 tập tin văn bản tạp chí trường Đại học Cần Thơ từ năm 2011 đến 2015 (Nguồn:
Người dùng nhập từ khóa tìm kiếm thông tin, hệ thống xử lý và trả về kết quả tìm thấy.
Đồng thời hệ thống sẽ kết xuất biểu đồ theo kết quả tìm kiếm tương ứng. Hệ thống thử nghiệm được chúng tôi cài đặt
theo kiến trúc như sau:
334 MÔ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TOÀN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN
Hình 2. Kiến trúc hệ thống của mô hình thử nghiệm
Sau khi tài liệu được đưa lên Solr, tất cả được đánh chỉ mục. Khi người dùng tìm kiếm theo tiêu chí nào đó, dữ
liệu sẽ được mô tả trên Solr với các tham số được liệt kê theo bảng sau:
Bảng 1. Mô tả các tham số lưu trữ thông tin trên Solr
Tham số Mô tả
QTime Thể hiện thời gian tìm kiếm.
q Trình bày câu truy vấn.
rows Số lượng văn bản được hiển thị.
numFound Số lượng văn bản được tìm thấy.
docs Liệt kê trường: các giá trị được định nghĩa trong lược đồ (schema.xml).
Tập dữ liệu "TẠP CHÍ KHOA HỌC ĐHCT" mà chúng tôi tạo ra chứa tổng cộng 1.584 bài báo NCKH tại
trường Đại học Cần Thơ từ năm 2011 đến năm 2015, tất cả đã được đánh chỉ mục và định nghĩa các trường (fields)
trong file schema.xml.
Để thể hiện kết quả tìm kiếm một cách trực quan hơn, chúng tôi đã tích hợp vào hệ thống một giao diện người
dùng thân thiện. Cách hiển thị kết quả thông qua giao diện này giúp người sử dụng có cái nhìn tổng thể và có thể so
sánh về kết quả mà họ tìm kiếm. Dưới đây chúng tôi trình bày một số kết quả thực nghiệm điển hình về việc tìm kiếm,
thống kê và trực quan hóa kết quả theo các từ khóa trên mô hình đã đề xuất như sau:
(1) Tìm kiếm và thống kê bài báo NCKH tại Trường Đại học Cần Thơ trong 5 năm (2011-2015)
Trường'donvi' được định nghĩa là khoa/đơn vị mà tác giả chính của bài báo NCKH công tác, để tìm kiếm
những bài báo NCKH theo đơn vị thuộc Trường Đại học Cần Thơ, sử dụng truy vấn: donvi:*_ctu.
Kết quả của câu truy vấn trên được hiển thị như Hình 3, ứng dụng tìm thấy có 1.298 bài báo NCKH được
chấp nhận từ ngày 01/01/2011 đến ngày 31/12/2015. Khung 'Tác giả' cho thấy biểu đồ thống kê theo số lượng đóng
góp của các tác giả cho tạp chí. Chúng ta có thể thay đổi cách hiển thị danh sách tác giả (tăng dần hay giảm dần số
lượng bài báo, số lượng tác giả, màu sắc biểu đồ,...) bằng cách nhấn chuột trái vào biểu tượng . Khung "Khoa –
Đơn vị" cho thấy khoa Nông nghiệp – Sinh học ứng dụng (nnshud_ctu) có nhiều bài báo NCKH nhất (285 bài), khoa
Thủy sản (ts_ctu) 206 bài, khoa Môi trường – Tài nguyên thiên nhiên (mttntn_ctu) có 135 bài, ...
Qua kết quả thống kê, chúng ta dễ dàng nhận ra sự chênh lệch về số lượng bài báo NCKH giữa các khoa là khá lớn.
Nguyễn Hùng Dũng, Trương Xuân Việt, Trương Quốc Định, Nguyễn Hoàng Việt 335
Hình 3. Thống kê bài báo NCKH tại Trường Đại học Cần Thơ theo tác giả và theo khoa/đơn vị
(2) Tìm kiếm và thống kê bài báo NCKH theo tên tác giả
Tên tác giả có thể truy vấn theo cấu trúc tacgia: "" hoặc tìm kiếm toàn văn với từ khóa "<ten-tac-
gia>". Dưới đây là một ví dụ minh họa hiển thị kết quả tìm thấy tất cả các bài báo NCKH của tác giả và trực quan hóa
kết quả theo hai dạng biểu đồ hình tròn và cột:
Hình 4. Thống kê NCKH theo tên tác giả
336 MÔ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TOÀN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN
Để xem thống kê rõ hơn về mối tương quan giữa các tác giả, ví dụ hai tác giả khác nhau cùng nghiên cứu ở
những đơn vị nào, người dùng nhấn chuột vào tên tác giả tương ứng ở biểu đồ hình tròn trong khung 'Tác giả' để tạo
thêm một bộ lọc và kết quả được thống kê như sau:
Hình 5. Tương quan giữa hai tác giả
Từ kết quả thống kê ở Hình 5 có thể thấy hai tác giả "Võ Quang Minh" và "Lê Quang Trí" cùng tham gia
nghiên cứu với tác giả Phạm Thanh Vũ (3 bài báo NCKH), Lê Thị Linh (2 bài), Võ Phước Khải (1 bài).
(3) Tìm kiếm và thống kê kết quả theo cụm từ
Việc dùng các cụm từ tìm kiếm như “Ứng dụng công nghệ cao trong nông nghiệp, thủy sản và môi trường”,
“Quản lý và sử dụng bền vững tài nguyên thiên nhiên”, “Kỹ thuật công nghệ và công nghệ thông tin – truyền thông”,...
và quan sát kết quả thống kê là điều có thể thực hiện được.
Hình 6. Ứng dụng công nghệ cao trong nông nghiệp, thủy sản và môi trường
Tổng cộng tìm kiếm được 23 bài liên quan đến vấn đề ứng dụng công nghệ cao trong nông nghiệp, thủy sản và
môi trường. Từ đây có thể dự đoán được việc Ứng dụng công nghệ cao vào các lĩnh vực nông nghiệp, thủy sản và môi
trường đang rất được quan tâm. Có thể loại bớt những kết quả thống kê của những năm trước (ví dụ không thống kê
năm 2011) bằng cách sử dụng câu truy vấn: ("nông nghiệp" OR "thủy sản" OR "môi trường") AND "nano" -
tuade:"2011*".
Các kết quả dưới đây, cho thấy được việc tìm kiếm đa dạng và phong phú hơn với việc kết hợp thêm các từ
khóa để tìm kiếm:
Hình 7, với việc sử dụng từ khóa tìm kiếm: "tài nguyên thiên nhiên" AND "quản lý" AND "sử dụng"
AND "bền vững" cho thấy vấn đề quan tâm đến việc quản lý và sử dụng bền vững tài nguyên thiên nhiên như thế nào?
Nguyễn Hùng Dũng, Trương Xuân Việt, Trương Quốc Định, Nguyễn Hoàng Việt 337
Hình 8: Quản lý và sử dụng bền vững tài nguyên thiên nhiên
Hình 7. Quản lý và sử dụng bền vững tài nguyên thiên nhiên
Có tổng cộng 55 bài báo NCKH liên quan đến vấn đề quản lý và sử dụng bền vững tài nguyên thiên nhiên.
Khoa Môi trường – Tài nguyên thiên nhiên Đại học Cần Thơ (mttntn_ctu) đóng góp 27 bài, Khoa kinh tế - Quản trị
kinh doanh (ktqtkd_ctu) với 3 bài, Viện nghiên cứu phát triển đồng bằng sông Cửu Long (vncptdbscl_ctu) là 3 bài,...
Khá nhiều khoa/đơn vị khác cũng tham gia NCKH về vấn đề này, cộng với việc tăng mạnh số lượng bài báo NCKH
các năm gần đây (2013, 2014, 2015) nên có thể tạm kết luận, quản lý và sử dụng bền vững tài nguyên thiên nhiên đang
được chú trọng phát triển, phù hợp với mục tiêu năm 2050 Việt Nam là quốc gia khai thác, sử dụng tài nguyên hợp lý,
hiệu quả và bền vững.
Để thấy được tầm quan trọng của 'gen' trong lĩnh vực nông nghiệp, thủy sản và môi trường, chúng tôi tiến
thành tìm kiếm các bài báo NCKH liên quan đến vấn đề này. Hình 8, minh họa kết quả và trực quan hóa kết quả tìm
kiếm:
Hình 8. Thống kê NCKH về lĩnh vực nông nghiệp, thủy sản và môi trường liên quan đến gen
338 MÔ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM TOÀN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN
Kết quả có 142 bài báo NCKH liên quan được tìm thấy, chứng tỏ vấn đề này có rất nhiều tác giả quan tâm.
Đây cũng là một trong những định hướng nghiên cứu chủ đạo của Trường.
Ngoài ra những nghiên cứu về nông nghiệp, thủy sản và môi trường cũng có sự góp phần không nhỏ của công
nghệ thông tin. Hình 9, trình bày kết quả tìm kiếm và trực quan hóa việc ứng dụng công nghệ thông tin vào nghiên cứu
trong lĩnh vực này.
Hình 9. Sử dụng công nghệ thông tin trong lĩnh vực nông nghiệp, thủy sản và môi trường
Cuối cùng, chúng tôi trình bày kết quả tìm kiếm theo cụm từ khóa về "kỹ thuật công nghệ" và "công nghệ
thông tin". Đây cũng là một trong những định hướng nghiên cứu khoa học được ưu tiên tại Trường Đại học Cần Thơ.
Hình 10. Kỹ thuật công nghệ và công nghệ thông tin – truyền thông
Có 12 bài báo NCKH liên quan đến Kỹ thuật công nghệ và Công nghệ thông tin – truyền thông. Những bài báo
NCKH này được nghiên cứu ở các đơn vị về Kỹ thuật công nghệ như Khoa Kỹ thuật Công nghệ Cao đẳng Cần Thơ
(cntt_cdct), Khoa Công nghệ (cn_ctu),... có cả trường Chính trị Thành phố Cần Thơ (ct_ct) cũng tham gia nghiên cứu.
V. KẾT LUẬN VÀ ĐỀ XUẤT
Trong bài viết này, chúng tôi đã đề xuất mô hình quản lý, tìm kiếm tài liệu và trực quan hóa kết quả thống kê
dựa trên hai nền tảng Hadoop và Solr kết hợp một số thư viện của Lucene, bộ phân tích tiếng Việt và bộ công cụ trực
quan hóa dữ liệu Banana. Mô hình đề xuất bao gồm 3 thành phần: (1) Hệ lưu trữ và phân phối tập tin dựa trên HDFS,
(2) Hệ chỉ mục và tìm kiếm văn bản dựa trên Lucene/Solr, đối với văn bản tiếng Việt thì chúng tôi thay thế bộ phân
tích của nó bằng VnAnalyzer và (3) Bộ trực quan hóa dữ liệu để thống kê và hiển thị biểu đồ bằng công cụ trực quan
Banana. Mô hình này vừa đáp ứng nhu cầu tổng hợp và quản lý tập trung các nguồn dữ liệu phân tán của một tổ chức,
Nguyễn Hùng Dũng, Trương Xuân Việt, Trương Quốc Định, Nguyễn Hoàng Việt 339
vừa hỗ trợ hiệu quả cho việc lập chỉ mục, tìm kiếm và chỉ hướng nguồn dữ liệu. Các yếu tố liên quan đến cân bằng tải,
tốc độ xử lý nhanh được chú trọng trong mô hình và được thể hiện trong hai thành phần (1) và (2) của mô hình, dựa
trên cơ chế đa nút của Hadoop và Solr.
Cuối cùng, chúng tôi đã cài đặt, tích hợp thành công và ứng dụng mô hình trong phân tích xu hướng nghiên
cứu khoa học tại Trường Đại học Cần Thơ với kết xuất đầu ra là các kết quả tìm kiếm và các biểu đồ cho thấy xu
hướng nghiên cứu khoa học liên quan đến định hướng nghiên cứu khoa học ưu tiên tại Trường Đại học Cần Thơ. Đây
cũng là công việc chưa được đề cập trong các nghiên cứu liên quan. Kết quả này có ý nghĩa thiết thực trong việc tìm
kiếm, thống kê, kết xuất dữ liệu của một tổ chức khi các dữ liệu không phải ở dạng có cấu trúc như trước đây.
Trong thực nghiệm, chúng tôi đã sử dụng 1.584 tập tin văn bản tạp chí của Trường Đại học Cần Thơ
( Tất cả các tập tin này, metadata chưa được chuẩn hóa nên việc tìm kiếm và kết xuất dữ
liệu gặp rất nhiều khó khăn. Vì vậy, chúng tôi đề xuất các tập tin của bài báo trước khi được công bố cần được chuẩn
hóa metadata theo chuẩn chung để có thể tìm kiếm, thống kê và kết xuất kết quả được dễ dàng. Ngoài ra, chúng tôi đề
xuất ứng dụng mô hình này vào việc phân tích dữ liệu về NCKH cho Trường Đại học Cần Thơ, điều này sẽ giúp cho
các nhà quản lý có thêm thông tin để định hướng trong việc quy hoạch và xét duyệt các đề tài NCKH theo định hướng
chung của Trường.
VI. TÀI LIỆU THAM KHẢO
[1] A. Hemanth, Dr. R. V. Krishnaiah, 2013. The Hadoop Distributed Filesystem: Balancing Portability. International Journal of
Computer Engineering & Applications, Vol. III, Issue III. ISSN: 2321-3469.
[2] Banana for Solr, 2015. [Online]. Available from: https://github.com/lucidworks/banana.
[3] Bernard Marr, 2015. Why only one of the 5 Vs of big data really matters. [Online]. Available from:
[4] Cao Mạnh Đạt, 2013. Bộ phân tích từ vựng tiếng Việt cho Lucene. [Online]. Địa chỉ:
https://caomanhdat.wordpress.com/2013/06/26/bo-phan-tich-tu-vung-tieng-viet-cho-lucene/.
[5] Doug Cutting, 2013. Apache Lucene: Then and Now By Doug Cutting. [Online]. Available from:
FR/Hadoop-DC/events/140608632.
[6] Hao Wu, Guoliang Li, and Lizhu Zhou, 2013. Ginix: Generalized Inverted Index for Keyword Search. Tsinghua Science and
Technology, Volume 18, Number 1, February 2013. ISSN 1007-0214 10/12 pp77-87.
[7] Jeffrey Dean and Sanjay Ghemawat, 2008. MapReduce: Simplified Data Processingon Large Clusters. Magazine:
Communications of the ACM - 50th anniversary issue: 1958 - 2008, Volume 51 Issue 1, January 2008, Pages 107-113.
[8] Khung tích hợp Cloudera, 2015. [Online]. Địa chỉ:
[9] Khung tích hợp Hortonworks, 2014. [Online]. Địa chỉ:
[10] Le-Hong, P., T M H. Nguyen, A. Roussanaly, and T V. Ho, 2008. A hybrid approach to word segmentation of Vietnamese
texts. Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, Tarragona, Spain,
Springer, LNCS 5196, pp. 240-249, 2008.
[11] Lucene, 2015. [Online]. Available from:
[12] Marcus Fontoura, Maxim Gurevich, Vanja Josifovski, Sergei Vassilvitskii, 2011. Efficiently Encoding Term Co-occurrences in
Inverted Indexes. CIKM '11 Proceedings of the 20th ACM international conference on Information and knowledge
management. ISBN: 978-1-4503-0717-8, Pages 307-316
[13] O.Alhabashneh, R. Iqbal, N. Shah, S. Amin, A. James, 2011. Towards the Development of an Integrated Framework for
Enhancing Enterprise Search Using Latent Semantic Indexing. In ICCS 2011, LNAI 6828, pp. 346–352, 2011, Springer-Verlag
Berlin Heidelberg 2011. DOI: 10.1007/978-3-642-22688-5_29. ISBN: 978-3-642-22687-8.
[14] Trương Quốc Định, Nguyễn Quang Dũng, 2012. Một giải pháp tóm tắt văn bản tiếng Việt tự động. Hội thảo quốc gia lần thứ
XV: Một số vấn đề chọn lọc của Công nghệ Thông tin và Truyền thông - Hà Nội, 03-04/12/2012.
[15] Kibana analytics and search dashboard for Elasticsearch, 2016. [Online]. https://www.elastic.co/products/kibana.
MÔ HÌNH QUẢN LÝ TẬP DỮ LIỆU VĂN BẢN LỚN CHO PHÉP TÌM KIẾM
TOÀN VĂN VÀ PHÂN TÍCH THỐNG KÊ TRỰC QUAN
Nguyen Hung Dung, Truong Xuan Viet, Truong Quoc Dinh, Nguyen Hoang Viet
ABSTRACT— The article objective is proposing a new model for managing large unstructured data set existed in the text files,
spreadsheets form. The proposed model is based on the open source set of Big Data with service integration and link data
normalization, including: (1) HDFS (Hadoop Distributed File System) used in the file management, (2) Lucene set up inverted index
for the Vietnamese text, Apache Solr supported inverted indexes management mechanisms, full-text search and some of advanced
search functions and (3) the data visualization based on Banana. The experimental results are performed on the data set of the
scientific journals published on Can Tho University journals of science from 2011 to 2015.
Keywords— Big Data, Distributed File System, Inverted Index, Full-text Search, Solr, Lucene.

File đính kèm:

mo_hinh_quan_ly_tap_du_lieu_van_ban_lon_cho_phep_tim_kiem_to.pdf