Một số vấn đề tính toán liên quan đến cơ sở dữ liệu và khai phá dữ liệu
Cơ sở dữ liệu và khai phá dữ liệu là những hướng phát triển rất quan trọng trong lĩnh vực
công nghệ thông tin (CNTT). Về thực chất dữ liệu đóng vai trò nền tảng nhất trong quá trình xử
lí thông tin trên hệ thống máy tính. Lí thuyết cơ sở dữ liệu và việc ứng dụng lí thuyết này vào
thực tiễn đã được phát triển và đạt được nhiều thành tựu ngay từ những năm 80 thế kỉ trước. Về
bản chất lí thuyết cơ sở dữ liệu cung cấp cho chúng ta những tri thức quan trọng nhất liên quan
đến vấn đề tổ chức, thiết kế và xây dựng các hệ thống quản trị cơ sở dữ liệu. Trên nền tảng
những kết quả đạt được trong lí thuyết này, các hãng máy tính của thế giới như IBM, Microsoft,
Oracle, Apple đã xây dựng những hệ thống quản trị cơ sở dữ liệu thương mại bán khắp nơi
trên thị trường toàn cầu như SQL, Oracle, IBM DB2. Về một khía cạnh nào đó, hiện nay, trong
mọi hoạt động nhân lọai đã tích lũy một khối lượng khổng lồ dữ liệu. Tuy vậy, tri thức thì lại
quá nhỏ bé. Chính vì thế, hiện nay, hướng nghiên cứu về phát hiện tri thức từ dữ liệu
(Knowledge Discovery from Data) là một hướng phát triển rát mạnh mẽ. Một khâu đặc biệt then
chốt trong quá trình phát hiện tri thức từ dữ liệu này là khai phá dữ liệu (Data Mining) để thu
nhận tri thức. Do đó, hướng nghiên cứu về các phương pháp khai phá dữ liệu là một hướng rất
cơ bản trong lĩnh vực CNTT. Trong bài báo này, chúng tôi trình bày một số kết quả nền tảng về
vấn đề tính toán, thực chất là vấn đề thuật toán, trong lĩnh vực cơ sở dữ liệu và khai phá dữ liệu.

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Một số vấn đề tính toán liên quan đến cơ sở dữ liệu và khai phá dữ liệu
phụ thuộc hàm { }C d→ đúng và B là một tập rút gọn của C nếu B là tập tối thiểu
thỏa mãn phụ thuộc hàm { }B d→ . Trong cơ sở dữ liệu quan hệ, với quan hệ r trên tập thuộc
tính R thì B là một tập tối thiểu của thuộc tính ,d R d B∈ ∉ nếu B là tập tối thiểu thỏa mãn phụ
thuộc hàm { }B d→ [17]. Do đó, khái niệm tập rút gọn của bảng quyết định tương đương với
khái niệm tập tối thiểu của thuộc tính{ }d trên quan hệ.
Với các bảng quyết định nhất quán, chúng tôi trình bày một số thuật toán liên quan đến tập rút
gọn sử dụng một số thuật toán và một số kết quả liên quan đến tập tối thiểu của một thuộc tính trong
cơ sở dữ liệu quan hệ.
Bảng quyết định trong các bài toán thực tế thường chứa một số thuộc tính dư thừa thực sự,
là những thuộc tính mà việc loại bỏ chúng không ảnh hưởng gì đến việc phân lớp tập đối tượng.
Sự có mặt của các thuộc tính này làm cho độ phức tạp tính toán của bài toán khai phá dữ liệu
tăng lên rất lớn. Việc loại bỏ các thuộc tính này trước khi thực hiện các nhiệm vụ khai phá dữ
liệu có ý nghĩa thực tiễn cao trong bối cảnh dữ liệu ngày càng lớn, ngày càng đa dạng và phức
tạp.
Như đã trình bày, trong bảng quyết định thuộc tính dư thừa thực sự là thuộc tính không
xuất hiện trong bất kì tập rút gọn nào và thuộc tính rút gọn là thuộc tính xuất hiện trong một tập
rút gọn nào đó. Khi đó, bài toán tìm tập tất cả thuộc tính dư thừa thực sự tương đương với bài
toán tìm tập tất cả các thuộc tính rút gọn. Để giải quyết bài toán này, phương pháp tiếp cận
thông thường là tìm họ tất cả các tập rút gọn của bảng quyết định, sau đó tìm phép hợp giữa các
tập rút gọn. Tuy nhiên, cách tiếp cận này không khả thi với các bảng dữ liệu kích thước lớn vì
độ phức tạp thời gian của thuật toán tìm họ tất cả các tập rút gọn của bảng quyết định là hàm mũ
đối với số thuộc tính điều kiện.
Trong phần này, chúng tôi đề xuất một thuật toán tìm tập tất cả các thuộc tính rút gọn của
bảng quyết định nhất quán có độ phức tạp thời gian là đa thức.
Trong cơ sở dữ liệu quan hệ, chúng tôi [16] đã chứng minh bổ đề quan trọng sau.
Bổ đề 1. [16] Giả sử K là một hệ Sperner trên R, khi đó
1K K
K R K
−∈ ∈
= −U I
K K
.
Trên quan hệ r, do r
aK là hệ Sperner trên R nên áp dụng Bổ đề 1 ta có bổ đề sau
Bổ đề 2. Cho r là một quan hệ trên R và a R∈ , khi đó
( ) 1r ra aK K
K R K
−∈ ∈
= −U I
K K
Cho bảng quyết định nhất quán { }( ), , ,DS U C d V f= ∪ với { }1 2, ,..., mU u u u= . Xét
quan hệ { }1 2, ,..., mr u u u= trên tập thuộc tính { }R C d= ∪ , từ khái niệm tập rút gọn của bảng
quyết định nhất quán và tập tối thiểu của một thuộc tính trên quan hệ ta có
Một số vấn đề tính toán liên quan đến cơ sở dữ liệu và khai phá dữ liệu
699
( ) { }rdPRED C d= −K , với ( )PRED C là họ tất cả các tập rút gọn Pawlak của C trong DS và
r
dK là họ các tập tối thiểu của thuộc tính d trên r. Do đó, nếu kí hiệu ( )REAT C là tập tất cả các
thuộc tính rút gọn của C thì
( )
( )
{ }
r
dR PRED C R
REAT C R R d
∈ ∈
= = −
U U
K
Thuật toán 1. Tìm tập tất cả các thuộc tính rút gọn.
Đầu vào: Bảng quyết định { }( ), , ,DS U C d V f= ∪ với { }( )CPOS d U= ,
{ }1 2, ,..., nC c c c= , { }1 2, ,...,= mU u u u
Đầu ra: ( )REAT C là tập tất cả các thuộc tính rút gọn của C.
Xét quan hệ { }1 2, ,...,= mr u u u trên tập thuộc tính { }R C d= ∪ .
Bước 1. Từ r ta tính hệ bằng nhau { }ij :1r E i j m= ≤ < ≤E với
( ) ( ){ }ij : i jE a R a u a u= ∈ = .
Bước 2. Từ
rE ta xây dựng tập :d rA d A= ∈ ∉ ∃M E{ }: ,rB d B A B∈ ∉ ⊂E .
Bước 3. Xây dựng tập
dK
V R K
∈
= − I
M
.
Bước 4. Đặt ( ) { }REAT C V d= − .
Tập ( )REAT C được xây dựng là tập tất cả các thuộc tính rút gọn của C.
Chứng minh
Theo cách xây dựng dM tại Bước 2 và theo công thức tính bao đóng của tập thuộc tính
trên quan hệ, dA∀ ∈M ta có rA A+ = và A không chứa d nên rA+ không chứa d, suy ra
{ }A d F +→ ∉ . Mặt khác, nếu tồn tại B sao cho A B⊂ thì xảy ra hai trường hợp: (1) Nếu B
không chứa d thì rB R
+
= ; (2) Nếu B chứa d thì hiển nhiên rB+ chứa d. Cả hai trường hợp ta
đều có rB
+
chứa d hay { }B d F +→ ∈ . Do đó ( ),d MAX F d+=M với
( ) { } { }{ }, : ,MAX F d A R A d F A B B d F+ + += ⊆ → ∉ ⊂ ⇒ → ∈ . Theo [17],
( ) ( ) 1, rdMAX F d −+ = K với rdK là họ các tập tối thiểu của thuộc tính d trên quan hệ r. Do đó
( ) 1rd d −=M K . Tại Bước 3 kết hợp với Bổ đề 5.2 ta có
( ) 1 rrd ddK KK
V R K R K K
−∈ ∈∈
= − = − =I I U
M KK
.
Tại Bước 4 ta có ( ) { } { }
( )rd R PRED CK
REAT C V d K d R
∈∈
= − = − =
U U
K
.
Vũ Đức Thi
700
Do đó theo định nghĩa, ( )REAT C là tập tất cả các thuộc tính rút gọn của C.
Độ phức tạp thời gian của Thuật toán 1
Với m là số đối tượng và n là số thuộc tính điều kiện, độ phức tạp thời gian để tính hệ bằng
nhau rE tại Bước 1 là ( )2O m n . Tại Bước 2, hệ bằng nhau rE có tối đa 2m phần tử. Do đó,
độ phức tạp thời gian để tính tập dM là ( )4O m n . Vì vậy, độ phức tạp thời gian của Thuật
toán 1 là ( )4O m n . Độ phức tạp này là đa thức theo số hàng và số cột của bảng quyết định DS.
Từ thuật toán 1 ta thu được các hệ quả sau:
Hệ quả 1. Cho trước bảng quyết định nhất quán { }( ), , ,DS U C d V f= ∪ và thuộc tính a, tồn
tại thuật toán xác định thuộc tính a là thuộc tính rút gọn hay không với thời gian đa thức theo
số hàng và số cột của DS.
Về mặt lí thuyết, trong nhiều trường hợp chúng ta cần tìm tất cả các tập rút gọn
trong bảng quyết định nhất quán. Chúng tôi đã xây dựng ba thuật toán sau:
- Thuật toán tìm họ tất cả các tập rút gọn của bảng quyết định nhất quán với độ phức tạp
thời gian là hàm mũ.
- Thuật toán xây dựng các phụ thuộc hàm từ bảng quyết định nhất quán với độ phức tạp
thời gian là hàm mũ. Ý nghĩa của thuật toán này là xây dựng một công cụ hình thức để biểu
diễn tất cả các quyết định dưới dạng các phụ thuộc hàm từ bảng quyết định nhất quán cho trước,
không quan tâm đến dữ liệu cụ thể.
- Thuật toán xây dựng bảng quyết định thỏa mãn tập phụ thuộc hàm cho trước với độ
phức tạp thời gian là hàm mũ. Ý nghĩa của thuật toán này là khẳng định tính đúng đắn của việc
suy diễn và ra quyết định trên các phụ thuộc hàm. Nghĩa là có thể thực hiện suy diễn và ra quyết
định trên các tri thức dưới được biểu diễn dưới dạng phụ thuộc hàm mà không quan tâm đến
bảng dữ liệu cụ thể.
Các kết quả này đã được công bố trong [5,33].
Lời cám ơn. Tôi xin chân thành cám ơn Ban Biên tập Tạp chí Khoa học và Công nghệ đã mời tôi viết bài
báo này. Do khuôn khổ có hạn của bài báo, tôi chỉ có thể trình bày một phần những kết quả đã đạt được
trong lĩnh vực cơ sở dữ liệu và khai phá dữ liệu. Một số kết quả trình bày trong bài báo này là những kết
quả làm việc của các nghiên cứu sinh của tôi, TS. Nguyễn Long Giang, TS Nguyễn Huy Đức, TS Nguyễn
Hoàng Sơn trong nhóm nghiên cứu “Cơ sở dữ liệu và khai phá dữ liệu “ của Viện Công nghệ thông tin.
TÀI LIỆU THAM KHẢO
1. Agrawal R., Imielinski T., Swami A. - Mining association rules between sets of items in
large databases, Proceedings of the ACM SIGMOD conference, Washington DC, USA,
1993, pp. 207-216.
2. Tao F., Murtagh F., Farid M. - Weighed Association Rule Mining Using Weighted
Support and sighificance Framework, SIGKDD,2003, pp. 61-666.
Một số vấn đề tính toán liên quan đến cơ sở dữ liệu và khai phá dữ liệu
701
3. Khan M. S., Muyeba M., Coenen F. - A weighted utility framework for mining
association rule, Proc. IEEE European Modeling Symporium 2008, 2008, pp. 87-92.
4. Nguyễn Long Giang, Vũ Đức Thi - Một số phương pháp rút gọn thuộc tính trong bảng
quyết định dựa trên ENTROPY cải tiến, Tạp chí Tin học và Điều khiển học 27 (2) (2011)
166-175.
5. Nguyễn Long Giang, Vũ Đức Thi - Thuật toán tìm tất cả các rút gọn trong bảng quyết
định, Tạp chí Tin học và Điều khiển học 27 (3) (2011) 211-218.
6. Vũ Đức Thi, Nguyễn Huy Đức - Một số kỹ thuật hiệu quả tỉa các tập mục ứng viên trong
khai phá tập mục lợi ích cao, Kỉ yếu Hội thảo quốc gia “Một số vấn đề chọn lọc của Công
nghệ thông tin và truyền thông – Biên Hòa, 2010, tr. 214-232.
7. Armstrong W. W. - Dependency Structures of Database Relationships, Information
Processing 74, Holland publ. Co. 1974, pp. 580-583.
8. Vũ Đức Thi - Cơ sở dữ liệu - Kiến thức và thực hành, Nhà xuất bản Thống kê, Hà Nội,
1997.
9. Chen C. H., Hong T. P., Tseng V. S. - An improved approach to find membership
funtions and multiple minimum supports in fuzzy data mining, Expert Systems with
Application 36 (2009) 10016-10024.
10. Chen H., Li T., Qiao S., Ruan D. - A Rough set based dynamic maintenance approach for
approximations in coarsening an refining attribue values, International Journal of
intelligent systems 25 (2010) 1005-1026.
11. Erwin A., Gopalan R. P., and Achuthan N. R. - CTU-Mine: An Efficient High Utility
Itemset Mining Algorithm Using the Pattern Growth Approach, Paper presented at the
IEEE 7th International Conferences on Computer and Information Technology, Aizu
Wakamatsu, Japan.
12. El-Hajj M. and Zaiane Osmar R. - Inverted matrix: Efficient discovery of frequent items
in large datasets in the context of interactive mining, In Proc. 2003 Int’l Conf. on Data
Mining and Knowledge Discovery (ACM SIGKDD) 2003, 2007, pp. 109-118.
13. Demetrovics J. and Thi V. D. - Some remarks on generating Armstrong and inferring
functional dependencies relation, Acta Cybernetica 12 (2003) 167-180.
14. Demetrovics J, Thi V. D. - Some computational problems related to the functional
dependency in the relational datamodel, Journal Acta Scien. Mathematics, Hungary, 57
(1993) 627-638.
15. Demetrovics J, Thi V. D. - Some results about normal forms for functional dependency in
the relational datamodel,. Journal of Discrete Applied Mathematics, North Holland 69
(1996) 61-74.
16. Demetrovics J, Thi V. D. - Describing Candidate Keys by Hypergraphs, J. Computers and
Artificial Intelligence 18(2) (1999) 191-207.
17. Demetrovics J, Thi V. D. - Some Computational problems related to Boyce-Codd nornal
form , Ann. Univ. Sci. Budapest. Sect. Comput. Hungary 19 (2000) 19-130.
18. Han J., Pei J., and Yin Y. - Mining frequent patterns without candidate generation, In
ACM SIGMOD Intl. Conference on Management of Data, 2003, pp. 1-12.
19. Hilderman R. J., Carter C. L., Hamilton H. J., and Cercone N. - Mining association rules
from market basket data using share measures and characterized itemsets, Intl. Journal
of Artificial Intelligence Tools 7 (2003) 189-220.
Vũ Đức Thi
702
20. Vũ Đức Thi - Giáo trình Cơ sở dữ liệu nâng cao, Nhà xuất bản Đại học Thái Nguyên,
2010.
21. Khan M. S., M. Muyeba M., Coenen F. - Fuzzy Weighted Association Rule Mining with
Weighted Support and Confidence Framework, Proc. 1st In workshop on Algorithems for
Large _ Scale Information Processing in knowledge Discovery (ALSIP 2008), Held in
conjunction with PAKDD 2008 (Japan), 2008, pp. 52-64.
22. Li Y. C., Yeh J. S., Chang C. C. - A fast algorithm for mining share-frequent
itemsets, Lecture Notes in Computer Science, Springer-Verlag, Germany 3399, 2005,
pp. 417-428.
23. Liang J. Y, Chin K. S., Dang C. Y., Richard C. M. YAM - New method for measuring
uncertainty and fuzziness in rough set theory, International Journal of General Systems 31
(2002) 331-342.
24. Liu D., Li T., Ruan D., Zou W. - An incremental approach for inducing knowledge from
dynamic information systems, Funda. Inform. 94 (2009) 245-260.
25. Liu Y., W. Liao K., and Choudhary A. - A fast high utility itemsets mining algorithm”, in
Proc. 1st Intl. Conf. on Utility-Based Data Mining, Chicago Illinois, 2009, USA,
pp. 90-99,.
26. Luo P., He Q. and Shi Z. Z. -Theoretical study on a new information entropy and its use
in attribute reduction, ICCI (2005) pp. 73-79.
27. Pawlak Z. -Rough sets, International Journal of Computer and Information Sciences, 11
(5) (1982) 341-356.
28. Vũ Đức Thi - Thuật toán trong tin học, Nhà xuất bản Khoa học kỹ thuật, Hà Nội, 1999.
29. Thi V. D. Sơn N. H. - Some problems related to keys and Boyce-Codd normal form, Acta
Cybernet, Hungary 16 (3) (2004) 473-483.
30. Thi V.D., Son N.H. - Some results related to dense families of database relations. Acta
Cybernet, Hungary 17 (1) (2005) 173-182.
31. Thi V. D., Son N. H. - On Armstrong relations for strong dependencies. Acta Cybernet,
Hungary 17 (3) (2006) 521-531.
32. Thi V. D., Duc N. H. - Mining High Utility Itemsets in Massive Transactional Database,
Acta Cybernetica 20 (2011) 331-346.
33. Thi V. D., Giang N. L. - A Method to Construct a Decision Table from a relation scheme,
Jounal of Cybernetics and Information Technology, Bugarian Academy of Sciences 3
(2011) 32-41.
34. Yao H., Hamilton H. J. - Mining Itemsets Utilities from Transaction Databases, Data
and Knowledge Engeneering 59 (3) (2006).
35. Yao H., Hamilton H. J., Geng L. - A Unified Framework for Utility Based Measures for
Mining Itemsets, UBDM’06 Philadelphia, Pennsylvania, USA, 2006.
36. Wang G. Y. - Algebra view and information view of rough sets theory, In: Dasarathy
BV,editor. Data mining and knowledge discovery: Theory, tools, and technology III,
Proceedings of SPIE, 2001, pp. 200-207.
Một số vấn đề tính toán liên quan đến cơ sở dữ liệu và khai phá dữ liệu
703
ABSTRACT
SOME COMPUTATIONAL PROBLEMS RELATED TO DATABASE
AND DATA MINING
Vu Duc Thi
Institute of Information Technology, VAST, 18 Hoang Quoc Viet, Cau Giay, Hanoi, Vietnam
Email: vdthi@ioit.ac.vn
Database and data mining are very important development in information technology (IT).
In essence the data play a fundamental role in the processing of information on computer
systems. Database theory and the practical applications of this theory have been developed and
achieved many accomplishments since the 80th of last century. Essentially, database theory
provides us with the most important knowledge related to organizational issues, design and
construction of the database management system. On the basis of the results obtained in this
theory, computer companies such as IBM, Microsoft, Oracle, Apple has built the database
management system trade all over the world market requirements, such as SQL, Oracle, IBM
DB2. In some aspects, the present, in all activities of mankind has accumulated a huge amount
of data. However, knowledge is too small. Therefore, the current research directions for
knowledge discovery from data is a very powerful development. A particularly critical stage in
the process of knowledge discovery from data is data mining to acquire knowledge. Hence,
research on data mining methods is a very basic directions in IT. In this paper, we present some
main results related to the computational problems, in fact algorithmic problems, in the field of
database and data mining.
Keywords: database, data mining, database management system, knowledge discovery from
data, computational problem, algorithm.
File đính kèm:
mot_so_van_de_tinh_toan_lien_quan_den_co_so_du_lieu_va_khai.pdf

