Thuật toán hiệu quả khai thác tập phổ biến tối đại trên cơ sở dữ liệu giao dịch lớn
TÓM TẮT— Khai thác luật kết hợp, một trong những kỹ thuật quan trọng nhất và được nghiên cứu nhiều nhất trong khai thác dữ liệu. Khai thác tập phổ biến tối đại là một trong những vấn đề cơ bản nhất trong khai thác luật kết hợp. Hầu hết các thuật toán tìm tập phổ biến tối thiểu trước, từ tập phổ biến tối thiểu suy ra tập phổ biến tối đại. Những phương pháp này tốn nhiều thời gian để tìm tập phổ biến tối đại. Để khắc phục vấn đề này, chúng tôi đề xuất một cách tiếp cận mới để tìm tập phổ biến tối đại trên cơ sở dữ liệu giao dịch lớn: kỹ thuật nén hiệu quả cơ sở dữ liệu giao dịch lớn, dùng cấu trúc dữ liệu lưu trữ dạng bit và tập chỉ mục chứa các item đồng xuất hiện để chiếu tính nhanh tập phổ biến tối đại. Sau cùng, chúng tôi trình bày kết quả thực nghiệm, cho thấy rằng thuật toán đề xuất tốt hơn so với các thuật toán hiện hành

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8
Tóm tắt nội dung tài liệu: Thuật toán hiệu quả khai thác tập phổ biến tối đại trên cơ sở dữ liệu giao dịch lớn
bản ghi phân biệt gọi là tập các giao dịch T = {T1, T2,..., Tn}, mỗi giao dịch Ti={Ik1, Ik2,..., Ikj}, Ikj I (1≤ kj ≤ m).
Cơ sở dữ liệu được nén như sau:
- Có m item tương ứng với m biến Bool;
m m m
- CSDL có tối đa (2 – 1) giao dịch phân biệt tương ứng (2 – 1) đơn thức tối tiểu – mti (1≤ i < 2 );
- Cấu trúc dữ liệu lưu trữ đơn thức tối tiểu, gồm: – mỗi bộ
lưu trữ được nhóm 8 đơn thức tối tiểu.
- Đơn thức tối tiểu mti được lưu vào bộ
Bảng 4. Các giao dịch trên CSDL biểu diễn dạng thập phân
Mã giao dịch A B C D E F G H Giá trị thập phân
T1 1 0 1 0 1 1 0 0 172
T2 1 0 1 0 0 0 1 0 162
T3 0 0 0 0 1 0 0 1 9
T4 1 0 1 1 0 1 1 0 182
T5 1 0 1 0 1 0 1 0 170
T6 0 0 0 0 1 0 0 0 8
T7 1 1 1 0 1 0 0 0 232
T8 1 0 1 1 0 0 0 0 176
T9 1 1 1 0 1 0 1 0 234
T10 1 0 1 0 1 1 1 0 174
Bảng 3, biểu diễn các giao dịch trên CSDL dưới dạng thập phân tương ứng với thứ tự của các đơn thức tối tiểu
lần lượt là {mt8, mt9, mt162, mt170, mt172, mt174, mt176, mt182, mt232, mt234}. Áp dụng kỹ thuật nén dữ liệu tương ứng 10 đơn
thức tối tiểu sẽ trở thành:
724 THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI TRÊN CƠ SỞ DỮ LIỆU GIAO DỊCH LỚN
pos 2 21 22 23 30
minterm 00000011 00000100 01010100 01000001 00000101
Hình 1. Nén CSDL
Hình 1, Kết quả nén CSDL gồm 10 giao dịch tương ứng thành 10 đơn thức tối tiểu {mt8, mt9, mt162, mt170,
mt172, mt174, mt176, mt182, mt232, mt234} vào trong danh sách gồm 5 bộ {; ; , , }.
III. CÁC THUẬT TOÁN
A. Thuật toán sinh các item đồng xuất hiện
Định nghĩa 4: Tập chiếu của item Ik trên CSDL Ɗ: (Ik)= t Ɗ│Ik t} là tập các giao dịch có chứa item Ik.
Định nghĩa 5: Cho Ik I, ta gọi Ik là item hạt nhân. Tập mục Xcooc I gọi đồng xuất hiện cùng độ phổ biến
với Ik: Xcooc là itemset xuất hiện cùng item hạt nhân Ik và (Ik) = (Xcooc). Ký hiệu, cooc(Ik) = Xcooc.
Ví dụ 2: Cho CSDL như trong Bảng 1. Xem item B là item hạt nhân, ta xác định được itemset đồng xuất hiện
cùng độ phổ biến với item B là cooc(B) = {A, C, E} và sup(B) = sup(ACE) = 2.
Dưới đây là thuật toán sinh các item đồng xuất hiện với từng item trong CSDL giao dịch và lưu trữ vào mảng
Index_COOC. Mỗi phần tử trong Index_COOC gồm 3 thành phần sau:
- Index_COOC[j].item: lưu trữ item hạt nhân thứ j;
- Index_COOC[j].sup: lưu trữ độ phổ biến của item hạt nhân thứ j;
- Index_COOC[j].cooc: lưu trữ itemset đồng xuất hiện cùng item hạt nhân thứ j dưới dạng bit;
Ngoài ra, thuật toán 1 còn thực hiện nén CSDL vào mảng Dataset.
Mã giả thuật toán 1. Xây dựng bảng Index_COOC và nén dữ liệu
Đầu vào: CSDL
Đầu ra: Mảng Index_COOC, mảng Dataset
1. Với mỗi phần tử j của mảng Index_COOC thực hiện:
2. Index_COOC [j].item = Ij
3. Index_COOC [j].sup = 0
4. Index_COOC [j].cooc= 2m - 1
5. Với mỗi giao dịch Ti thực hiện:
6. Nén giao dịch Ti vào mảng Dataset
7. Với mỗi item j có trong giao dịch Ti thực hiện:
8. Index_COOC [j].cooc = Index_COOC [j].cooc & vectorbit(Ti)
9. Index_COOC [j].sup = Index_COOC [j].sup + 1
10. Sắp xếp mảng Index_COOC tăng dần theo sup
11. Trả về mảng Index_COOC, mảng Dataset
Từ dòng 1 đến dòng 4 là các bước khởi tạo cho mảng Index_COOC. Dòng 5 duyệt CSDL, ứng với từng giao
dịch ta xem xét có chứa item thứ j thì thực hiện phép toán AND trên bit để xác định các phần tử cùng xuất hiện với
item j. Sau cùng, dòng 10 và 11 là sắp xếp mảng Index_COOC tăng dần theo độ phổ biến của item và trả về.
Khởi tạo mảng Index_COOC: (thành phần cooc được biểu diễn dạng bit) số item là m = 8
item A B C D E F G H
sup 0 0 0 0 0 0 0 0
cooc 11111111 11111111 11111111 11111111 11111111 11111111 11111111 11111111
Đọc giao dịch T1: {A, C, E, F} có biểu diễn dạng bit là 10101100
item A B C D E F G H
sup 1 0 1 0 1 1 0 0
cooc 10101100 11111111 10101100 11111111 10101100 10101100 11111111 11111111
Đọc giao dịch T2: {A, C, G} có biểu diễn dạng bit là 10100010
item A B C D E F G H
sup 2 0 2 0 1 1 1 0
cooc 10100000 11111111 10100000 11111111 10101100 10101100 10100010 11111111
Lê Hoài Bắc, Phan Thành Huấn 725
Đọc giao dịch T3: {E, H} có biểu diễn dạng bit là 00001001
item A B C D E F G H
sup 2 0 2 0 2 1 1 1
cooc 10100000 11111111 10100000 11111111 00001000 10101100 10100010 00001001
Đọc giao dịch T4: {A, C, D, F, G} có biểu diễn dạng bit là 10110110
item A B C D E F G H
sup 3 0 3 1 2 2 2 1
cooc 10100000 11111111 10100000 10110110 00001000 10100100 10100010 00001001
Đọc giao dịch T5: {A, C, E, G} có biểu diễn dạng bit là 10101010
item A B C D E F G H
sup 4 0 4 1 3 2 3 1
cooc 10100000 11111111 10100000 10110110 00001000 10100100 10100010 00001001
Đọc giao dịch T6: {E} có biểu diễn dạng bit là 00001000
item A B C D E F G H
sup 4 0 4 1 4 2 3 1
cooc 10100000 11111111 10100000 10110110 00001000 10100100 10100010 00001001
Đọc giao dịch T7: {A, B, C, E} có biểu diễn dạng bit là 11101000
item A B C D E F G H
sup 5 1 5 1 5 2 3 1
cooc 10100000 11101000 10100000 10110110 00001000 10100100 10100010 00001001
Đọc giao dịch T8: {A, C, D} có biểu diễn dạng bit là 10110000
item A B C D E F G H
sup 6 1 6 2 5 2 3 1
cooc 10100000 11101000 10100000 10110000 00001000 10100100 10100010 00001001
Đọc giao dịch T9: {A, B, C, E, G} có biểu diễn dạng bit là 11101010
item A B C D E F G H
sup 7 2 7 2 6 2 4 1
cooc 10100000 11101000 10100000 10110000 00001000 10100100 10100010 00001001
Đọc giao dịch T10: {A, C, E, F, G} có biểu diễn dạng bit là 10101110
item A B C D E F G H
sup 8 2 8 2 7 3 5 1
cooc 10100000 11101000 10100000 10110000 00001000 10100100 10100010 00001001
Thuật toán 1, trả về mảng Index_COOC tương ứng là cooc(A) = {C}, cooc(B) = {A, C, E}, cooc(C) = {A},
cooc(D) = {A, C}, cooc(E) = {}, cooc(F) = {A, C}, cooc(G) = {A, C} và cooc(H) = {E}.
Bảng 5. Trả về mảng Index_COOC sắp tăng theo độ phổ biến của item
item H B D F G E A C
sup 1 2 2 3 5 7 8 8
cooc E A, C, E A, C A, C A, C Ø C A
Bảng 5, mảng Index_COOC được sắp theo độ phổ biến của từng item (minh họa thành phần cooc theo item).
B. Thuật toán khai thác tập phổ biến tối đại LA-MFI
Theo khảo sát, hầu hết các thuật toán khai thác tập phổ biến tối đại đã được các tác giả trên thế giới đề xuất [5,
6, 7] đều có nhược điểm lớn và không thực tế: mỗi lần cần khai thác tập phổ biến tối đại với minsup khác thì thuật toán
thực hiện tính toán lại độ phổ biến của các tập mục, phát sinh lại cây tìm kiếm hoặc dàn tập mục tương ứng và xác định
tập phổ biến tối đại thỏa minsup mới. Trong thực tế, khi cần khai thác luật kết hợp thì người dùng có thể yêu cầu thực
hiện khai thác luật kết hợp thỏa ngưỡng minsup và minconf trong nhiều chuỗi thao tác liên tiếp nhau. Các thuật toán đã
được các tác giả trên thế giới chưa đáp ứng nhu cầu thực tế.
Nhóm tác giả đã xây dựng thuật toán LA-MFI khai thác tập phổ biến tối đại dựa trên mảng Index_COOC chứa
tất cả các itemset đồng xuất hiện của tất cả item trong CSDL có thể thực hiện chuỗi khai thác nhanh tập MFI.
Mã giả thuật toán 2. LA-MFI khai thác tập phổ biến tối đại
Đầu vào: mảng Index_COOC, minsup, maxsup (độ phổ biến lớn nhất của các item)
Đầu ra: Tập phổ biến tối đại MFI
1. Với mỗi item thỏa minsup, xem xét:
726 THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI TRÊN CƠ SỞ DỮ LIỆU GIAO DỊCH LỚN
2. Nếu sup(item) = minsup thì
3. MFI = MFI item cooc (item)}
4. Ngược lại
5. Nếu (cooc(item) = Ø và sup (item) = maxsup) thì
6. MFI= MFI {item}
7. Ngược lại
8. Tìm tập item Jk thỏa:
9.
sup( J k ) sup(item )
J k I \ {item cooc(item )}
10. Tập * = {sinh các tập phổ biến tối đại từ Jk có sup (k_item) minsup}
11. mfi = item cooc(item)}{ f *}
12. MFI = MFI mfi
13. Trả về tập phổ biến tối đại MFI
Ví dụ 3: Cho CSDL như trong Bảng 1 và minsup = 2
Item B, D có sup(B) = sup(D) = minsup = 2 (điều kiện dòng 2):
Xét item B, có cooc (B) = {A, C, E}, sinh tập mục phổ biến tối đại là (BACE, 2). Lúc này, MFI ={(BACE, 2)}.
Xét item D – có cooc (D) = {A, C}, sinh tập mục phổ biến tối đại là (DAC,2), MFI ={(BACE, 2), (DAC, 2)}.
Xét item F (ngược lại - dòng 7), lúc này item F – cooc(F) = {A, C} còn item G, E, A và C có sup > minsup = 2.
Tập Jk ={G, E}, sinh tập phổ biến *={G, E, GE}. Tập mục phổ biến tối đại sinh ra trong bước này là mfi = {(FACE,
2), (FACG, 2)}. Kết thúc bước này, ta có MFI={(BACE, 2), (DAC, 2), (FACE, 2), (FACG, 2)}.
Xét item G (ngược lại - dòng 7), lúc này item G – cooc(G) = {A, C} chỉ còn item E có sup(E) = 7 > minsup = 2.
Tập Jk ={E}, sinh tập phổ biến *={E}. Tập mục phổ biến tối đại sinh ra trong bước này là mfi = {(GACE, 3)}. Kết
thúc bước này, có MFI={(BACE, 2), (DAC, 2), (FACE, 2), (FACG, 2), (GACE, 3)}.
Xét item E, có cooc(E) = { } còn item A và C có sup(A) = sup(C) = 8 > minsup. Tập Jk ={A, C}, sinh tập phổ
biến *={A, C, AC}. Tập mục phổ biến tối đại sinh ra trong bước này là mfi = {(ACE, 5)} mà ACE BACE trong
MFI, nên không đưa mfi ={(ACE, 5)} vào MFI.
Sau cùng, chỉ còn item A và C: sinh tập mục phổ biến tối đại (AC, 8), mà AC BACE, nên không thêm vào
MFI.
Với CSDL ở Bảng 1 và minsup = 2, ta có: MFI={(BACE, 2), (DAC, 2), (FACE, 2), (FACG, 2)
(GACE, 4)}.
IV. KẾT QUẢ THỰC NGHIỆM
Thực nghiệm trên máy tính Panasonic CF-74, Core Duo 2.0 GHz, 2GB RAM, thuật toán cài đặt trên C#,
Microsoft Visual Studio 2010.
Nghiên cứu thực nghiệm trên hai nhóm dữ liệu:
Nhóm CSDL thực cỡ trung: sử dụng CSDL thực từ kho dữ liệu về học máy của Trường Đại học California
(Lichman, M. (2013). UCI Machine Learning Repository []. Irvine, CA: University of
California, School of Information and Computer Science) gồm 2 tập Pumsb và Retail.
Nhóm CSDL giả lập cỡ lớn: sử dụng phần mềm phát sinh dữ liệu giả lập của trung tâm nghiên cứu IBM
Almaden (IBM Almaden Research Center, San Joe, California 95120, U.S.A []) gồm 2
tập T40I10D100K và T40I10D200K.
Bảng 6. Kích thước và tỷ lệ nén trên các tập CSDL thực nghiệm
Dung Số Kích thước dữ Tỷ lệ nén
Tên CSDL Số item
lượng giao dịch liệu sau nén dữ liệu
Pumsb 16,30Mb 49.046 2.113 28,08Kb 99,8%
Retail 4,07Mb 88.162 16.470 66,61Kb 98,4%
T40I1KD100K 15,30Mb 100.000 1.000 83,33Kb 99,5%
T40I1KD200K 30,50Mb 200.000 1.000 197,27Kb 99,4%
Lê Hoài Bắc, Phan Thành Huấn 727
(a) Pumsb (b) Retail
100.00 8
7
80.00
6
60.00 5
4
LA-MFI LA-MFI
40.00 3
Thời Thời gian (giây)
Thời Thời gian (giây) GenMax 2 GenMax
20.00
1
0.00 0
70% 75% 80% 85% 90% 0.1% 0.2% 0.3% 0.4% 0.5%
Minsup(%) Minsup(%)
Hình 2. Thời gian thực hiện LA-MFI và GenMax trên CSDL cỡ trung Pumsb, Retail với các minsup khác nhau
Nhóm tác giả sử dụng 2 tập Pumsb và Retail để so sánh hiệu suất của thuật toán LA-MFI với thuật toán
GenMax. Hình 2, cho thấy thuật toán LA-MFI thời gian thực hiện khai thác tập phổ biến tối đại theo các ngưỡng
minsup khác nhau trên 2 tập dữ liệu Pumsb và Retail nhanh hơn thuật toán GenMax.
(a) T40I1KD100K (b) T40I1KD200K
200.00 300.00
250.00
150.00
200.00
100.00 150.00
LA-MFI 100.00 LA-MFI
Thời Thời gian (giây)
Thời Thời gian (giây) 50.00
50.00
0.00 0.00
0.10% 0.20% 0.30% 0.40% 0.50% 0.10% 0.20% 0.30% 0.40% 0.50%
Minsup(%) Minsup(%)
Hình 3. Thời gian thực hiện LA-MFI trên CSDL cỡ lớn T40I10D100K và T40I10D200K với các minsup khác nhau
Thuật toán GenMax không thực hiện được trên 2 tập dữ liệu T40I10D100K và T40I10D200K cỡ lớn. Hình 3,
cho thấy thời gian thực hiện của thuật toán LA-MFI khai thác tập phổ biến tối đại theo các ngưỡng minsup khác nhau.
V. KẾT LUẬN
Bài báo đã đề xuất thuật toán nén cơ sở dữ liệu giao dịch cỡ lớn, thuật toán tính nhanh mảng Index_COOC
chứa các itemset đồng xuất hiện và thuật toán LA-MFI khai thác hiệu quả tập phổ biến tối đại dựa trên mảng
Index_COOC. Tuy nhiên, thuật toán LA-MFI khai thác tập phổ biến tối đại cần được nghiên cứu và cải tiến để đạt tốc
độ thực hiện hiệu quả hơn.
Với kết quả đạt được từ thuật toán LA-MFI. Trong tương lai, nhóm tác giả sẽ cải tiến thuật toán trên để có thể
khai thác tập phổ biến tối đại trên cơ sở dữ liệu có trọng số, đây là hướng nghiên cứu đang được quan tâm vì khả năng
ứng dụng vào nhiều lĩnh vực, đặc biệt là trong kinh doanh.
VI. LỜI CẢM ƠN
Nhóm tác giả cảm ơn sự hỗ trợ từ Trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia Tp. HCM.
TÀI LIỆU THAM KHẢO
[1] R. Agrawal, T. Imilienski, A. Swami, “Mining association rules between sets of large databases”. Proceedings of the ACM
SIGMOD International Conference on Management of Data, Washington, DC, pp. 207-216, 1993.
[2] R. Agrawal, R. Srikant, “Fast algorithms for mining association rules”. Proceedings of International Conference on Very Large
Data Base, Santiago, Chile, pp. 478-499, 1994.
[3] M. J. Zaki, C. Hsiao, “CHARM: An efficient algorithm for closed association rule mining”. In 2nd SIAM International
Conference on Data Mining, pages 457–473, April 2002.
[4] J. Pei, J. Han, R. Mao, “CLOSET: An efficient algorithm for mining frequent closed itemsets”. Proc. of ACM SIGMOD
DMKD Workshop, Dallas, TX, May, 2000.
[5] R. Agarwal, V. Prasad, - “Depth first generation of long patterns,” In Proc. of the 6th ACM SIGKDD international conference
on knowledge discovery and data mining, pp.108–118, 2000.
[6] D. Burdick, M. Calimlim, J. Gehrke, “MAFIA: a maximal frequent itemset algorithm for transactional databases”. In IEEE Intl.
Conf. on Data Engineering, pp. 443–452, 2001.
[7] K. Gouda, M. J. Zaki, “GenMax: An Efficient Algorithm for Mining Maximal Frequent Itemsets”. In IEEE International
Conference on Data Mining and Knowledge Discovery, Volume 11, pp. 1–20, 2005.
728 THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP PHỔ BIẾN TỐI ĐẠI TRÊN CƠ SỞ DỮ LIỆU GIAO DỊCH LỚN
[8] Y. Djenouri, A. Bendjoudi, D. Djenouri, Z. Habbas, “Parallel Processing and Applied Mathematics”, ISBN 978-3-319-32148-6,
pp. 258-268, 2016.
AN EFFICIENT MINING ALGORITHM FOR MAXIMAL FREQUENT
ITEMSETS IN A LARGE TRANSACTIONAL DATABASES
Le Hoai Bac, Phan Thanh Huan
ABSTRACT— Association rule mining, one of the most important and well-researched techniques of Data Mining. Mining maximal
frequent itemsets is one of the most fundamental problems in association rule mining. According to the survey, most of the
algorithms in literature used to find minimal frequent item first, then with the help of minimal frequent itemsets derive the maximal
frequent itemsets. These methods consume more time to find maximal frequent itemsets. To overcome this problem, we propose a
new approach to fast dectect maximal frequent itemsets using: efficient compression algorithm a large transactional databases and
array co-occurrence items of kernel item. Finally, we present result, which shows the proposed algorithm has better than the
existing algorithms.
Keywords— Association rule mining, co-occurrence items, large transactional databases, maximal frequent itemsets.
File đính kèm:
thuat_toan_hieu_qua_khai_thac_tap_pho_bien_toi_dai_tren_co_s.pdf

