Phát hiện luật kết hợp liên kết chuỗi thời gian từ cơ sở dữ liệu định lượng có yếu tố thời gian
Tóm tắt: Bài báo này nghiên cứu phát hiện các luật kết hợp thể hiện được mối quan hệ
theo thời gian của các thời điểm xảy ra các sự kiện từ các cơ sở dữ liệu định lượng có
yếu tố thời gian. Thuật toán tìm các luật như vậy được đề xuất dựa trên việc phát triển
thuật toán Apriori kết hợp với việc mờ hoá khoảng cách thời gian giữa các thời điểm xảy
ra sự kiện cũng như mờ hoá các thuộc tính định lượng.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Phát hiện luật kết hợp liên kết chuỗi thời gian từ cơ sở dữ liệu định lượng có yếu tố thời gian", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Phát hiện luật kết hợp liên kết chuỗi thời gian từ cơ sở dữ liệu định lượng có yếu tố thời gian
GIAN M – FTIQ ARM (FUZZY TIME INTERVAL QUANTITATIVE IN TIME SERIES – ASSOCIATION RULE MINING) A. Bài toán ñ t ra Cho trư c cơ s d li u ñ nh lư ng có y u t th i gian D, ngư ng c c ti u min_sup, ñ tin c y c c ti u min_conf, t p m v kho ng cách th i gian LT cùng các hàm thành viên tương ng, t p m cùng các hàm thành viên tương ng v i các thu c tính trong D. Bài toán ñ t ra là phát hi n các lu t chu i liên k t th i gian m có ñ h tr không nh hơn ngư ng c c ti u min_supp và ñ tin c y không nh hơn ñ tin c y c c ti u min_conf. B. Thu t toán FTIQ ARM Thu t toán FTIQ ARM tìm t t c các lu t chu i liên k t th i gian m t cơ s d li u ñ nh lư ng có y u t th i gian. a) Ý tư ng thu t toán Đ u tiên, cơ s d li u ñ nh lư ng có y u t th i gian D ban ñ u ñư c chuy n ñ i thành cơ s d li u m có y u t th i gian D’ d a vào vi c m hoá các thu c tính ñ nh lư ng. Ti p theo, thu t toán FTIQ ARM tìm các chu i liên k t th i gian m ph bi n. Quá trình tìm các chu i liên k t th i gian m ph bi n ñư c phát tri n theo thu t toán Apriori: l p l i 2 giai ño n trong quá trình sinh chu i liên k t th i gian m ph bi n cho ñ n khi không th sinh ñư c. giai ño n 1, các chu i ng c viên ñ dài k, kí hi u là C k ñư c sinh ra t t p các chu i liên k t th i gian m ph bi n ñ dài k 1, kí hi u là L k 1. Giai ño n 2, các chu i ng c viên trong C k ñư c tính ñ h tr ñ xác ñ nh t p các chu i liên k t th i gian m ph bi n ñ dài k, L k. Vi c sinh t p ng c viên C k ñư c th c hi n c th như sau: Trư ng h p k=1 : Đưa t t c thu c tính c a cơ s d li u m D’ vào C 1, t p các ng c viên ñ dài 1. Trư ng h p k=2 : T p các ng c viên ñ dài 2, C2, s ñư c sinh ra b ng cách k t h p 2 m c thu c L1 và LT là L1 ×LT ×L1. Ch ng h n, gi s L1={fb,fc} và LT={lt1,lt2,lt3} thì 9 ng c viên ñư c sinh ra là (fb,lt1,fb), (fb,lt2,fb), (fb,lt3,fb), (fb,lt1,fc), (fb,lt2,fc), (fb,lt3,fc), (fc,lt1,fc), (fc,lt2,fc), (fc,lt3,fc). Trư ng h p k >2 : Gi s (b1,lt1,b2,lt2,,ltk 2,bk 1) và (b2,lt2, b3,lt3,,ltk 1,bk) là 2 chu i liên k t th i gian m ph bi n thu c Lk 1, khi ñó ta s sinh ra ñư c chu i ng c viên ñ dài k cho Ck là α=(b1,lt1,b2,lt2,b3,lt3,,bk 1,ltk 1,bk) [4]. Tương t như v y, t t c các chu i ng c viên thu c Ck ñư c sinh ra. 74 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI Ti p theo là giai ño n tính ñ h tr c a các ng c viên thu c C k: M t m ng danh sách giá tr th i gian ñư c s d ng. Trư c tiên, b sung t t c các giao d ch t i th i ñi m t có ch a b 1 vào ph n t ñ u tiên c a m ng danh sách là lst [i] [1] (i là chu i th i ch a b 1), m i ph n t c a m ng g m c p giá tr (time th i ñi m x y ra, value giá tr m ). Ti p theo, t t c các giao d ch t có ch a b 2 vào ph n t th 2 c a m ng danh sách lst[i][2] n u t>lst[i][1].time. Ti p t c như v y ta l n lư t sinh ra các ph n t lst[i][m] (3≤m≤k) n u tho mãn giao d ch t ch a b m và t> lst[i][m 1].time. K t qu thu ñư c là các danh sách có ñ dài k tương ng chu i α và lst[i][r].time lst[i][r 1].time (2≤r≤k) là kho ng cách th i gian gi a 2 ph n t c a chu i. Công th c (3) ñư c s d ng ñ tính ñ h tr c a chu i α. Sinh các lu t chu i liên k t th i gian m t các t p ph bi n có ñ dài ≥2 tìm ñư c. Các lu t sinh ra ñư c tính ñ tin c y theo công th c (4) và lo i b các lu t có ñ tin c y nh hơn min_conf. T p các lu t tìm ñư c còn l i chính là k t qu c n tìm. b) Thu t toán FTIQ ARM Input: Cơ s d li u ñ nh lư ng có y u t th i gian D, t p các t p m v kho ng cách th i gian LT, t p m và các hàm thành viên tương ng v i các thu c tính trong D, ñ h tr c c ti u min_sup, ñ tin c y c c ti u min_conf. Output: Các lu t chu i liên k t m th i gian có ñ tin c y ≥min_conf. Thu t toán ñư c mô t như sau: Chuy n D thành cơ s d li u m D’ C1={các m c trong D’} L1={c ∈C1|Supp(c)≥min_sup} C2=∅; for each a 1∈L1 for each a 2∈L1 for each ltd ∈LT{ c=a 1*ltd*a 2; add c to C 2; } for each c ∈C2 c.count=Supp(c); L2={c ∈C2|c.count ≥min_sup} for (k>2;L k 1≠∅;k++) { TẠP CHÍ KHOA HỌC −−− SỐ 8/2016 75 Ck=fuzzy_apriori_gen(L k 1); for each c ∈Ck c.count=Supp(c); Lk={c ∈Ck|c.count ≥min_sup} } return gen_rules( ∪Lk); Supp(c)//Hàm tính ñ h tr c a chu i { m=0; for each t j∈T If (b i∈tj){ m++; lst[m][1].time=j; lst[m][1].value=b i(t j);//fuzzy value of b i in transaction t j in D’ } for (i=2;i≤|c|;i++) For each t j∈T If (b i∈tj) and j≥lst[m j][i 1].time) { lst[m j][i].time=j; lst[m][i].value=b i(t j); } count=0; for (i=1;i≤m;i++) { if (|lst[i]|=|c|) { s=1; v=1; for (j=1;j<|c|;j++) { s=min(s, ); v=min(v,lst[i][j].value); } 76 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI v=min(v,lst[i][|c|].value); } count=count + v*s; } return count/|D|; } fuzzy_apriori_gen(L k 1)//Hàm sinh ng c viên { Ck=∅; for each a ∈Lk 1 for each b ∈Lk 1 { c= ∅; for (i=2;i<=k 2;i++) { if (a i≠b i or alt i≠blt i) break; c=c*a i*alt i; } if (i=k 1 and a k 1=b k 1) { c=a 1*alt 1 * c*a k 1*blt k 1*b k; add c to C k; } return C k; } gen_rules(L)//Hàm sinh lu t { R= ∅; for each p ∈L { r=(p 1,plt 1,p 2,plt 2,..p |p| 1)→p|p| (plt |p| 1); if (Supp(p)/Supp(p |p| )>=min_conf) add r to R; } return R; } TẠP CHÍ KHOA HỌC −−− SỐ 8/2016 77 Trong thu t toán trên phép * là phép k t h p các giá tr ñ ñư c chu i th i gian m . Ví d : a 1*Short*a 2 s tr l i chu i liên k t th i gian m (a 1, Short, a 2) v i Short ∈ LT là t p m , a 1,a 2 là các m c d li u. |p| là ñ dài c a chu i liên k t th i gian m p, p |p| là m c d li u cu i cùng c a chu i liên k t m p. 4. K T QU TH NGHI M Môi trư ng ñư c s d ng ñ th nghi m thu t toán là Chip Intel Core i5 2.5 GHz, RAM 4 GB, h ñi u hành Windows7. Thu t toán ñư c l p trình b ng ngôn ng C#. D li u th nghi m l y t i [8] bao g m k t qu c a Istanbul Stock Exchange v i 07 ch s ch ng khoán c a các th trư ng: SP, DAX, FTSE, NIKKEI, BOVESPA, MSCE_EU, MSCI_EM t ngày Jun 5, 2009 ñ n Feb 22, 2011 có mô t như trong b ng 3. BBB B ngng 3. Cơ s d li u th nghi m S thu c tính S giao d ch Tên cơ s d li u (I) (D) ISTANBUL STOCK EXCHANGE 8 537 T p LT= { Short , Medium, Long } ñư c g n v i kho ng cách th i gian và các hàm thành viên tương ng v i 3 t p m Short, Medium, Long thu c LT ñư c ñ nh nghĩa như trong ñ nh nghĩa 3. M i thu c tính ñ nh lư ng ñư c phân ho ch thành 3 giá tr m (K=3) và các hàm thành viên ñư c ñ nh nghĩa theo công th c (1). K t qu th nghi m ñ u tiên th hi n s lu t sinh ra tương ng v i các ñ h tr c c ti u và ñ tin c y c c ti u ñư c mô t trong b ng 4. BBB B ngng 4. K t qu s lu t sinh ra tương ng v i ñ h tr c c ti u (min_supp) và ñ tin c y c c ti u (min_conf) min_conf 0.60 0.65 0.70 0.75 0.80 0.85 min_supp 0.15 1676 1655 1481 1028 501 131 0.17 615 594 490 291 130 23 0.20 195 177 137 61 18 1 0.25 41 32 17 4 0 0 0.30 9 9 5 0 0 0 0.33 1 1 1 0 0 0 78 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI D a vào b ng 4, hình 1 là bi u ñ th hi n m i quan h gi a ñ tin c y c c ti u và s lu t sinh ra v i các ñ h tr c c ti u khác nhau. T hình 1, ta th y s lư ng các lu t gi m m nh khi ñ tin c y c c ti u tăng d n ñ i v i cùng ñ h tr c c ti u th p. Khi ñ h tr c c ti u cao thì m i quan h gi a s lu t và ñ tin c y c c ti u tr nên m n hơn. Hình 1. Bi u ñ th hi n m i quan h gi a ñ tin c y c c ti u min_conf và s lu t sinh ra v i các ñ h tr c c ti u khác nhau Ti p theo, hình 2 mô t m i quan h gi a s lư ng lu t sinh ra và ñ h tr c c ti u ñ i v i các ñ tin c y c c ti u khác nhau. Hình 2, s lư ng lu t tăng nhanh khi ñ h tr gi m. Hình 2. Bi u ñ th hi n m i quan h gi a ñ h tr c c ti u min_supp và s lu t sinh ra v i các ñ h tr c c ti u khác nhau Cu i cùng, m i quan h gi a chi phí th i gian th c hi n thu t toán và ñ h tr c c ti u ng v i ñ tin c y c c ti u là 0.6 ñư c th hi n như trong b ng 5 và hình 3. TẠP CHÍ KHOA HỌC −−− SỐ 8/2016 79 B ng 5. M i quan h gi a th i gian ch c hi n và ñ h tr c c ti u v i min_conf=0.6 Đ h tr c c ti u Th i gian th c hi n (s) 0.15 118.01 0.17 50.14 0.20 17.909 0.25 6.306 0.30 3.179 0.33 3.565 Hình 3. Bi u ñ th hi n m i quan h v th i gian th c hi n và ñ h tr c c ti u ng v i ñ tin c y c c ti u min_conf=0.6 T hình 3, ta th y chi phí th i gian tăng r t nhanh khi gi m ñ h tr c c ti u. Đi u này là h p lí do khi gi m ñ h tr c c ti u thì s lư ng t p ph bi n ñư c sinh ra s tăng theo r t nhanh. 5. K T LU N Bài báo ñã ñ xu t thu t toán FTIQ ARM nh m phát hi n các lu t liên k t th i gian m ph bi n t cơ s d li u ñ nh lư ng có y u t th i gian. Thu t toán FTIQ ARM ñư c c i ti n t thu t toán Apriori ñ tìm các chu i liên k t m th i gian ph bi n. Bài báo ñã trình bày thu t toán dư i d ng gi mã. K t qu th c nghi m ñã ch ra m i quan h gi a s lư ng các lu t k t qu và ñ h tr c c ti u, ñ tin c y c c ti u cũng như th i gian th c hi n. Nghiên c u c a bài báo ñã góp ph n gi i quy t v n ñ phát hi n các m i quan h v th i gian gi a các s ki n trong cơ s d li u ñ nh lư ng có y u t th i gian. 80 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI TÀI LI U THAM KH O 1. R. Agrawal, T. Imielinski, A.Swami, "Mining association rules between sets of items in large database", In: P.Buneman, S. Jajodia eds. Proc. of 1993 ACM SIGMOD Conf on Management of Data . Washington DC: ACM Press, 1993. pp.207 216. 2. R. Agrawal, R. Srikant (1994), "Fast algorithms for mining association rules ", In: J.Bocca, M.Jarke, C.Zaniolo eds. Proc. of the 20th Int’l Conf on Very Large DataBases (VLDB’94) , Santiago: Morgan Kaufmann, pp. 487 499. 3. Y. L. Chen, M. C. Chiang, and M. T. Ko (2003), "Discovering time interval sequential patterns in sequence databases", Expert Syst. Applicat. , vol. 25, no. 3, pp.343 354. 4. Yen Liang Chen, Cheng Kui Huang (2005), "Discovering fuzzy time interval sequential patterns in sequence databases", IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics 35, pp.959 972. 5. Attila Gyenesei (2000), "A Fuzzy Aproach for Mining Quantitative Association Rules", Turku Centre for Computer Sciences , TUCS Technical Report, No 336. 6. Kuod. M, Ada. P (1998), "Mining Fuzzy Association Rules", In SIGMOD Record , 27(1). 7. L. Qin, P. Luo, Z. Shi (2004), "Efficiently mining frequent itemsets with compact FP tree". In: Z.Shi and Q.He eds. Proc. of Int’l Conf. on Intelligent Information Processing 2004 (IIP2004) , Beijing, China. Springer Press, pp.397 406. 8. UCI Machine Learning Repository, 9. Liang Xi Qin, Zhong Zhi Shi (2006), "Efficiently mining association rules from time series", International Journal of Information Technology , Vol.12 No.4. pp.30 38. 10. Saravanan, M.S.; Sree, R.J.R (2011), "A Simple Process model generation using a new Association Rule Mining algorithm and Clustering Approach", Advanced Computing (ICoAC) , 2011 Third International Conference on Digital Object Identifier, pp.265 269. 11. R. Srikant and R. Agrawal (1995), "Mining Sequential Patterns", Proc. of the 11th Int’l Conference on Data Engineering , Taipei, Taiwan. 12. Zadeh, L. A. (1995), "Fuzzy sets", Information and Control , Vol. 8, pp.338 353. 13. M. J. Zaki and C. J. Hsiao (1999), "CHARM: An efficient algorithm for closed association rule mining", Technical Report 99 10, Computer Science Dept. , Rensselaer Polytechnic Institute, October.. 14. Sumathi, R. and Kirubakaran, E. (2012), "Architectural perspective of parallelizing association rule mining", Advances in Engineering, Science and Management (ICAESM) , International Conference, pp.437 442. 15. Yi Chung Hu, Gwo Hshiung Tzeng, Chin Mi Chen, "Deriving two stage learning sequences from knowledge in fuzzy sequential pattern mining", Information Sciences 159 (2004) , pp.69 86. 16. Fu A, Wong MH, Sze SC, Wong WC, Wong WL, Yu WK (1998) "Finding fuzzy sets for the mining of fuzzy association rules for numerical attributes", In: IDEAL 98, 1st International symposium on intelligent data engineering and learning , Hong Kong, pp.263 268. 17. Shu Yue J, Tsang E, Yengg D, Daming S (2000) "Mining fuzzy association rules with weighted items" . In: Proceedings of the IEEE international conference on systems, man, and cybernetics. Nashville, TN, pp.1906 1911. TẠP CHÍ KHOA HỌC −−− SỐ 8/2016 81 18. Chung I Chang; Hao En Chueh; Lin, N.P. "Sequential Patterns Mining with Fuzzy Time Intervals", Fuzzy Systems and Knowledge Discovery , 2009. FSKD '09. Sixth International Conference on, On page(s): 165 169 Volume: 3, 14 16 Aug, 2009. 19. W. H. Au and K. C. C. Chan, "FARM: A data mining system for discovering fuzzy association rules", Proc. FUZZ IEEE , vol. 3, pp.22 25, 1999. 20. W. Zhang (1999), "Mining fuzzy quantitative association rules", Proc. 11th Int. Conf. Tools Artificial Intelligence, pp.99 102. 21. Chung I Chang; Hao En Chueh; Yu Chun Luo (2013), "An integrated sequential patterns mining with fuzzy time intervals", Systems and Informatics (ICSAI) , International Conference on, On page(s): 2294 – 2298 22. Weng, Cheng Hsiung; Chen, Yen Liang (2010), "Mining fuzzy association rules from uncertain data", Knowledge and Information Systems , Volume.23, Issue.2, pp.129. 23. CHANG, Joong Hyuk; PARK, Nam Hun (2013), "Finding Interesting Sequential Patterns in Sequence Data Streams via a Time Interval Weighting Approach", IEICE Transactions on Information and Systems , Volume.E96.D, Issue.8, pp.1734. 24. Chang JH (2011) "Mining weighted sequential patterns in a sequence database with a time interval weight", Know Based Syst 24(1):1 9. 25. Moskovitch R, Walsh C, Hripsack G, Tatonetti N (2014) "Prediction of biomedical events via time intervals mining", ACM KDD Workshop on Connected Health in Big Data Era , NY, USA. 26. C.H. Chen, T.P. Hong, and V.S. Tseng (2012), "Fuzzy data mining for time series data", Appl. Soft Comput. , 12(1):536 542. OPTICAL MODES IN A FREE STANDING QUANTUM WIRE AbstractAbstract: A continuum model is employed to describe the allowed longitudinal optical (LO) phonons of a cylin drical free standing GaAs wire. The confinement of optical modes in a quantum wire of polar material is described by a theory involving the triple hybridization of LO, transverse optical (TO) phonon, and IP (interface polariton) modes. In this work, we tried to calculate the LO, TO, and IP modes in a quantum wire using conditions of both mechanical and electromagnetic boundary. KeywordsKeywords: LO, TO, IP, mechanical and electromagnetic boundary.
File đính kèm:
- phat_hien_luat_ket_hop_lien_ket_chuoi_thoi_gian_tu_co_so_du.pdf