Độ đo phụ thuộc hàm xấp xỉ trong cơ sở dữ liệu mô hình dạng khối
Trong báo cáo này, chúng tôi trình bày mô hình dữ liệu dạng khối được xem là
mở rộng của mô hình dữ liệu quan hệ. Phụ thuộc hàm là một loại ràng buộc dữ liệu giữa
các thuộc tính trong một cơ sở dữ liệu quan hệ, góp phần vào việc đảm bảo tính nhất
quán của dữ liệu, loại bỏ bớt dữ liệu dư thừa. Phụ thuộc hàm trong mô hình dữ liệu dạng
khối và các tính chất được quan tâm và nghiên cứu.
Trong bài bào trình bày phương pháp xây dựng độ đo phụ thuộc xấp xỉ trong mô hình dữ
liệu dạng khối. Với hai tập thuộc tính X và Y thuộc khối R, độ đo được xây dựng dựa trên
việc tính toán các độ đo xấp xỉ từ các lát cắt (giá trị độ đo xấp xỉ nằm trong khoảng từ 0
đến 1) và lấy giá trị lớn nhất của các độ đo đó. Giá trị độ đo xấp xỉ của phụ thuộc hàm
trên khối R nằm trong khoảng [0-1]. Một phụ thuộc hàm xấp xỉ trên khối có độ đo bằng 0
thì tất cả các phụ thuộc hàm xấp xỉ trên lát cắt chính là phụ thuộc hàm(kinh điển).
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Tóm tắt nội dung tài liệu: Độ đo phụ thuộc hàm xấp xỉ trong cơ sở dữ liệu mô hình dạng khối
o vi c ñ m b o tính nh t quán c a d li u, lo i b b t d li u dư th a. Ph thu c hàm cũng th hi n tính ch t ng nghĩa gi a các thu c tính và có th t n t i trong m t t p d li u ñ c l p v i mô hình quan h . Nghiên c u v các ph thu c hàm là m t hư ng quan tr ng trong thi t k cơ s d li u quan h và ñã ñ t ñư c nhi u thành t u [11, 12, 13, 20]; bên c nh ñó, nghiên c u v ph thu c hàm trong mô hình d li u d ng kh i [2] ñã có nh ng k t qu [2, 5] ñ tăng cư ng hơn n a kh năng ñ m b o ng nghĩa, góp ph n hoàn ch nh thêm v mô hình d li u d ng kh i. n ()i Cho lư c ñ kh i R = (id; A 1,A 2..., A n) , r(R) là m t kh i trên R, X,Y ⊆ ∪id , i=1 X→ Y là kí hi u m t ph thu c hàm. M t kh i r tho X→ Y , n u v i m i t1, t 2 ∈ R sao cho t 1(X) = t 2(X) thì t 1 (Y) = t(Y). T ñ nh nghĩa ph thu c hàm trên, ta nh n th y: n u t n t i t 1, t 2 ∈ r sao cho t1(X) = t 2(X) và t 1 (Y) = t(Y), thì có th k t lu n r ng r không tho ph thu c hàm X→ Y (hay ph thu c hàm X→ Y không ñúng trên r). Trong th c hành, ñi u này t ra quá ch t và c ng nh c khi ta hình dung quan h r có hàng nghìn b , trong ñó ch có m t vài b vi ph m ph thu c hàm X→ Y do có m t s d li u b sai l ch ho c ngo i l . Do ñó vi c m r ng khái ni m ph thu c hàm (kinh ñi n) thành ph thu c hàm x p x (trong mô hình d li u quan h , mô hình d li u d ng kh i) theo m t cách th c, m t nghĩa nào ñó là nhu c u t t y u và t nhiên. Các ph thu c hàm x p x khai phá ñư c t mô hình cơ s d li u quan h , mô hình d li u d ng kh i là các m u quan tr ng, là nh ng tri th c có giá tr v c u trúc c a các b d li u. 2. MÔ HÌNH D LI U D NG KH I 2.1. Kh i, lư c ñ kh i Khái ni m toán h c làm n n t ng cho mô hình cơ s d li u d ng kh i (g i t t là mô hình kh i) là các kh i hi u theo nghĩa c a lí thuy t t p h p. Kh i ñư c ñ nh nghĩa như sau: Đ nh nghĩa 2.1: G i R = (id; A 1, A 2, ... A n) là m t b h u h n các ph n t , trong ñó id là t p ch s h u h n khác r ng, A i (i=1,n) là các thu c tính. M i thu c tính A i (i=1,n) có mi n giá tr tương ng là dom(A i) . M t kh i r trên t p R, kí hi u r(R) g m m t s h u h n ph n t mà m i ph n t là m t h các ánh x t t p ch s id ñ n các mi n tr c a các thu c i tính A i, (i=1,n). Nói m t cách khác: t∈ r( R ) ⇔ t = {t : id dom(A i)} i =1,n . TẠP CHÍ KHOA HỌC −−− SỐ 8/2016 59 Ta kí hi u kh i ñó là r(R) ho c r (id; A 1, A 2, ... A n), ho c kí hi u ñơn gi n là r. Khi ñó kh i r(R) ñư c g i là có lư c ñ kh i R. Như v y trên cùng m t lư c ñ kh i R ta có th xây d ng ñư c nhi u kh i khác nhau. Ví d 2.1: Ta xây d ng kh i nhân viên (kí hi u NV(R)) (hình 1) ñ qu n lí nhân viên trong m t cơ quan như sau: Cho lư c ñ kh i R = (id; A 1, A 2, A3, A 4), trong ñó: id = {1/2009, 2/2009, 3/2009.., 12/2009,và các thu c tính là A 1 = ma (mã), A 2 = ten (tên), A 3 = luong (lương), A4 = trinh_do (trình ñ ). V i kh i NV(R) hình 1, ta th y nó g m 3 ph n t : t 1, t 2, t 3. Hình 1.1.1. Bi u di n kh i nhân viên NV(R). Khi ñó ta có: Lương c a nhân viên t 1 th i ñi m tháng 1/2009 là: t1(1/2009,luong) = 200. ● Tên c a cán b t 2 vào tháng 2/2009 là: t 2(2/2009,ten) = 'B'. ● Trình ñ c a cán b t 3 vào tháng 2/2009 là: t3(2/2009,trinh_do) = ‘CD’. ● Mã s c a cán b t 3 vào tháng 3/2009 là: t 3(3/2009,ma) = 'C01'. 2.2. Lát c t Cho R = (id; A 1, A 2, ... A n), r(R) là m t kh i trên R. V i m i x ∈ id ta kí hi u r(R x) là m t kh i v i R x = ({x}; A 1, A 2, ... A n) sao cho: i i tx ∈ r(R x) ⇔ t x = {t x = t } i =1,n v i t ∈ r(R), i x và t = {t : id dom(A i)} i =1,n i i ñây t x(x) = t (x) v i i=1,n. 60 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI Khi ñó r(R x) ñư c g i là m t lát c t trên kh i r(R) t i ñi m x. Ví d 2.2: V i kh i NV(R) ñã cho trên, R = (id; A 1, A 2, A3, A 4) Trong ñó: id = {1/2009, 2/2009, 3/2009..., 12/2009} A1 = ma, A 2 = ten, A 3 = luong, A 4 = trinh_do. N u x = 2/2009 ∈ id thì lát c t r(R 2/ 2009) có d ng như sau: r(R 2/2009) : ma ten luong trinh_do A01 A 350 ThS A02 B 300 DH A03 C 250 CD 3. PH THU C HÀM X P X TRONG MÔ HÌNH D LI U D NG KH I 3.1. Ph thu c hàm trong mô hình d li u d ng kh i Sau ñây, ñ cho ñơn gi n ta s d ng các kí hi u: (i) (i) (i) x = (x; A i) ; id = {x | x ∈ id}. (i) Ta g i x (x ∈ id, i = 1..n) là các thu c tính ch s c a lư c ñ kh i R = (id; A 1, A 2,... A n) . Đ nh nghĩa 3.1. Cho lư c ñ kh i R = (id; A 1, A 2, ... A n) , r(R) là m t kh i trên R, n X,Y ⊆ ∪id ()i , X→ Y là kí hi u m t ph thu c hàm. M t kh i r tho X → Y n u v i m i i=1 t1, t 2 ∈ R sao cho t 1(X) = t 2(X) thì t 1(Y) = t 2(Y). 3.2. Ph thu c hàm ñư c suy di n t t p ph thu c hàm F Cho lư c ñ kh i R = (id; A 1, A 2, ... A n) , F là t p các ph thu c hàm trên R và X → Y n là m t ph thu c hàm v i X,Y ⊆ ∪id ()i . Nói r ng X → Y ñư c suy di n logic t F n u i=1 v i m i kh i r xác ñ nh trên R tho các ph thu c hàm trong F thì cũng tho X→ Y . Kí hi u là: F│= X→ Y 3.3. Các tính ch t c a ph thu c hàm trên kh i Cho lư c ñ kh i R = (id, A 1, A 2, A n), r(R) là m t kh i b t kì, F là t p các ph n thu c hàm và X,Y, Z, W⊆ ∪ id (i ) , ta có m t s tính ch t cơ b n c a các ph thu c hàm i=1 như sau: TẠP CHÍ KHOA HỌC −−− SỐ 8/2016 61 F1) N u Y X thì X → Y (tính ph n x ) F2) N u X → Y thì XW → YW (tính gia tăng) F3) N u X → Y, Y → Z thì X → Z (tính b c c u) F4) N u X → Y, YZ → W thì XZ → W (tính t a b c c u) F5) N u X → Y, Z → W thì XZ →YW (c ng tính ñ y ñ ) F6) N u X → Y thì XZ→Y (tính m r ng v trái) F7) N u X → Y, X → Z thì X → YZ (c ng tính v ph i) F8) N u X → YZ thì X → Y (b ph n v ph i) F9) N u X → YZ, Z → WV thì X → YZW (tính tích lu ) Khái ni m ph thu c hàm trong mô hình d li u kh i, m t kh i r tho X→ Y là ñúng n u v i m i t 1, t 2 ∈ r sao cho t 1(X) = t 2(X) thì t 1(Y) = t 2(Y). Đi u này trong th c hành t ra quá c ng ng t b i có th ph thu c hàm X→ Y trong kh i d li u R= (id, A 1, A 2, A n) vi ph m do m t vài sai l ch ho c ngo i l . Do ñó vi c m r ng ph thu c hàm trong mô hình d li u kh i thành ph thu c hàm x p x trong mô hình d li u kh i là ñi u t t y u. Nói cách khác là ph thu c hàm trong mô hình d li u kh i ch ñúng trên các t p con c a kh i r(R), t c là kh i r’(R) nh n ñư c b ng cách lo i b ñi m t s r t ít các ph n t trong kh i r(R). Có th xem ph thu c hàm x p x trong mô hình d li u kh i là m r ng c a ph thu c hàm x p x trong mô hình d li u quan h . Cho R = (id; A 1, A 2, A n), r là m t kh i trên R, , X→ Y là kí hi u m t ph thu c hàm. Gi s r tho ph thu c hàm X→ Y là ñúng. Khi ñó n u id = {x} thì: r tr thành quan h r(id;A 1, A2,..A n). Ph thu c hàm X→ Y tr thành ph thu c hàm trong mô hình d li u quan h . 3.4. Ph thu c hàm x p x trong mô hình d li u quan h Đ nh nghĩa 3.2: Cho U là m t t p thu c tính, R(U) là m t lư c ñ quan h trên U . Cho X,Y, ⊆ U . Khi ñó, Y ñư c g i là ph thu c hàm x p x vào X trên lư c ñ R(U) v i m c ñ α ∈[0,1] và kí hi u X≈α Y , d a trên s t i thi u nh ng hàng c n lo i b kh i r ñ ph thu c X≈α Y thành X→ Y ñư c xác ñ nh như sau: = Đ nh nghĩa 3.3: Cho U là m t t p thu c tính, R(U) là m t lư c ñ quan h trên U. ChoX , Y⊆ U , Đ ño l i c a ph thu c hàm x p x X≈α Y ñư c xác ñ nh như sau: 62 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI T ñó: X→ Y ñúng trên ng v i m t ngư ng l i α ∈[0,1] khi và ch khi g3 ( X→ Y ) ≤ α X→ Y là ph thu c hàm khi và ch khi g 3 = 0 M t s tính ch t: − Tính ch t 1 : Cho r là m t quan h trên t p thu c tính R. M t ph thu c hàm ñúng trên r cũng là ph thu c hàm x p x lo i 2 v i m c tuỳ ý (0 δ <1) ñúng trên r. Tính ch t này d dàng suy theo ñ nh nghĩa c a ph thu c hàm x p x lo i 2. − Tính ch t 2 : Cho r là m t quan h trên R:X , Y⊆ R , δ1, δ 2 là 2 s sao cho 0≤δ 1 ≤ δ 21 ≤ . Kí hiêu X≈δ1 Y và X≈δ 2 Y là 2 ph thu c hàm x p x lo i 2 m c δ1 và m c δ 2 gi a X và Y trên r, khi ñó n u X≈δ1 Y ñúng trên r thì X≈δ 2 Y cũng ñúng trên r. − Tính ch t 3: Tính ph n x N u Y≈ X khi ñó X≈δ Y là ph thu c hàm x p x lo i 2 v i m c δ tuỳ ý ( 0≤δ < 1 ) − Tính ch t 4: Tính b c c u N u X≈δ Y và Y≈δ Z thì X≈δ Z − Tính ch t 5: Tính gia tăng V i m i XYZ, , ⊆ R và m c δ nào ñó, n u X≈δ Y thì XZ≈δ YZ 3.5. Ph thu c hàm x p x trong mô hình d li u d ng kh i Đ nh nghĩa 3.5: Cho lư c ñ kh i R = (id; A 1, A 2,... An) , r(R) là m t kh i trên R, n ()i X,Y ⊆ ∪id . Khi ñó, Y ñư c g i là ph thu c hàm x p x và X trên kh i R là s hàng i=1 nhi u nh t c n ph i lo i b trong t t c các lát c t thu c kh i R ñ ph thu c hàm X→ Y id (trên lát c t id) và X→ Y R trên kh i R là ñúng. R id Kí hi u g 3( X→ Y ) là ñ ño l i c a ph thu c hàm X→ Y trên kh i R, ( X→ Y ) là ph thu c hàm X→ Y trên lát c t id, id∈ R . R g3( X→ Y ) ñư c xác ñ nh như sau: R id g3( X→ Y ) = max(g 3( X→ Y ) , id∈ R ) Khi g 3 = 0 thì t t c các ph thu c hàm x p x trên lát c t chính là ph thu c hàm (kinh ñi n). TẠP CHÍ KHOA HỌC −−− SỐ 8/2016 63 Minh ho : V i kh i R = (id; X; Y), trong ñó: id = {1, 2, 3}, 2 thu c tính X, Y X Y Có th bi u di n kh i d li u trên hình 1. dư i d ng b ng d li u như sau: BBB ngB ng 1. B ng bi u di n kh i d li u Id X Y 1 A @ 1 B # 1 C $ 2 A % 2 B & 2 D $ 3 A ! 3 A * 3 C & Xét ph thu c hàm x p x X→ Y trên kh i R, ta tính ñư c 1 g3( X→ Y ) = 1 –(1+1+1)/3 = 0. Ph thu c hàm X→ Y trên lát c t 1 là ñúng 2 g3( X→ Y ) = 1 (1+1+1)/3= 0. Ph thu c hàm X→ Y trên lát c t 2 là ñúng. 3 g3( X→ Y ) = 1 (1+1)/3 = 0.34. Ph thu c hàm X→ Y trên lát c t 3 có ñ l i là 0.34 64 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI Do ñó: R g3( X→ Y ) = max(0,0,0.34) = 0.34 Như v y, ñ l i c a ph thu c hàm X→ Y trên kh i R là 0.34 4. K T LU N Trong báo cáo này, chúng tôi trình bày mô hình d li u d ng kh i ñư c xem là m r ng c a mô hình d li u quan h . Trình bày ph thu c hàm trong mô hình d li u d ng kh i và các tính ch t c a ph thu c hàm trong mô hình d li u quan h . Trong bài bào trình bày phương pháp xây d ng ñ ño ph thu c x p x trong mô hình d li u d ng kh i. V i hai t p thu c tính X và Y thu c kh i R, ñ ño ñư c xây d ng d a trên vi c tính toán các ñ ño x p x t các lát c t và l y giá tr l n nh t c a các ñ ño ñó. Giá tr ñ ño x p x c a ph thu c hàm trên kh i R n m trong kho ng [0 1]. M t ph thu c hàm x p x trên kh i có ñ ño b ng 0 thì t t c các ph thu c hàm x p x trên lát c t chính là ph thu c hàm. D a trên các nghiên c u v ph thu c hàm x p x trong mô hình d li u d ng kh i chúng tôi s nghiên c u thu t toán khai phá các ph thu c hàm x p x trên kh i v i ngư ng ph thu c cho trư c. TÀI LI U THAM KH O 1. Nguy n Xuân Huy (2006), Các ph thu c logic trong cơ s d li u , Nxb Th ng kê, Hà N i. 2. Tr nh Đình Th ng (2011), Mô hình d li u d ng kh i , Nxb Lao ñ ng. 3. Vũ Đ c Thi (1997), Cơ s d li u Ki n th c và th c hành , Nxb Th ng kê, Hà N i. 4. Nguy n Tu (2008), Giáo trình cơ s d li u , Nxb Đ i h c Qu c gia Hà N i. 5. Tr nh Đình Vinh (2011), M t s ph thu c d li u trong cơ s d li u d ng kh i , Lu n án Ti n sĩ, Vi n Công ngh Thông tin. 6. Lê Ti n Vương (1997), Nh p môn Cơ s d li u quan h , Nxb Khoa h c và kĩ thu t, Hà N i. 7. Aravind Krishna Kalavagattu (2008), Mining Approximate Functional Dependencies as Condensed Representations of Association Rules, Arizona State University. 8. Dalkilic, M.M., Robertson, E.L (2000): "Information Dependencies", Proceedings of ACM PODS ., pp.245–253. 9. Giannella, Chris and Robertson (2004), Edward, "On Approximation Measures for Functional Dependencies", Information Systems Archive , 29(6), pp.483 507. 10. Han J., and Kamber M. (2000), Data Mining Concepts and Techniques , Morgan Kanuf mann. 11. Hong Yao, Howard J. Hamilton, Cory J. Butz, FD_Mine: "Discovering Functional Dependencies in a Database Using Equivalences", Second IEEE International Conference on Data Mining , 2002. TẠP CHÍ KHOA HỌC −−− SỐ 8/2016 65 12. Hector Garcia Molina, Jeffrey D. Ullman, and Jennifer Widom (2000), Database Systems : The Complete Book , Prentice Hall Publisher. 13. Huhtala, Y., Karkkainen, J., Porkka P., and Toivonen, H., TANE (1999): An Efficient Algorithm for Discovering Functional and Approximate Dependencies, The Com puter Journal , 42(2), pp.100 111. 14. Jalal Atoum (2009), "Mining Approximate Functional Dependencies from Databases Based on Minimal Cover and Equivalent Classes", European journal of scientific research , 33 (2), pp. 338 346. 15. Kivinen, J., and Mannila (1995), "H. Approximate Inference of Functional Dependencies From Relations", Theoretical Computer Science , 149, pp.129 149. 16. Kwok Wa Lam, Victor C.S.Lee (2004), "Building Decision Trees Using Functional Dependencies", Processdings, of the International Conference on Information Technology: Coding and Computing (ITCC’04 ). 17. L.B. Cristofor (2000), "A Rough Sets Based Generalization of Functional Dependencies", Umass/Boston, Dept. of Mathand Comp. Sci. Technical Report . 18. Q. Wei, GQ. Chen (2004), "Efficient Discovery of Functional Dependencies with Degrees of Satisfaction", International journal of intelligent systems , Vol. 19. 19. Ronald S. King, James J. Legendre (2003), "Discovery of Functional and Approximate Functional Dependencies in Relational Databases", Journal of applied mathematics and decision sciences , 7(1), pp.49 59. 20. Stéphane Lopes, Jean Marc Petit, and Lotfi Lakhal (2000), "Efficient Discovery of Functional Dependencies and Armstrong Relations", EDBT 2000, LNCS 1777 , pp.350 364. MEASURING THE APPROXIMATE FUNCTIONAL DEPENDENCY ON DATABASE OF CUBE MODEL AbstractAbstract: In this report, we present data model of building blocks, which is considered as an extension of the relational data model. Functional Dependency (FD) is a data binding of the attributes in a relational database to ensure the consistency of the data and to eliminate redundant data. Dependencies in the data model and the nature of blocks are great interests that should be researched. The article presents the method of approximation measurement in model building blocks. With two sets of attributes X and Y of R, the measurement is based on the calculation of the approximate measurement of the sections (approximate measurement values range from 0 to 1), and takes the largest values. The approximate measurement value of the FD in R is in the range of [0 1]. If the measurement of an approximate FD equals 0 then all approximate FDs on sections are Functional Dependencies (classic). KeywordsKeywords: Functional Dependency, data exploitation, approximate Functional Dependency, data model, relation, cube data model
File đính kèm:
- do_do_phu_thuoc_ham_xap_xi_trong_co_so_du_lieu_mo_hinh_dang.pdf