Độ đo phụ thuộc hàm xấp xỉ trong cơ sở dữ liệu mô hình dạng khối
Trong báo cáo này, chúng tôi trình bày mô hình dữ liệu dạng khối được xem là
mở rộng của mô hình dữ liệu quan hệ. Phụ thuộc hàm là một loại ràng buộc dữ liệu giữa
các thuộc tính trong một cơ sở dữ liệu quan hệ, góp phần vào việc đảm bảo tính nhất
quán của dữ liệu, loại bỏ bớt dữ liệu dư thừa. Phụ thuộc hàm trong mô hình dữ liệu dạng
khối và các tính chất được quan tâm và nghiên cứu.
Trong bài bào trình bày phương pháp xây dựng độ đo phụ thuộc xấp xỉ trong mô hình dữ
liệu dạng khối. Với hai tập thuộc tính X và Y thuộc khối R, độ đo được xây dựng dựa trên
việc tính toán các độ đo xấp xỉ từ các lát cắt (giá trị độ đo xấp xỉ nằm trong khoảng từ 0
đến 1) và lấy giá trị lớn nhất của các độ đo đó. Giá trị độ đo xấp xỉ của phụ thuộc hàm
trên khối R nằm trong khoảng [0-1]. Một phụ thuộc hàm xấp xỉ trên khối có độ đo bằng 0
thì tất cả các phụ thuộc hàm xấp xỉ trên lát cắt chính là phụ thuộc hàm(kinh điển).

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9
Tóm tắt nội dung tài liệu: Độ đo phụ thuộc hàm xấp xỉ trong cơ sở dữ liệu mô hình dạng khối

o vi c ñ m b o tính nh t quán c a d  
li u, lo i b  b t d  li u dư th a. Ph  thu c hàm cũng th  hi n tính ch t ng  nghĩa gi a các 
thu c tính và có th  t n t i trong m t t p d  li u ñ c l p v i mô hình quan h . Nghiên c u 
v  các ph  thu c hàm là m t hư ng quan tr ng trong thi t k  cơ s  d  li u quan h  và ñã 
ñ t ñư c nhi u thành t u [11, 12, 13, 20]; bên c nh ñó, nghiên c u v  ph  thu c hàm trong 
mô hình d  li u d ng kh i [2] ñã có nh ng k t qu  [2, 5] ñ  tăng cư ng hơn n a kh  năng 
ñ m b o ng  nghĩa, góp ph n hoàn ch nh thêm v  mô hình d  li u d ng kh i. 
 n
 ()i
 Cho lư c ñ  kh i R = (id; A 1,A 2..., A n) , r(R) là m t kh i trên R, X,Y ⊆ ∪id , 
 i=1
 X→ Y là kí hi u m t ph  thu c hàm. M t kh i r tho  X→ Y , n u v i m i t1, t 2 ∈ R sao 
cho t 1(X) = t 2(X) thì t 1 (Y) = t(Y). 
 T  ñ nh nghĩa ph  thu c hàm   trên, ta nh n th y: n u t n t i t 1, t 2 ∈ r sao cho 
t1(X) = t 2(X) và t 1 (Y) = t(Y), thì có th  k t lu n r ng r không tho  ph  thu c hàm X→ Y 
(hay ph  thu c hàm X→ Y không ñúng trên r). 
 Trong th c hành, ñi u này t  ra quá ch t và c ng nh c khi ta hình dung quan h  r có 
hàng nghìn b , trong ñó ch  có m t vài b  vi ph m ph  thu c hàm X→ Y do có m t s  d  
li u b  sai l ch ho c ngo i l . Do ñó vi c m  r ng khái ni m ph  thu c hàm (kinh ñi n) 
thành ph  thu c hàm x p x  (trong mô hình d  li u quan h , mô hình d  li u d ng kh i) 
theo m t cách th c, m t nghĩa nào ñó là nhu c u t t y u và t  nhiên. 
 Các ph  thu c hàm x p x  khai phá ñư c t  mô hình cơ s  d  li u quan h , mô hình 
 d  li u d ng kh i là các m u quan tr ng, là nh ng tri th c có giá tr  v  c u trúc c a các b  
 d  li u. 
2. MÔ HÌNH D  LI U D NG KH I 
2.1. Kh i, lư c ñ  kh i 
 Khái ni m toán h c làm n n t ng cho mô hình cơ s  d  li u d ng kh i (g i t t là mô 
 hình kh i) là các kh i hi u theo nghĩa c a lí thuy t t p h p. Kh i ñư c ñ nh nghĩa như sau: 
 Đ nh nghĩa 2.1: G i R = (id; A 1, A 2, ... A n) là m t b  h u h n các ph n t , trong ñó id 
 là t p ch  s  h u h n khác r ng, A i (i=1,n) là các thu c tính. M i thu c tính A i (i=1,n) có 
mi n giá tr  tương  ng là dom(A i) . M t kh i r trên t p R, kí hi u r(R) g m m t s  h u h n 
ph n t  mà m i ph n t  là m t h  các ánh x  t  t p ch  s  id ñ n các mi n tr  c a các thu c 
 i
 tính A i, (i=1,n). Nói m t cách khác: t∈ r( R ) ⇔ t = {t : id  dom(A i)} i =1,n . 
TẠP CHÍ KHOA HỌC −−− SỐ 8/2016 59 
 Ta kí hi u kh i ñó là r(R) ho c r (id; A 1, A 2, ... A n), ho c kí hi u ñơn gi n là r. 
 Khi ñó kh i r(R) ñư c g i là có lư c ñ  kh i R. Như v y trên cùng m t lư c ñ  kh i R 
ta có th  xây d ng ñư c nhi u kh i khác nhau. 
 Ví d  2.1: Ta xây d ng kh i nhân viên (kí hi u NV(R)) (hình 1) ñ  qu n lí nhân viên 
trong m t cơ quan như sau: 
 Cho lư c ñ  kh i R = (id; A 1, A 2, A3, A 4), trong ñó: id = {1/2009, 2/2009, 3/2009.., 
12/2009,và các thu c tính là A 1 = ma (mã), A 2 = ten (tên), A 3 = luong (lương), 
 A4 = trinh_do (trình ñ ). 
 V i kh i NV(R)   hình 1, ta th y nó g m 3 ph n t : t 1, t 2, t 3. 
 Hình 1.1.1. Bi u di n kh i nhân viên NV(R). 
 Khi ñó ta có: 
 Lương c a nhân viên t 1   th i ñi m tháng 1/2009 là: 
 t1(1/2009,luong) = 200. 
 ● Tên c a cán b  t 2 vào tháng 2/2009 là: t 2(2/2009,ten) = 'B'. 
 ● Trình ñ  c a cán b  t 3 vào tháng 2/2009 là: 
 t3(2/2009,trinh_do) = ‘CD’. 
 ● Mã s  c a cán b  t 3 vào tháng 3/2009 là: t 3(3/2009,ma) = 'C01'. 
2.2. Lát c t 
 Cho R = (id; A 1, A 2, ... A n), r(R) là m t kh i trên R. V i m i x ∈ id ta kí hi u r(R x) là 
m t kh i v i R x = ({x}; A 1, A 2, ... A n) sao cho: 
 i i
 tx ∈ r(R x) ⇔ t x = {t x = t } i =1,n v i t ∈ r(R), 
 i
 x và t = {t : id  dom(A i)} i =1,n 
 i i
   ñây t x(x) = t (x) v i i=1,n. 
60 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H  NỘI 
 Khi ñó r(R x) ñư c g i là m t lát c t trên kh i r(R) t i ñi m x. 
 Ví d  2.2: V i kh i NV(R) ñã cho   trên, R = (id; A 1, A 2, A3, A 4) 
 Trong ñó: id = {1/2009, 2/2009, 3/2009..., 12/2009} 
 A1 = ma, A 2 = ten, A 3 = luong, A 4 = trinh_do. 
 N u x = 2/2009 ∈ id thì lát c t r(R 2/ 2009) có d ng như sau: 
 r(R 2/2009) : ma ten luong trinh_do 
 A01 A 350 ThS 
 A02 B 300 DH 
 A03 C 250 CD 
3. PH  THU C HÀM X P X  TRONG MÔ HÌNH D  LI U D NG KH I 
3.1. Ph  thu c hàm trong mô hình d  li u d ng kh i 
 Sau ñây, ñ  cho ñơn gi n ta s  d ng các kí hi u: 
 (i) (i) (i)
 x = (x; A i) ; id = {x | x ∈ id}. 
 (i)
 Ta g i x (x ∈ id, i = 1..n) là các thu c tính ch  s  c a lư c ñ  kh i R = (id; A 1, A 2,... A n) . 
 Đ nh nghĩa 3.1. Cho lư c ñ  kh i R = (id; A 1, A 2, ... A n) , r(R) là m t kh i trên R, 
 n
 X,Y ⊆ ∪id ()i , X→ Y là kí hi u m t ph  thu c hàm. M t kh i r tho  X → Y n u v i m i 
 i=1
 t1, t 2 ∈ R sao cho t 1(X) = t 2(X) thì t 1(Y) = t 2(Y). 
3.2. Ph  thu c hàm ñư c suy di n t  t p ph  thu c hàm F 
 Cho lư c ñ  kh i R = (id; A 1, A 2, ... A n) , F là t p các ph  thu c hàm trên R và X → Y 
 n
là m t ph  thu c hàm v i X,Y ⊆ ∪id ()i . Nói r ng X → Y ñư c suy di n logic t  F n u 
 i=1
 v i m i kh i r xác ñ nh trên R tho  các ph  thu c hàm trong F thì cũng tho  X→ Y . Kí 
hi u là: 
 F│= X→ Y 
 3.3. Các tính ch t c a ph  thu c hàm trên kh i 
 Cho lư c ñ  kh i R = (id, A 1, A 2, A n), r(R) là m t kh i b t kì, F là t p các ph  
 n
 thu c hàm và X,Y, Z, W⊆ ∪ id (i ) , ta có m t s  tính ch t cơ b n c a các ph  thu c hàm 
 i=1
 như sau: 
TẠP CHÍ KHOA HỌC −−− SỐ 8/2016 61 
 F1) N u Y  X thì X → Y (tính ph n x ) 
 F2) N u X → Y thì XW → YW (tính gia tăng) 
 F3) N u X → Y, Y → Z thì X → Z (tính b c c u) 
 F4) N u X → Y, YZ → W thì XZ → W (tính t a b c c u) 
 F5) N u X → Y, Z → W thì XZ →YW (c ng tính ñ y ñ ) 
 F6) N u X → Y thì XZ→Y (tính m  r ng v  trái) 
 F7) N u X → Y, X → Z thì X → YZ (c ng tính v  ph i) 
 F8) N u X → YZ thì X → Y (b  ph n v  ph i) 
 F9) N u X → YZ, Z → WV thì X → YZW (tính tích lu ) 
 Khái ni m ph  thu c hàm trong mô hình d  li u kh i, m t kh i r tho  X→ Y là ñúng 
 n u v i m i t 1, t 2 ∈ r sao cho t 1(X) = t 2(X) thì t 1(Y) = t 2(Y). Đi u này trong th c hành t  ra 
 quá c ng ng t b i có th  ph  thu c hàm X→ Y trong kh i d  li u R= (id, A 1, A 2, A n) 
 vi ph m do m t vài sai l ch ho c ngo i l . Do ñó vi c m  r ng ph  thu c hàm trong mô 
 hình d  li u kh i thành ph  thu c hàm x p x  trong mô hình d  li u kh i là ñi u t t y u. 
Nói cách khác là ph  thu c hàm trong mô hình d  li u kh i ch  ñúng trên các t p con c a 
kh i r(R), t c là kh i r’(R) nh n ñư c b ng cách lo i b  ñi m t s  r t ít các ph n t  trong 
kh i r(R). Có th  xem ph  thu c hàm x p x  trong mô hình d  li u kh i là m  r ng c a 
ph  thu c hàm x p x  trong mô hình d  li u quan h . 
 Cho R = (id; A 1, A 2, A n), r là m t kh i trên R, , X→ Y là kí hi u 
m t ph  thu c hàm. Gi  s  r tho  ph  thu c hàm X→ Y là ñúng. Khi ñó n u id = {x} thì: 
 r tr  thành quan h  r(id;A 1, A2,..A n). 
 Ph  thu c hàm X→ Y tr  thành ph  thu c hàm trong mô hình d  li u quan h . 
3.4. Ph  thu c hàm x p x  trong mô hình d  li u quan h  
 Đ nh nghĩa 3.2: Cho U là m t t p thu c tính, R(U) là m t lư c ñ  quan h  trên U . 
 Cho X,Y, ⊆ U . Khi ñó, Y ñư c g i là ph  thu c hàm x p x  vào X trên lư c ñ  R(U) v i 
 m c ñ  α ∈[0,1] và kí hi u X≈α Y , d a trên s  t i thi u nh ng hàng c n lo i b  kh i r ñ  
ph  thu c X≈α Y thành X→ Y ñư c xác ñ nh như sau: 
 = 
 Đ nh nghĩa 3.3: Cho U là m t t p thu c tính, R(U) là m t lư c ñ  quan h  trên U. 
ChoX , Y⊆ U , Đ  ño l i c a ph  thu c hàm x p x  X≈α Y ñư c xác ñ nh như sau: 
62 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H  NỘI 
 T  ñó: X→ Y ñúng trên  ng v i m t ngư ng l i α ∈[0,1] khi và ch  khi 
 g3 ( X→ Y ) ≤ α 
 X→ Y là ph  thu c hàm khi và ch  khi g 3 = 0 
 M t s  tính ch t: 
 − Tính ch t 1 : Cho r là m t quan h  trên t p thu c tính R. M t ph  thu c hàm ñúng 
 trên r cũng là ph  thu c hàm x p x  lo i 2 v i m c  tuỳ ý (0 δ  <1) ñúng trên r. 
 Tính ch t này d  dàng suy theo ñ nh nghĩa c a ph  thu c hàm x p x  lo i 2. 
 − Tính ch t 2 : Cho r là m t quan h  trên R:X , Y⊆ R , δ1, δ 2 là 2 s  sao cho 
 0≤δ 1 ≤ δ 21 ≤ . Kí hiêu X≈δ1 Y và X≈δ 2 Y là 2 ph  thu c hàm x p x  lo i 2 m c δ1 và 
m c δ 2 gi a X và Y trên r, khi ñó n u X≈δ1 Y ñúng trên r thì X≈δ 2 Y cũng ñúng trên r. 
 − Tính ch t 3: Tính ph n x  
 N u Y≈ X khi ñó X≈δ Y là ph  thu c hàm x p x  lo i 2 v i m c δ tuỳ ý ( 0≤δ < 1 ) 
 − Tính ch t 4: Tính b c c u 
 N u X≈δ Y và Y≈δ Z thì X≈δ Z 
 − Tính ch t 5: Tính gia tăng 
 V i m i XYZ, , ⊆ R và m c δ nào ñó, n u X≈δ Y thì XZ≈δ YZ 
3.5. Ph  thu c hàm x p x  trong mô hình d  li u d ng kh i 
 Đ nh nghĩa 3.5: Cho lư c ñ  kh i R = (id; A 1, A 2,... An) , r(R) là m t kh i trên R, 
 n
 ()i
 X,Y ⊆ ∪id . Khi ñó, Y ñư c g i là ph  thu c hàm x p x  và X trên kh i R là s  hàng 
 i=1
nhi u nh t c n ph i lo i b  trong t t c  các lát c t thu c kh i R ñ  ph  thu c hàm X→ Y id 
(trên lát c t id) và X→ Y R trên kh i R là ñúng. 
 R id
 Kí hi u g 3( X→ Y ) là ñ  ño l i c a ph  thu c hàm X→ Y trên kh i R, ( X→ Y ) là 
ph  thu c hàm X→ Y trên lát c t id, id∈ R . 
 R
 g3( X→ Y ) ñư c xác ñ nh như sau: 
 R id
 g3( X→ Y ) = max(g 3( X→ Y ) , id∈ R ) 
 Khi g 3 = 0 thì t t c  các ph  thu c hàm x p x  trên lát c t chính là ph  thu c hàm 
(kinh ñi n). 
TẠP CHÍ KHOA HỌC −−− SỐ 8/2016 63 
 Minh ho : 
 V i kh i R = (id; X; Y), trong ñó: id = {1, 2, 3}, 2 thu c tính X, Y 
 X Y 
 Có th  bi u di n kh i d  li u trên   hình 1. dư i d ng b ng d  li u như sau: 
 BBB ngB ng 1. B ng bi u di n kh i d  li u 
 Id X Y 
 1 A @ 
 1 B # 
 1 C $ 
 2 A % 
 2 B & 
 2 D $ 
 3 A ! 
 3 A * 
 3 C & 
 Xét ph  thu c hàm x p x  X→ Y trên kh i R, ta tính ñư c 
 1 
 g3( X→ Y ) = 1 –(1+1+1)/3 = 0. 
 Ph  thu c hàm X→ Y trên lát c t 1 là ñúng 
 2
 g3( X→ Y ) = 1  (1+1+1)/3= 0. 
 Ph  thu c hàm X→ Y trên lát c t 2 là ñúng. 
 3
 g3( X→ Y ) = 1  (1+1)/3 = 0.34. 
 Ph  thu c hàm X→ Y trên lát c t 3 có ñ  l i là 0.34 
64 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H  NỘI 
 Do ñó: 
 R
 g3( X→ Y ) = max(0,0,0.34) = 0.34 
 Như v y, ñ  l i c a ph  thu c hàm X→ Y trên kh i R là 0.34 
4. K T LU N 
 Trong báo cáo này, chúng tôi trình bày mô hình d  li u d ng kh i ñư c xem là m  
r ng c a mô hình d  li u quan h . Trình bày ph  thu c hàm trong mô hình d  li u d ng 
kh i và các tính ch t c a ph  thu c hàm trong mô hình d  li u quan h . 
 Trong bài bào trình bày phương pháp xây d ng ñ  ño ph  thu c x p x  trong mô hình 
 d  li u d ng kh i. V i hai t p thu c tính X và Y thu c kh i R, ñ  ño ñư c xây d ng d a 
 trên vi c tính toán các ñ  ño x p x  t  các lát c t và l y giá tr  l n nh t c a các ñ  ño ñó. 
 Giá tr  ñ  ño x p x  c a ph  thu c hàm trên kh i R n m trong kho ng [0 1]. M t ph  thu c 
 hàm x p x  trên kh i có ñ  ño b ng 0 thì t t c  các ph  thu c hàm x p x  trên lát c t chính 
 là ph  thu c hàm. 
 D a trên các nghiên c u v  ph  thu c hàm x p x  trong mô hình d  li u d ng kh i 
chúng tôi s  nghiên c u thu t toán khai phá các ph  thu c hàm x p x  trên kh i v i 
ngư ng ph  thu c cho trư c. 
 TÀI LI U THAM KH O 
1. Nguy n Xuân Huy (2006), Các ph  thu c logic trong cơ s  d  li u , Nxb Th ng kê, Hà N i. 
 2. Tr nh Đình Th ng (2011), Mô hình d  li u d ng kh i , Nxb Lao ñ ng. 
 3. Vũ Đ c Thi (1997), Cơ s  d  li u  Ki n th c và th c hành , Nxb Th ng kê, Hà N i. 
 4. Nguy n Tu  (2008), Giáo trình cơ s  d  li u , Nxb Đ i h c Qu c gia Hà N i. 
 5. Tr nh Đình Vinh (2011), M t s  ph  thu c d  li u trong cơ s  d  li u d ng kh i , Lu n án 
 Ti n sĩ, Vi n Công ngh  Thông tin. 
 6. Lê Ti n Vương (1997), Nh p môn Cơ s  d  li u quan h  , Nxb Khoa h c và kĩ thu t, Hà N i. 
 7. Aravind Krishna Kalavagattu (2008), Mining Approximate Functional Dependencies as 
 Condensed Representations of Association Rules, Arizona State University. 
 8. Dalkilic, M.M., Robertson, E.L (2000): "Information Dependencies", Proceedings of ACM 
 PODS ., pp.245–253. 
 9. Giannella, Chris and Robertson (2004), Edward, "On Approximation Measures for Functional 
 Dependencies", Information Systems Archive , 29(6), pp.483 507. 
 10. Han J., and Kamber M. (2000), Data Mining Concepts and Techniques , Morgan Kanuf  mann. 
 11. Hong Yao, Howard J. Hamilton, Cory J. Butz, FD_Mine: "Discovering Functional 
 Dependencies in a Database Using Equivalences", Second IEEE International Conference on 
 Data Mining , 2002. 
TẠP CHÍ KHOA HỌC −−− SỐ 8/2016 65 
12. Hector Garcia Molina, Jeffrey D. Ullman, and Jennifer Widom (2000), Database Systems : The 
 Complete Book , Prentice Hall Publisher. 
 13. Huhtala, Y., Karkkainen, J., Porkka P., and Toivonen, H., TANE (1999): An Efficient 
 Algorithm for Discovering Functional and Approximate Dependencies, The Com puter 
 Journal , 42(2), pp.100 111. 
 14. Jalal Atoum (2009), "Mining Approximate Functional Dependencies from Databases Based on 
 Minimal Cover and Equivalent Classes", European journal of scientific research , 33 (2), pp. 
 338 346. 
 15. Kivinen, J., and Mannila (1995), "H. Approximate Inference of Functional Dependencies 
 From Relations", Theoretical Computer Science , 149, pp.129 149. 
 16. Kwok Wa Lam, Victor C.S.Lee (2004), "Building Decision Trees Using Functional 
 Dependencies", Processdings, of the International Conference on Information Technology: 
 Coding and Computing (ITCC’04 ). 
17. L.B. Cristofor (2000), "A Rough Sets Based Generalization of Functional Dependencies", 
 Umass/Boston, Dept. of Mathand Comp. Sci. Technical Report . 
18. Q. Wei, GQ. Chen (2004), "Efficient Discovery of Functional Dependencies with Degrees of 
 Satisfaction", International journal of intelligent systems , Vol. 19. 
 19. Ronald S. King, James J. Legendre (2003), "Discovery of Functional and Approximate 
 Functional Dependencies in Relational Databases", Journal of applied mathematics and 
 decision sciences , 7(1), pp.49 59. 
 20. Stéphane Lopes, Jean Marc Petit, and Lotfi Lakhal (2000), "Efficient Discovery of Functional 
 Dependencies and Armstrong Relations", EDBT 2000, LNCS 1777 , pp.350 364. 
 MEASURING THE APPROXIMATE FUNCTIONAL 
 DEPENDENCY ON DATABASE OF CUBE MODEL 
 AbstractAbstract: In this report, we present data model of building blocks, which is considered as 
 an extension of the relational data model. Functional Dependency (FD) is a data binding 
 of the attributes in a relational database to ensure the consistency of the data and to 
 eliminate redundant data. Dependencies in the data model and the nature of blocks are 
 great interests that should be researched. 
 The article presents the method of approximation measurement in model building blocks. 
 With two sets of attributes X and Y of R, the measurement is based on the calculation of 
 the approximate measurement of the sections (approximate measurement values range 
 from 0 to 1), and takes the largest values. The approximate measurement value of the FD 
 in R is in the range of [0 1]. If the measurement of an approximate FD equals 0 then all 
 approximate FDs on sections are Functional Dependencies (classic). 
 KeywordsKeywords: Functional Dependency, data exploitation, approximate Functional Dependency, 
 data model, relation, cube data model 
File đính kèm:
 do_do_phu_thuoc_ham_xap_xi_trong_co_so_du_lieu_mo_hinh_dang.pdf do_do_phu_thuoc_ham_xap_xi_trong_co_so_du_lieu_mo_hinh_dang.pdf




