Phụ thuộc thông tin

Tóm tắt: Trong báo cáo này, chúng tôi trình bày phương pháp xây dựng độ đo phụ thuộc

thông tin trong một quan hệ như là một độ đo phụ thuộc hàm xấp xỉ. Với hai tập thuộc

tính X và Y, độ đo này sẽ gán cho chúng một số thực phản ánh mức độ phụ thuộc của Y

vào X. Độ đo được xây dựng dựa trên các độ đo entropy trong lý thuyết thông tin của

Shannon và được chuẩn hóa để nó có giá trị nằm giữa 0 và 1. Giá trị độ đo bằng 0 khi và

chỉ khi tồn tại phụ thuộc hàm X Y  trong quan hệ. Và như thế, giá trị của nó càng nhỏ

thì sự phụ thuộc của Y vào X trong quan hệ càng gần phụ thuộc hàm X Y  . Các tính

chất của độ đo phụ thuộc thông tin cũng đã được nghiên cứu. Các tính chất này cho thấy

có thể xem phụ thuộc thông tin là sự mở rộng của khái niệm phụ thuộc hàm

Phụ thuộc thông tin trang 1

Trang 1

Phụ thuộc thông tin trang 2

Trang 2

Phụ thuộc thông tin trang 3

Trang 3

Phụ thuộc thông tin trang 4

Trang 4

Phụ thuộc thông tin trang 5

Trang 5

Phụ thuộc thông tin trang 6

Trang 6

Phụ thuộc thông tin trang 7

Trang 7

Phụ thuộc thông tin trang 8

Trang 8

Phụ thuộc thông tin trang 9

Trang 9

Phụ thuộc thông tin trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 12 trang xuanhieu 6060
Bạn đang xem 10 trang mẫu của tài liệu "Phụ thuộc thông tin", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phụ thuộc thông tin

Phụ thuộc thông tin
ntropy 
của X là đại lượng H(X), xác định bởi công thức sau: 
 n 1
 H( X )  p ( xi )log , 
 i 1 px()i
với quy định 0log0 0 . Cơ số hàm lô-ga-rít ở đây được lấy là 2, đơn vị đo của Entropy là 
bit. 
 Entropy HX() là số đo độ bất định, không chắc chắn (uncertainty) của X. Một đại 
lượng ngẫu nhiên càng nhận nhiều giá trị và có phân phối càng đều thì tính bất định của nó 
càng lớn, độ chắc chắn càng nhỏ. Ngược lại, một đại lượng ngẫu nhiên có phân phối xác 
suất càng chênh lệch (có các xác suất rất nhỏ và rất lớn) thì tính bất định của nó càng thấp 
và do đó sẽ có lượng thông tin chưa biết nhỏ hơn nhiều so với lượng thông tin của phân 
phối xác suất đều. 
 Entropy cho phép lượng hóa thông tin chứa trong một đơn vị dữ liệu: Nó là số bit 
trung bình tối thiểu mà người gửi cần để mã hóa thông điệp thông báo cho người nhận biết 
được giá trị thật của biến ngẫu nhiên. 
 Bổ đề 2.1. Cho biến ngẫu nhiên rời rạc X có phân bố xác suất 
 n
 dãy số Q q12, q , ... , qn thỏa mãn  q j 1 với mọi 0 jn và 
 j 1
n
 q j 1. Khi đó, ta có: 
i 1
 nn11
 H() X  p ()log xii p ()log x . 
 ii 11p() xij q
 Chứng minh: Sử dụng bất đẳng thức logx x 1, ta có: 
54 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI 
 qq
 logii 1 . 
 p()() xii p x
 Suy ra: 
 qi
 p( xi )log q i p ( x i ) , 
 px()i
 p( xi )(log q i log p ( x i )) q i p ( x i ) , 
 p()log() xi p x i p ()log x i q i q i p () x i , 
 11
 p( xi )log p ( x i )log q i p ( x i ) , 
 p() xii q
 nn11 
 p( xi )log p ( x i )log q i p ( x i ) , 
 ii 11p() xii q
 n11 n n n
 p( xi )log  p ( x i )log  q i  p ( x i ) , 
 i 1p() xii i 1 q i 1 i 1
 n n nn
 Vì  q j 1,  px(i ) 1 , nên qii p( x ) 0 . Suy ra: 
 j 1 i 1 ii 11
 nn11
 H( X )  p ( xii )log p ( x )log . □ 
 ii 11p() xii q
 Mệnh đề 2.1. Cận dưới và cận trên của entropy 
 Cho biến ngẫu nhiên X có hàm phân bố xác suất PXn ( p ( x12 ), p ( x ), ..., p ( x )) . Ta có: 
0 H ( X ) log n 
 1
 Chứng minh: Vì 0 px (i ) 1, ta có log 0 với mọi1 in. Suy ra H( X ) 0. Dấu 
 px()i
“=” xảy ra khi và chỉ n 1 . 
 1 n
 Đặt qi , in 1,2, ... , . Thế thì 01 q j với mọi 0 jn và  q j 1. Sử dụng Bổ đề 
 n j 1
2.1. ta có: 
 n11 n n
 H( X )  p ( xi )log  p ( x i )log log n  p ( x i ) log n 
 i 1p() xii i 1 q i 1
 1
 Đẳng thức xảy ra khi px() , in 1,2, ... , . □ 
 i n
 Định nghĩa 2.2. (Entropy có điều kiện – conditional entropy) 
TẠP CHÍ KHOA HỌC SỐ 2/2016 55 
 Cho hai biến ngẫu nhiên X và Y với phân bố xác suất lần lượt là 
PXn ( p ( x12 ), p ( x ), ..., p ( x )) và PYm ( p ( y12 ), p ( y ), ..., p ( y )). Entropy có điều kiện của Y khi X đã 
biết, ký hiệu là HYX , được định nghĩa như sau: 
 nm 1
 H Y X p( xi ) p y j / x i log2 
  p(/) y x
 ij 11 ji
 Entropy có điều kiện là lượng Entropy còn lại của Y khi biết X, là số đo độ 
phụ thuộc của Y vào X. 
 Định nghĩa 2.3. (Entropy đồng thời – Joint entropy ) 
 Cho hai biến ngẫu nhiên X và Y với phân bố xác suất lần lượt là 
 và . Entropy đồng thời của X và Y là đại 
lượng: 
 nm 1
 H( X , Y )  p xij , y log2 
 ij 11 p xij, y 
 Hiển nhiên : HXYHYX(,)(,) 
 Mệnh đề 2.2. Cận dưới và cận trên của entropy đồng thời 
 Cho hai biến ngẫu nhiên X và Y có hàm phân bố xác suất lần lượt là 
 và 
 Khi đó : 
 max HXHYHXYHXHY (),() (,) () () . 
 Chứng minh : 
 a) Bất đẳng thức bên trái 
 m
 Ta có : p()(,) xi  p x i y j . Đặt qi max p ( x i , y j ) |1 j m . Khi đó với mọi j: 
 j 1
 p(,)() xi y j q i p x i 
 1 1 1
 Suy ra : log log log 
 p()(,) xi q i p x i y j
 Mà theo Bổ đề 2.1.: 
 nn11nm 1
 H( X )  p ( xii )log p ( x )log =  p( xij , y )log 
 ii 11p() xii q ij 11 qi
 nm 1
  p( xij , y )log H ( X , Y ) 
 ij 11 p(,) xij y
56 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI 
 Bằng cách tương tự, ta cũng có: HYHXY()(,) . Vậy: max HXHYHXY (),() (,) 
 b) Bất đẳng thức bên phải 
 nm11
 H( X ) H ( Y ) p ( x )log p ( y )log
 ijp()() x p y
 ij 11ij 
 n m11 m n
  p( xi , y j ) log   p ( x i , y j ) log 
 i 1 j 1p()() xij j 1 i 1 p y
 nm 11
 p( x , y ) log log
  ij p()() x p y
 ij 11 ij 
 nm 1
 p( x , y )log
  ij p()() x p y
 ij 11 ij 
 nm 1
  p( xij , y )log H ( X , Y ) . 
 ij 11 p(,) xij y
 Đẳng thức xảy ra khi X và Y độc lập, tức là khi p(,)()() xi y j p x i p y j . □ 
3. ĐỘ PHỤ THUỘC THÔNG TIN VÀ CÁC TÍNH CHẤT 
 Cho quan hệ r xác định trên tập thuộc tính  {}X12 , XX ,..., p . Như thường lệ, ta sẽ ký 
hiệu phép chiếu và phép chọn của đại số quan hệ lần lượt bằng  và  (kết quả của các 
phép toán này là những tập hợp). 
 Cho tập thuộc tính X . Giả sử  (r ) x ,..., x và c()() x  r với 1 in, 
 Xn 1  i X xi
 p cx()
trong đó . chỉ lực lượng của một tập hợp. Hiển nhiên, ta có: cx( ) 1 và i 1 . Do 
 i  i 1 r
đó, X xác định một biến ngẫu nhiên rời rạc có phân bố xác suất PXn ( p ( x12 ), p ( x ), ..., p ( x )) , 
 cx()
trong đó px() i với in 1, ... , . Như vậy, ta có thể nói tới các đại lượng thông tin của 
 i r
các tập thuộc tính trong  . Sử dụng kết quả của phép chọn trong r,ta có thể viết lại các 
định nghĩa như sau: 
 1) Entropy của X trên r là đại lượng HrX () xác định bởi: 
 n cx() r
 Hr( ) i log .
 X  r c() x
 j 1 i 
 Trong đó: nr  ()c()() x  r
 X i X xi
 2) Entropy có điều kiện của Y khi X đã cho là đại lượng HrYX()xác định bởi: 
TẠP CHÍ KHOA HỌC SỐ 2/2016 57 
 nc()()() x mc(,)(,) x y c x n m c x y c x
 Hr( ) ii j log i i j log i
 YX r  c()(,)(,) x c x y  r c x y
 i 1 j 1i i j i 1 j 1 i j 
 Trong đó: mr  ()c(,)() x y  r 
 Y i j X xij, Y y
 3) Entropy đồng thời của X và Y là đại lượng HrXY ()xác định bởi: 
 nm
 c(,) xij y r
 HrXY ( )  log 
 ij 11 r c(,) xij y
 Từ các khái niệm trên, ta định nghĩa Độ đo phụ thuộc thông tin như sau: 
 Định nghĩa 2.4. (Độ phụ thuộc thông tin) 
 Độ phụ thuộc thông tin (Information Dependency) của Y khi X đã cho là đại lượng 
HrYY () định nghĩa bởi: 
 n m n m
 c()()() xic(,)(,) xi y j c x i c x i y j c x i
 HYY ( r ) HYX ( r )   log  log 
 i 1r j 1 c()(,)(,) xi c x i y j i 1 j 1 r c x i y j
 Độ phụ thuộc thông tin có các tính chất đáng chú ý sau đây: 
 Mệnh đề 2.3. HX Y()()() r H XY r H X r . 
 Chứng minh: 
 Ta có: 
 nm
 c(,) xij y cx()i
 HrXY ()  log 
 ij 11 r c(,) xij y
 nm
 c(,) xij y
  logc ( xi ) log c ( x i , y j ) 
 ij 11 r
 nmc(,) x y 11
 ijlog log
  
 ij 11 r c(,)() xi y j c x i
 nmc(,) x y 11
 ij log logrr log log
  r c(,)() x y c x
 ij 11 i j i 
 nmc(,) x y rr
 ijlog log
  
 ij 11 r c(,)() xi y j c x i
 n mc(,)(,) x yrr n m c x y
 i jlog i j log
    
 i 1 j 1r c(,)() xi y j i 1 j 1 r c x i
58 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI 
 n mc(,) x y rr n cx()
 ijlog  i log 
 i 1 j 1r c(,)() xi y j i 1 r c x i
 HXY()() r H X r .□ 
 Mệnh đề 2.4. Luật phản xạ 
 Nếu YX   thì H XY 0 . 
 Chứng minh: 
 Vì YX , nên X YZ, Z  . Ứng dụng Mệnh đề 2.3. ta có: 
 HX Y() r H XY () r H X () r H X () r H X ()0 r □ 
 Mệnh đề 2.5. HXZ YZ()() r H XZ Y r . 
 Chứng minh: 
 Ứng dụng Mệnh đề 3.3. ta có: 
 HXZ YZ()()()()()()() rHrHrH XYZ XZ XZ Y rHrHrH XZ XZ XZ Y r □ 
 Bổ đề 2.6. Luật hợp phải 
 HHHX Y X Z X YZ . Đẳng thức xảy ra nếu các biến cố Yy j và Yy k là độc lập 
nhau khi đã biết Xx i . 
 Chứng minh: 
 Ta có: 
 n m n m
 c(,) xij y c()(,)() xi c x i z k c x i
 HXYXZ ( r ) H ( r )  log  log 
 i 1 j 1r c(,)(,) xi y j i 1 j 1 r c x i z k
 nmq
 c(,,) xi y j z k c()() x c x
  logii log 
 i 1 j 1 k 1 r c( xi , y j ) c ( x i ,z k )
 nmq 11
 p( xi , y j , z k ) log log 
 i 1 j 1 k 1 p()() yj x i p z k x i
 nmq 1
 p( x ) p ( y , z x )log
 i  j k i p()() y x p z x
 i 1 j 1 k 1 j i k i 
 mq
 Đặt q p()() y x p z x , ta có q 0 , q 1 . Áp dụng Bổ đề 2.1 thu được: 
 j k j i k i jk jk 11jk
TẠP CHÍ KHOA HỌC SỐ 2/2016 59 
 mqq11 n m
 p(, yj z k x i )log  p () x i  p (, y j z k x i )log . 
 j 1 k 1p()() yj x i p z k x i i 1 j 1 k 1 p(,) yj z k x i
 Vậy: 
 nmq 1
 HrHrpxXY () XZ ()  () i  pyzx (, jki )log Hr XYZ () . 
 i 1 j 1 k 1 p(,) yj z k x i
 Trường hợp Yy j và Yy k là độc lập nhau khi đã biết Xx i thì: 
 nmq
 HXYXZ ()() r H r pi  p j k| ilog1 p j | i p k | i 
 i 1 j 1 k 1
 nmq
 = pi  p j k|| ilog1 p j k i 
 i 1 j 1 k 1
 HrX YZ (). □ 
 Mệnh đề 2.7. Quy tắc xích 
 HXYZ () r H XY () r H XYZ ()max( r H XY (), r H XYZ () r 
 Chứng minh: 
 Sử dụng Mệnh đề 2.3. ta có: 
 HX YZ()()() rHrHrH XYZ X XY Z rHrHr XY X = HXY Z r H X Y r . □ 
 Mệnh đề 2.8. HHXY Z X Z 
 Chứng minh: 
 Sử dụng Mệnh đề 2.7. ta có: 
 HXY Z()()() r H X YZ r H X Y r 
 HXYXZXY ()()() r H r H r (Mệnh đề 2.6.) 
 HrXZ (). □ 
 Mệnh đề 2.9. Luật hợp trái 
 min HX Z ( r ), H Y Z ( r ) H XY Z ( r ) 
 Chứng minh: 
 Theo Mệnh đề 2.8. ta có: HX Z()() r H XY Z r , 
 HY Z()() r H XY Z r . 
 Vậy: min HX Z ( r ), H Y Z ( r ) H XY Z ( r ) . □ 
60 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI 
 Mệnh đề 2.10. Luật tăng trưởng 
 HXZ YZ()() r H X Y r 
 Chứng minh: 
 Theo Bổ đề 2.5. và 2.8. ta có: 
 HXZ YZ()()() r H XZ Y r H X Y r . □ 
 Mệnh đề 2.11. Luật bắc cầu 
 HXYYZXZ ()()() r H r H r 
 Chứng minh: 
 HXY ()()()() r H YZ r H XZY r H XYXZ r (Mệnh đề 2.10.) 
 HXY()()()() r H X r H XYZ r H XY r (Mệnh đề 2.3.) 
 HXYZ()() r H X r 
 H()() r H r (Mệnh đề 2.2.) 
 XZ X 
 HXZ()() r H r (Mệnh đề 2.3.) □ 
 Mệnh đề 2.12. Luật hợp toàn phần 
 HX Y()()() r H W Z r H XW YZ r 
 Chứng minh: 
 HXYWZ ()() r H r 
 HXW YW()() r H WY ZY r (Mệnh đề 2.10.) 
 HrXW YZ ()(Mệnh đề 2.11.) 
 Mệnh đề 2.13. Luật phân rã 
 Nếu ZY thì HXYXZ ()() r H r 
 Chứng minh: 
 HrYZ ( ) 0(Mệnh đề 2.4.) 
 HXYYZXZ ()()() r H r H r (Mệnh đề 2.11.) 
 HXYXZ ()() r H r . □ 
 Mệnh đề 2.14. Luật giả bắc cầu 
 HX Y()()() r H WY Z r H XW Z r 
 Chứng minh: 
TẠP CHÍ KHOA HỌC SỐ 2/2016 61 
 HX Y()() r H WY Z r 
 HXWYWWYZ ()() r H r (Mệnh đề 2.10.) 
 HrXWZ ()(Mệnh đề 2.11.) □ 
 Định nghĩa 2.5. (Độ phụ thuộc thông tin chuẩn hóa) 
 Độ phụ thuộc thông tin chuẩn hóa của Y khi X đã cho là đại lượng IAXY () r định 
nghĩa bởi: 
 HXYXYX ()()() r H r H r
 IAXY () r 
 log22 rr log 
 Từ các Mệnh đề 2.1. và 2.3. suy ra: 0 IAXY ( r ) 1. 
4. MỐI LIÊN HỆ GIỮA PHỤ THUỘC THÔNG TIN VÀ PHỤ THUỘC HÀM 
 A . Mối liên hệ 
 Các phụ thuộc hàm đã được nghiên cứu kĩ trong nhiều tài liệu. Cho hai tập thuộc tính 
XY, , ta nói Y phụ thuộc hàm vào X, viết XY , nếu mỗi giá trị X cho ta một giá trị 
duy nhất của Y. Có thể thấy phụ thuộc thông tin nghiên cứu trên đây là một mở rộng của 
phụ thuộc hàm. 
 Mệnh đề 3.1. Cho hai tập thuộc tính . thỏa mãn khi và chỉ khi 
HrXY ( ) 0 . 
 Chứng minh: 
 : Nếu thì với mỗi giá trị xi dom() X chỉ có tương ứng một giá trị duy nhất 
yj dom(Y) sao cho p( xij , y ) 0 . Suy ra, c(,)() xi y j c x i . Do đó, 
 n mc(,)(,) x ycx() n m c x y
 Hr( ) i j logi i j log1 0 .
 YX r c(,) x y  r
 i 1 j 1ij i 1 j 1 
  : Nếu thì H()() r H r . Suy ra: Hr( ) 0 với mọi x . Hơn nữa 
 XYX Yxi i
px(i ) 0 với mọi i. Vậy chỉ có duy nhất một giá trị ứng với , tức là . □ 
 B. Các tiên đề Armstrong 
 Các tiên đề Armstrong là rất quan trọng đối với lý thuyết phụ thuộc hàm vì chúng 
cung cấp cơ sở cho hệ thống suy diễn phụ thuộc. Thông thường các tiên đề Armstrong bao 
gồm 3 quy luật chính sau đây: 
 1. Luật phản xạ: Nếu YX thì 
 2. Luật tăng trưởng: Nếu thì XZ YZ 
62 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI 
 3. Luật bắc cầu: Nếu XY và YZ thì XZ . 
 Mệnh đề 3.2. Các tiên đề Armstrong suy ra trực tiếp từ các bất đẳng thức phụ thuộc 
thông tin. 
 Chứng minh: 
 Luật tăng trưởng: Nếu thì theo Mệnh đề 3.1. phải có HrXY ( ) 0. Theo mệnh đề 
2.10. HXZ YZ()() r H X Y r . 
 Suy ra: HrXZ YZ ( ) 0 (vì HrXZ YZ ( ) 0 ). Mà từ Mệnh đề 3.1. suy ra: XZ YZ . 
 Tương tự, luật phản xạ và luật bắc cầu suy được ra từ các Mệnh đề 5.4. và 5.11. □ 
5. KẾT LUẬN 
 Trong báo cáo này, chúng tôi trình bày phương pháp xây dựng độ đo phụ thuộc thông 
tin trong một quan hệ như là một độ đo phụ thuộc hàm xấp xỉ. Với hai tập thuộc tính X và 
Y, độ đo này sẽ gán cho chúng một số thực phản ánh mức độ phụ thuộc của Y vào X. Độ đo 
được xây dựng dựa trên các độ đo entropy trong lý thuyết thông tin của Shannon và được 
chuẩn hóa để nó có giá trị nằm giữa 0 và 1. Giá trị độ đo bằng 0 khi và chỉ khi tồn tại phụ 
thuộc XY hàm trong quan hệ. Và như thế, giá trị của nó càng nhỏ thì sự phụ thuộc của 
Y vào X trong quan hệ càng gần phụ thuộc hàm XY . Các tính chất của độ đo phụ thuộc 
thông tin cũng đã được nghiên cứu. Các tính chất này cho thấy có thể xem phụ thuộc thông 
tin là sự mở rộng của khái niệm phụ thuộc hàm. Từ đây, chúng tôi sẽ nghiên cứu thuật toán 
khai phá các phụ thuộc thông tin với ngưỡng phụ thuộc cho trước. 
 TÀI LIỆU THAM KHẢO 
1. Mampaey, M. (2010), “Mining non-redundant information-theoretic dependencies between 
 itemsets”, Technical report, University of Antwerp. 
2. Agrawal, R., Imielinski, T., Swami, A. (1993), “Mining association rules between sets of 
 items in large databases”, ACM SIGMODRecord 22 (2), pp.207-216. 
3. Han, J., Pei, J., Yin, Y. (2000), “Mining frequent patterns without candidate generation”, ACM 
 SIGMOD Record 29 (2), pp.1-12. 
4. Zaki, M., Parthasarathy, S., Ogihara, M., Li, W., et al. (1997), “New algorithms for fast 
 discovery of association rules”, Proceedings of KDD. 
5. Srikant, R., Agrawal, R. (1996), “Mining quantitative association rules in large relational 
 tables”, ACM SIGMOD Record 25 (2), pp.1-12. 
TẠP CHÍ KHOA HỌC SỐ 2/2016 63 
6. Kivinen, J., Mannila, H. (1995), “Approximate inference of functional dependencies from 
 relations”, Theoretical Computer Science 149 (1), pp.129-149. 
7. Huhtala, Y., Karkkainen, J., Porkka, P., Toivonen, H. (1999), “TANE: An efficient algorithm 
 for discovering functional and approximate dependencies”, The Computer Journal 42 (2), 
 pp.100-111. 
8. Dalkilic, M.M., Robertson, E.L. (2000), “Information dependencies”, In: Proceedings of ACM 
 PODS, pp.245-253. 
9. Heikinheimo, H., Hinkkanen, E., Mannila, H., Mielikäinen, T., Seppänen, J.K. (2007), 
 “Finding low-entropy sets and trees from binary data”, In: Proceedings of KDD, pp.350-359. 
10. Shannon, C.E. (1948), “A mathematical theory of communication”, Bell System Technical 
 Journal 27, pp.379-423. 
 INFORMATION DEPENDENCIES 
 Abstract: In this paper we present an information-theoretic approach to mining 
 dependencies between sets of attributes in a given relation instance. We describe the 
 dependence of a rule based on conditional entropy of consequent given antecedent, and 
 using the entropy of a rule to describe its complexity. This allows us to discover rules 
 with a high statistical dependence, and a low complexity. The problem of redundancy in 
 this context is also investigated, and we present two techniques to prune redundant rules. 
 An efficient and scalable algorithm is proposed, which exploits the inclusion-exclusion 
 principle for fast entropy computation. This algorithm is empirically evaluated through 
 experiments on synthetic and real-world data. 
 Keywords: Information dependencies, function dependencies, information theory, data 
 mining. 

File đính kèm:

  • pdfphu_thuoc_thong_tin.pdf