Phụ thuộc thông tin
Tóm tắt: Trong báo cáo này, chúng tôi trình bày phương pháp xây dựng độ đo phụ thuộc
thông tin trong một quan hệ như là một độ đo phụ thuộc hàm xấp xỉ. Với hai tập thuộc
tính X và Y, độ đo này sẽ gán cho chúng một số thực phản ánh mức độ phụ thuộc của Y
vào X. Độ đo được xây dựng dựa trên các độ đo entropy trong lý thuyết thông tin của
Shannon và được chuẩn hóa để nó có giá trị nằm giữa 0 và 1. Giá trị độ đo bằng 0 khi và
chỉ khi tồn tại phụ thuộc hàm X Y trong quan hệ. Và như thế, giá trị của nó càng nhỏ
thì sự phụ thuộc của Y vào X trong quan hệ càng gần phụ thuộc hàm X Y . Các tính
chất của độ đo phụ thuộc thông tin cũng đã được nghiên cứu. Các tính chất này cho thấy
có thể xem phụ thuộc thông tin là sự mở rộng của khái niệm phụ thuộc hàm
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Phụ thuộc thông tin
ntropy của X là đại lượng H(X), xác định bởi công thức sau: n 1 H( X ) p ( xi )log , i 1 px()i với quy định 0log0 0 . Cơ số hàm lô-ga-rít ở đây được lấy là 2, đơn vị đo của Entropy là bit. Entropy HX() là số đo độ bất định, không chắc chắn (uncertainty) của X. Một đại lượng ngẫu nhiên càng nhận nhiều giá trị và có phân phối càng đều thì tính bất định của nó càng lớn, độ chắc chắn càng nhỏ. Ngược lại, một đại lượng ngẫu nhiên có phân phối xác suất càng chênh lệch (có các xác suất rất nhỏ và rất lớn) thì tính bất định của nó càng thấp và do đó sẽ có lượng thông tin chưa biết nhỏ hơn nhiều so với lượng thông tin của phân phối xác suất đều. Entropy cho phép lượng hóa thông tin chứa trong một đơn vị dữ liệu: Nó là số bit trung bình tối thiểu mà người gửi cần để mã hóa thông điệp thông báo cho người nhận biết được giá trị thật của biến ngẫu nhiên. Bổ đề 2.1. Cho biến ngẫu nhiên rời rạc X có phân bố xác suất n dãy số Q q12, q , ... , qn thỏa mãn q j 1 với mọi 0 jn và j 1 n q j 1. Khi đó, ta có: i 1 nn11 H() X p ()log xii p ()log x . ii 11p() xij q Chứng minh: Sử dụng bất đẳng thức logx x 1, ta có: 54 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI qq logii 1 . p()() xii p x Suy ra: qi p( xi )log q i p ( x i ) , px()i p( xi )(log q i log p ( x i )) q i p ( x i ) , p()log() xi p x i p ()log x i q i q i p () x i , 11 p( xi )log p ( x i )log q i p ( x i ) , p() xii q nn11 p( xi )log p ( x i )log q i p ( x i ) , ii 11p() xii q n11 n n n p( xi )log p ( x i )log q i p ( x i ) , i 1p() xii i 1 q i 1 i 1 n n nn Vì q j 1, px(i ) 1 , nên qii p( x ) 0 . Suy ra: j 1 i 1 ii 11 nn11 H( X ) p ( xii )log p ( x )log . □ ii 11p() xii q Mệnh đề 2.1. Cận dưới và cận trên của entropy Cho biến ngẫu nhiên X có hàm phân bố xác suất PXn ( p ( x12 ), p ( x ), ..., p ( x )) . Ta có: 0 H ( X ) log n 1 Chứng minh: Vì 0 px (i ) 1, ta có log 0 với mọi1 in. Suy ra H( X ) 0. Dấu px()i “=” xảy ra khi và chỉ n 1 . 1 n Đặt qi , in 1,2, ... , . Thế thì 01 q j với mọi 0 jn và q j 1. Sử dụng Bổ đề n j 1 2.1. ta có: n11 n n H( X ) p ( xi )log p ( x i )log log n p ( x i ) log n i 1p() xii i 1 q i 1 1 Đẳng thức xảy ra khi px() , in 1,2, ... , . □ i n Định nghĩa 2.2. (Entropy có điều kiện – conditional entropy) TẠP CHÍ KHOA HỌC SỐ 2/2016 55 Cho hai biến ngẫu nhiên X và Y với phân bố xác suất lần lượt là PXn ( p ( x12 ), p ( x ), ..., p ( x )) và PYm ( p ( y12 ), p ( y ), ..., p ( y )). Entropy có điều kiện của Y khi X đã biết, ký hiệu là HYX , được định nghĩa như sau: nm 1 H Y X p( xi ) p y j / x i log2 p(/) y x ij 11 ji Entropy có điều kiện là lượng Entropy còn lại của Y khi biết X, là số đo độ phụ thuộc của Y vào X. Định nghĩa 2.3. (Entropy đồng thời – Joint entropy ) Cho hai biến ngẫu nhiên X và Y với phân bố xác suất lần lượt là và . Entropy đồng thời của X và Y là đại lượng: nm 1 H( X , Y ) p xij , y log2 ij 11 p xij, y Hiển nhiên : HXYHYX(,)(,) Mệnh đề 2.2. Cận dưới và cận trên của entropy đồng thời Cho hai biến ngẫu nhiên X và Y có hàm phân bố xác suất lần lượt là và Khi đó : max HXHYHXYHXHY (),() (,) () () . Chứng minh : a) Bất đẳng thức bên trái m Ta có : p()(,) xi p x i y j . Đặt qi max p ( x i , y j ) |1 j m . Khi đó với mọi j: j 1 p(,)() xi y j q i p x i 1 1 1 Suy ra : log log log p()(,) xi q i p x i y j Mà theo Bổ đề 2.1.: nn11nm 1 H( X ) p ( xii )log p ( x )log = p( xij , y )log ii 11p() xii q ij 11 qi nm 1 p( xij , y )log H ( X , Y ) ij 11 p(,) xij y 56 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI Bằng cách tương tự, ta cũng có: HYHXY()(,) . Vậy: max HXHYHXY (),() (,) b) Bất đẳng thức bên phải nm11 H( X ) H ( Y ) p ( x )log p ( y )log ijp()() x p y ij 11ij n m11 m n p( xi , y j ) log p ( x i , y j ) log i 1 j 1p()() xij j 1 i 1 p y nm 11 p( x , y ) log log ij p()() x p y ij 11 ij nm 1 p( x , y )log ij p()() x p y ij 11 ij nm 1 p( xij , y )log H ( X , Y ) . ij 11 p(,) xij y Đẳng thức xảy ra khi X và Y độc lập, tức là khi p(,)()() xi y j p x i p y j . □ 3. ĐỘ PHỤ THUỘC THÔNG TIN VÀ CÁC TÍNH CHẤT Cho quan hệ r xác định trên tập thuộc tính {}X12 , XX ,..., p . Như thường lệ, ta sẽ ký hiệu phép chiếu và phép chọn của đại số quan hệ lần lượt bằng và (kết quả của các phép toán này là những tập hợp). Cho tập thuộc tính X . Giả sử (r ) x ,..., x và c()() x r với 1 in, Xn 1 i X xi p cx() trong đó . chỉ lực lượng của một tập hợp. Hiển nhiên, ta có: cx( ) 1 và i 1 . Do i i 1 r đó, X xác định một biến ngẫu nhiên rời rạc có phân bố xác suất PXn ( p ( x12 ), p ( x ), ..., p ( x )) , cx() trong đó px() i với in 1, ... , . Như vậy, ta có thể nói tới các đại lượng thông tin của i r các tập thuộc tính trong . Sử dụng kết quả của phép chọn trong r,ta có thể viết lại các định nghĩa như sau: 1) Entropy của X trên r là đại lượng HrX () xác định bởi: n cx() r Hr( ) i log . X r c() x j 1 i Trong đó: nr ()c()() x r X i X xi 2) Entropy có điều kiện của Y khi X đã cho là đại lượng HrYX()xác định bởi: TẠP CHÍ KHOA HỌC SỐ 2/2016 57 nc()()() x mc(,)(,) x y c x n m c x y c x Hr( ) ii j log i i j log i YX r c()(,)(,) x c x y r c x y i 1 j 1i i j i 1 j 1 i j Trong đó: mr ()c(,)() x y r Y i j X xij, Y y 3) Entropy đồng thời của X và Y là đại lượng HrXY ()xác định bởi: nm c(,) xij y r HrXY ( ) log ij 11 r c(,) xij y Từ các khái niệm trên, ta định nghĩa Độ đo phụ thuộc thông tin như sau: Định nghĩa 2.4. (Độ phụ thuộc thông tin) Độ phụ thuộc thông tin (Information Dependency) của Y khi X đã cho là đại lượng HrYY () định nghĩa bởi: n m n m c()()() xic(,)(,) xi y j c x i c x i y j c x i HYY ( r ) HYX ( r ) log log i 1r j 1 c()(,)(,) xi c x i y j i 1 j 1 r c x i y j Độ phụ thuộc thông tin có các tính chất đáng chú ý sau đây: Mệnh đề 2.3. HX Y()()() r H XY r H X r . Chứng minh: Ta có: nm c(,) xij y cx()i HrXY () log ij 11 r c(,) xij y nm c(,) xij y logc ( xi ) log c ( x i , y j ) ij 11 r nmc(,) x y 11 ijlog log ij 11 r c(,)() xi y j c x i nmc(,) x y 11 ij log logrr log log r c(,)() x y c x ij 11 i j i nmc(,) x y rr ijlog log ij 11 r c(,)() xi y j c x i n mc(,)(,) x yrr n m c x y i jlog i j log i 1 j 1r c(,)() xi y j i 1 j 1 r c x i 58 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI n mc(,) x y rr n cx() ijlog i log i 1 j 1r c(,)() xi y j i 1 r c x i HXY()() r H X r .□ Mệnh đề 2.4. Luật phản xạ Nếu YX thì H XY 0 . Chứng minh: Vì YX , nên X YZ, Z . Ứng dụng Mệnh đề 2.3. ta có: HX Y() r H XY () r H X () r H X () r H X ()0 r □ Mệnh đề 2.5. HXZ YZ()() r H XZ Y r . Chứng minh: Ứng dụng Mệnh đề 3.3. ta có: HXZ YZ()()()()()()() rHrHrH XYZ XZ XZ Y rHrHrH XZ XZ XZ Y r □ Bổ đề 2.6. Luật hợp phải HHHX Y X Z X YZ . Đẳng thức xảy ra nếu các biến cố Yy j và Yy k là độc lập nhau khi đã biết Xx i . Chứng minh: Ta có: n m n m c(,) xij y c()(,)() xi c x i z k c x i HXYXZ ( r ) H ( r ) log log i 1 j 1r c(,)(,) xi y j i 1 j 1 r c x i z k nmq c(,,) xi y j z k c()() x c x logii log i 1 j 1 k 1 r c( xi , y j ) c ( x i ,z k ) nmq 11 p( xi , y j , z k ) log log i 1 j 1 k 1 p()() yj x i p z k x i nmq 1 p( x ) p ( y , z x )log i j k i p()() y x p z x i 1 j 1 k 1 j i k i mq Đặt q p()() y x p z x , ta có q 0 , q 1 . Áp dụng Bổ đề 2.1 thu được: j k j i k i jk jk 11jk TẠP CHÍ KHOA HỌC SỐ 2/2016 59 mqq11 n m p(, yj z k x i )log p () x i p (, y j z k x i )log . j 1 k 1p()() yj x i p z k x i i 1 j 1 k 1 p(,) yj z k x i Vậy: nmq 1 HrHrpxXY () XZ () () i pyzx (, jki )log Hr XYZ () . i 1 j 1 k 1 p(,) yj z k x i Trường hợp Yy j và Yy k là độc lập nhau khi đã biết Xx i thì: nmq HXYXZ ()() r H r pi p j k| ilog1 p j | i p k | i i 1 j 1 k 1 nmq = pi p j k|| ilog1 p j k i i 1 j 1 k 1 HrX YZ (). □ Mệnh đề 2.7. Quy tắc xích HXYZ () r H XY () r H XYZ ()max( r H XY (), r H XYZ () r Chứng minh: Sử dụng Mệnh đề 2.3. ta có: HX YZ()()() rHrHrH XYZ X XY Z rHrHr XY X = HXY Z r H X Y r . □ Mệnh đề 2.8. HHXY Z X Z Chứng minh: Sử dụng Mệnh đề 2.7. ta có: HXY Z()()() r H X YZ r H X Y r HXYXZXY ()()() r H r H r (Mệnh đề 2.6.) HrXZ (). □ Mệnh đề 2.9. Luật hợp trái min HX Z ( r ), H Y Z ( r ) H XY Z ( r ) Chứng minh: Theo Mệnh đề 2.8. ta có: HX Z()() r H XY Z r , HY Z()() r H XY Z r . Vậy: min HX Z ( r ), H Y Z ( r ) H XY Z ( r ) . □ 60 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI Mệnh đề 2.10. Luật tăng trưởng HXZ YZ()() r H X Y r Chứng minh: Theo Bổ đề 2.5. và 2.8. ta có: HXZ YZ()()() r H XZ Y r H X Y r . □ Mệnh đề 2.11. Luật bắc cầu HXYYZXZ ()()() r H r H r Chứng minh: HXY ()()()() r H YZ r H XZY r H XYXZ r (Mệnh đề 2.10.) HXY()()()() r H X r H XYZ r H XY r (Mệnh đề 2.3.) HXYZ()() r H X r H()() r H r (Mệnh đề 2.2.) XZ X HXZ()() r H r (Mệnh đề 2.3.) □ Mệnh đề 2.12. Luật hợp toàn phần HX Y()()() r H W Z r H XW YZ r Chứng minh: HXYWZ ()() r H r HXW YW()() r H WY ZY r (Mệnh đề 2.10.) HrXW YZ ()(Mệnh đề 2.11.) Mệnh đề 2.13. Luật phân rã Nếu ZY thì HXYXZ ()() r H r Chứng minh: HrYZ ( ) 0(Mệnh đề 2.4.) HXYYZXZ ()()() r H r H r (Mệnh đề 2.11.) HXYXZ ()() r H r . □ Mệnh đề 2.14. Luật giả bắc cầu HX Y()()() r H WY Z r H XW Z r Chứng minh: TẠP CHÍ KHOA HỌC SỐ 2/2016 61 HX Y()() r H WY Z r HXWYWWYZ ()() r H r (Mệnh đề 2.10.) HrXWZ ()(Mệnh đề 2.11.) □ Định nghĩa 2.5. (Độ phụ thuộc thông tin chuẩn hóa) Độ phụ thuộc thông tin chuẩn hóa của Y khi X đã cho là đại lượng IAXY () r định nghĩa bởi: HXYXYX ()()() r H r H r IAXY () r log22 rr log Từ các Mệnh đề 2.1. và 2.3. suy ra: 0 IAXY ( r ) 1. 4. MỐI LIÊN HỆ GIỮA PHỤ THUỘC THÔNG TIN VÀ PHỤ THUỘC HÀM A . Mối liên hệ Các phụ thuộc hàm đã được nghiên cứu kĩ trong nhiều tài liệu. Cho hai tập thuộc tính XY, , ta nói Y phụ thuộc hàm vào X, viết XY , nếu mỗi giá trị X cho ta một giá trị duy nhất của Y. Có thể thấy phụ thuộc thông tin nghiên cứu trên đây là một mở rộng của phụ thuộc hàm. Mệnh đề 3.1. Cho hai tập thuộc tính . thỏa mãn khi và chỉ khi HrXY ( ) 0 . Chứng minh: : Nếu thì với mỗi giá trị xi dom() X chỉ có tương ứng một giá trị duy nhất yj dom(Y) sao cho p( xij , y ) 0 . Suy ra, c(,)() xi y j c x i . Do đó, n mc(,)(,) x ycx() n m c x y Hr( ) i j logi i j log1 0 . YX r c(,) x y r i 1 j 1ij i 1 j 1 : Nếu thì H()() r H r . Suy ra: Hr( ) 0 với mọi x . Hơn nữa XYX Yxi i px(i ) 0 với mọi i. Vậy chỉ có duy nhất một giá trị ứng với , tức là . □ B. Các tiên đề Armstrong Các tiên đề Armstrong là rất quan trọng đối với lý thuyết phụ thuộc hàm vì chúng cung cấp cơ sở cho hệ thống suy diễn phụ thuộc. Thông thường các tiên đề Armstrong bao gồm 3 quy luật chính sau đây: 1. Luật phản xạ: Nếu YX thì 2. Luật tăng trưởng: Nếu thì XZ YZ 62 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI 3. Luật bắc cầu: Nếu XY và YZ thì XZ . Mệnh đề 3.2. Các tiên đề Armstrong suy ra trực tiếp từ các bất đẳng thức phụ thuộc thông tin. Chứng minh: Luật tăng trưởng: Nếu thì theo Mệnh đề 3.1. phải có HrXY ( ) 0. Theo mệnh đề 2.10. HXZ YZ()() r H X Y r . Suy ra: HrXZ YZ ( ) 0 (vì HrXZ YZ ( ) 0 ). Mà từ Mệnh đề 3.1. suy ra: XZ YZ . Tương tự, luật phản xạ và luật bắc cầu suy được ra từ các Mệnh đề 5.4. và 5.11. □ 5. KẾT LUẬN Trong báo cáo này, chúng tôi trình bày phương pháp xây dựng độ đo phụ thuộc thông tin trong một quan hệ như là một độ đo phụ thuộc hàm xấp xỉ. Với hai tập thuộc tính X và Y, độ đo này sẽ gán cho chúng một số thực phản ánh mức độ phụ thuộc của Y vào X. Độ đo được xây dựng dựa trên các độ đo entropy trong lý thuyết thông tin của Shannon và được chuẩn hóa để nó có giá trị nằm giữa 0 và 1. Giá trị độ đo bằng 0 khi và chỉ khi tồn tại phụ thuộc XY hàm trong quan hệ. Và như thế, giá trị của nó càng nhỏ thì sự phụ thuộc của Y vào X trong quan hệ càng gần phụ thuộc hàm XY . Các tính chất của độ đo phụ thuộc thông tin cũng đã được nghiên cứu. Các tính chất này cho thấy có thể xem phụ thuộc thông tin là sự mở rộng của khái niệm phụ thuộc hàm. Từ đây, chúng tôi sẽ nghiên cứu thuật toán khai phá các phụ thuộc thông tin với ngưỡng phụ thuộc cho trước. TÀI LIỆU THAM KHẢO 1. Mampaey, M. (2010), “Mining non-redundant information-theoretic dependencies between itemsets”, Technical report, University of Antwerp. 2. Agrawal, R., Imielinski, T., Swami, A. (1993), “Mining association rules between sets of items in large databases”, ACM SIGMODRecord 22 (2), pp.207-216. 3. Han, J., Pei, J., Yin, Y. (2000), “Mining frequent patterns without candidate generation”, ACM SIGMOD Record 29 (2), pp.1-12. 4. Zaki, M., Parthasarathy, S., Ogihara, M., Li, W., et al. (1997), “New algorithms for fast discovery of association rules”, Proceedings of KDD. 5. Srikant, R., Agrawal, R. (1996), “Mining quantitative association rules in large relational tables”, ACM SIGMOD Record 25 (2), pp.1-12. TẠP CHÍ KHOA HỌC SỐ 2/2016 63 6. Kivinen, J., Mannila, H. (1995), “Approximate inference of functional dependencies from relations”, Theoretical Computer Science 149 (1), pp.129-149. 7. Huhtala, Y., Karkkainen, J., Porkka, P., Toivonen, H. (1999), “TANE: An efficient algorithm for discovering functional and approximate dependencies”, The Computer Journal 42 (2), pp.100-111. 8. Dalkilic, M.M., Robertson, E.L. (2000), “Information dependencies”, In: Proceedings of ACM PODS, pp.245-253. 9. Heikinheimo, H., Hinkkanen, E., Mannila, H., Mielikäinen, T., Seppänen, J.K. (2007), “Finding low-entropy sets and trees from binary data”, In: Proceedings of KDD, pp.350-359. 10. Shannon, C.E. (1948), “A mathematical theory of communication”, Bell System Technical Journal 27, pp.379-423. INFORMATION DEPENDENCIES Abstract: In this paper we present an information-theoretic approach to mining dependencies between sets of attributes in a given relation instance. We describe the dependence of a rule based on conditional entropy of consequent given antecedent, and using the entropy of a rule to describe its complexity. This allows us to discover rules with a high statistical dependence, and a low complexity. The problem of redundancy in this context is also investigated, and we present two techniques to prune redundant rules. An efficient and scalable algorithm is proposed, which exploits the inclusion-exclusion principle for fast entropy computation. This algorithm is empirically evaluated through experiments on synthetic and real-world data. Keywords: Information dependencies, function dependencies, information theory, data mining.
File đính kèm:
- phu_thuoc_thong_tin.pdf