Bài giảng Khoa học máy tính - Chuẩn bị toán học - Nguyễn Phương Thái

Không gian mẫu (Sample space)

Là tập (hay không gian) tất cả các kết quả có thể có của một thí

nghiệm. Thường được kí hiệu là E hay S. Nếu không gian mẫu

là rời rạc thì E có thể được biểu diễn bằng E = {e1, e2, ., en}

Sự kiện (Event), sự kiện cơ bản (elementary event)

Mỗi tập con của E (không gian mẫu) được gọi là một sự kiện,

đặc biệt mỗi phần tử của E được gọi là một sự kiện cơ bản.

Ví dụ

Trong một thí nghiệm tung đồng xu thì E = {U (úp), N (ngửa)}.

Nếu đồng tiền là đồng nhất thì xác suất P(U) = P(N) = 1/2.

Trong một thí nghiệm tung con xúc xắc thì E = {1, 2, 3, 4, 5,

6}. Nếu con xúc xắc là đồng nhất thì xác suất P(1) = P(2) =

P(3) = P(4) = P(5) = P(6) = 1/6, P(2, 5) = 1/3, P(1, 3, 5) = 1/2

Lấy một văn bản tiếng Anh điển hình và nhặt một kí tự bất kỳ

thì E = {a, b, c, ., x, y, z} và xác suất của các kí tự được phân

bố như sau P(a) = 0,0642 , ., P(e) = 0,103 , ., P(z) = 0,0005.

Biến ngẫu nhiên rời rạc (Discrete random variable)

Một biến ngẫu nhiên rời rạc x được định nghĩa bằng cách gán

một số thực xi tới mỗi sự kiện cơ bản ei của không gian mẫu rời

rạc E. Xác suất của xi được định nghĩa là xác suất của sự kiện

cơ bản tương ứng và được kí hiệu là p(xi).

Trị trung bình (kỳ vọng) (average, expected value),

phương sai (variance)

Trị trung bình và phương sai của biến ngẫu nhiên rời rạc x lần

lượt được kí hiệu và định nghĩa như sau

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

25 trang duykhanh 17440

Download

Bạn đang xem 10 trang mẫu của tài liệu "Bài giảng Khoa học máy tính - Chuẩn bị toán học - Nguyễn Phương Thái", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Khoa học máy tính - Chuẩn bị toán học - Nguyễn Phương Thái

Trang 29
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Bài 3 Chuẩn bị toán học
3.1 Xác suất (Probability)
3.2 Bất đẳng thức Chebyshev và luật yếu của số lớn
3.3 Tập lồi (Convex sets) và hàm lồi (convex functions), bất 
đẳng thức Jensen
3.4 Công thức Stirling
Trang 30
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xác suất
 Không gian mẫu (Sample space)
 Là tập (hay không gian) tất cả các kết quả có thể có của một thí
nghiệm. Thường được kí hiệu là E hay S. Nếu không gian mẫu 
là rời rạc thì E có thể được biểu diễn bằng E = {e1, e2, ..., en}
 Sự kiện (Event), sự kiện cơ bản (elementary event)
 Mỗi tập con của E (không gian mẫu) được gọi là một sự kiện, 
đặc biệt mỗi phần tử của E được gọi là một sự kiện cơ bản.
 Ví dụ
 Trong một thí nghiệm tung đồng xu thì E = {U (úp), N (ngửa)}. 
Nếu đồng tiền là đồng nhất thì xác suất P(U) = P(N) = 1/2.
 Trong một thí nghiệm tung con xúc xắc thì E = {1, 2, 3, 4, 5, 
6}. Nếu con xúc xắc là đồng nhất thì xác suất P(1) = P(2) = 
P(3) = P(4) = P(5) = P(6) = 1/6, P(2, 5) = 1/3, P(1, 3, 5) = 1/2.
Trang 31
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xác suất (tt)
 Lấy một văn bản tiếng Anh điển hình và nhặt một kí tự bất kỳ
thì E = {a, b, c, ..., x, y, z} và xác suất của các kí tự được phân 
bố như sau P(a) = 0,0642 , ..., P(e) = 0,103 , ..., P(z) = 0,0005.
 Biến ngẫu nhiên rời rạc (Discrete random variable)
 Một biến ngẫu nhiên rời rạc x được định nghĩa bằng cách gán 
một số thực xi tới mỗi sự kiện cơ bản ei của không gian mẫu rời 
rạc E. Xác suất của xi được định nghĩa là xác suất của sự kiện 
cơ bản tương ứng và được kí hiệu là p(xi).
 Trị trung bình (kỳ vọng) (average, expected value), 
phương sai (variance)
 Trị trung bình và phương sai của biến ngẫu nhiên rời rạc x lần 
lượt được kí hiệu và định nghĩa như sau
 E(x) = ( )∑=
i
ii p xxx
Trang 32
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xác suất (tt)
 Var(x) =
=
trong đó E(x2) là trị kỳ vọng của x2.
 Tổng quát, trị kỳ vọng của một hàm của x, chẳng hạn f(x), được 
định nghĩa bằng
 Xác suất đồng thời (joint probability), xác suất có điều 
kiện (conditional probability)
 Một cặp biến ngẫu nhiên (x, y) liên kết với một thí nghiệm tạo 
thành một biến ngẫu nhiên nối (joint random variable). Nếu x, y 
là rời rạc, sự phân bố xác suất nối hay xác suất đồng thời được 
định nghĩa là
pij = P(x = xi, y = yj)
( )( ) ( ) ( )∑ −=−
i
ii pE xxxxx
22
( ) 22 xx −E
( )( ) ( ) ( )∑=
i
ii pffE xxx
Trang 33
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xác suất (tt)
 Xác suất của y trong điều kiện đã biết x được gọi là xác suất có 
điều kiện và được định nghĩa là
trong đó xác suất lề (marginal probability) p(xi) được giả thiết 
là khác không.
 Các xác suất lề được định nghĩa như sau:
p(xi) = 
p(yj) = 
( ) ( )( )i jiij xp
yxp
xyp
,=
( )∑
j
ji yxp ,
( )∑
i
ji yxp ,
Trang 34
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Ví dụ
 Thí nghiệm tung đồng thời
một đồng xu và con xúc xắc.
 Từ kết quả trên ta thấy
P(U, 5) = 1/18
P(Đồng xu = U) = 5/9
P(Đồng xu = N) = 4/9
P(Xúc xắc = 5) = 7/72
P(Xúc xắc = 5 đã biết Đồng xu = U)
1/12 1/18
1/9 1/18
1/9 1/6
1/9 1/24
1/18 1/24
1/12 1/12
U N
6
5
4
3
2
1
Xúc xắc
Đồng xu
Trang 35
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xác suất (tt)
 Sự độc lập (Independence)
 Hai biến ngẫu nhiên x và y được gọi là độc lập nếu
p(xi, yj) = p(xi)p(yj) ∀ i, j.
 Chúng ta thấy nếu hai biến x và y độc lập thì
có nghĩa là xác suất yj trong điều kiện có xi xảy ra hay không 
xảy ra đều như nhau, không thay đổi, và ngược lại.
 Cũng từ sự độc lập chúng ta suy ra một kết quả mà hay được sử
dụng sau này
E(xy) = E(x) E(y) = 
( ) ( )( ) ( ) ( )( ) ( )ji jii jiij ypxp
ypxp
xp
yxp
xyp === ,
yx
Trang 36
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Xác suất (tt)
 Sự tương quan (correlation)
 Sự tương quan C giữa hai biến x và y được định nghĩa là trị kỳ
vọng của (x – )(y – ):
C(x, y) = E((x – )(y – )) = 
= E(xy) – 
 Trong trường hợp x và y là độc lập chúng ta suy ra C(x, y) = 0. 
Tuy nhiên điều ngược lại thì không đúng.
x y
x y
yx
Trang 37
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Bất đẳng thức Chebyshev
và luật yếu của số lớn
 Bất đẳng thức Chebyshev
 Cho một biến ngẫu nhiên x có trị trung bình là và phương sai 
là , bất đẳng thức Chebyshev đối với một số dương tuỳ ý δ là
P(|x – | ≥ δ) ≤
 Chứng minh
 Định nghĩa một hàm f(x) như sau
 Thì
P(|x – | ≥ δ) = Σ f(xi)p(xi)
x
2
xδ
x 2
2
x
δ
δ
( )
⎩⎨
⎧
<
≥=
δ| - ,|
δ| - ,|f
xx0
xx1x
x
Trang 38
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Bất đẳng thức Chebyshev (tt)
 Dựa trên hình chúng ta có
f(x) ≤
 Vì vậy,
xδ−x x
1
δ+x
2
xx
⎟⎟⎠
⎞
⎜⎜⎝
⎛ −
δ
2
xx
⎟⎟⎠
⎞
⎜⎜⎝
⎛ −
δ
( ) ( )∑ =⎟⎟⎠⎞⎜⎜⎝⎛ −≤≥− i pP i 2
2
xx
2
xxxx δ
δ
δδ
Trang 39
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Luật yếu của số lớn (tt)
 Xét một thí nghiệm nhị phân trong đó các kết quả của thí
nghiệm là 0 và 1 với các xác suất tương ứng là p0 và 1– p0.
 Thí nghiệm này được lặp lại N lần một cách độc lập, và kết quả
trung bình được định nghĩa là yN; tức là, yN bằng tổng số các số
1 trong N lần thí nghiệm chia cho N.
 Rõ ràng, yN là một biến ngẫu nhiên có không gian mẫu là {0, 
1/N, 2/N, ..., 1}.
 Định nghĩa x(n) là biến ngẫu nhiên tương ứng với kết quả của 
lần thí nghiệm thứ n, chúng ta có
( )∑
=
=
N
n
n
N N 1
x1y
Trang 40
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Luật yếu của số lớn (tt)
( )( ) xx1x1y
11
∑∑
==
===
N
n
N
n
n
N N
E
N
( )( ) ( ) ⎟⎟⎠⎞⎜⎜⎝⎛ ⎥⎦⎤⎢⎣⎡ −=−= ∑=
2
1
22
y xx
1yy
N
n
n
NN N
EEδ
( )
⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎥⎦
⎤⎢⎣
⎡ −= ∑
=
2
1
xx1 N
N
E
N
n
n ( )( ) ⎟⎟⎠
⎞
⎜⎜⎝
⎛
⎥⎦
⎤⎢⎣
⎡ −= ∑
=
2
1
2 xx
1 N
n
nE
N
( )( )( )
N
N
N
E
N
N
n
n
2
x2
x2
1
2
2
1xx1 δδ ==−= ∑
=
Trang 41
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Luật yếu của số lớn (tt)
 Đối với một số nguyên dương tuỳ ý ε, theo bất đẳng thức 
Chebyshev chúng ta có
từ đây chúng ta dẫn ra được luật yếu của số lớn
 Chú ý rằng vế phải tiến tới 0 khi N tiến ra vô cùng.
 Luật yếu của số lớn vì vậy khẳng đinh rằng trị trung bình mẫu 
của x tiếp cận trị trung bình thống kê với xác suất cao khi N →
∞.
( ) 22y|yy| εδε ≤≥− NNP
( )
2
2
x
1
xx1 ε
δε
NN
P
N
n
n ≤⎟⎟⎠
⎞
⎜⎜⎝
⎛ ≥−⎥⎦
⎤⎢⎣
⎡ ∑
=
Trang 42
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Tập lồi
 Trong không gian Ơclit, một tập S được gọi là lồi (convex cap 
(∩)) nếu đối với một cặp điểm P1, P2 thuộc S thì mọi điểm 
thuộc đoạn P1P2 cũng thuộc S.
 Nếu P1 = (x1, x2, ..., xn) và P2 = (y1, y2, ..., yn) là các điểm trong 
không gian Ơclit n chiều, thì đoạn thẳng nối chúng được biểu 
diễn bằng tập các điểm P, trong đó
P = λP1 + (1–λ)P2
= (λx1 + (1–λ)y1, λx2 + (1–λ)y2, ..., λxn + (1–λ)yn) và λ ∈ [0, 1]. 
(a)
P1
P2
P1
P2
(b)
Trang 43
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Hàm lồi
 Một ví dụ quan trọng của tập lồi là tập tất cả các điểm (p1, p2, 
..., pn) trong đó (p1, p2, ..., pn) là một sự phân bố xác suất (tức là
các pi ∈ [0, 1] và Σpi = 1).
 Một hàm thực f(P), được định nghĩa trên tập lồi S, được gọi là
lồi nếu ∀cặp điểm P1, P2 ∈ S, và ∀ λ ∈ [0, 1] bất đẳng thức sau 
đây đúng:
f(λP1 + (1–λ)P2) ≥ λf(P1) + (1–λ)f(P2)
xx1 (λx1 + (1-λ)x2 x2
f(x1)
f(x) f(x2)
f((λx1 + (1-λ)x2)
λf(x1) + (1-λ)f(x2)
Trang 44
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Định lý, bất đẳng thức Jensen
 Nếu λ1, ..., λN là các số không âm có tổng bằng 1 thì đối với 
mọi tập điểm P1, ..., PN trong miền xác định của hàm lồi f(P) 
bất đẳng thức sau đây đúng
 Cho biến ngẫu nhiên x lấy các giá trị x1, ..., xn với các xác suất 
p1, ..., pn. Cho f(x) là một hàm lồi có miền xác định chứa x1, ..., 
xn. Chúng ta có E(x) = và E(f(x)) = .
 Áp dụng định lý trên chúng ta có
f(E(x)) ≥ E(f(x))
Đây được gọi là bất đẳng thức Jensen.
( )∑∑
==
λ≥⎟⎟⎠
⎞
⎜⎜⎝
⎛ λ
N
n
nn
N
n
nn PfPf
11
∑
i
ii xp ( )∑
i
ii xfp
Trang 45
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Bài 4 Lượng tin
4.1 Lượng tin
4.2 Lượng tin trung bình
Vấn đề cơ bản của truyền thông là việc tái sinh tại một điểm hoặc 
chính xác hoặc gần đúng một thông báo được chọn tại một điểm 
khác.
(Claude Shannon 1948)
Trang 46
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lượng tin
 Lượng tin (measure of information) dùng để so sánh định lượng 
các tin tức với nhau.
 Một tin đối với người nhận đều mang hai nội dung, một là 
độ bất ngờ của tin, hai là ý nghĩa của tin.
 Khía cạnh ngữ nghĩa chỉ có ý nghĩa đối với con người.
 Khía cạnh quan trọng nằm ở chỗ tin thật sự là một cái được 
chọn từ một tập các tin (tập các khả năng) có thể.
 Nếu số tin trong tập tin càng nhiều thì sẽ mang lại một “lượng 
tin” càng lớn khi nhận được một tin (giả sử các tin là bình đẳng 
như nhau về khả năng xuất hiện).
 Để sự truyền tin đạt hiệu quả cao chúng ta không thể đối đãi 
các tin như nhau nếu chúng xuất hiện ít nhiều khác nhau.
Trang 47
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lượng tin
 Xét một tin x có xác suất xuất hiện là p(x), thì chúng ta có thể
xem tin này như là một tin trong một tập có 1/p(x) tin với các 
tin có xác suất xuất hiện như nhau.
 Nếu p(x) càng nhỏ thì 1/p(x) càng lớn và vì vậy “lượng tin” khi 
nhận được tin này cũng sẽ càng lớn.
 Vậy “lượng tin” của một tin tỉ lệ thuận với số khả năng của một 
tin và tỉ lệ nghịch với xác suất xuất hiện của tin đó.
 Xác suất xuất hiện của một tin tỉ lệ nghịch với độ bất ngờ khi 
nhận được một tin.
“lượng tin“ ↑ số khả năng ↑ độ bất ngờ ↓ xác suất
 Một tin có xác suất xuất hiện càng nhỏ thì có độ bất ngờ càng 
lớn và vì vậy có lượng tin càng lớn. 
Trang 48
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lượng tin (tt)
 Xét một nguồn A = {a1, a2,, am} với các xác suất xuất hiện là
p(ai) i = 1, ..., m.
 Kí hiệu lượng tin trong mỗi tin ai là I(ai). Vậy hàm f dùng để
biểu thị lượng tin phải thoã mãn những điều kiện gì?
 Phản ánh được các tính chất thống kê của tin tức.
 Ví dụ có hai nguồn K, L với số tin tương ứng là k, l (giả thuyết đều là 
đẳng xác suất). Nếu k > l, thì độ bất ngờ khi nhận một tin bất kỳ của 
nguồn K phải lớn hơn độ bất ngờ khi nhận một tin bất kỳ của nguồn L, 
vậy f(k) > f(l)
 Hợp lý trong tính toán.
 Giả thiết hai nguồn độc lập K và L với số tin tương ứng là k và l. Cho 
việc nhận một cặp ki và lj bất kỳ đồng thời là một tin của nguồn hỗn hợp 
KL. Số cặp kilj mà nguồn này có là k*l.
Trang 49
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lượng tin (tt)
 Độ bất ngờ khi nhận được một cặp như vậy phải bằng tổng lượng tin của 
khi nhận được ki và lj. Vì vậy chúng ta phải có:
f(kl) = f(k) + f(l)
 Khi nguồn chỉ có một tin, lượng tin chứa trong tin duy nhất đó
phải bằng không.
f(1) = 0
 Định nghĩa
 Lượng đo thông tin của một tin được đo bằng logarit của độ bất 
ngờ của tin hay nghịch đảo xác suất xuất hiện của tin đó.
( ) )(log
)(
1log xp
xp
xI −==
Trang 50
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lượng tin (tt)
 Lượng tin chứa trong một dãy x = a1a2  an với ai ∈ A là
 Trong trường hợp m kí hiệu của nguồn đẳng xác suất với nhau 
tức p(ai) = 1/m thì
Nếu x = a1a2  an với ai ∈ A
I(x) = n logm
( ) ∑
=
−==
n
i
iapxp
xI
1
)(log
)(
1log
( ) m
ap
aI
i
i log)(
1log ==
Trang 51
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Lượng tin trung bình
 Đơn vị của lượng tin
 Nếu cơ số là 2 thì đơn vị là bits (cho các kí số nhị phân); nếu cơ 
số là e thì đơn vị là nats (cho đơn vị tự nhiên), nếu cơ số là 10 
thì đơn vị là Hartley.
 Định nghĩa
 Lượng tin trung bình của một nguồn tin A là lượng tin trung 
bình chứa trong một kí hiệu bất kỳ của nguồn tin. Nó thường 
được kí hiệu là I(A) và được tính bằng công thức sau
∑∑
∈
−=
∈
=
Aa
apap
Aa
aIapAI
i
ii
i
ii )(log)()()()(
Trang 52
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Ví dụ
 Cho một nguồn tin U bao gồm 8 tin U = {u0, u1, u2, u3, u4, u5, 
u6, u7}, với các xác suất xuất hiện như sau:
Hãy cho biết lượng tin riêng của mỗi tin và lượng tin trung bình 
của nguồn này trong đơn vị bits.
 Giải
 Lượng tin riêng của mỗi tin là
1/161/161/161/161/81/81/41/4
p(u7)p(u6)p(u5)p(u4)p(u3)p(u2)p(u1)p(u0)
44443322
I(u7)I(u6)I(u5)I(u4)I(u3)I(u2)I(u1)I(u0)
Trang 53
Lý thuyết Thông tin - Khoa Công Nghệ Thông Tin
Ví dụ (tt)
 Lượng tin trung bình của nguồn là
I(U) = (1/4) × 2 + (1/4) × 2 + (1/8) × 3 + (1/8) × 3 + (1/16) × 4 
+ (1/16) × 4 + (1/16) × 4 + (1/16) × 4 = 2,75 bits.
 Điều này nói lên một ý nghĩa quan trọng rằng, chúng ta có thể
biểu diễn mỗi tin trong nguồn U bằng một chuỗi có chiều dài 
trung bình là 2,75 bits. Nó sẽ tốt hơn so với trong trường hợp 
chúng ta không chú ý đến cấu trúc thông kê của nguồn. Lúc đó
chúng ta sẽ biểu diễn mỗi tin trong 8 tin của nguồn bằng các 
chuỗi có chiều dài là 3 bits.

File đính kèm:

bai_giang_khoa_hoc_may_tinh_chuan_bi_toan_hoc_nguyen_phuong.pdf