Phương pháp nâng cao chất lượng tiếng nói bằng cách triệt nhiễu thành phần xấp xỉ và thành phần chi tiết trên miền Wavelet

TÓM TẮT

Kỹ thuật triệt nhiễu và nâng cao chất lượng tiếng nói dùng phép biến đổi Wavelet đã được nghiên

cứu nhiều trên thế giới. Hầu hết các nghiên cứu tập trung vào cách ước lượng và đặt ngưỡng toàn

cục cho toàn bộ tín hiệu. Bài báo này trình bày phương pháp triệt nhiễu nâng cao chất lượng tiếng

nói bằng biến đổi Wavelet cho tín hiệu tiếng nói thành hai thành phần hệ số chi tiết và hệ số xấp

xỉ, sau đó áp dụng kỹ thuật trừ phổ và kỹ thuật ước lượng bình phương tối thiểu MMSE (minimum

mean square error) của Ephraim/Malah cho các hệ số đó. Các kết quả mô phỏng cho thấy tiếng

nói có nhiễu được triệt nhiễu bằng phương pháp đề xuất có SNR cao hơn các phương pháp trừ

phổ, phương pháp MMSE và phương pháp Wavelet của Dohono.

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

5 trang xuanhieu 8540

Download

Bạn đang xem tài liệu "Phương pháp nâng cao chất lượng tiếng nói bằng cách triệt nhiễu thành phần xấp xỉ và thành phần chi tiết trên miền Wavelet", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phương pháp nâng cao chất lượng tiếng nói bằng cách triệt nhiễu thành phần xấp xỉ và thành phần chi tiết trên miền Wavelet

 Đỗ Huy Khôi và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 99(11): 15 - 19 
PH ƯƠ NG PHÁP NÂNG CAO CH ẤT L ƯỢNG TI ẾNG NÓI 
BẰNG CÁCH TRI ỆT NHI ỄU THÀNH PH ẦN X ẤP X Ỉ 
VÀ THÀNH PH ẦN CHI TI ẾT TRÊN MI ỀN WAVELET 
 Đỗ Huy Khôi, Nguy ễn Thành Trung, Tr ịnh V ăn Hà* 
 Tr ường Đại h ọc Công ngh ệ Thông tin & Truy ền thông – ĐH Thái Nguyên 
TÓM T ẮT 
 Kỹ thu ật tri ệt nhi ễu và nâng cao ch ất l ượng ti ếng nói dùng phép bi ến đổ i Wavelet đã được nghiên 
 cứu nhi ều trên th ế gi ới. H ầu h ết các nghiên c ứu t ập trung vào cách ước l ượng và đặt ng ưỡng toàn 
 cục cho toàn b ộ tín hi ệu. Bài báo này trình bày ph ươ ng pháp tri ệt nhi ễu nâng cao ch ất l ượng ti ếng 
 nói b ằng bi ến đổ i Wavelet cho tín hi ệu ti ếng nói thành hai thành ph ần h ệ s ố chi ti ết và h ệ s ố x ấp 
 xỉ, sau đó áp d ụng kỹ thu ật tr ừ ph ổ và k ỹ thu ật ước l ượng bình ph ươ ng t ối thi ểu MMSE (minimum 
 mean square error) của Ephraim/Malah cho các h ệ s ố đó. Các k ết qu ả mô ph ỏng cho th ấy ti ếng 
 nói có nhi ễu được tri ệt nhi ễu b ằng ph ươ ng pháp đề xu ất có SNR cao h ơn các ph ươ ng pháp tr ừ 
 ph ổ, ph ươ ng pháp MMSE và ph ươ ng pháp Wavelet c ủa Dohono. 
 Từ khóa: wavelet, tri ệt nhi ễu, ph ổ tr ừ, MMSE, PSNR. 
TỔNG QUAN V Ề TRI ỆT NHI ỄU TÍN HI ỆU t− b
 * Trong đó ψ ( ) là hàm wavelet m ẹ, ψ (t ) 
TI ẾNG NÓI a
Nhi ễu ảnh h ưởng nhi ều đế n hi ệu qu ả x ử lý tín là hàm wavelet ph ức c ủa ψ (t ) , b là toán t ử 
hi ệu. Vì v ậy, tri ệt nhi ễu và nâng cao ch ất 
 dịch và a là toán t ử t ỉ l ệ. 
lượng tín hi ệu là b ước quan tr ọng trong các h ệ 
th ống x ử lý tín hi ệu th ời gian th ực [3]. Trong th ực t ế bi ến đổ i wavelet th ường dùng 
Mô hình chung c ủa tín hi ệu có nhi ễu là: là wavelet r ời r ạc DWT (Discrete Wavelet 
 Transform) được th ực hi ện b ằng c ấu trúc đa 
 x=+ snk, = 0,.., K − 1 (1) 
 k k k phân gi ải MRA (Multiresolution Analysis) 
Trong đó s k là tín hi ệu ti ếng nói s ạch, n k là phân tích tín hi ệu ra hai thành ph ần chi ti ết 
ngu ồn nhi ễu độ c l ập v ới ph ươ ng sai (detail) và x ấp x ỉ (approximation). Thành 
σ σ 2 =
 k( n 1) (gi ả s ử n k là nhi ễu tr ắng). ph ần chi ti ết là thành ph ần t ần s ố cao và ch ứa 
Gọi sˆ là giá tr ị ước l ượng c ủa tín hi ệu ti ếng nhi ễu nên các ph ươ ng pháp tri ệt nhi ễu b ằng 
nói s ạch. M ục đích c ủa các ph ươ ng pháp tri ệt wavelet đều d ựa trên ý t ưởng đặ t ng ưỡng cho 
nhi ễu tín hi ệu ti ếng nói là t ối thi ểu sai s ố bình các thành ph ần chi ti ết và lo ại b ỏ các thành 
ph ươ ng trung bình E(| sˆ , s |2 ) ph ần chi ti ết nh ỏ h ơn ng ưỡng. 
 K −1
 2 
 Esˆ - s  = E (s ˆ - s ) 2 (2) 
   ∑ k k
 k =0 
PH ƯƠ NG PHÁP BI ẾN ĐỔ I WAVELET 
CHO TÍN HI ỆU TI ẾNG NÓI CÓ NHI ỄU. 
Phép bi ến đổ i wavelet 
Bi ến đổ i wavelet WT c ủa m ột tín hi ệu x(t) 
được đị nh ngh ĩa 
 Hình 1 . Bi ến đổ i wavelet r ời r ạc dùng đa phân gi ải 
 −1 ∞ t− b
WT(b,a) = ||a2 ∫ xt ()(ψ ) dt (*) Bi ến đổ i Wavelet r ời r ạc áp d ụng cho tín 
 −∞ a hi ệu ti ếng nói. 
 DWT được xây d ựng d ựa trên c ấu trúc đa 
* Tel: 0983 454755, Email: hatvhit@gmail.com phân gi ải MRA [6]. Tín hi ệu nguyên th ủy S đi 
 15
 Đỗ Huy Khôi và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 99(11): 15 - 19 
qua 2 b ộ l ọc có đặ c tính bù nhau và phân tách Gọi G(w) là h ệ s ố tr ọng s ố ph ổ. Áp d ụng bi ến 
thành 2 tín hi ệu, cA là các h ệ s ố x ấp x ỉ, cD là đổi Wiener và đơ n gi ản hóa b ằng hàm bi ến 
các h ệ s ố chi ti ết. đổi tr ọng s ố theo [1] ta có: 
Quá trình phân tách có th ể được l ặp l ại, v ới N( w ) 
xấp x ỉ hoàn toàn được tách ra, do đó m ột tín G = Max 1− αPSD , β  (8) 
 X( w ) 
hi ệu được tách thành nhi ều thành ph ần phân PSD 
gi ải th ấp h ơn. Nó được g ọi là cây phân tách Với α là h ệ s ố ước l ượng trên và β là sàn ph ổ 
Wavelet. được ch ọn t ươ ng ứng. 
PH ƯƠ NG PHÁP TRI ỆT NHI ỄU THAM KH ẢO Ph ươ ng pháp MMSE ( minimum mean 
Ph ươ ng pháp tr ừ ph ổ square error ) của Ephraim/Malah 
Ý t ưởng chung c ủa ph ươ ng pháp tr ừ ph ổ [1, Trong ph ươ ng pháp MMSE c ủa 
5] là ch ọn m ột m ức ph ổ sàn t ươ ng ứng v ới 
 Ephraim/Malah [7], các thành ph ần ph ổ c ủa 
ph ổ c ủa nhi ễu n ền và tách ra kh ỏi ph ổ tín hi ệu 
 ti ếng nói và nhi ễu được mô hình thành các 
lẫn nhi ễu. Gi ả thi ết nhi ễu nk là quá trình ng ẫu 
nhiên d ừng trong kho ảng th ời gian m ột khung bi ến ng ẫu nhiên Gaussian. 
ti ếng nói và không t ươ ng quan v ới tín hi ệu Phân khung b ăng con ti ếng nói th ứ i thành các 
ti ếng nói. khung có độ dài b ằng nhau. Ng ưỡng nhi ễu ước 
Từ (1), sau khi c ửa s ổ hoá ta được: lượng trong khung th ứ p và b ăng con th ứ i là 
xw(k) = s w(k) + n w(k) (3) λ i, p được xác đị nh theo Jansen [4]. 
Ph ổ c ủa tín hi ệu l ẫn nhi ễu là 
 i post i priori
 2 (Rm ) và (Rm ) là các t ỉ l ệ h ệ s ố trên 
|Xw ()||=+ Sw ()|2 | Nw ()| 2 + SwNwSwNw (). ** () + (). ()
 w w w wwww ng ưỡng CTR (Cofficient to Thershold Ratio) 
 (4) ti ền nghi ệm và h ậu nghi ệm: 
Nếu chúng ta cho r ằng n(k) có trung bình i
 priori |c |
bằng 0 và không t ươ ng quan v ới s(k) thì ()i = m
 Rm i (9) 
 * * λ
 + m
SwNw(). w () w S w (). wN w () w ti ến t ới 0. Do 
 i λ i
vậy ta có : Các ng ưỡng nhi ễu đố i v ới t ừng h ệ s ố cm là m 
 2 2 2 được ước l ượng gi ống nhau trong t ừng khung. 
|()||Sw= Xw ()| − ENw | ()|  (5) 
   λ i λ i, p
 Nói cách khác trong khung p m = . 
 2 
 E| N ( w )|  CTR h ậu nghi ệm t ươ ng ứng 
|Sw ()|2= | Xw ()| 2  1 −  (6) 
 2 i
 X( w ) |  post
   i |cˆm | i priori
 ()R=α +(1 − α ) m ax[0,(R ) -1] (10) 
 m λi m
|Sw ()|2= | Xw ()|.() 2 Gw (7) m
 Các h ệ s ố DW IDW
 xấp x ỉ 
 hhh ↓2 ccAAcA ↑2 h'h'h' 
 Ti ếng nói Ti ếng nói tái t ạo 
 gốc 
 ggg ↓2 ccDDcD ↑2 g'g'g' 
 Các h ệ s ố 
 chi ti ết 
 Hình 2. Phân tích Wavelet r ời r ạc ti ếng nói 
16 
 Đỗ Huy Khôi và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 99(11): 15 - 19 
Với α là m ột h ệ s ố có th ể thay đổ i 0 < α <1. Bước 3. Áp d ụng ph ươ ng pháp tr ừ ph ổ cho h ệ 
Với CTR ti ền nghi ệm và h ậu nghi ệm xác đị nh số x ấp x ỉ. 
nh ư trên ta có công th ức bi ểu di ễn b ộ l ọc đặ t Bước 4. Áp d ụng ph ươ ng pháp MMSE cho h ệ 
ng ưỡng m ềm Ephraim/Malah: số chi ti ết. 
 ()Ri post1 () R i post Bước 5. Tái t ạo wavelet và thu được tín hi ệu 
H i =m[ + m ]
 m +i post i priori + i post đã được tri ệt nhi ễu. 
 1()Rm () R m 1() R m
 (11) Các tham s ố th ực nghi ệm. 
 i Giá tr ị ph ổ sàn trên α = 0.9, sàn d ưới β = 0.5 
Áp d ụng b ộ l ọc này cho các h ệ s ố phân rã c m 
với t ừng bank i, các h ệ s ố phân ra đã được ứng v ới kho ảng có ti ếng nói, α = 1.2, β = 0.1 
tri ệt nhi ễu được tính nh ư sau: ứng v ới kho ảng l ặng [1]. DWT được th ực 
 i i i hi ện v ới thu ật toán FWT, Wavelet m ẹ được 
Cˆ = H. C (12) 
 m m m ch ọn là Deubechies 8, s ố m ức phân rã là 3. 
Mô hình tri ệt nhi ễu đề xu ất 
 KẾT QU Ả TRI ỆT NHI ỄU TH ỰC NGHI ỆM 
Trong tín hi ệu ti ếng nói thành ph ần nhi ễu 
“musical noise” được lo ại b ỏ ở ph ươ ng pháp TRÊN MATLAB 
MMSE là ước l ượng ng ưỡng nhi ễu đố i v ới Chúng tôi đã th ử nghi ệm h ệ th ống tri ệt nhi ễu 
từng h ệ s ố phân rã trong khung nên gi ảm đề ngh ị v ới đầ u vào là ti ếng nói s ạch c ộng v ới 
thi ểu sai s ố ph ổ. K ết qu ả th ực nghi ệm trong nhi ễu Gauss tr ắng nhân t ạo. 
[5, 7] cho th ấy hi ệu qu ả tri ệt nhi ễu c ủa 
ph ươ ng pháp này không cao so v ới ph ươ ng Ph ươ ng pháp chung để xác đị nh và đánh giá 
pháp tr ừ ph ổ và ph ươ ng pháp tri ệt nhi ễu bằng hi ệu qu ả tri ệt nhi ễu c ủa các ph ươ ng pháp tri ệt 
Wavelet c ủa Dohono đố i v ới tr ường h ợp nhiễu trong [2, 4, 5, 7] là thông qua giá tr ị 
nhi ễu có c ường độ l ớn (PSNR c ủa tín hi ệu l ẫn PSNR được xác đị nh nh ư sau: 
nhi ễu nh ỏ). 
 N 2
Mặt khác thành ph ần nhi ễu “musical noise” =1 − ˆ
 MSE∑( Si S i ) (13) 
là các thành ph ần chi ti ết trên mi ền Wavelet. N i=1
Thu ật toán tri ệt nhi ễu nh ư sau: 
 [max(S )] 2
 = i
Bước 1. Phân rã DWT cho toàn b ộ tín hi ệu PSNR 10log 10 (14) 
ti ếng nói có nhi ễu MSE
 là tín hi ệu nhi ễu t ại th ời gian i còn Sˆ là 
Bước 2. S ử d ụng b ộ l ọc để l ấy các h ệ s ố chi Si i
ti ết và các h ệ s ố x ấp x ỉ. tín hi ệu đã tri ệt nhi ễu tại th ời gian i. 
 Các h ệ s ố xấp 
 Các h ệ s ố 
 xỉ được tri ệt 
 xấp x ỉ 
 ccAAcA ccAAcA nhi ễu 
 TrTrTrừTr ừừừ pphhphổph ổổổ 
 Ti ếng nói có 
 nhi ễu Ti ếng nói 
 ccc ccDDcccDc 
 DDWWDW MMSE IIDDWWIDW tri ệt nhi ễu 
 Các h ệ s ố 
 chi ti ết 
 Các h ệ s ố chi 
 ti ết được tri ệt 
 nhi ễu 
 Hình 3. Mô hình tri ệt nhi ễu s ử d ụng 
 17
 Đỗ Huy Khôi và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 99(11): 15 - 19 
 Bảng 1. So sánh PSNR c ủa các ph ươ ng pháp tri ệt nhi ễu 
 Tín hi ệu nhi ễu Ph ươ ng pháp Ph ươ ng pháp Ph ươ ng pháp Ph ươ ng pháp k ết 
 tr ừ ph ổ trung bình ph ươ ng ng ưỡng toàn c ục hợp trên mi ền 
 tối thi ểu của Dohono Wavelet 
 MMSE 
 47.1320 58.0015 52.6225 55.5868 63.4432 
 52.1753 58.4312 54.3736 59.9119 65.6679 
 57.4413 59.8643 58.4647 64.1735 67.4762 
 62.5753 63.1262 64.6353 69.0072 70.2716 
 67.2824 69.7463 71.4373 71.3361 71.9635 
 72.2251 72.2601 73.6573 72.8592 73.6253 
 Hình 4. Hình ảnh âm thanh tr ước và sau khi tri ệt nhi ễu 
Để so sánh hi ệu qu ả c ủa ph ươ ng pháp đề xu ất KẾT LU ẬN 
với các ph ươ ng pháp khác, chúng tôi th ử Dựa trên các k ết qu ả nghiên c ứu chúng tôi 
nghi ệm tri ệt nhi ễu và tính toán các giá tr ị đánh giá ph ươ ng pháp tri ệt nhiễu s ử d ụng 
PSNR (priori signal to noise ratio) của bi ến đổ i Wavelet thành các h ệ s ố chi ti ết, h ệ 
ph ươ ng pháp tr ừ ph ổ, ph ươ ng pháp MMSE số x ấp x ỉ và áp d ụng tri ệt nhi ễu cho t ừng 
của Malah, ph ươ ng pháp tri ệt nhi ễu Wavelet thành ph ần h ệ s ố v ới k ỹ thu ật tr ừ ph ổ và k ỹ 
của Dohono [2] và ph ươ ng pháp đề xu ất. thu ật MMSE c ủa Ephraim/Malah là m ột k ỹ 
Kết qu ả PSNR tính được v ới tín hi ệu có nhi ễu thu ật tri ệt nhi ễu hi ệu qu ả và có th ể áp d ụng 
và đã tri ệt nhi ễu được cho trong b ảng 1. Qua trong kh ối ti ền x ử lý c ủa các h ệ th ống x ử lý 
kết qu ả PSNR nh ận được và ch ất l ượng âm ti ếng nói th ời gian th ực nh ư mã hóa, nh ận 
thanh ki ểm nghi ệm tr ực ti ếp ta th ấy ph ươ ng dạng ti ếng nói th ời gian th ực. 
pháp đề xu ất có k ết qu ả t ốt nh ất, nhi ễu g ần 
nh ư được lo ại b ỏ mà ch ất l ượng ti ếng nói TÀI LI ỆU THAM KH ẢO 
gi ảm không đáng k ể. Trong th ực nghi ệm n ếu [1]. Hà Đình D ũng, Nguy ễn Kim Quang, (2003), 
PSNR c ủa tín hi ệu l ẫn nhi ễu nh ỏ h ơn 20 dB “Xây dựng b ộ gi ảm nhi ễu s ử d ụng ph ươ ng pháp tr ừ 
thì c ả 3 ph ươ ng pháp đều không cho hi ệu qu ả ph ổ ứng d ụng trong h ệ th ống nh ận d ạng ti ếng nói” , 
tri ệt nhi ễu đáng k ể. Khi PSNR đầ u vào nh ỏ Báo cáo h ội th ảo qu ốc gia CNTT, Thái Nguyên . 
 [2]. Donoho, D. L, (1995), “Denoising via soft 
(40-60 dB) ph ươ ng pháp đề xu ất cho k ết qu ả 
 thresholding'' , IEEE Trans. Information Theory. 
cao h ơn h ẳn, tuy nhiên khi PSNR t ăng d ần (> 
 [3]. Gibert Strang, Truong Nguyen, (1996), 
70 dB) thì s ự phân bi ệt c ủa các ph ươ ng pháp Wavelet and Filter Banks, Weliesley- Cambridge 
là không đáng k ể. Press, The United States of America. 
18 
 Đỗ Huy Khôi và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 99(11): 15 - 19 
[4]. Jansen M. , (2001), Noise Reduction by [6]. Stéphane Mallat, (1999), A Wavelet Tour of 
Wavelet Thresholding, Springer-Verlag, New Signal Processing , Second Edition. 
York. [7]. Y. Ephraim and D. Malah, (1985), “Speech 
[5]. S.F. Boll, “Suppression of Acoustic Noise in 
 enhancement using a minimum mean square error 
Speech Using Spectral Subtraction” , IEEE 
Transactions on Acoustics, Speech, and Signal log-spectral amplitude estimator” IEEE Trans. on 
Processing, vol. 27, April 1979, pp. 113-120. ASSP, pp. 443-445. 
 SUMMARY 
 SPEECH DENOISING AND ENHANCEMENT BASED 
 ON DENOISING COMPONENT APPROXIMATIONS 
 AND DETAILS IN THE WAVLET DOMAIN 
 Do Huy Khoi, Nguyen Thanh Trung, Trinh Van Ha * 
 College of Information and Communication Technology - TNU 
 There are many researches about the methods of speech denoising and enhancement using wavelet 
 in the world. Most of researches study the methods to estimate the global or sub band dependent 
 threshold overall signal. 
 In this paper, we present a speech denoising approach using discrete Wavelet transform ,with 
 approximation coefficients based on spectral subtraction method and details coefficients based on 
 MMSE methods. The simulation results show that the noisy speech denoised by our proposed 
 method has higher SNR than the spectral subtraction denoising, the MMSE denoising and the 
 Wavelet denoising of Dohono. 
 Keyword: Wavelet, denoising, spectral subtraction , MMSE, PSNR ( priori signal to noise ratio) 
 speech processing. 
Ngày nh ận bài:05/10/2012 , ngày ph ản bi ện: 20/10/2012, ngày duy ệt đă ng:10/12/2012
* Tel: 0983 454755, Email: hatvhit@gmail.com 
 19

File đính kèm:

phuong_phap_nang_cao_chat_luong_tieng_noi_bang_cach_triet_nh.pdf