Phương pháp nâng cao chất lượng tiếng nói bằng cách triệt nhiễu thành phần xấp xỉ và thành phần chi tiết trên miền Wavelet
TÓM TẮT
Kỹ thuật triệt nhiễu và nâng cao chất lượng tiếng nói dùng phép biến đổi Wavelet đã được nghiên
cứu nhiều trên thế giới. Hầu hết các nghiên cứu tập trung vào cách ước lượng và đặt ngưỡng toàn
cục cho toàn bộ tín hiệu. Bài báo này trình bày phương pháp triệt nhiễu nâng cao chất lượng tiếng
nói bằng biến đổi Wavelet cho tín hiệu tiếng nói thành hai thành phần hệ số chi tiết và hệ số xấp
xỉ, sau đó áp dụng kỹ thuật trừ phổ và kỹ thuật ước lượng bình phương tối thiểu MMSE (minimum
mean square error) của Ephraim/Malah cho các hệ số đó. Các kết quả mô phỏng cho thấy tiếng
nói có nhiễu được triệt nhiễu bằng phương pháp đề xuất có SNR cao hơn các phương pháp trừ
phổ, phương pháp MMSE và phương pháp Wavelet của Dohono.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Tóm tắt nội dung tài liệu: Phương pháp nâng cao chất lượng tiếng nói bằng cách triệt nhiễu thành phần xấp xỉ và thành phần chi tiết trên miền Wavelet
Đỗ Huy Khôi và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 99(11): 15 - 19 PH ƯƠ NG PHÁP NÂNG CAO CH ẤT L ƯỢNG TI ẾNG NÓI BẰNG CÁCH TRI ỆT NHI ỄU THÀNH PH ẦN X ẤP X Ỉ VÀ THÀNH PH ẦN CHI TI ẾT TRÊN MI ỀN WAVELET Đỗ Huy Khôi, Nguy ễn Thành Trung, Tr ịnh V ăn Hà* Tr ường Đại h ọc Công ngh ệ Thông tin & Truy ền thông – ĐH Thái Nguyên TÓM T ẮT Kỹ thu ật tri ệt nhi ễu và nâng cao ch ất l ượng ti ếng nói dùng phép bi ến đổ i Wavelet đã được nghiên cứu nhi ều trên th ế gi ới. H ầu h ết các nghiên c ứu t ập trung vào cách ước l ượng và đặt ng ưỡng toàn cục cho toàn b ộ tín hi ệu. Bài báo này trình bày ph ươ ng pháp tri ệt nhi ễu nâng cao ch ất l ượng ti ếng nói b ằng bi ến đổ i Wavelet cho tín hi ệu ti ếng nói thành hai thành ph ần h ệ s ố chi ti ết và h ệ s ố x ấp xỉ, sau đó áp d ụng kỹ thu ật tr ừ ph ổ và k ỹ thu ật ước l ượng bình ph ươ ng t ối thi ểu MMSE (minimum mean square error) của Ephraim/Malah cho các h ệ s ố đó. Các k ết qu ả mô ph ỏng cho th ấy ti ếng nói có nhi ễu được tri ệt nhi ễu b ằng ph ươ ng pháp đề xu ất có SNR cao h ơn các ph ươ ng pháp tr ừ ph ổ, ph ươ ng pháp MMSE và ph ươ ng pháp Wavelet c ủa Dohono. Từ khóa: wavelet, tri ệt nhi ễu, ph ổ tr ừ, MMSE, PSNR. TỔNG QUAN V Ề TRI ỆT NHI ỄU TÍN HI ỆU t− b * Trong đó ψ ( ) là hàm wavelet m ẹ, ψ (t ) TI ẾNG NÓI a Nhi ễu ảnh h ưởng nhi ều đế n hi ệu qu ả x ử lý tín là hàm wavelet ph ức c ủa ψ (t ) , b là toán t ử hi ệu. Vì v ậy, tri ệt nhi ễu và nâng cao ch ất dịch và a là toán t ử t ỉ l ệ. lượng tín hi ệu là b ước quan tr ọng trong các h ệ th ống x ử lý tín hi ệu th ời gian th ực [3]. Trong th ực t ế bi ến đổ i wavelet th ường dùng Mô hình chung c ủa tín hi ệu có nhi ễu là: là wavelet r ời r ạc DWT (Discrete Wavelet Transform) được th ực hi ện b ằng c ấu trúc đa x=+ snk, = 0,.., K − 1 (1) k k k phân gi ải MRA (Multiresolution Analysis) Trong đó s k là tín hi ệu ti ếng nói s ạch, n k là phân tích tín hi ệu ra hai thành ph ần chi ti ết ngu ồn nhi ễu độ c l ập v ới ph ươ ng sai (detail) và x ấp x ỉ (approximation). Thành σ σ 2 = k( n 1) (gi ả s ử n k là nhi ễu tr ắng). ph ần chi ti ết là thành ph ần t ần s ố cao và ch ứa Gọi sˆ là giá tr ị ước l ượng c ủa tín hi ệu ti ếng nhi ễu nên các ph ươ ng pháp tri ệt nhi ễu b ằng nói s ạch. M ục đích c ủa các ph ươ ng pháp tri ệt wavelet đều d ựa trên ý t ưởng đặ t ng ưỡng cho nhi ễu tín hi ệu ti ếng nói là t ối thi ểu sai s ố bình các thành ph ần chi ti ết và lo ại b ỏ các thành ph ươ ng trung bình E(| sˆ , s |2 ) ph ần chi ti ết nh ỏ h ơn ng ưỡng. K −1 2 Esˆ - s = E (s ˆ - s ) 2 (2) ∑ k k k =0 PH ƯƠ NG PHÁP BI ẾN ĐỔ I WAVELET CHO TÍN HI ỆU TI ẾNG NÓI CÓ NHI ỄU. Phép bi ến đổ i wavelet Bi ến đổ i wavelet WT c ủa m ột tín hi ệu x(t) được đị nh ngh ĩa Hình 1 . Bi ến đổ i wavelet r ời r ạc dùng đa phân gi ải −1 ∞ t− b WT(b,a) = ||a2 ∫ xt ()(ψ ) dt (*) Bi ến đổ i Wavelet r ời r ạc áp d ụng cho tín −∞ a hi ệu ti ếng nói. DWT được xây d ựng d ựa trên c ấu trúc đa * Tel: 0983 454755, Email: hatvhit@gmail.com phân gi ải MRA [6]. Tín hi ệu nguyên th ủy S đi 15 Đỗ Huy Khôi và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 99(11): 15 - 19 qua 2 b ộ l ọc có đặ c tính bù nhau và phân tách Gọi G(w) là h ệ s ố tr ọng s ố ph ổ. Áp d ụng bi ến thành 2 tín hi ệu, cA là các h ệ s ố x ấp x ỉ, cD là đổi Wiener và đơ n gi ản hóa b ằng hàm bi ến các h ệ s ố chi ti ết. đổi tr ọng s ố theo [1] ta có: Quá trình phân tách có th ể được l ặp l ại, v ới N( w ) xấp x ỉ hoàn toàn được tách ra, do đó m ột tín G = Max 1− αPSD , β (8) X( w ) hi ệu được tách thành nhi ều thành ph ần phân PSD gi ải th ấp h ơn. Nó được g ọi là cây phân tách Với α là h ệ s ố ước l ượng trên và β là sàn ph ổ Wavelet. được ch ọn t ươ ng ứng. PH ƯƠ NG PHÁP TRI ỆT NHI ỄU THAM KH ẢO Ph ươ ng pháp MMSE ( minimum mean Ph ươ ng pháp tr ừ ph ổ square error ) của Ephraim/Malah Ý t ưởng chung c ủa ph ươ ng pháp tr ừ ph ổ [1, Trong ph ươ ng pháp MMSE c ủa 5] là ch ọn m ột m ức ph ổ sàn t ươ ng ứng v ới Ephraim/Malah [7], các thành ph ần ph ổ c ủa ph ổ c ủa nhi ễu n ền và tách ra kh ỏi ph ổ tín hi ệu ti ếng nói và nhi ễu được mô hình thành các lẫn nhi ễu. Gi ả thi ết nhi ễu nk là quá trình ng ẫu nhiên d ừng trong kho ảng th ời gian m ột khung bi ến ng ẫu nhiên Gaussian. ti ếng nói và không t ươ ng quan v ới tín hi ệu Phân khung b ăng con ti ếng nói th ứ i thành các ti ếng nói. khung có độ dài b ằng nhau. Ng ưỡng nhi ễu ước Từ (1), sau khi c ửa s ổ hoá ta được: lượng trong khung th ứ p và b ăng con th ứ i là xw(k) = s w(k) + n w(k) (3) λ i, p được xác đị nh theo Jansen [4]. Ph ổ c ủa tín hi ệu l ẫn nhi ễu là i post i priori 2 (Rm ) và (Rm ) là các t ỉ l ệ h ệ s ố trên |Xw ()||=+ Sw ()|2 | Nw ()| 2 + SwNwSwNw (). ** () + (). () w w w wwww ng ưỡng CTR (Cofficient to Thershold Ratio) (4) ti ền nghi ệm và h ậu nghi ệm: Nếu chúng ta cho r ằng n(k) có trung bình i priori |c | bằng 0 và không t ươ ng quan v ới s(k) thì ()i = m Rm i (9) * * λ + m SwNw(). w () w S w (). wN w () w ti ến t ới 0. Do i λ i vậy ta có : Các ng ưỡng nhi ễu đố i v ới t ừng h ệ s ố cm là m 2 2 2 được ước l ượng gi ống nhau trong t ừng khung. |()||Sw= Xw ()| − ENw | ()| (5) λ i λ i, p Nói cách khác trong khung p m = . 2 E| N ( w )| CTR h ậu nghi ệm t ươ ng ứng |Sw ()|2= | Xw ()| 2 1 − (6) 2 i X( w ) | post i |cˆm | i priori ()R=α +(1 − α ) m ax[0,(R ) -1] (10) m λi m |Sw ()|2= | Xw ()|.() 2 Gw (7) m Các h ệ s ố DW IDW xấp x ỉ hhh ↓2 ccAAcA ↑2 h'h'h' Ti ếng nói Ti ếng nói tái t ạo gốc ggg ↓2 ccDDcD ↑2 g'g'g' Các h ệ s ố chi ti ết Hình 2. Phân tích Wavelet r ời r ạc ti ếng nói 16 Đỗ Huy Khôi và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 99(11): 15 - 19 Với α là m ột h ệ s ố có th ể thay đổ i 0 < α <1. Bước 3. Áp d ụng ph ươ ng pháp tr ừ ph ổ cho h ệ Với CTR ti ền nghi ệm và h ậu nghi ệm xác đị nh số x ấp x ỉ. nh ư trên ta có công th ức bi ểu di ễn b ộ l ọc đặ t Bước 4. Áp d ụng ph ươ ng pháp MMSE cho h ệ ng ưỡng m ềm Ephraim/Malah: số chi ti ết. ()Ri post1 () R i post Bước 5. Tái t ạo wavelet và thu được tín hi ệu H i =m[ + m ] m +i post i priori + i post đã được tri ệt nhi ễu. 1()Rm () R m 1() R m (11) Các tham s ố th ực nghi ệm. i Giá tr ị ph ổ sàn trên α = 0.9, sàn d ưới β = 0.5 Áp d ụng b ộ l ọc này cho các h ệ s ố phân rã c m với t ừng bank i, các h ệ s ố phân ra đã được ứng v ới kho ảng có ti ếng nói, α = 1.2, β = 0.1 tri ệt nhi ễu được tính nh ư sau: ứng v ới kho ảng l ặng [1]. DWT được th ực i i i hi ện v ới thu ật toán FWT, Wavelet m ẹ được Cˆ = H. C (12) m m m ch ọn là Deubechies 8, s ố m ức phân rã là 3. Mô hình tri ệt nhi ễu đề xu ất KẾT QU Ả TRI ỆT NHI ỄU TH ỰC NGHI ỆM Trong tín hi ệu ti ếng nói thành ph ần nhi ễu “musical noise” được lo ại b ỏ ở ph ươ ng pháp TRÊN MATLAB MMSE là ước l ượng ng ưỡng nhi ễu đố i v ới Chúng tôi đã th ử nghi ệm h ệ th ống tri ệt nhi ễu từng h ệ s ố phân rã trong khung nên gi ảm đề ngh ị v ới đầ u vào là ti ếng nói s ạch c ộng v ới thi ểu sai s ố ph ổ. K ết qu ả th ực nghi ệm trong nhi ễu Gauss tr ắng nhân t ạo. [5, 7] cho th ấy hi ệu qu ả tri ệt nhi ễu c ủa ph ươ ng pháp này không cao so v ới ph ươ ng Ph ươ ng pháp chung để xác đị nh và đánh giá pháp tr ừ ph ổ và ph ươ ng pháp tri ệt nhi ễu bằng hi ệu qu ả tri ệt nhi ễu c ủa các ph ươ ng pháp tri ệt Wavelet c ủa Dohono đố i v ới tr ường h ợp nhiễu trong [2, 4, 5, 7] là thông qua giá tr ị nhi ễu có c ường độ l ớn (PSNR c ủa tín hi ệu l ẫn PSNR được xác đị nh nh ư sau: nhi ễu nh ỏ). N 2 Mặt khác thành ph ần nhi ễu “musical noise” =1 − ˆ MSE∑( Si S i ) (13) là các thành ph ần chi ti ết trên mi ền Wavelet. N i=1 Thu ật toán tri ệt nhi ễu nh ư sau: [max(S )] 2 = i Bước 1. Phân rã DWT cho toàn b ộ tín hi ệu PSNR 10log 10 (14) ti ếng nói có nhi ễu MSE là tín hi ệu nhi ễu t ại th ời gian i còn Sˆ là Bước 2. S ử d ụng b ộ l ọc để l ấy các h ệ s ố chi Si i ti ết và các h ệ s ố x ấp x ỉ. tín hi ệu đã tri ệt nhi ễu tại th ời gian i. Các h ệ s ố xấp Các h ệ s ố xỉ được tri ệt xấp x ỉ ccAAcA ccAAcA nhi ễu TrTrTrừTr ừừừ pphhphổph ổổổ Ti ếng nói có nhi ễu Ti ếng nói ccc ccDDcccDc DDWWDW MMSE IIDDWWIDW tri ệt nhi ễu Các h ệ s ố chi ti ết Các h ệ s ố chi ti ết được tri ệt nhi ễu Hình 3. Mô hình tri ệt nhi ễu s ử d ụng 17 Đỗ Huy Khôi và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 99(11): 15 - 19 Bảng 1. So sánh PSNR c ủa các ph ươ ng pháp tri ệt nhi ễu Tín hi ệu nhi ễu Ph ươ ng pháp Ph ươ ng pháp Ph ươ ng pháp Ph ươ ng pháp k ết tr ừ ph ổ trung bình ph ươ ng ng ưỡng toàn c ục hợp trên mi ền tối thi ểu của Dohono Wavelet MMSE 47.1320 58.0015 52.6225 55.5868 63.4432 52.1753 58.4312 54.3736 59.9119 65.6679 57.4413 59.8643 58.4647 64.1735 67.4762 62.5753 63.1262 64.6353 69.0072 70.2716 67.2824 69.7463 71.4373 71.3361 71.9635 72.2251 72.2601 73.6573 72.8592 73.6253 Hình 4. Hình ảnh âm thanh tr ước và sau khi tri ệt nhi ễu Để so sánh hi ệu qu ả c ủa ph ươ ng pháp đề xu ất KẾT LU ẬN với các ph ươ ng pháp khác, chúng tôi th ử Dựa trên các k ết qu ả nghiên c ứu chúng tôi nghi ệm tri ệt nhi ễu và tính toán các giá tr ị đánh giá ph ươ ng pháp tri ệt nhiễu s ử d ụng PSNR (priori signal to noise ratio) của bi ến đổ i Wavelet thành các h ệ s ố chi ti ết, h ệ ph ươ ng pháp tr ừ ph ổ, ph ươ ng pháp MMSE số x ấp x ỉ và áp d ụng tri ệt nhi ễu cho t ừng của Malah, ph ươ ng pháp tri ệt nhi ễu Wavelet thành ph ần h ệ s ố v ới k ỹ thu ật tr ừ ph ổ và k ỹ của Dohono [2] và ph ươ ng pháp đề xu ất. thu ật MMSE c ủa Ephraim/Malah là m ột k ỹ Kết qu ả PSNR tính được v ới tín hi ệu có nhi ễu thu ật tri ệt nhi ễu hi ệu qu ả và có th ể áp d ụng và đã tri ệt nhi ễu được cho trong b ảng 1. Qua trong kh ối ti ền x ử lý c ủa các h ệ th ống x ử lý kết qu ả PSNR nh ận được và ch ất l ượng âm ti ếng nói th ời gian th ực nh ư mã hóa, nh ận thanh ki ểm nghi ệm tr ực ti ếp ta th ấy ph ươ ng dạng ti ếng nói th ời gian th ực. pháp đề xu ất có k ết qu ả t ốt nh ất, nhi ễu g ần nh ư được lo ại b ỏ mà ch ất l ượng ti ếng nói TÀI LI ỆU THAM KH ẢO gi ảm không đáng k ể. Trong th ực nghi ệm n ếu [1]. Hà Đình D ũng, Nguy ễn Kim Quang, (2003), PSNR c ủa tín hi ệu l ẫn nhi ễu nh ỏ h ơn 20 dB “Xây dựng b ộ gi ảm nhi ễu s ử d ụng ph ươ ng pháp tr ừ thì c ả 3 ph ươ ng pháp đều không cho hi ệu qu ả ph ổ ứng d ụng trong h ệ th ống nh ận d ạng ti ếng nói” , tri ệt nhi ễu đáng k ể. Khi PSNR đầ u vào nh ỏ Báo cáo h ội th ảo qu ốc gia CNTT, Thái Nguyên . [2]. Donoho, D. L, (1995), “Denoising via soft (40-60 dB) ph ươ ng pháp đề xu ất cho k ết qu ả thresholding'' , IEEE Trans. Information Theory. cao h ơn h ẳn, tuy nhiên khi PSNR t ăng d ần (> [3]. Gibert Strang, Truong Nguyen, (1996), 70 dB) thì s ự phân bi ệt c ủa các ph ươ ng pháp Wavelet and Filter Banks, Weliesley- Cambridge là không đáng k ể. Press, The United States of America. 18 Đỗ Huy Khôi và Đtg Tạp chí KHOA H ỌC & CÔNG NGH Ệ 99(11): 15 - 19 [4]. Jansen M. , (2001), Noise Reduction by [6]. Stéphane Mallat, (1999), A Wavelet Tour of Wavelet Thresholding, Springer-Verlag, New Signal Processing , Second Edition. York. [7]. Y. Ephraim and D. Malah, (1985), “Speech [5]. S.F. Boll, “Suppression of Acoustic Noise in enhancement using a minimum mean square error Speech Using Spectral Subtraction” , IEEE Transactions on Acoustics, Speech, and Signal log-spectral amplitude estimator” IEEE Trans. on Processing, vol. 27, April 1979, pp. 113-120. ASSP, pp. 443-445. SUMMARY SPEECH DENOISING AND ENHANCEMENT BASED ON DENOISING COMPONENT APPROXIMATIONS AND DETAILS IN THE WAVLET DOMAIN Do Huy Khoi, Nguyen Thanh Trung, Trinh Van Ha * College of Information and Communication Technology - TNU There are many researches about the methods of speech denoising and enhancement using wavelet in the world. Most of researches study the methods to estimate the global or sub band dependent threshold overall signal. In this paper, we present a speech denoising approach using discrete Wavelet transform ,with approximation coefficients based on spectral subtraction method and details coefficients based on MMSE methods. The simulation results show that the noisy speech denoised by our proposed method has higher SNR than the spectral subtraction denoising, the MMSE denoising and the Wavelet denoising of Dohono. Keyword: Wavelet, denoising, spectral subtraction , MMSE, PSNR ( priori signal to noise ratio) speech processing. Ngày nh ận bài:05/10/2012 , ngày ph ản bi ện: 20/10/2012, ngày duy ệt đă ng:10/12/2012 * Tel: 0983 454755, Email: hatvhit@gmail.com 19
File đính kèm:
- phuong_phap_nang_cao_chat_luong_tieng_noi_bang_cach_triet_nh.pdf