Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines

Nhận diện giọng nói là một bài toán thu hút được quan tâm rộng rãi của nhiều nhà nghiên cứu trong lĩnh vực trí

tuệ nhân tạo trong những năm gần đây. Chẳng hạn như bài toán xây dựng chương trình để robot có khả năng nhận

biết giọng nói của con người, hay các thiết bị có thể hiểu và đối thoại trực tiếp với người cùng nói chuyện. Trong

nghiên cứu này, 37 sinh viên của Học viện Nông nghiệp Việt Nam tham gia để thu thập dữ liệu phát âm liên tục 29

chữ cái trong bảng chữ cái tiếng Việt. Qua bước tiền xử lý dữ liệu để trích xuất ra các mẫu âm thanh thuộc tính cho

phân lớp, phương pháp nhận dạng chúng tôi sử dụng để nhận diện các mẫu giọng nói là deep Boltzmann machine

(DBM), một mạng có khả năng học sâu với kiến trúc nhiều tầng ẩn. Để đánh giá khả năng nhận dạng của phương

pháp đề xuất, chúng tôi so sánh DBM với mạng nơron truyền thống (NN) có cùng kiến trúc số tầng ẩn. Kết quả cho

thấy khả năng nhận dạng các mẫu âm thanh chữ cái tốt hơn của DBM với khả năng học cho độ chính xác trung bình

là 68% trên dữ liệu đào tạo và 51% khi thử với dữ liệu test, trong khi kết quả này của NN là 61% và 48% tương ứng.

Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines trang 1

Trang 1

Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines trang 2

Trang 2

Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines trang 3

Trang 3

Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines trang 4

Trang 4

Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines trang 5

Trang 5

Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines trang 6

Trang 6

Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines trang 7

Trang 7

Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines trang 8

Trang 8

pdf 8 trang duykhanh 5980
Bạn đang xem tài liệu "Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines

Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines
 nhau giĂa 
 nghệ thông tin, Học viện Nông nghiệp Việt 
hai miền Bíc và Nam (James & cs., 2010; 
 Nam, họ đã đồng ý tham gia cho thu âm giọng 
Hoàng Thð Châu, 1999; Phuong & cs., 2008), nói cûa mình. Trong khâu thu thêp dĂ liệu, 
mýc đích cûa nghiên cĀu này nhìm xây dăng chúng tôi dăa trên các bþĆc sau: 
tÿng bþĆc một chþĄng trình máy tính cò thể 
 BþĆc 1: Thiết kế bâng thu thêp dĂ liệu bao 
nhên biết chĂ cái thông qua nhiều giọng phát 
 gồm thông tin về dă án nghiên cĀu, mýc đích 
âm khác nhau, dæn tÿng bþĆc phát triển lên 
 nghiên cĀu, các thóa thuên xin dĂ liệu, cam kết 
nhên biết tÿ, câu trong tiếng Việt, cüng nhþ sā dýng dĂ liệu và thông tin ngþąi phý trách. 
phát triển chþĄng trình trĉ giúp ngþąi học phát Mỗi cá nhân tham gia quá trình thu méu hoàn 
âm tiếng Việt trong tþĄng lai. toàn đþĉc phổ biến các thông tin này và ký thóa 
 Việc triển khai các Āng dýng cûa trí tuệ thuên tă nguyện cüng nhþ tinh thæn sïn sàng 
nhân täo vào nhên diện các hoät động cûa con trĉ giúp cho nghiên cĀu. 
ngþąi đã và đang thu hút rçt nhiều nhóm BþĆc 2: Tìm hiểu thiết bð thu âm thanh. 
nghiên cĀu. Chîng hän nhþ nhòm nghiên cĀu Dăa trên điều kiện vêt chçt và tìm hiểu các 
cûa Thinh & cs. (2018), hay nghiên cĀu cûa phæn mềm thu âm. Cçu hình cách đðt thiết bð 
Orken & cs. (2019) cho thçy nhĂng nghiên cĀu thu âm, chîng hän nhþ, tæn số lçy méu, cçu 
triển khai Āng dýng cûa thð giác máy tính và trúc tệp âm thanh thu đþĉc. Chúng tôi đi đến sā 
học sâu vào nhên diện hoät động cûa con ngþąi. dýng phæn mềm windows recorder, đþĉc xem là 
Các nghiên cĀu đò đòng gòp thêm vào khâ nëng thuên tiện triển khai vĆi nhóm nghiên cĀu. 
Āng dýng đa däng cûa trí tuệ nhân täo trong BþĆc 3: Lên qui trình và têp huçn lçy méu 
thăc tế. gồm: (i) phổ biến cho ngþąi tham gia lçy méu về 
 Gæn đåy, các phþĄng pháp cûa học såu đã mýc đích và cam kết đâm bâo thông tin, (ii) têp 
chĀng tó khâ nëng Āng dýng cao vào các bài huçn cho ngþąi phý trách thu âm về qui trình 
toán phân tích dĂ liệu lĆn và nò đang cuốn hút này, và (iii) tiến hành thu âm sau khi đã liên läc 
nhiều quan tâm (Lecun & cs., 2015; vĆi các sinh viên tình nguyện. 
436 
 Hoàng Thị Thanh Giang, Nguyễn Thị Thúy Hạnh, Nguyễn Trọng Kương 
 0,4 
 0,2 
 0,0 
 -0,2 
 -0,4 
 0,4 
 0,2 
 0,0 
 -0,2 
 -0,4 
 Hình 6. Biểu diễn sóng âm của hai mẫu âm thanh 
 Kết quâ các méu åm thanh thu đþĉc là 37 khoâng thąi gian cho các vùng đò khoâng 0,7 
tệp âm thanh cûa 37 sinh viên tình nguyện, giåy, nghïa là cò kích thþĆc bìng 0,7*FS. 
trong đò mỗi tệp là giọng phát âm liên tiếp cûa Để xác đðnh các vùng âm thanh tþĄng Āng 
29 chĂ cái trong bâng chĂ cái tiếng Việt dăa vĆi nhãn là các chĂ cái, trþĆc hết chúng tôi dăa 
theo tÿ điển tiếng Việt cûa Hoàng Phê (2010). vào các điểm đînh (peak points) ć đò theo tốc độ 
Biểu diễn däng sóng cûa một tệp âm thanh đþĉc phát âm trung bình là 0,7*FS cho mỗi chĂ cái 
mình họa ć hình 1. nên các điểm đînh phâi cách nhau tþĄng tă là 
 0,7*FS. Vùng âm thanh thuộc tính quan tâm sẽ 
2.2. Xử lý và trích xuất đoạn âm thanh 
 đþĉc trích ra xung quanh các điểm đînh. Mỗi 
thuộc tính 
 vùng sóng âm tþĄng Āng vĆi mỗi chĂ cái cho 
 Để tiền xā lý, chuèn hóa dĂ liệu và trích thçy biên độ ć vùng đò đþĉc dao động mänh hĄn 
xuçt đoän âm thanh thuộc tính phýc vý cho học nhþ đþĉc thể hiện ć hình 2. 
và phân lĆp (mäng phân lĆp đþĉc trình bày Khi vùng åm thanh đþĉc xác đðnh, lçy điểm 
trong mýc 2.3), trþĆc hết tæn số lçy méu đþĉc trung vð chia đôi nëng lþĉng sóng âm cûa vùng 
chúng tôi lçy chuèn là FS = 22.050 méu/giây. đò làm tåm, đoän âm thanh thuộc tính cò độ dài 
Thông thþąng, dĂ liệu chúng tôi thu âm có 2 là 0,7*FS lçy trung vð làm điểm giĂa đþĉc xác 
mĀc tæn số lçy méu là 44.100 méu/giây và đðnh là đoän âm thanh thuộc tính tþĄng Āng vĆi 
22.050 méu/giây. mỗi chĂ cái. Mô tâ sóng âm cûa một chĂ cái và 
 Quan sát ć hình 1, dễ thçy rìng dăa vào điểm trung vð đþĉc thể hiện ć hình 3. 
biên độ dao động cho ta xác đðnh vùng tþĄng 
Āng vĆi giọng phát âm cûa một chĂ cái nào đò. 2.3. Mạng deep Boltzmann machine 
Khi thiết lêp một ngþĈng ngít cûa biên độ thì 
 2.3.1. Mạng restricted Boltzmann machine 
cho phép ta tách các vùng tþĄng Āng vĆi mỗi 
nhãn là các chĂ cái tþĄng Āng, đò là các vùng (RBM) chuẩn 
quan tâm (ROI) cho việc trích ra các đoän âm Mäng restricted Boltzmann machine (RBM) 
thanh thuộc tính phýc vý cho việc phân lĆp. Khi là một kiểu mäng nĄron học phân bố xác suçt 
thống kê tÿ dĂ liệu chúng tôi cò đþĉc trung bình cûa dĂ liệu đæu vào, ć đò về kiến trúc, nó sā 
 437 
Nhận dạng giọng chữ cái tiếng Việt sử dụng deep Boltzmann machines 
dýng các biến trong tæng èn h = (h1, h2,„, hH) để Ex,h wxh bx ch (1) 
 ij i j  i i  j j
học phân phối cûa các biến biểu diễn dĂ liệu cæn i,j i j
học hay dĂ liệu input x = (x1, x2,„, xN). Mỗi đĄn Phân phối đồng thąi P(x, h) cûa và đþĉc xác 
vð xi có să kết nối vĆi trọng số wij tĆi mỗi đĄn vð đðnh bći phþĄng trình (2) sau: 
h . Không có să kết nối giĂa các đĄn vð trong 
 j exp E x,h 
cùng tæng èn hay cùng tæng dĂ liệu. Các trọng P x,h (2) 
 Z
số bi và cj phân ánh mĀc độ tác động cûa mỗi 
đĄn vð xi và hj tþĄng Āng trong mäng. Mäng ć đò Z là hìng số chuèn hóa. Xác suçt có 
RBM học thông qua việc điều chînh hàm nëng điều kiện cho các đĄn vð hj và xi đþĉc xác đðnh 
lþĉng xác đðnh bći công thĀc (1): dăa theo phân phối Boltzmann bći (3) và (4): 
 1,0 
 0,5 
 0,0 
 -0,5 
 -1,0 
 1,0 
 0,5 
 0,0 
 -0,5 
 -1,0 
 Hình 7. Trích xuất vùng sóng âm tương ứng với nhãn dựa vào các điểm đînh 
 0,2 
 0,1 
 0,0 
 -0,1 
 -0,2 
 Hình 8. Xác định đoạn sóng âm thuộc tính cho phân lớp dựa vào trung vị 
438 
 Hoàng Thị Thanh Giang, Nguyễn Thị Thúy Hạnh, Nguyễn Trọng Kương 
 Hình 9. Mô hình RBM chuẩn với tầng input x và tầng ẩn h 
 Hình 10. Mô hình mạng classRBM Hình 11. Mô hình mạng DBM 
 còn läi bìng 0. Khi đò tþĄng tă nhþ mäng RBM 
 P h x sigm w x c (3) 
 j  ij i j chuèn, hàm nëng lþĉng đþĉc cho bći các phþĄng 
 i
 trình (5) dþĆi đåy: 
 và 
 Ex,h,y wxh bx
 k  ij i j i i
 P x h sigm w h b (4) i,j i
 i  ij j i (5) 
 j c h U xh d
 j j kj j k
 jj
 1 
 ć đò sigm x là hàm sigmoid. 
 x
 1e ć đò Ukj. dk là các trọng số kết nối vĆi các 
Mäng RBM chuèn đþĉc mô tâ nhþ ć hình 4. đĄn vð èn và trọng số cûa đĄn vð nhãn tþĄng 
 Mäng RBM chuèn đþĉc trang bð thuêt toán Āng. Không có kết nối giĂa các đĄn vð nhãn vĆi 
CD-k (Hilton, 2012), nó cho phép mäng có thể các đĄn vð input. Phân phối đồng thąi cûa các 
học không giám sát (unsupervised learning) đĄn vð đþĉc xác đðnh bći: 
phân phối đồng thąi giĂa các đĄn vð tæng èn và exp E x,h,y 
tæng input. Ở một nghïa nào đò, tæng èn tham P x,h,y (6) 
gia vào học phân phối cûa input và đòng vai trñ Z 
làm rút ngín số chiều cûa tæng input. ć đò Z là hìng số chuèn hóa. Các xác suçt có 
 điều kiện đþĉc xác đðnh bći: 
2.3.2. Mạng restricted Boltzmann machine 
phân lớp P h x,y sigm w x U c (7) 
 j k  ij i kj j
 i
 Mäng RBM phân lĆp (classification 
restricted Boltzmann machine - classRBM) là và 
một trþąng hĉp mć rộng cûa RBM bìng cách 
 P x h sigm w h b (8) 
thêm các đĄn vð mã hòa cho nhãn tþĄng Āng vĆi i  ij j i
các input (Hugo & cs., 2012). Cý thể, nếu các j
input x có nhãn là k trong số K lĆp cûa dĂ liệu exp U h d
  j kj j k 
 P y h (9) 
thì lĆp cho nhãn gồm K đĄn vð xác đðnh bći qui k 
 exp U h d
 ljlj j l
tíc “one-hot”, hay đĄn vð thĀ k có giá trð bìng 1 
 439 
Nhận dạng giọng chữ cái tiếng Việt sử dụng deep Boltzmann machines 
 Xác suçt hêu nghiệm cho việc xác đðnh Cçu hình cho mäng DBM trong nghiên cĀu 
phân lĆp là: này là 700 × 150, tĀc là ć tæng èn thĀ nhçt có 
 exp d f w x U c 700 nĄron tham gia và tæng èn thĀ 2 có 150 
 kji ij i kj j 
P y h nĄron tham gia. GiĂa tæng input x và tæng èn h1 
 k 
 exp d f w x U c
 yl l  j  i ij i lj j là mäng RBM đþĉc đào täo bći thuêt toán CD-1 
 nhþ giĆi thiệu bći Hilton (2012). GiĂa tæng èn 
 (10) 
 h1 và tæng èn h2 có să tham gia cûa lĆp nhãn 
 ć đò f(x) = log(1 + exp(x)) là hàm softplus. 
 hay là mäng classRBM và đþĉc đào täo bći 
Mô hình classRBM đþĉc minh họa ć hình 5. 
 thuêt toán học có giám sát cûa classRBM đþĉc 
 Nhþ vêy khi trang bð thêm tæng nhãn thì trình bày bći Hugo & cs. (2012). Các tham số W, 
mäng classRBM phýc vý cho việc học có giám U, b, c, d ban đæu đþĉc sinh ngéu nhiên và nhó 
sát (supervise learning). ClassRBM đã đþĉc 
 trong giĆi hän [-10-3, 10-3]. 
chĀng tó khâ nëng đào täo hiệu quâ vĆi các 
thuêt toán đþĉc trang bð nhþ đã đþĉc trình bày Để đánh giá khâ nëng học cûa DBM, chúng 
bći Hugo & cs. (2012). tôi so sánh kết quâ cûa DBM vĆi mäng nĄron 
 truyền thống thông thþąng (NN) trong cùng cçu 
2.3.3. Mạng deep Bolzmann machine và trúc kích thþĆc cûa mäng, nghïa là mäng nĄron 
học sâu đþĉc sā dýng có 2 tæng èn cò kích thþĆc læn lþĉt 
 Mäng deep Boltzmann machine (DBM) là là 700 và 150, và các tham số cûa mäng NN 
să xếp chồng cûa nhiều RBMs (Lecun & cs., cüng đþĉc thiết lêp tþĄng tă nhþ DBM. Thống 
2015). VĆi thuêt toán hiệu quâ CD-k, nó cho kê về độ chính xác cûa phân lĆp ć một trþąng 
phép tæng èn h tham gia vào học phân phối cûa hĉp tốt nhçt cûa DBM và NN trong đào täo và 
input, đồng thąi tæng èn läi tham gia nhþ là một test đþĉc thể hiện ć bâng 1. 
input cho tæng èn tiếp theo. Đò là cĄ sć đèy Để thçy đþĉc quá trình đào täo cûa mäng 
mänh să phát triển mäng học sâu. Trong nghiên qua tÿng bþĆc học và cêp nhêt tham số, sau mỗi 
cĀu này chúng tôi sā dýng mäng DBM vĆi 2 bþĆc độ chính xác cûa phân lĆp đþĉc kiểm tra và 
tæng èn ć đò tæng èn thĀ hai có să tham gia cûa tính. Việc này đþĉc thể hiện ć hình 7. Ở đåy 
mäng classRBM, nghïa là, việc đào täo ć mäng 
 chúng tôi tiến hành thăc hiện đào täo mäng ć 
thĀ 2 là học có giám sát kết hĉp vĆi nhãn để 
 100 bþĆc, mỗi bþĆc cêp nhêt tham số läi thăc 
nhên diện các đoän méu âm. Mô hình mäng 
 hiện đánh giá khâ nëng nhên däng các méu cho 
DBM đþĉc sā dýng trong nghiên cĀu này đþĉc 
 học và méu cho test lçy kết quâ. 
mô tâ ć hình 6. 
 3. KẾT LUẬN 
2.4. Kết quâ phân lớp 
 Nghiên cĀu này đã thu thêp đþĉc bộ dĂ liệu 
 Bìng phþĄng pháp trích xuçt tă động nhþ 
đþĉc trình bày trong phæn 2.2, chúng tôi tiến méu phát âm bâng chĂ cái tiếng Việt tÿ 37 sinh 
hành kiểm tra läi và loäi bó các đoän có nhiễu âm viên tình nguyện trong Học viện Nông nghiệp 
hoðc các giọng phát âm không thăc să chính xác. Việt Nam. Mðc dù dĂ liệu chúng tôi thu đþĉc 
Cuối cùng, chúng tôi thu đþĉc 817 méu âm cûa chþa đû lĆn, và chþa thể đæy đû so vĆi să đa 
29 chĂ cái theo cách phát âm dăa cûa tÿ điển cûa däng cûa giọng phát âm tiếng Việt nói chung, 
Hoàng Phê (2010). DĂ liệu cho đào täo (training nghiên cĀu cüng gòp phæn bổ sung thêm cĄ sć 
data) và kiểm tra (test data) đþĉc chúng tôi chia và dĂ liệu cæn thiết cho các nghiên cĀu såu hĄn 
ngéu nhiên theo tî lệ 4:1 tþĄng Āng. trong lïnh văc này. 
 Bâng 1. Kết quâ so sánh độ chính xác trong đào tạo và test của DBM và NN 
 DBM NN 
 Độ chính xác với dữ liệu đào tạo 68% 61% 
 Độ chính xác với dữ liệu test 51% 48% 
440 
 Hoàng Thị Thanh Giang, Nguyễn Thị Thúy Hạnh, Nguyễn Trọng Kương 
 0,7 
 0,6 
 0,5 
 0,4 
 0,3 
 0,2 
 0,1 
 Hình 7. Độ chính xác nhận dạng của DBM và NN qua các bước 
 Sā dýng mäng DBM trong nghiên cĀu này in Computer Science, Springer Berlin. 
 7700: 599-619. 
cüng đã chĀng tó đþĉc khâ nëng nhên däng 
 Hoàng Thị Châu (1999). Tiếng Việt trên các miền đất 
méu âm thanh và nó cho thçy Āng dýng cûa học 
 nước (Phương ngữ học). Nhà xuất bản Khoa học 
sâu trong nhiều lïnh văc tính toán nói chung và Xã hội, Hà nội. 
nhên diện giọng nói nói chung. Cho dù vêy, việc Hoàng Phê (2010). Từ điển tiếng Việt. Nhà xuất bản 
câi thiện khâ nëng học cûa mäng DBM cüng cæn Đà Nẵng. 
xem xét hĄn nĂa sau này. Cçu hình và thiết lêp Hugo L., Michael M., Razvan P. & Yoshua B. (2012). 
các tham số tối þu Āng vĆi dĂ liệu cò đþĉc cüng Learning algorithms for the classification restricted 
 Boltzmann machine. Machine Learning Research. 
cæn cò đánh giá thêm. 
 13(1): 643-669. 
 James K. (2010). Dialect experience in Vietnamese 
LỜI CẢM ƠN tone perception. The Journal of the Acoustical 
 Society of America. 127(6): 3749-3757. 
 Nghiên cĀu này đþĉc thăc hiện tÿ nguồn Kazuhiro N., Toru T., Hiroshi G.O., Hirofumi N., Yuji 
kinh phí cûa đề tài: “Nhên diện chĂ cái tiếng H. & Hiroshi T. (2010). Design and 
Việt qua dĂ liệu phát âm cûa một nhóm sinh implementation of robot audition system HARK - 
viên Học viện Nông nghiệp Việt Nam”, mã số: open source software for listening to three 
 simultaneous speakers. Advanced Robotics. 
T2019-10-55, cçp bći Học viện Nông nghiệp 24(5): 739-761. 
Việt Nam. Chúng tôi cüng xin câm Ąn nhòm Kuong N.T., Uchino E. & Suetake N. (2017). IVUS 
sinh viên Khoa Công nghệ thông tin đã tham tissue characterization of coronary plaque by 
gia tình nguyện trĉ giúp cho việc thu thêp dĂ classification restricted Boltzmann machine. 
liệu phýc vý cho nghiên cĀu này. Journal of Advanced Computational Intelligence 
 and Intelligent Informatics. 21(1): 67-73. 
 Kuong N.T., Uchino E. & Suetake N. (2018a). 
 TÀI LIỆU THAM KHẢO Recognition of coronary atherosclerotic plaque 
 tissue on intravascular ultrasound images by using 
Dhar V. (2015). Data science and prediction. misclassification sensitive training of 
 Communications of the ACM, 56 (12): 64-73. discriminative restricted boltzmann machine. 
Hilton E.G. (2012). A practical guide to training Journal of Biomimetics, Biomaterials and 
 restricted Boltzmann machines. Lecture Notes Biomedical Engineering. 37: 85-93. 
 441 
Nhận dạng giọng chữ cái tiếng Việt sử dụng deep Boltzmann machines 
Kuong N.T., Uchino E. & Suetake N. (2018b). Samuel S., Huili C., Safinah A., Michael K. & 
 Coronary plaque classification with accumulative Cynthia B. (2018). A social robot system for 
 training of deep Boltzmann machines. ICIC modeling children's Word pronunciation: socially 
 Express Letters. 12(9): 881-886. interactive agents track. Proceedings of the 17th 
Lecun Y., Yoshua B. & Hinton E.G. (2015). Deep international conference on autonomous agents 
 learning. Nature. 521(7553): 436-444. and multi-agent systems. pp. 1658-1666. 
Orken M., Nurbapa M., Mussa T., Nurzhamal O., Schmidhuber J. (2015). Deep Learning in neural 
 Tolga I.M. & Aigerim Y. (2019). Voice networks: an overview. Neural Networks. 
 identification using classification algorithms. 61: 85-117. 
 Intelligent system and computing. Book chapter, Thinh D.B, Dat T.T., Thuy T.N., Long Q.T. & Van 
 InTechOpen. D.N. (2018). Aerial Image Semantic 
Phuong P.A., Tao N.Q. & Mai L.C. (2008). An efficient Segmentation using Neural Search Network 
 model for isolated Vietnamese handwritten Architecture. In Proceedings of Multi-
 recognition. Proceedings of 2008 international Disciplinary International Conference on 
 conference on intelligent information hiding and Artificial Intelligence (MIWAI), Lecture Notes in 
 multimedia signal processing. pp. 358-361. Artificial Intelligence, Springer. 
442 

File đính kèm:

  • pdfnhan_dang_giong_chu_cai_tieng_viet_su_dung_deep_boltzmann_ma.pdf