Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines
Nhận diện giọng nói là một bài toán thu hút được quan tâm rộng rãi của nhiều nhà nghiên cứu trong lĩnh vực trí
tuệ nhân tạo trong những năm gần đây. Chẳng hạn như bài toán xây dựng chương trình để robot có khả năng nhận
biết giọng nói của con người, hay các thiết bị có thể hiểu và đối thoại trực tiếp với người cùng nói chuyện. Trong
nghiên cứu này, 37 sinh viên của Học viện Nông nghiệp Việt Nam tham gia để thu thập dữ liệu phát âm liên tục 29
chữ cái trong bảng chữ cái tiếng Việt. Qua bước tiền xử lý dữ liệu để trích xuất ra các mẫu âm thanh thuộc tính cho
phân lớp, phương pháp nhận dạng chúng tôi sử dụng để nhận diện các mẫu giọng nói là deep Boltzmann machine
(DBM), một mạng có khả năng học sâu với kiến trúc nhiều tầng ẩn. Để đánh giá khả năng nhận dạng của phương
pháp đề xuất, chúng tôi so sánh DBM với mạng nơron truyền thống (NN) có cùng kiến trúc số tầng ẩn. Kết quả cho
thấy khả năng nhận dạng các mẫu âm thanh chữ cái tốt hơn của DBM với khả năng học cho độ chính xác trung bình
là 68% trên dữ liệu đào tạo và 51% khi thử với dữ liệu test, trong khi kết quả này của NN là 61% và 48% tương ứng.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Tóm tắt nội dung tài liệu: Nhận dạng giọng chữ cái tiếng Việt sử dụng Deep Boltzmann Machines
nhau giĂa nghệ thông tin, Học viện Nông nghiệp Việt hai miền Bíc và Nam (James & cs., 2010; Nam, họ đã đồng ý tham gia cho thu âm giọng Hoàng Thð Châu, 1999; Phuong & cs., 2008), nói cûa mình. Trong khâu thu thêp dĂ liệu, mýc đích cûa nghiên cĀu này nhìm xây dăng chúng tôi dăa trên các bþĆc sau: tÿng bþĆc một chþĄng trình máy tính cò thể BþĆc 1: Thiết kế bâng thu thêp dĂ liệu bao nhên biết chĂ cái thông qua nhiều giọng phát gồm thông tin về dă án nghiên cĀu, mýc đích âm khác nhau, dæn tÿng bþĆc phát triển lên nghiên cĀu, các thóa thuên xin dĂ liệu, cam kết nhên biết tÿ, câu trong tiếng Việt, cüng nhþ sā dýng dĂ liệu và thông tin ngþąi phý trách. phát triển chþĄng trình trĉ giúp ngþąi học phát Mỗi cá nhân tham gia quá trình thu méu hoàn âm tiếng Việt trong tþĄng lai. toàn đþĉc phổ biến các thông tin này và ký thóa Việc triển khai các Āng dýng cûa trí tuệ thuên tă nguyện cüng nhþ tinh thæn sïn sàng nhân täo vào nhên diện các hoät động cûa con trĉ giúp cho nghiên cĀu. ngþąi đã và đang thu hút rçt nhiều nhóm BþĆc 2: Tìm hiểu thiết bð thu âm thanh. nghiên cĀu. Chîng hän nhþ nhòm nghiên cĀu Dăa trên điều kiện vêt chçt và tìm hiểu các cûa Thinh & cs. (2018), hay nghiên cĀu cûa phæn mềm thu âm. Cçu hình cách đðt thiết bð Orken & cs. (2019) cho thçy nhĂng nghiên cĀu thu âm, chîng hän nhþ, tæn số lçy méu, cçu triển khai Āng dýng cûa thð giác máy tính và trúc tệp âm thanh thu đþĉc. Chúng tôi đi đến sā học sâu vào nhên diện hoät động cûa con ngþąi. dýng phæn mềm windows recorder, đþĉc xem là Các nghiên cĀu đò đòng gòp thêm vào khâ nëng thuên tiện triển khai vĆi nhóm nghiên cĀu. Āng dýng đa däng cûa trí tuệ nhân täo trong BþĆc 3: Lên qui trình và têp huçn lçy méu thăc tế. gồm: (i) phổ biến cho ngþąi tham gia lçy méu về Gæn đåy, các phþĄng pháp cûa học såu đã mýc đích và cam kết đâm bâo thông tin, (ii) têp chĀng tó khâ nëng Āng dýng cao vào các bài huçn cho ngþąi phý trách thu âm về qui trình toán phân tích dĂ liệu lĆn và nò đang cuốn hút này, và (iii) tiến hành thu âm sau khi đã liên läc nhiều quan tâm (Lecun & cs., 2015; vĆi các sinh viên tình nguyện. 436 Hoàng Thị Thanh Giang, Nguyễn Thị Thúy Hạnh, Nguyễn Trọng Kương 0,4 0,2 0,0 -0,2 -0,4 0,4 0,2 0,0 -0,2 -0,4 Hình 6. Biểu diễn sóng âm của hai mẫu âm thanh Kết quâ các méu åm thanh thu đþĉc là 37 khoâng thąi gian cho các vùng đò khoâng 0,7 tệp âm thanh cûa 37 sinh viên tình nguyện, giåy, nghïa là cò kích thþĆc bìng 0,7*FS. trong đò mỗi tệp là giọng phát âm liên tiếp cûa Để xác đðnh các vùng âm thanh tþĄng Āng 29 chĂ cái trong bâng chĂ cái tiếng Việt dăa vĆi nhãn là các chĂ cái, trþĆc hết chúng tôi dăa theo tÿ điển tiếng Việt cûa Hoàng Phê (2010). vào các điểm đînh (peak points) ć đò theo tốc độ Biểu diễn däng sóng cûa một tệp âm thanh đþĉc phát âm trung bình là 0,7*FS cho mỗi chĂ cái mình họa ć hình 1. nên các điểm đînh phâi cách nhau tþĄng tă là 0,7*FS. Vùng âm thanh thuộc tính quan tâm sẽ 2.2. Xử lý và trích xuất đoạn âm thanh đþĉc trích ra xung quanh các điểm đînh. Mỗi thuộc tính vùng sóng âm tþĄng Āng vĆi mỗi chĂ cái cho Để tiền xā lý, chuèn hóa dĂ liệu và trích thçy biên độ ć vùng đò đþĉc dao động mänh hĄn xuçt đoän âm thanh thuộc tính phýc vý cho học nhþ đþĉc thể hiện ć hình 2. và phân lĆp (mäng phân lĆp đþĉc trình bày Khi vùng åm thanh đþĉc xác đðnh, lçy điểm trong mýc 2.3), trþĆc hết tæn số lçy méu đþĉc trung vð chia đôi nëng lþĉng sóng âm cûa vùng chúng tôi lçy chuèn là FS = 22.050 méu/giây. đò làm tåm, đoän âm thanh thuộc tính cò độ dài Thông thþąng, dĂ liệu chúng tôi thu âm có 2 là 0,7*FS lçy trung vð làm điểm giĂa đþĉc xác mĀc tæn số lçy méu là 44.100 méu/giây và đðnh là đoän âm thanh thuộc tính tþĄng Āng vĆi 22.050 méu/giây. mỗi chĂ cái. Mô tâ sóng âm cûa một chĂ cái và Quan sát ć hình 1, dễ thçy rìng dăa vào điểm trung vð đþĉc thể hiện ć hình 3. biên độ dao động cho ta xác đðnh vùng tþĄng Āng vĆi giọng phát âm cûa một chĂ cái nào đò. 2.3. Mạng deep Boltzmann machine Khi thiết lêp một ngþĈng ngít cûa biên độ thì 2.3.1. Mạng restricted Boltzmann machine cho phép ta tách các vùng tþĄng Āng vĆi mỗi nhãn là các chĂ cái tþĄng Āng, đò là các vùng (RBM) chuẩn quan tâm (ROI) cho việc trích ra các đoän âm Mäng restricted Boltzmann machine (RBM) thanh thuộc tính phýc vý cho việc phân lĆp. Khi là một kiểu mäng nĄron học phân bố xác suçt thống kê tÿ dĂ liệu chúng tôi cò đþĉc trung bình cûa dĂ liệu đæu vào, ć đò về kiến trúc, nó sā 437 Nhận dạng giọng chữ cái tiếng Việt sử dụng deep Boltzmann machines dýng các biến trong tæng èn h = (h1, h2,„, hH) để Ex,h wxh bx ch (1) ij i j i i j j học phân phối cûa các biến biểu diễn dĂ liệu cæn i,j i j học hay dĂ liệu input x = (x1, x2,„, xN). Mỗi đĄn Phân phối đồng thąi P(x, h) cûa và đþĉc xác vð xi có să kết nối vĆi trọng số wij tĆi mỗi đĄn vð đðnh bći phþĄng trình (2) sau: h . Không có să kết nối giĂa các đĄn vð trong j exp E x,h cùng tæng èn hay cùng tæng dĂ liệu. Các trọng P x,h (2) Z số bi và cj phân ánh mĀc độ tác động cûa mỗi đĄn vð xi và hj tþĄng Āng trong mäng. Mäng ć đò Z là hìng số chuèn hóa. Xác suçt có RBM học thông qua việc điều chînh hàm nëng điều kiện cho các đĄn vð hj và xi đþĉc xác đðnh lþĉng xác đðnh bći công thĀc (1): dăa theo phân phối Boltzmann bći (3) và (4): 1,0 0,5 0,0 -0,5 -1,0 1,0 0,5 0,0 -0,5 -1,0 Hình 7. Trích xuất vùng sóng âm tương ứng với nhãn dựa vào các điểm đînh 0,2 0,1 0,0 -0,1 -0,2 Hình 8. Xác định đoạn sóng âm thuộc tính cho phân lớp dựa vào trung vị 438 Hoàng Thị Thanh Giang, Nguyễn Thị Thúy Hạnh, Nguyễn Trọng Kương Hình 9. Mô hình RBM chuẩn với tầng input x và tầng ẩn h Hình 10. Mô hình mạng classRBM Hình 11. Mô hình mạng DBM còn läi bìng 0. Khi đò tþĄng tă nhþ mäng RBM P h x sigm w x c (3) j ij i j chuèn, hàm nëng lþĉng đþĉc cho bći các phþĄng i trình (5) dþĆi đåy: và Ex,h,y wxh bx k ij i j i i P x h sigm w h b (4) i,j i i ij j i (5) j c h U xh d j j kj j k jj 1 ć đò sigm x là hàm sigmoid. x 1e ć đò Ukj. dk là các trọng số kết nối vĆi các Mäng RBM chuèn đþĉc mô tâ nhþ ć hình 4. đĄn vð èn và trọng số cûa đĄn vð nhãn tþĄng Mäng RBM chuèn đþĉc trang bð thuêt toán Āng. Không có kết nối giĂa các đĄn vð nhãn vĆi CD-k (Hilton, 2012), nó cho phép mäng có thể các đĄn vð input. Phân phối đồng thąi cûa các học không giám sát (unsupervised learning) đĄn vð đþĉc xác đðnh bći: phân phối đồng thąi giĂa các đĄn vð tæng èn và exp E x,h,y tæng input. Ở một nghïa nào đò, tæng èn tham P x,h,y (6) gia vào học phân phối cûa input và đòng vai trñ Z làm rút ngín số chiều cûa tæng input. ć đò Z là hìng số chuèn hóa. Các xác suçt có điều kiện đþĉc xác đðnh bći: 2.3.2. Mạng restricted Boltzmann machine phân lớp P h x,y sigm w x U c (7) j k ij i kj j i Mäng RBM phân lĆp (classification restricted Boltzmann machine - classRBM) là và một trþąng hĉp mć rộng cûa RBM bìng cách P x h sigm w h b (8) thêm các đĄn vð mã hòa cho nhãn tþĄng Āng vĆi i ij j i các input (Hugo & cs., 2012). Cý thể, nếu các j input x có nhãn là k trong số K lĆp cûa dĂ liệu exp U h d j kj j k P y h (9) thì lĆp cho nhãn gồm K đĄn vð xác đðnh bći qui k exp U h d ljlj j l tíc “one-hot”, hay đĄn vð thĀ k có giá trð bìng 1 439 Nhận dạng giọng chữ cái tiếng Việt sử dụng deep Boltzmann machines Xác suçt hêu nghiệm cho việc xác đðnh Cçu hình cho mäng DBM trong nghiên cĀu phân lĆp là: này là 700 × 150, tĀc là ć tæng èn thĀ nhçt có exp d f w x U c 700 nĄron tham gia và tæng èn thĀ 2 có 150 kji ij i kj j P y h nĄron tham gia. GiĂa tæng input x và tæng èn h1 k exp d f w x U c yl l j i ij i lj j là mäng RBM đþĉc đào täo bći thuêt toán CD-1 nhþ giĆi thiệu bći Hilton (2012). GiĂa tæng èn (10) h1 và tæng èn h2 có să tham gia cûa lĆp nhãn ć đò f(x) = log(1 + exp(x)) là hàm softplus. hay là mäng classRBM và đþĉc đào täo bći Mô hình classRBM đþĉc minh họa ć hình 5. thuêt toán học có giám sát cûa classRBM đþĉc Nhþ vêy khi trang bð thêm tæng nhãn thì trình bày bći Hugo & cs. (2012). Các tham số W, mäng classRBM phýc vý cho việc học có giám U, b, c, d ban đæu đþĉc sinh ngéu nhiên và nhó sát (supervise learning). ClassRBM đã đþĉc trong giĆi hän [-10-3, 10-3]. chĀng tó khâ nëng đào täo hiệu quâ vĆi các thuêt toán đþĉc trang bð nhþ đã đþĉc trình bày Để đánh giá khâ nëng học cûa DBM, chúng bći Hugo & cs. (2012). tôi so sánh kết quâ cûa DBM vĆi mäng nĄron truyền thống thông thþąng (NN) trong cùng cçu 2.3.3. Mạng deep Bolzmann machine và trúc kích thþĆc cûa mäng, nghïa là mäng nĄron học sâu đþĉc sā dýng có 2 tæng èn cò kích thþĆc læn lþĉt Mäng deep Boltzmann machine (DBM) là là 700 và 150, và các tham số cûa mäng NN să xếp chồng cûa nhiều RBMs (Lecun & cs., cüng đþĉc thiết lêp tþĄng tă nhþ DBM. Thống 2015). VĆi thuêt toán hiệu quâ CD-k, nó cho kê về độ chính xác cûa phân lĆp ć một trþąng phép tæng èn h tham gia vào học phân phối cûa hĉp tốt nhçt cûa DBM và NN trong đào täo và input, đồng thąi tæng èn läi tham gia nhþ là một test đþĉc thể hiện ć bâng 1. input cho tæng èn tiếp theo. Đò là cĄ sć đèy Để thçy đþĉc quá trình đào täo cûa mäng mänh să phát triển mäng học sâu. Trong nghiên qua tÿng bþĆc học và cêp nhêt tham số, sau mỗi cĀu này chúng tôi sā dýng mäng DBM vĆi 2 bþĆc độ chính xác cûa phân lĆp đþĉc kiểm tra và tæng èn ć đò tæng èn thĀ hai có să tham gia cûa tính. Việc này đþĉc thể hiện ć hình 7. Ở đåy mäng classRBM, nghïa là, việc đào täo ć mäng chúng tôi tiến hành thăc hiện đào täo mäng ć thĀ 2 là học có giám sát kết hĉp vĆi nhãn để 100 bþĆc, mỗi bþĆc cêp nhêt tham số läi thăc nhên diện các đoän méu âm. Mô hình mäng hiện đánh giá khâ nëng nhên däng các méu cho DBM đþĉc sā dýng trong nghiên cĀu này đþĉc học và méu cho test lçy kết quâ. mô tâ ć hình 6. 3. KẾT LUẬN 2.4. Kết quâ phân lớp Nghiên cĀu này đã thu thêp đþĉc bộ dĂ liệu Bìng phþĄng pháp trích xuçt tă động nhþ đþĉc trình bày trong phæn 2.2, chúng tôi tiến méu phát âm bâng chĂ cái tiếng Việt tÿ 37 sinh hành kiểm tra läi và loäi bó các đoän có nhiễu âm viên tình nguyện trong Học viện Nông nghiệp hoðc các giọng phát âm không thăc să chính xác. Việt Nam. Mðc dù dĂ liệu chúng tôi thu đþĉc Cuối cùng, chúng tôi thu đþĉc 817 méu âm cûa chþa đû lĆn, và chþa thể đæy đû so vĆi să đa 29 chĂ cái theo cách phát âm dăa cûa tÿ điển cûa däng cûa giọng phát âm tiếng Việt nói chung, Hoàng Phê (2010). DĂ liệu cho đào täo (training nghiên cĀu cüng gòp phæn bổ sung thêm cĄ sć data) và kiểm tra (test data) đþĉc chúng tôi chia và dĂ liệu cæn thiết cho các nghiên cĀu såu hĄn ngéu nhiên theo tî lệ 4:1 tþĄng Āng. trong lïnh văc này. Bâng 1. Kết quâ so sánh độ chính xác trong đào tạo và test của DBM và NN DBM NN Độ chính xác với dữ liệu đào tạo 68% 61% Độ chính xác với dữ liệu test 51% 48% 440 Hoàng Thị Thanh Giang, Nguyễn Thị Thúy Hạnh, Nguyễn Trọng Kương 0,7 0,6 0,5 0,4 0,3 0,2 0,1 Hình 7. Độ chính xác nhận dạng của DBM và NN qua các bước Sā dýng mäng DBM trong nghiên cĀu này in Computer Science, Springer Berlin. 7700: 599-619. cüng đã chĀng tó đþĉc khâ nëng nhên däng Hoàng Thị Châu (1999). Tiếng Việt trên các miền đất méu âm thanh và nó cho thçy Āng dýng cûa học nước (Phương ngữ học). Nhà xuất bản Khoa học sâu trong nhiều lïnh văc tính toán nói chung và Xã hội, Hà nội. nhên diện giọng nói nói chung. Cho dù vêy, việc Hoàng Phê (2010). Từ điển tiếng Việt. Nhà xuất bản câi thiện khâ nëng học cûa mäng DBM cüng cæn Đà Nẵng. xem xét hĄn nĂa sau này. Cçu hình và thiết lêp Hugo L., Michael M., Razvan P. & Yoshua B. (2012). các tham số tối þu Āng vĆi dĂ liệu cò đþĉc cüng Learning algorithms for the classification restricted Boltzmann machine. Machine Learning Research. cæn cò đánh giá thêm. 13(1): 643-669. James K. (2010). Dialect experience in Vietnamese LỜI CẢM ƠN tone perception. The Journal of the Acoustical Society of America. 127(6): 3749-3757. Nghiên cĀu này đþĉc thăc hiện tÿ nguồn Kazuhiro N., Toru T., Hiroshi G.O., Hirofumi N., Yuji kinh phí cûa đề tài: “Nhên diện chĂ cái tiếng H. & Hiroshi T. (2010). Design and Việt qua dĂ liệu phát âm cûa một nhóm sinh implementation of robot audition system HARK - viên Học viện Nông nghiệp Việt Nam”, mã số: open source software for listening to three simultaneous speakers. Advanced Robotics. T2019-10-55, cçp bći Học viện Nông nghiệp 24(5): 739-761. Việt Nam. Chúng tôi cüng xin câm Ąn nhòm Kuong N.T., Uchino E. & Suetake N. (2017). IVUS sinh viên Khoa Công nghệ thông tin đã tham tissue characterization of coronary plaque by gia tình nguyện trĉ giúp cho việc thu thêp dĂ classification restricted Boltzmann machine. liệu phýc vý cho nghiên cĀu này. Journal of Advanced Computational Intelligence and Intelligent Informatics. 21(1): 67-73. Kuong N.T., Uchino E. & Suetake N. (2018a). TÀI LIỆU THAM KHẢO Recognition of coronary atherosclerotic plaque tissue on intravascular ultrasound images by using Dhar V. (2015). Data science and prediction. misclassification sensitive training of Communications of the ACM, 56 (12): 64-73. discriminative restricted boltzmann machine. Hilton E.G. (2012). A practical guide to training Journal of Biomimetics, Biomaterials and restricted Boltzmann machines. Lecture Notes Biomedical Engineering. 37: 85-93. 441 Nhận dạng giọng chữ cái tiếng Việt sử dụng deep Boltzmann machines Kuong N.T., Uchino E. & Suetake N. (2018b). Samuel S., Huili C., Safinah A., Michael K. & Coronary plaque classification with accumulative Cynthia B. (2018). A social robot system for training of deep Boltzmann machines. ICIC modeling children's Word pronunciation: socially Express Letters. 12(9): 881-886. interactive agents track. Proceedings of the 17th Lecun Y., Yoshua B. & Hinton E.G. (2015). Deep international conference on autonomous agents learning. Nature. 521(7553): 436-444. and multi-agent systems. pp. 1658-1666. Orken M., Nurbapa M., Mussa T., Nurzhamal O., Schmidhuber J. (2015). Deep Learning in neural Tolga I.M. & Aigerim Y. (2019). Voice networks: an overview. Neural Networks. identification using classification algorithms. 61: 85-117. Intelligent system and computing. Book chapter, Thinh D.B, Dat T.T., Thuy T.N., Long Q.T. & Van InTechOpen. D.N. (2018). Aerial Image Semantic Phuong P.A., Tao N.Q. & Mai L.C. (2008). An efficient Segmentation using Neural Search Network model for isolated Vietnamese handwritten Architecture. In Proceedings of Multi- recognition. Proceedings of 2008 international Disciplinary International Conference on conference on intelligent information hiding and Artificial Intelligence (MIWAI), Lecture Notes in multimedia signal processing. pp. 358-361. Artificial Intelligence, Springer. 442
File đính kèm:
- nhan_dang_giong_chu_cai_tieng_viet_su_dung_deep_boltzmann_ma.pdf