Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh
Dịch máy là lĩnh vực đang rất được quan tâm do
nhu cầu chuyển ngữ một số lượng lớn văn bản trong
thời gian nhanh nhất. Lịch sử phát triển dịch máy đã
nhắc đến nhiều phương pháp khác nhau: dịch trực tiếp
từng từ, dịch dựa trên luật, dịch máy đa ngôn ngữ,
dịch máy thống kê, dịch máy dựa trên ví dụ, dịch máy
theo ngữ nghĩa đệ quy tối thiểu, dịch dựa trên ràng
buộc.
Hiện nay ở Việt Nam đã tồn tại một số hệ thống
dịch máy như: EVtran - VEtran của Nacentech [9],
Vietgle của Lạc Việt, EVTS của Đại học Công nghệ -
ĐHQG Hà Nội [13], Google Translation của Google,
hệ thống dịch của Đại học Bách khoa - ĐHQG TP Hồ
Chí Minh [21], hệ thống dịch dựa trên việc học luật
chuyển đổi của Đại học Khoa học Tự nhiên - ĐHQG
TP Hồ Chí Minh [8]. Các hệ thống kể trên chủ yếu là
hệ thống dịch Anh - Việt để tận dụng nguồn tài
nguyên ngôn ngữ phong phú của Tiếng Anh. Số lượng
hệ thống dịch Việt - Anh ít hơn nhiều: chỉ có hai hệ
thống nổi bật là VEtran dựa trên luật và Google
Translation theo cách tiếp cận thống kê.
Do tài nguyên phục vụ cho dịch máy liên quan đến
Tiếng Việt không nhiều, cách tiếp cận dựa trên luật
vẫn được phổ biến nhất ở Việt Nam, đặc biệt là trong
dịch máy Việt - Anh.
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh
ưa ra bản dịch “good doctor” trong khi VEtran dùng cụm từ “jurisprudent physician” về nghĩa trong từ điển Việt Anh không khác biệt nhưng không sát nghĩa thực tế. 2. “Báo_săn là loài động_vật nhanh nhất thế_giới” Kết quả phân tích cú pháp # +-----LA_DT-----+ # +-DT_LA-+ +---ĐV--+--DT_TT-+-TT_SS+---NHAT_DTv--+ # | | | | | | | # Báo_săn.n là.v loài động_vật.n nhanh.a nhất thế_giới.n Các dạng tuyển nhận được: báo săn: ()(DT_LA) là: (DT_LA)(LA_DT) loài: ()(ĐV) động vật: (ĐV LA_DT)(DT_TT) nhanh: (DT_TT)(TT_SS) nhất: (TT_SS)(NHAT_DT) thế giới: (NHAT_DTv)() Quá trình dịch thông qua nhiều luật được mô tả trong Hình 5. Hình 5. Quá trình dịch câu “Báo săn là loại động vật nhanh nhất thế giới” Các công trình nghiên cứu, phát triển và Kết quả thực hiện của hệ thống dịch ADJ Cheetah is the quickest animal world Kết quả thu được với VEtran: Cheetah is world' s fast animal the kind. Kết quả do Google đưa ra: Alert hunt is the world's fastest Cả ba bản dịch đều có những hạn ch ADJ đã không phát hiện được quan h “thế giới” trong khi bản dịch của VEtrans d quan hệ đó nhưng lại không dịch đượ cấp cao nhất và dịch sai từ “loài”. Google dịch rất tốt cụm từ “nhanh nh nhưng lại gặp lỗi ở từ “báo săn”. So sánh trên toàn thể bộ ngữ liệu, có th những cụm từ thường dùng, Google cho k ngôn ngữ thực hơn. Tuy nhiên kết qu dịch của chúng tôi và VEtran thường đ và hình thái, trong đó hệ thống dịch c phần “trôi chảy” hơn, do mối liên k đến từng từ cá biệt.Rõ ràng việc kết h pháp khác nhau sẽ nâng chất lượng c cao hơn. Hiện nay chúng tôi chưa có một bộ để giải quyết triệt để vấn đề nhập nh tích cú pháp, do vậy độ chính xác của b pháp còn chưa cao. Đối với bộ ngữ thoại, còn nhiều cụm ở dạng văn nói, ch ngữ liệu toàn các câu văn viết, nên k bộ phân tích cú pháp còn th xác(precision): 22.7%, độ phủ (recall): 28.8%, F-score: 0.28). Nếu dùng nguyên dạng k phân tích cú pháp, có thể không đánh giá chính xác chất lượng của hệ thống dịch. Để nghiên c tổng thể về ảnh hưởng của các thành ph thống đến chất lượng dịch, chúng tôi đ trên 2 hệ thống sau: ADJ1: Cho phép loại bỏ bớt những sai sót có th trong quá trình phân tích cú pháp bằng một số ràng buộc để chọn chính xác phân tích c cụ thể là báo trước một số cặp từ chắ liên kết. Đây cũng là kỹ thuật được dùng trong ứng dụng CNTT-TT Tập V-1, - 53 - animal ế. Bản dịch của ệ sở hữu của từ ịch được c tính từ so sánh Bản dịch của ất thế giới” ể thấy với ết quả giống ả của hệ thống úng về cú pháp ủa chúng tôi có ết được xác lập ợp các phương ủa bản dịch lên ngữ liệu đủ lớn ằng trong phân ộ phân tích cú liệu 336 câu hội ưa có trong ết quả trả về của ấp (độ chính độ đo ết quả của bộ ứu một cách ần trong hệ ã thử nghiệm ể có cách xác định ủa câu, c chắn xuất hiện [14] để hạn chế số phân tích đưa ra. Câu quả tách từ. Độ chính xác c cho ADJ1 là 80.2%, độ phủ 81.4%, F ADJ2: Không cho phép ràng bu Dù bộ ngữ liệu còn nh phương pháp BLEU [17] vớ so sánh với kết quả đạt đượ Kết quả nhận được thể hiện trong Bảng 2. So sánh kết quả các h Google VEtran 2 0.169816 0.209987 3 0.133085 0.140612 4 0.109895 0.096798 5 0.090472 0.069292 Biểu đồ trong hình 6 cho phép so sánh của các hệ thống dịch nói trên c thống dịch Việt-Anh phổ bi và VEtrans. Hình 6. So sánh điểm BLEU c IX. KẾT LUẬN Hệ thống dịch sử dụng dạ chúng tôi xây dựng với mục đ năng biểu diễn Tiếng Việt củ vậy, nếu đánh giá như một h được cũng rất đáng chú ý: v từ và phân tích cú pháp, hệ th quả nhỉnh hơn một chút so v ý rằng, để đạt kết quả này, b chưa có tới 300 luật, ít hơn r Số 8 (28), tháng 12/2012 đưa vào đã chỉnh kết ủa bộ phân tích cú pháp -score 0.81. ộc và tách từ. ỏ, chúng tôi đã sử dụng i tham số n = 2, 3, 4, 5 để c của VETran và Google. Bảng 2. ệ thống dịch ADJ1 ADJ2 0.263627 0.157450 0.181787 0.091807 0.127502 0.056950 0.091302 0.036461 điểm BLEU ủa chúng tôi với hai hệ ến là Google Translation ủa các hệ thống ng tuyển có chú giải được ích minh họa cho khả a văn phạm liên kết. Tuy ệ thống dịch, kết quả nhận ới kết quả tốt của bộ tách ống của chúng tôi đạt kết ới Google và VEtran. Chú ộ luật dịch của chúng tôi ất nhiều so với VEtran và Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012 - 54 - cũng không cần sử dụng bộ ngữ liệu song ngữ. Dù mới là thử nghiệm trên bộ ngữ liệu nhỏ, có thể thấy khả năng sử dụng mô hình văn phạm liên kết cho bài toán dịch máy là rất có triển vọng. Tập luật dịch của chúng tôi bao gồm ba tập con . Thứ tự áp dụng luật như trên sơ đồ ở hình 4: xác định thuộc tính→ dịch cụm từ→ chuyển đổi cấu trúc. Sự nhập nhằng khi áp dụng luật( nếu có) chỉ có thể xảy ra trong từng tập con. Tuy nhiên, với văn phạm liên kết, luật chỉ được sử dụng khi thỏa mãn cả hai yếu tố: • Từ đang xét xuất hiện trong luật • Tất cả các mối liên kết của từ được nêu trong luât phải thỏa mãn. Ngoài ra, thuộc tính exclude của một số luật (đã mô tả ở trên) cũng góp phần khử nhập nhằng. Do vậy, khi phân tích cú pháp của câu đã xác định, rất khó xảy ra việc nhập nhằng khi áp dụng luật. Trong ba tập luật của chúng tôi, chưa có luật nào có thể gây nhập nhằng trong lúc lựa chọn. Sự nhập nhằng chủ yếu xảy ra khi phân tích, chẳng hạn với hai câu “tôi bán hoa rất nhanh” và “tôi bán hoa rất tươi” có thể dẫn đến nhầm lẫn khi không có dấu hiệu nào cho thấy tính từ chỉ tính chất bổ nghĩa cho từ “hoa” hay từ “bán”. Tuy nhiên khi đã xác định phân tích, nếu là: # +----SV----+ +--------SA--------+ # + +----O---+ +---RlAp--+ # | | | | | # Tôi.p bán.v hoa.n rất.r tươi.a thì luật về thay đổi trật tự từ được áp dụng. Nếu phân tích được chọn là: # +-----------VtAp------------+ # +----SV---+----O---+ +---RlAp--+ # | | | | | # Tôi.p bán.v hoa.n rất.r nhanh.a thì luật về chuyển loại nghĩa của từ “nhanh” sang phó từ Tiếng Anh lại được áp dụng. Tuy đã đạt được kết quả nhất định trong dịch máy Việt – Anh, hệ thống của chúng tôi vẫn còn những vấn đề chưa giải quyết trọn vẹn: • Dịch câu có cấu trúc liên hợp (coordination) sử dụng kết nối lớn, ví dụ, cụm từ Tiếng Việt trong [7] "một sinh viên khoẻ mạnh, cao và tử tế". Việc dịch loại câu này đòi hỏi một phân tích cú pháp chính xác, chỉ có được khi khử nhập nhằng liên hợp trong câu chứa từ “và “ và dấu phảy. • Dịch câu ghép và câu phức: Câu ghép và câu phức chứa từ hai nòng cốt trở lên, trong đó câu phức có chứa một nòng cốt bao các nòng cốt còn lại [5].Trong tập ngữ liệu mẫu , đã có một số câu ghép 2 mệnh đề, tuy nhiên chất lượng dịch các câu này chưa được tốt. Có thể thấy việc xử lý các loại câu ghép là khả thi vì chúng tôi đã xây dựng được bộ phân tích cú pháp xử lý khá tốt trường hợp nhập nhằng liên hợp và phân tích câu ghép với nhiều mệnh đề. Việc nhận biết giới hạn các mệnh đề trong câu phức, cũng như các thành phần cụm chủ vị đôi khi đòi hỏi thiết lập một liên kết giữa các từ không liền kề. Các xử lý để phân tách mệnh đề hay giải quyến vấn đề nhập nhằng về cụm trạng từ hiện nay đều theo hướng tiếp cận học máy trên tập ngữ liệu lớn. Chúng tôi sẽ tiếp tục phát triển hệ thống theo hướng này khi đã xây dựng được bộ ngữ liệu mẫu đủ lớn. Một vấn đề khác cũng gây khó khăn cho chúng tôi: dịch cụm từ dạng n - 1 (n từ Tiếng Việt sang 1 từ Tiếng Anh). Ngoài những cụm từ rất phổ biến mà chúng tôi đã xử lý, cần đến sự hỗ trợ của từ điển thành ngữ và bộ ngữ liệu mẫu song ngữ. Với đặc điểm hoàn toàn từ vựng hóa của văn phạm liên kết, bộ luật dịch của hệ thống thể hiện được những đặc điểm hết sức riêng và cá biệt của ngôn ngữ nguồn và ngôn ngữ đích.Công việc này chắc chắn cần những hiểu biết sâu về cú pháp, từ pháp của cả hai ngôn ngữ. Bộ luật dịch có thể thay đổi hoàn toàn nếu thay đổi cặp ngôn ngữ nguồn – đích, nghĩa là khó có thể sử dụng cho cặp ngôn ngữ khác. Tuy nhiên, để mở rộng hệ thống dịch, có thể quan tâm đến công cụ cho phép các nhà ngôn ngữ định nghĩa các quy tắc cú pháp [4]. Nếu theo hướng tiếp cận này, việc phân tích cú pháp theo biểu đồ (chart parsing) từ văn phạm liên kết cũng dễ hơn so với các mô hình khác vì phân tích liên kết thực chất đã có dạng biểu đồ. Như vậy có thể tính đến khả năng mở rộng hệ thống dịch cho các cặp ngôn ngữ khác. Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012 - 55 - Như đã trình bày ở đầu bài, do chưa đủ tài nguyên để xây dựng một hệ thống dịch máy thật hoàn thiện, hệ thống dịch máy của chúng tôi nhằm mục đích minh họa khả năng biểu diễn Tiếng Việt của văn phạm liên kết. Tuy nhiên, với chất lượng dịch khá thuyết phục, việc kết hợp mô hình dịch này với hệ thống dịch theo cách tiếp cận thống kê chắc chắn sẽ nâng cao được chất lượng bản dịch do có thể kết hợp sự trôi chảy của phương pháp thống kê với sự chính xác của những biến đổi hình thái và cú pháp. Một trong những minh chứng cho điều đó là sự kết hợp phân tích liên kết để hoàn chỉnh bản dịch ở hệ dịch máy trên nền ví dụ. Tỷ lệ câu dịch hoàn toàn đúng với câu mẫu đã tăng khá nhiều. Kết hợp giữa cách tiếp cận thống kê và văn phạm liên kết là hướng phát triển của hệ thống trong thời gian tới. PHỤ LỤC. Chú thích ý nghĩa các kết nối SV: Kết nối danh từ, đại từ xưng hô làm chủ ngữ với động từ. SA: Kết nối danh từ, đại từ xưng hô với tính từ. DT_LA: Kết nối danh từ, đại từ xưng hô với động từ quan hệ “là”. LA_DT: Kết nối động từ “là” với danh từ. O: Kết nối động từ và bổ ngữ trực tiếp. DI: Kết nối động từ “đi” với động từ khác. NtPd: Kết nối danh từ cụ thể với đại từ chỉ định. DpNt: Kết nối định từ chỉ số nhiều với danh từ cụ thể. RpVt: Kết nối định từ chỉ thì quá khứ và động từ. RfVt: Kết nối định từ chỉ thì tương lai và động từ. EpNt: Kết nối giới từ chỉ vị trí và danh từ cụ thể. VtEp : Kết nối ngoại động từ và giới từ vị trí. VtAp: Kết nối ngoại động từ và tính từ chỉ tính chất. VmVt: Kết nối động từ tình thái và động từ cụ thể. EoPp: Kết nối giới từ “của” với đại từ xưng hô. SHA: Kết nối hai danh từ chỉ quan hệ sở hữu ẩn. RnV: Kết nối phủ định từ và động từ. THT: kêt nối các từ để hỏi và động từ. SS_NHAT: Kết nối tính từ với từ “nhất”. NHAT_DT: Kết nối từ “nhất” với danh từ đứng sau. Các kết nối có tên bắt đầu và kết thúc bằng “_” là kết nối của Tiếng Anh (theo [19]). TÀI LIỆU THAM KHẢO [1] Adji, T.B. Applying Link Grammar Formalism in the Development of English-Indonesian Machine Translation System. Proceedings of the 9th AISC International Conference, Intelligent Computer Mathematics , Springer, 2008, p17-23 [2] T.B. Adji, B. Baharudin, N. Zamin. Annotated Disjunct in Link Grammar for Machine Translation. International Conference on Intelligent and Advanced Systems ,Kuala Lumpur, 2007, p. 205-208 [3] T.B. Adji, Baharudin B., N. Zamin, Building Transfer Rules using Annotated Disjunct: An Approach for Machine Translation, The 8 th Student Conference on Research and Development, December 2007, Malaysia. [4] Amtrup. J.W.,Mergerdoomian K, Zajac R. Rapid Development of Translation Tool. Proceedings of Machine Translation Summit,1999, p 385-389 [5] DiÖp Quang Ban. Ngữ pháp Tiếng Việt. NXB Giáo dục, 1989 [6] D. BÐchet. k-Valued Link Grammars are Learnable from Strings. Proceedings of Formal Grammar, Vienna, Austria, 2003, pp. 9-18. [7] ®inh ®iÒn. So-sánh trật-tự từ của định-ngữ giữa Tiếng Anh và Tiếng Việt. Tập san Khoa học xã hội và nhân văn- Đại học KHXHNV Thành phố Hồ Chí Minh, 2011,tr 69-80 [8] ®inh ®iÒn. Dịch tự động Anh Việt dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ. Luận án Tiến sĩ, ĐHKHTN- ĐHQG TP Hồ Chí Minh, 2002. [9] Lª Kh¸nh Hïng. Nghiên cứu xây dựng thử nghiệm phần mềm dịch tự động Việt-Anh. Báo cáo tổng kết đề tài nhánh cấp nhà nước KC-01-03, 2004. [10] Nguyen Thi Thu Huong, Pham Nguyen Quang Anh A link Grammar for Vietnamese. Journal on Information and Communicationn Technology, 8/2011 p 27-38. [11] Iyer R., Ostendorf. Modelling Long Distance Dependency in Language: topic mixture and Dynamic Case Model, Speech and Audio Processing, IEEE Transactions on, Jan.1999, p30-39. [12] Kadambini K, Rama Sree R.J., Rama Krishnamacharyulu K.V. An English-Sanskrit Machine Translation Using Link Parser. In Proceedings of National Seminar, Tirupati, 2008. Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012 - 56 - [13] N. L. Minh, N. P. Thai, L. A. Cuong, N. V. Vinh, P.H. Nguyen, H. S. Dam. LVT: An English- Vietnamese Machine Translation System. Hội nghị quốc gia FAIR’03, Hanoi, 10.2003. [14] D. Molla, B. Hutchinson. Intrinsic versus Extrinsic Evaluations of Parsing Systems. Proceedings of EACL Workshop on Evaluation Initiatives in Natural Language Processing, 2003, p 15-21. [15] NguyÔn thiÖn nam.Tiếng Việt nâng cao cho người nước ngoài. NXB Giáo dục, 1998 [16] L. H. Phuong , N. T. M. Huyen, A. Roussanaly , H. T. Vinh A hybrid approach to word segmentation of Vietnamese texts. Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, LATA 2008, Springer LNCS 5196 [17] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the ACL, Philadelphia, July 2002, p. 311-318. [18] Stankevich N.V. Các loại hình ngôn ngữ. NXB Đại học và Trung học chuyên nghiệp, Hà Nội,1982. [19] Daniel K. Sleator, Davy Temperley. Parsing English with Link Grammar. CMU-CS-91-96, October 1991. [20] Nguyen Phuong Thai, Akira Shimazu. Improving Phrase-Based SMTwith Morpho-Syntactic Analysis and Transformation. Proceedings of the 7th Conference of the Association for Machine Translation in the Americas, p 138-147, Cambridge, 8/ 2006. [21] Tran Ngoc Tuan, Phan Thi Tuoi. Syntax- based SMT Model in Adaption to Vietnamese-English Translation. Poster of the 4th Conference RIVF, 2006. [22] [23] [24] Nhận bài ngày: 31/07/2012 SƠ LƯỢC VỀ TÁC GIẢ NGUYỄN THỊ THU HƯƠNG Sinh năm 1964. Tốt nghiệp Đại học Bách khoa Hà Nội năm 1986. Bảo vệ luận án Thạc sỹ ngành CNTT tại Đại học Bách khoa Hà Nội năm 1998. Hiện là giảng viên bộ môn Khoa học Máy tính, Viện Công nghệ Thông tin và truyền thông, Đại học Bách khoa Hà Nội. Lĩnh vực nghiên cứu: Xử lý ngôn ngữ tự nhiên, Lý thuyết ngôn ngữ và phương pháp dịch. Email: huongnt@soict.hut.edu.vn LÊ NGỌC MINH Sinh năm 1989. Tốt nghiệp ngành Khoa học Máy tính, Đại học Bách khoa Hà Nội năm 2012. Hiện đang học Cao học tại khoa Khoa học Nhận thức, Đại học Trento, Trento, Italia. Lĩnh vực nghiên cứu: Dịch máy, Ngữ nghĩa phân phối, Ngôn ngữ học nhận thức. Email: ngocminh.oss@gmail.com
File đính kèm:
- ung_dung_van_pham_lien_ket_trong_dich_may_viet_anh.pdf