Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

Dịch máy là lĩnh vực đang rất được quan tâm do

nhu cầu chuyển ngữ một số lượng lớn văn bản trong

thời gian nhanh nhất. Lịch sử phát triển dịch máy đã

nhắc đến nhiều phương pháp khác nhau: dịch trực tiếp

từng từ, dịch dựa trên luật, dịch máy đa ngôn ngữ,

dịch máy thống kê, dịch máy dựa trên ví dụ, dịch máy

theo ngữ nghĩa đệ quy tối thiểu, dịch dựa trên ràng

buộc.

Hiện nay ở Việt Nam đã tồn tại một số hệ thống

dịch máy như: EVtran - VEtran của Nacentech [9],

Vietgle của Lạc Việt, EVTS của Đại học Công nghệ -

ĐHQG Hà Nội [13], Google Translation của Google,

hệ thống dịch của Đại học Bách khoa - ĐHQG TP Hồ

Chí Minh [21], hệ thống dịch dựa trên việc học luật

chuyển đổi của Đại học Khoa học Tự nhiên - ĐHQG

TP Hồ Chí Minh [8]. Các hệ thống kể trên chủ yếu là

hệ thống dịch Anh - Việt để tận dụng nguồn tài

nguyên ngôn ngữ phong phú của Tiếng Anh. Số lượng

hệ thống dịch Việt - Anh ít hơn nhiều: chỉ có hai hệ

thống nổi bật là VEtran dựa trên luật và Google

Translation theo cách tiếp cận thống kê.

Do tài nguyên phục vụ cho dịch máy liên quan đến

Tiếng Việt không nhiều, cách tiếp cận dựa trên luật

vẫn được phổ biến nhất ở Việt Nam, đặc biệt là trong

dịch máy Việt - Anh.

Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh trang 1

Trang 1

Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh trang 2

Trang 2

Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh trang 3

Trang 3

Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh trang 4

Trang 4

Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh trang 5

Trang 5

Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh trang 6

Trang 6

Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh trang 7

Trang 7

Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh trang 8

Trang 8

Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh trang 9

Trang 9

Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 13 trang xuanhieu 3660
Bạn đang xem 10 trang mẫu của tài liệu "Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh
ưa ra bản dịch 
“good doctor” trong khi VEtran dùng cụm từ 
“jurisprudent physician” về nghĩa trong từ điển Việt 
Anh không khác biệt nhưng không sát nghĩa thực tế. 
2. “Báo_săn là loài động_vật nhanh nhất 
thế_giới” 
Kết quả phân tích cú pháp 
# +-----LA_DT-----+ 
# +-DT_LA-+ +---ĐV--+--DT_TT-+-TT_SS+---NHAT_DTv--+ 
# | | | | | | | 
# Báo_săn.n là.v loài động_vật.n nhanh.a nhất thế_giới.n 
Các dạng tuyển nhận được: 
báo săn: ()(DT_LA) 
là: (DT_LA)(LA_DT) 
loài: ()(ĐV) 
động vật: (ĐV LA_DT)(DT_TT) 
nhanh: (DT_TT)(TT_SS) 
nhất: (TT_SS)(NHAT_DT) 
thế giới: (NHAT_DTv)() 
Quá trình dịch thông qua nhiều luật được mô tả 
trong Hình 5. 
Hình 5. Quá trình dịch câu “Báo săn là loại động vật 
nhanh nhất thế giới” 
Các công trình nghiên cứu, phát triển và 
Kết quả thực hiện của hệ thống dịch ADJ
Cheetah is the quickest animal world
Kết quả thu được với VEtran: 
Cheetah is world' s fast animal the kind.
Kết quả do Google đưa ra: 
Alert hunt is the world's fastest
Cả ba bản dịch đều có những hạn ch
ADJ đã không phát hiện được quan h
“thế giới” trong khi bản dịch của VEtrans d
quan hệ đó nhưng lại không dịch đượ
cấp cao nhất và dịch sai từ “loài”.
Google dịch rất tốt cụm từ “nhanh nh
nhưng lại gặp lỗi ở từ “báo săn”. 
So sánh trên toàn thể bộ ngữ liệu, có th
những cụm từ thường dùng, Google cho k
ngôn ngữ thực hơn. Tuy nhiên kết qu
dịch của chúng tôi và VEtran thường đ
và hình thái, trong đó hệ thống dịch c
phần “trôi chảy” hơn, do mối liên k
đến từng từ cá biệt.Rõ ràng việc kết h
pháp khác nhau sẽ nâng chất lượng c
cao hơn. 
Hiện nay chúng tôi chưa có một bộ
để giải quyết triệt để vấn đề nhập nh
tích cú pháp, do vậy độ chính xác của b
pháp còn chưa cao. Đối với bộ ngữ 
thoại, còn nhiều cụm ở dạng văn nói, ch
ngữ liệu toàn các câu văn viết, nên k
bộ phân tích cú pháp còn th
xác(precision): 22.7%, độ phủ (recall): 28.8%, 
F-score: 0.28). Nếu dùng nguyên dạng k
phân tích cú pháp, có thể không đánh giá chính xác 
chất lượng của hệ thống dịch. Để nghiên c
tổng thể về ảnh hưởng của các thành ph
thống đến chất lượng dịch, chúng tôi đ
trên 2 hệ thống sau: 
ADJ1: Cho phép loại bỏ bớt những sai sót có th
trong quá trình phân tích cú pháp bằng
một số ràng buộc để chọn chính xác phân tích c
cụ thể là báo trước một số cặp từ chắ
liên kết. Đây cũng là kỹ thuật được dùng trong 
ứng dụng CNTT-TT Tập V-1,
- 53 -
 animal 
ế. Bản dịch của 
ệ sở hữu của từ 
ịch được 
c tính từ so sánh 
 Bản dịch của 
ất thế giới” 
ể thấy với 
ết quả giống 
ả của hệ thống 
úng về cú pháp 
ủa chúng tôi có 
ết được xác lập 
ợp các phương 
ủa bản dịch lên 
 ngữ liệu đủ lớn 
ằng trong phân 
ộ phân tích cú 
liệu 336 câu hội 
ưa có trong 
ết quả trả về của 
ấp (độ chính 
độ đo 
ết quả của bộ 
ứu một cách 
ần trong hệ 
ã thử nghiệm 
ể có 
 cách xác định 
ủa câu, 
c chắn xuất hiện 
[14] để 
hạn chế số phân tích đưa ra. Câu 
quả tách từ. Độ chính xác c
cho ADJ1 là 80.2%, độ phủ 81.4%, F
ADJ2: Không cho phép ràng bu
Dù bộ ngữ liệu còn nh
phương pháp BLEU [17] vớ
so sánh với kết quả đạt đượ
Kết quả nhận được thể hiện trong 
Bảng 2. So sánh kết quả các h
 Google VEtran 
2 0.169816 0.209987 
3 0.133085 0.140612 
4 0.109895 0.096798 
5 0.090472 0.069292 
Biểu đồ trong hình 6 cho phép so sánh 
của các hệ thống dịch nói trên c
thống dịch Việt-Anh phổ bi
và VEtrans. 
Hình 6. So sánh điểm BLEU c
IX. KẾT LUẬN 
Hệ thống dịch sử dụng dạ
chúng tôi xây dựng với mục đ
năng biểu diễn Tiếng Việt củ
vậy, nếu đánh giá như một h
được cũng rất đáng chú ý: v
từ và phân tích cú pháp, hệ th
quả nhỉnh hơn một chút so v
ý rằng, để đạt kết quả này, b
chưa có tới 300 luật, ít hơn r
 Số 8 (28), tháng 12/2012 
đưa vào đã chỉnh kết 
ủa bộ phân tích cú pháp 
-score 0.81. 
ộc và tách từ. 
ỏ, chúng tôi đã sử dụng 
i tham số n = 2, 3, 4, 5 để 
c của VETran và Google. 
Bảng 2. 
ệ thống dịch 
ADJ1 ADJ2 
0.263627 0.157450 
0.181787 0.091807 
0.127502 0.056950 
0.091302 0.036461 
điểm BLEU 
ủa chúng tôi với hai hệ 
ến là Google Translation 
ủa các hệ thống 
ng tuyển có chú giải được 
ích minh họa cho khả 
a văn phạm liên kết. Tuy 
ệ thống dịch, kết quả nhận 
ới kết quả tốt của bộ tách 
ống của chúng tôi đạt kết 
ới Google và VEtran. Chú 
ộ luật dịch của chúng tôi 
ất nhiều so với VEtran và 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012 
 - 54 -
cũng không cần sử dụng bộ ngữ liệu song ngữ. Dù 
mới là thử nghiệm trên bộ ngữ liệu nhỏ, có thể thấy 
khả năng sử dụng mô hình văn phạm liên kết cho bài 
toán dịch máy là rất có triển vọng. 
Tập luật dịch của chúng tôi bao gồm ba tập con . 
Thứ tự áp dụng luật như trên sơ đồ ở hình 4: xác định 
thuộc tính→ dịch cụm từ→ chuyển đổi cấu trúc. Sự 
nhập nhằng khi áp dụng luật( nếu có) chỉ có thể xảy ra 
trong từng tập con. Tuy nhiên, với văn phạm liên kết, 
luật chỉ được sử dụng khi thỏa mãn cả hai yếu tố: 
• Từ đang xét xuất hiện trong luật 
• Tất cả các mối liên kết của từ được nêu trong 
luât phải thỏa mãn. 
Ngoài ra, thuộc tính exclude của một số luật (đã mô 
tả ở trên) cũng góp phần khử nhập nhằng. Do vậy, khi 
phân tích cú pháp của câu đã xác định, rất khó xảy ra 
việc nhập nhằng khi áp dụng luật. Trong ba tập luật 
của chúng tôi, chưa có luật nào có thể gây nhập nhằng 
trong lúc lựa chọn. Sự nhập nhằng chủ yếu xảy ra khi 
phân tích, chẳng hạn với hai câu “tôi bán hoa rất 
nhanh” và “tôi bán hoa rất tươi” có thể dẫn đến nhầm 
lẫn khi không có dấu hiệu nào cho thấy tính từ chỉ tính 
chất bổ nghĩa cho từ “hoa” hay từ “bán”. Tuy nhiên 
khi đã xác định phân tích, nếu là: 
 # +----SV----+ +--------SA--------+ 
 # + +----O---+ +---RlAp--+ 
 # | | | | | 
 # Tôi.p bán.v hoa.n rất.r tươi.a 
thì luật về thay đổi trật tự từ được áp dụng. Nếu phân 
tích được chọn là: 
# +-----------VtAp------------+ 
# +----SV---+----O---+ +---RlAp--+ 
# | | | | | 
# Tôi.p bán.v hoa.n rất.r nhanh.a 
thì luật về chuyển loại nghĩa của từ “nhanh” sang phó 
từ Tiếng Anh lại được áp dụng. 
Tuy đã đạt được kết quả nhất định trong dịch máy 
Việt – Anh, hệ thống của chúng tôi vẫn còn những vấn 
đề chưa giải quyết trọn vẹn: 
• Dịch câu có cấu trúc liên hợp (coordination) sử 
dụng kết nối lớn, ví dụ, cụm từ Tiếng Việt trong [7] 
"một sinh viên khoẻ mạnh, cao và tử tế". Việc dịch 
loại câu này đòi hỏi một phân tích cú pháp chính xác, 
chỉ có được khi khử nhập nhằng liên hợp trong câu 
chứa từ “và “ và dấu phảy. 
• Dịch câu ghép và câu phức: Câu ghép và câu 
phức chứa từ hai nòng cốt trở lên, trong đó câu phức 
có chứa một nòng cốt bao các nòng cốt còn lại 
[5].Trong tập ngữ liệu mẫu , đã có một số câu ghép 2 
mệnh đề, tuy nhiên chất lượng dịch các câu này chưa 
được tốt. Có thể thấy việc xử lý các loại câu ghép là 
khả thi vì chúng tôi đã xây dựng được bộ phân tích cú 
pháp xử lý khá tốt trường hợp nhập nhằng liên hợp và 
phân tích câu ghép với nhiều mệnh đề. 
Việc nhận biết giới hạn các mệnh đề trong câu 
phức, cũng như các thành phần cụm chủ vị đôi khi đòi 
hỏi thiết lập một liên kết giữa các từ không liền kề. 
Các xử lý để phân tách mệnh đề hay giải quyến vấn 
đề nhập nhằng về cụm trạng từ hiện nay đều theo 
hướng tiếp cận học máy trên tập ngữ liệu lớn. Chúng 
tôi sẽ tiếp tục phát triển hệ thống theo hướng này khi 
đã xây dựng được bộ ngữ liệu mẫu đủ lớn. 
Một vấn đề khác cũng gây khó khăn cho chúng tôi: 
dịch cụm từ dạng n - 1 (n từ Tiếng Việt sang 1 từ 
Tiếng Anh). Ngoài những cụm từ rất phổ biến mà 
chúng tôi đã xử lý, cần đến sự hỗ trợ của từ điển thành 
ngữ và bộ ngữ liệu mẫu song ngữ. 
Với đặc điểm hoàn toàn từ vựng hóa của văn phạm 
liên kết, bộ luật dịch của hệ thống thể hiện được 
những đặc điểm hết sức riêng và cá biệt của ngôn ngữ 
nguồn và ngôn ngữ đích.Công việc này chắc chắn cần 
những hiểu biết sâu về cú pháp, từ pháp của cả hai 
ngôn ngữ. Bộ luật dịch có thể thay đổi hoàn toàn nếu 
thay đổi cặp ngôn ngữ nguồn – đích, nghĩa là khó có 
thể sử dụng cho cặp ngôn ngữ khác. Tuy nhiên, để mở 
rộng hệ thống dịch, có thể quan tâm đến công cụ cho 
phép các nhà ngôn ngữ định nghĩa các quy tắc cú pháp 
[4]. Nếu theo hướng tiếp cận này, việc phân tích cú 
pháp theo biểu đồ (chart parsing) từ văn phạm liên kết 
cũng dễ hơn so với các mô hình khác vì phân tích liên 
kết thực chất đã có dạng biểu đồ. Như vậy có thể tính 
đến khả năng mở rộng hệ thống dịch cho các cặp ngôn 
ngữ khác. 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012 
 - 55 -
Như đã trình bày ở đầu bài, do chưa đủ tài nguyên 
để xây dựng một hệ thống dịch máy thật hoàn thiện, 
hệ thống dịch máy của chúng tôi nhằm mục đích minh 
họa khả năng biểu diễn Tiếng Việt của văn phạm liên 
kết. Tuy nhiên, với chất lượng dịch khá thuyết phục, 
việc kết hợp mô hình dịch này với hệ thống dịch theo 
cách tiếp cận thống kê chắc chắn sẽ nâng cao được 
chất lượng bản dịch do có thể kết hợp sự trôi chảy của 
phương pháp thống kê với sự chính xác của những 
biến đổi hình thái và cú pháp. Một trong những minh 
chứng cho điều đó là sự kết hợp phân tích liên kết để 
hoàn chỉnh bản dịch ở hệ dịch máy trên nền ví dụ. Tỷ 
lệ câu dịch hoàn toàn đúng với câu mẫu đã tăng khá 
nhiều. Kết hợp giữa cách tiếp cận thống kê và văn 
phạm liên kết là hướng phát triển của hệ thống trong 
thời gian tới. 
PHỤ LỤC. Chú thích ý nghĩa các kết nối 
SV: Kết nối danh từ, đại từ xưng hô làm chủ ngữ với động 
từ. 
SA: Kết nối danh từ, đại từ xưng hô với tính từ. 
DT_LA: Kết nối danh từ, đại từ xưng hô với động từ quan 
hệ “là”. 
LA_DT: Kết nối động từ “là” với danh từ. 
O: Kết nối động từ và bổ ngữ trực tiếp. 
DI: Kết nối động từ “đi” với động từ khác. 
NtPd: Kết nối danh từ cụ thể với đại từ chỉ định. 
DpNt: Kết nối định từ chỉ số nhiều với danh từ cụ thể. 
RpVt: Kết nối định từ chỉ thì quá khứ và động từ. 
RfVt: Kết nối định từ chỉ thì tương lai và động từ. 
EpNt: Kết nối giới từ chỉ vị trí và danh từ cụ thể. 
VtEp : Kết nối ngoại động từ và giới từ vị trí. 
VtAp: Kết nối ngoại động từ và tính từ chỉ tính chất. 
VmVt: Kết nối động từ tình thái và động từ cụ thể. 
EoPp: Kết nối giới từ “của” với đại từ xưng hô. 
SHA: Kết nối hai danh từ chỉ quan hệ sở hữu ẩn. 
RnV: Kết nối phủ định từ và động từ. 
THT: kêt nối các từ để hỏi và động từ. 
SS_NHAT: Kết nối tính từ với từ “nhất”. 
NHAT_DT: Kết nối từ “nhất” với danh từ đứng sau. 
Các kết nối có tên bắt đầu và kết thúc bằng “_” là kết 
nối của Tiếng Anh (theo [19]). 
TÀI LIỆU THAM KHẢO 
[1] Adji, T.B. Applying Link Grammar Formalism in the 
Development of English-Indonesian Machine 
Translation System. Proceedings of the 9th AISC 
International Conference, Intelligent Computer 
Mathematics , Springer, 2008, p17-23 
[2] T.B. Adji, B. Baharudin, N. Zamin. Annotated 
Disjunct in Link Grammar for Machine Translation. 
International Conference on Intelligent and Advanced 
Systems ,Kuala Lumpur, 2007, p. 205-208 
[3] T.B. Adji, Baharudin B., N. Zamin, Building 
Transfer Rules using Annotated Disjunct: An Approach 
for Machine Translation, The 8 th Student Conference 
on Research and Development, December 2007, 
Malaysia. 
[4] Amtrup. J.W.,Mergerdoomian K, Zajac R. 
Rapid Development of Translation Tool. Proceedings of 
Machine Translation Summit,1999, p 385-389 
[5] DiÖp Quang Ban. Ngữ pháp Tiếng Việt. NXB Giáo 
dục, 1989 
[6] D. BÐchet. k-Valued Link Grammars are Learnable 
from Strings. Proceedings of Formal Grammar, Vienna, 
Austria, 2003, pp. 9-18. 
[7] ®inh ®iÒn. So-sánh trật-tự từ của định-ngữ giữa 
Tiếng Anh và Tiếng Việt. Tập san Khoa học xã hội và 
nhân văn- Đại học KHXHNV Thành phố Hồ Chí Minh, 
2011,tr 69-80 
[8] ®inh ®iÒn. Dịch tự động Anh Việt dựa trên việc học 
luật chuyển đổi từ ngữ liệu song ngữ. Luận án Tiến sĩ, 
ĐHKHTN- ĐHQG TP Hồ Chí Minh, 2002. 
[9] Lª Kh¸nh Hïng. Nghiên cứu xây dựng thử nghiệm 
phần mềm dịch tự động Việt-Anh. Báo cáo tổng kết đề 
tài nhánh cấp nhà nước KC-01-03, 2004. 
[10] Nguyen Thi Thu Huong, Pham Nguyen 
Quang Anh A link Grammar for Vietnamese. Journal 
on Information and Communicationn Technology, 
8/2011 p 27-38. 
[11] Iyer R., Ostendorf. Modelling Long Distance 
Dependency in Language: topic mixture and Dynamic Case 
Model, Speech and Audio Processing, IEEE Transactions 
on, Jan.1999, p30-39. 
[12] Kadambini K, Rama Sree R.J., Rama 
Krishnamacharyulu K.V. An English-Sanskrit 
Machine Translation Using Link Parser. In Proceedings 
of National Seminar, Tirupati, 2008. 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012 
 - 56 -
[13] N. L. Minh, N. P. Thai, L. A. Cuong, N. V. Vinh, 
P.H. Nguyen, H. S. Dam. LVT: An English-
Vietnamese Machine Translation System. Hội nghị quốc 
gia FAIR’03, Hanoi, 10.2003. 
[14] D. Molla, B. Hutchinson. Intrinsic versus 
Extrinsic Evaluations of Parsing Systems. Proceedings 
of EACL Workshop on Evaluation Initiatives in Natural 
Language Processing, 2003, p 15-21. 
[15] NguyÔn thiÖn nam.Tiếng Việt nâng cao cho 
người nước ngoài. NXB Giáo dục, 1998 
[16] L. H. Phuong , N. T. M. Huyen, A. Roussanaly , 
H. T. Vinh A hybrid approach to word segmentation of 
Vietnamese texts. Proceedings of the 2nd International 
Conference on Language and Automata Theory and 
Applications, LATA 2008, Springer LNCS 5196 
[17] Kishore Papineni, Salim Roukos, Todd 
Ward, and Wei-Jing Zhu. BLEU: a Method for 
Automatic Evaluation of Machine Translation. 
Proceedings of the 40th Annual Meeting of the ACL, 
Philadelphia, July 2002, p. 311-318. 
[18] Stankevich N.V. Các loại hình ngôn ngữ. NXB 
Đại học và Trung học chuyên nghiệp, Hà Nội,1982. 
[19] Daniel K. Sleator, Davy Temperley. 
Parsing English with Link Grammar. CMU-CS-91-96, 
October 1991. 
[20] Nguyen Phuong Thai, Akira Shimazu. 
Improving Phrase-Based SMTwith Morpho-Syntactic 
Analysis and Transformation. Proceedings of the 7th 
Conference of the Association for Machine Translation 
in the Americas, p 138-147, Cambridge, 8/ 2006. 
[21] Tran Ngoc Tuan, Phan Thi Tuoi. Syntax-
based SMT Model in Adaption to Vietnamese-English 
Translation. Poster of the 4th Conference RIVF, 2006. 
[22]  
[23]  
[24]  
Nhận bài ngày: 31/07/2012 
SƠ LƯỢC VỀ TÁC GIẢ 
NGUYỄN THỊ THU HƯƠNG 
Sinh năm 1964. 
Tốt nghiệp Đại học Bách khoa Hà 
Nội năm 1986. Bảo vệ luận án Thạc 
sỹ ngành CNTT tại Đại học Bách 
khoa Hà Nội năm 1998. 
Hiện là giảng viên bộ môn Khoa 
học Máy tính, Viện Công nghệ Thông tin và truyền 
thông, Đại học Bách khoa Hà Nội. 
Lĩnh vực nghiên cứu: Xử lý ngôn ngữ tự nhiên, Lý 
thuyết ngôn ngữ và phương pháp dịch. 
Email: huongnt@soict.hut.edu.vn 
LÊ NGỌC MINH 
Sinh năm 1989. 
Tốt nghiệp ngành Khoa học Máy 
tính, Đại học Bách khoa Hà Nội 
năm 2012. 
Hiện đang học Cao học tại khoa 
Khoa học Nhận thức, Đại học 
Trento, Trento, Italia. 
Lĩnh vực nghiên cứu: Dịch máy, Ngữ nghĩa phân phối, 
Ngôn ngữ học nhận thức. 
Email: ngocminh.oss@gmail.com 

File đính kèm:

  • pdfung_dung_van_pham_lien_ket_trong_dich_may_viet_anh.pdf