Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

Dịch máy là lĩnh vực đang rất được quan tâm do

nhu cầu chuyển ngữ một số lượng lớn văn bản trong

thời gian nhanh nhất. Lịch sử phát triển dịch máy đã

nhắc đến nhiều phương pháp khác nhau: dịch trực tiếp

từng từ, dịch dựa trên luật, dịch máy đa ngôn ngữ,

dịch máy thống kê, dịch máy dựa trên ví dụ, dịch máy

theo ngữ nghĩa đệ quy tối thiểu, dịch dựa trên ràng

buộc.

Hiện nay ở Việt Nam đã tồn tại một số hệ thống

dịch máy như: EVtran - VEtran của Nacentech [9],

Vietgle của Lạc Việt, EVTS của Đại học Công nghệ -

ĐHQG Hà Nội [13], Google Translation của Google,

hệ thống dịch của Đại học Bách khoa - ĐHQG TP Hồ

Chí Minh [21], hệ thống dịch dựa trên việc học luật

chuyển đổi của Đại học Khoa học Tự nhiên - ĐHQG

TP Hồ Chí Minh [8]. Các hệ thống kể trên chủ yếu là

hệ thống dịch Anh - Việt để tận dụng nguồn tài

nguyên ngôn ngữ phong phú của Tiếng Anh. Số lượng

hệ thống dịch Việt - Anh ít hơn nhiều: chỉ có hai hệ

thống nổi bật là VEtran dựa trên luật và Google

Translation theo cách tiếp cận thống kê.

Do tài nguyên phục vụ cho dịch máy liên quan đến

Tiếng Việt không nhiều, cách tiếp cận dựa trên luật

vẫn được phổ biến nhất ở Việt Nam, đặc biệt là trong

dịch máy Việt - Anh.

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

13 trang xuanhieu 15720 Free

Download

Bạn đang xem 10 trang mẫu của tài liệu "Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh

ưa ra bản dịch
“good doctor” trong khi VEtran dùng cụm từ
“jurisprudent physician” về nghĩa trong từ điển Việt
Anh không khác biệt nhưng không sát nghĩa thực tế.
2. “Báo_săn là loài động_vật nhanh nhất
thế_giới”
Kết quả phân tích cú pháp
# +-----LA_DT-----+
# +-DT_LA-+ +---ĐV--+--DT_TT-+-TT_SS+---NHAT_DTv--+
# | | | | | | |
# Báo_săn.n là.v loài động_vật.n nhanh.a nhất thế_giới.n
Các dạng tuyển nhận được:
báo săn: ()(DT_LA)
là: (DT_LA)(LA_DT)
loài: ()(ĐV)
động vật: (ĐV LA_DT)(DT_TT)
nhanh: (DT_TT)(TT_SS)
nhất: (TT_SS)(NHAT_DT)
thế giới: (NHAT_DTv)()
Quá trình dịch thông qua nhiều luật được mô tả
trong Hình 5.
Hình 5. Quá trình dịch câu “Báo săn là loại động vật
nhanh nhất thế giới”
Các công trình nghiên cứu, phát triển và
Kết quả thực hiện của hệ thống dịch ADJ
Cheetah is the quickest animal world
Kết quả thu được với VEtran:
Cheetah is world' s fast animal the kind.
Kết quả do Google đưa ra:
Alert hunt is the world's fastest
Cả ba bản dịch đều có những hạn ch
ADJ đã không phát hiện được quan h
“thế giới” trong khi bản dịch của VEtrans d
quan hệ đó nhưng lại không dịch đượ
cấp cao nhất và dịch sai từ “loài”.
Google dịch rất tốt cụm từ “nhanh nh
nhưng lại gặp lỗi ở từ “báo săn”.
So sánh trên toàn thể bộ ngữ liệu, có th
những cụm từ thường dùng, Google cho k
ngôn ngữ thực hơn. Tuy nhiên kết qu
dịch của chúng tôi và VEtran thường đ
và hình thái, trong đó hệ thống dịch c
phần “trôi chảy” hơn, do mối liên k
đến từng từ cá biệt.Rõ ràng việc kết h
pháp khác nhau sẽ nâng chất lượng c
cao hơn.
Hiện nay chúng tôi chưa có một bộ
để giải quyết triệt để vấn đề nhập nh
tích cú pháp, do vậy độ chính xác của b
pháp còn chưa cao. Đối với bộ ngữ
thoại, còn nhiều cụm ở dạng văn nói, ch
ngữ liệu toàn các câu văn viết, nên k
bộ phân tích cú pháp còn th
xác(precision): 22.7%, độ phủ (recall): 28.8%,
F-score: 0.28). Nếu dùng nguyên dạng k
phân tích cú pháp, có thể không đánh giá chính xác
chất lượng của hệ thống dịch. Để nghiên c
tổng thể về ảnh hưởng của các thành ph
thống đến chất lượng dịch, chúng tôi đ
trên 2 hệ thống sau:
ADJ1: Cho phép loại bỏ bớt những sai sót có th
trong quá trình phân tích cú pháp bằng
một số ràng buộc để chọn chính xác phân tích c
cụ thể là báo trước một số cặp từ chắ
liên kết. Đây cũng là kỹ thuật được dùng trong
ứng dụng CNTT-TT Tập V-1,
- 53 -
animal
ế. Bản dịch của
ệ sở hữu của từ
ịch được
c tính từ so sánh
Bản dịch của
ất thế giới”
ể thấy với
ết quả giống
ả của hệ thống
úng về cú pháp
ủa chúng tôi có
ết được xác lập
ợp các phương
ủa bản dịch lên
ngữ liệu đủ lớn
ằng trong phân
ộ phân tích cú
liệu 336 câu hội
ưa có trong
ết quả trả về của
ấp (độ chính
độ đo
ết quả của bộ
ứu một cách
ần trong hệ
ã thử nghiệm
ể có
cách xác định
ủa câu,
c chắn xuất hiện
[14] để
hạn chế số phân tích đưa ra. Câu
quả tách từ. Độ chính xác c
cho ADJ1 là 80.2%, độ phủ 81.4%, F
ADJ2: Không cho phép ràng bu
Dù bộ ngữ liệu còn nh
phương pháp BLEU [17] vớ
so sánh với kết quả đạt đượ
Kết quả nhận được thể hiện trong
Bảng 2. So sánh kết quả các h
Google VEtran
2 0.169816 0.209987
3 0.133085 0.140612
4 0.109895 0.096798
5 0.090472 0.069292
Biểu đồ trong hình 6 cho phép so sánh
của các hệ thống dịch nói trên c
thống dịch Việt-Anh phổ bi
và VEtrans.
Hình 6. So sánh điểm BLEU c
IX. KẾT LUẬN
Hệ thống dịch sử dụng dạ
chúng tôi xây dựng với mục đ
năng biểu diễn Tiếng Việt củ
vậy, nếu đánh giá như một h
được cũng rất đáng chú ý: v
từ và phân tích cú pháp, hệ th
quả nhỉnh hơn một chút so v
ý rằng, để đạt kết quả này, b
chưa có tới 300 luật, ít hơn r
Số 8 (28), tháng 12/2012
đưa vào đã chỉnh kết
ủa bộ phân tích cú pháp
-score 0.81.
ộc và tách từ.
ỏ, chúng tôi đã sử dụng
i tham số n = 2, 3, 4, 5 để
c của VETran và Google.
Bảng 2.
ệ thống dịch
ADJ1 ADJ2
0.263627 0.157450
0.181787 0.091807
0.127502 0.056950
0.091302 0.036461
điểm BLEU
ủa chúng tôi với hai hệ
ến là Google Translation
ủa các hệ thống
ng tuyển có chú giải được
ích minh họa cho khả
a văn phạm liên kết. Tuy
ệ thống dịch, kết quả nhận
ới kết quả tốt của bộ tách
ống của chúng tôi đạt kết
ới Google và VEtran. Chú
ộ luật dịch của chúng tôi
ất nhiều so với VEtran và
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012
- 54 -
cũng không cần sử dụng bộ ngữ liệu song ngữ. Dù
mới là thử nghiệm trên bộ ngữ liệu nhỏ, có thể thấy
khả năng sử dụng mô hình văn phạm liên kết cho bài
toán dịch máy là rất có triển vọng.
Tập luật dịch của chúng tôi bao gồm ba tập con .
Thứ tự áp dụng luật như trên sơ đồ ở hình 4: xác định
thuộc tính→ dịch cụm từ→ chuyển đổi cấu trúc. Sự
nhập nhằng khi áp dụng luật( nếu có) chỉ có thể xảy ra
trong từng tập con. Tuy nhiên, với văn phạm liên kết,
luật chỉ được sử dụng khi thỏa mãn cả hai yếu tố:
• Từ đang xét xuất hiện trong luật
• Tất cả các mối liên kết của từ được nêu trong
luât phải thỏa mãn.
Ngoài ra, thuộc tính exclude của một số luật (đã mô
tả ở trên) cũng góp phần khử nhập nhằng. Do vậy, khi
phân tích cú pháp của câu đã xác định, rất khó xảy ra
việc nhập nhằng khi áp dụng luật. Trong ba tập luật
của chúng tôi, chưa có luật nào có thể gây nhập nhằng
trong lúc lựa chọn. Sự nhập nhằng chủ yếu xảy ra khi
phân tích, chẳng hạn với hai câu “tôi bán hoa rất
nhanh” và “tôi bán hoa rất tươi” có thể dẫn đến nhầm
lẫn khi không có dấu hiệu nào cho thấy tính từ chỉ tính
chất bổ nghĩa cho từ “hoa” hay từ “bán”. Tuy nhiên
khi đã xác định phân tích, nếu là:
# +----SV----+ +--------SA--------+
# + +----O---+ +---RlAp--+
# | | | | |
# Tôi.p bán.v hoa.n rất.r tươi.a
thì luật về thay đổi trật tự từ được áp dụng. Nếu phân
tích được chọn là:
# +-----------VtAp------------+
# +----SV---+----O---+ +---RlAp--+
# | | | | |
# Tôi.p bán.v hoa.n rất.r nhanh.a
thì luật về chuyển loại nghĩa của từ “nhanh” sang phó
từ Tiếng Anh lại được áp dụng.
Tuy đã đạt được kết quả nhất định trong dịch máy
Việt – Anh, hệ thống của chúng tôi vẫn còn những vấn
đề chưa giải quyết trọn vẹn:
• Dịch câu có cấu trúc liên hợp (coordination) sử
dụng kết nối lớn, ví dụ, cụm từ Tiếng Việt trong [7]
"một sinh viên khoẻ mạnh, cao và tử tế". Việc dịch
loại câu này đòi hỏi một phân tích cú pháp chính xác,
chỉ có được khi khử nhập nhằng liên hợp trong câu
chứa từ “và “ và dấu phảy.
• Dịch câu ghép và câu phức: Câu ghép và câu
phức chứa từ hai nòng cốt trở lên, trong đó câu phức
có chứa một nòng cốt bao các nòng cốt còn lại
[5].Trong tập ngữ liệu mẫu , đã có một số câu ghép 2
mệnh đề, tuy nhiên chất lượng dịch các câu này chưa
được tốt. Có thể thấy việc xử lý các loại câu ghép là
khả thi vì chúng tôi đã xây dựng được bộ phân tích cú
pháp xử lý khá tốt trường hợp nhập nhằng liên hợp và
phân tích câu ghép với nhiều mệnh đề.
Việc nhận biết giới hạn các mệnh đề trong câu
phức, cũng như các thành phần cụm chủ vị đôi khi đòi
hỏi thiết lập một liên kết giữa các từ không liền kề.
Các xử lý để phân tách mệnh đề hay giải quyến vấn
đề nhập nhằng về cụm trạng từ hiện nay đều theo
hướng tiếp cận học máy trên tập ngữ liệu lớn. Chúng
tôi sẽ tiếp tục phát triển hệ thống theo hướng này khi
đã xây dựng được bộ ngữ liệu mẫu đủ lớn.
Một vấn đề khác cũng gây khó khăn cho chúng tôi:
dịch cụm từ dạng n - 1 (n từ Tiếng Việt sang 1 từ
Tiếng Anh). Ngoài những cụm từ rất phổ biến mà
chúng tôi đã xử lý, cần đến sự hỗ trợ của từ điển thành
ngữ và bộ ngữ liệu mẫu song ngữ.
Với đặc điểm hoàn toàn từ vựng hóa của văn phạm
liên kết, bộ luật dịch của hệ thống thể hiện được
những đặc điểm hết sức riêng và cá biệt của ngôn ngữ
nguồn và ngôn ngữ đích.Công việc này chắc chắn cần
những hiểu biết sâu về cú pháp, từ pháp của cả hai
ngôn ngữ. Bộ luật dịch có thể thay đổi hoàn toàn nếu
thay đổi cặp ngôn ngữ nguồn – đích, nghĩa là khó có
thể sử dụng cho cặp ngôn ngữ khác. Tuy nhiên, để mở
rộng hệ thống dịch, có thể quan tâm đến công cụ cho
phép các nhà ngôn ngữ định nghĩa các quy tắc cú pháp
[4]. Nếu theo hướng tiếp cận này, việc phân tích cú
pháp theo biểu đồ (chart parsing) từ văn phạm liên kết
cũng dễ hơn so với các mô hình khác vì phân tích liên
kết thực chất đã có dạng biểu đồ. Như vậy có thể tính
đến khả năng mở rộng hệ thống dịch cho các cặp ngôn
ngữ khác.
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012
- 55 -
Như đã trình bày ở đầu bài, do chưa đủ tài nguyên
để xây dựng một hệ thống dịch máy thật hoàn thiện,
hệ thống dịch máy của chúng tôi nhằm mục đích minh
họa khả năng biểu diễn Tiếng Việt của văn phạm liên
kết. Tuy nhiên, với chất lượng dịch khá thuyết phục,
việc kết hợp mô hình dịch này với hệ thống dịch theo
cách tiếp cận thống kê chắc chắn sẽ nâng cao được
chất lượng bản dịch do có thể kết hợp sự trôi chảy của
phương pháp thống kê với sự chính xác của những
biến đổi hình thái và cú pháp. Một trong những minh
chứng cho điều đó là sự kết hợp phân tích liên kết để
hoàn chỉnh bản dịch ở hệ dịch máy trên nền ví dụ. Tỷ
lệ câu dịch hoàn toàn đúng với câu mẫu đã tăng khá
nhiều. Kết hợp giữa cách tiếp cận thống kê và văn
phạm liên kết là hướng phát triển của hệ thống trong
thời gian tới.
PHỤ LỤC. Chú thích ý nghĩa các kết nối
SV: Kết nối danh từ, đại từ xưng hô làm chủ ngữ với động
từ.
SA: Kết nối danh từ, đại từ xưng hô với tính từ.
DT_LA: Kết nối danh từ, đại từ xưng hô với động từ quan
hệ “là”.
LA_DT: Kết nối động từ “là” với danh từ.
O: Kết nối động từ và bổ ngữ trực tiếp.
DI: Kết nối động từ “đi” với động từ khác.
NtPd: Kết nối danh từ cụ thể với đại từ chỉ định.
DpNt: Kết nối định từ chỉ số nhiều với danh từ cụ thể.
RpVt: Kết nối định từ chỉ thì quá khứ và động từ.
RfVt: Kết nối định từ chỉ thì tương lai và động từ.
EpNt: Kết nối giới từ chỉ vị trí và danh từ cụ thể.
VtEp : Kết nối ngoại động từ và giới từ vị trí.
VtAp: Kết nối ngoại động từ và tính từ chỉ tính chất.
VmVt: Kết nối động từ tình thái và động từ cụ thể.
EoPp: Kết nối giới từ “của” với đại từ xưng hô.
SHA: Kết nối hai danh từ chỉ quan hệ sở hữu ẩn.
RnV: Kết nối phủ định từ và động từ.
THT: kêt nối các từ để hỏi và động từ.
SS_NHAT: Kết nối tính từ với từ “nhất”.
NHAT_DT: Kết nối từ “nhất” với danh từ đứng sau.
Các kết nối có tên bắt đầu và kết thúc bằng “_” là kết
nối của Tiếng Anh (theo [19]).
TÀI LIỆU THAM KHẢO
[1] Adji, T.B. Applying Link Grammar Formalism in the
Development of English-Indonesian Machine
Translation System. Proceedings of the 9th AISC
International Conference, Intelligent Computer
Mathematics , Springer, 2008, p17-23
[2] T.B. Adji, B. Baharudin, N. Zamin. Annotated
Disjunct in Link Grammar for Machine Translation.
International Conference on Intelligent and Advanced
Systems ,Kuala Lumpur, 2007, p. 205-208
[3] T.B. Adji, Baharudin B., N. Zamin, Building
Transfer Rules using Annotated Disjunct: An Approach
for Machine Translation, The 8 th Student Conference
on Research and Development, December 2007,
Malaysia.
[4] Amtrup. J.W.,Mergerdoomian K, Zajac R.
Rapid Development of Translation Tool. Proceedings of
Machine Translation Summit,1999, p 385-389
[5] DiÖp Quang Ban. Ngữ pháp Tiếng Việt. NXB Giáo
dục, 1989
[6] D. BÐchet. k-Valued Link Grammars are Learnable
from Strings. Proceedings of Formal Grammar, Vienna,
Austria, 2003, pp. 9-18.
[7] ®inh ®iÒn. So-sánh trật-tự từ của định-ngữ giữa
Tiếng Anh và Tiếng Việt. Tập san Khoa học xã hội và
nhân văn- Đại học KHXHNV Thành phố Hồ Chí Minh,
2011,tr 69-80
[8] ®inh ®iÒn. Dịch tự động Anh Việt dựa trên việc học
luật chuyển đổi từ ngữ liệu song ngữ. Luận án Tiến sĩ,
ĐHKHTN- ĐHQG TP Hồ Chí Minh, 2002.
[9] Lª Kh¸nh Hïng. Nghiên cứu xây dựng thử nghiệm
phần mềm dịch tự động Việt-Anh. Báo cáo tổng kết đề
tài nhánh cấp nhà nước KC-01-03, 2004.
[10] Nguyen Thi Thu Huong, Pham Nguyen
Quang Anh A link Grammar for Vietnamese. Journal
on Information and Communicationn Technology,
8/2011 p 27-38.
[11] Iyer R., Ostendorf. Modelling Long Distance
Dependency in Language: topic mixture and Dynamic Case
Model, Speech and Audio Processing, IEEE Transactions
on, Jan.1999, p30-39.
[12] Kadambini K, Rama Sree R.J., Rama
Krishnamacharyulu K.V. An English-Sanskrit
Machine Translation Using Link Parser. In Proceedings
of National Seminar, Tirupati, 2008.
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 8 (28), tháng 12/2012
- 56 -
[13] N. L. Minh, N. P. Thai, L. A. Cuong, N. V. Vinh,
P.H. Nguyen, H. S. Dam. LVT: An English-
Vietnamese Machine Translation System. Hội nghị quốc
gia FAIR’03, Hanoi, 10.2003.
[14] D. Molla, B. Hutchinson. Intrinsic versus
Extrinsic Evaluations of Parsing Systems. Proceedings
of EACL Workshop on Evaluation Initiatives in Natural
Language Processing, 2003, p 15-21.
[15] NguyÔn thiÖn nam.Tiếng Việt nâng cao cho
người nước ngoài. NXB Giáo dục, 1998
[16] L. H. Phuong , N. T. M. Huyen, A. Roussanaly ,
H. T. Vinh A hybrid approach to word segmentation of
Vietnamese texts. Proceedings of the 2nd International
Conference on Language and Automata Theory and
Applications, LATA 2008, Springer LNCS 5196
[17] Kishore Papineni, Salim Roukos, Todd
Ward, and Wei-Jing Zhu. BLEU: a Method for
Automatic Evaluation of Machine Translation.
Proceedings of the 40th Annual Meeting of the ACL,
Philadelphia, July 2002, p. 311-318.
[18] Stankevich N.V. Các loại hình ngôn ngữ. NXB
Đại học và Trung học chuyên nghiệp, Hà Nội,1982.
[19] Daniel K. Sleator, Davy Temperley.
Parsing English with Link Grammar. CMU-CS-91-96,
October 1991.
[20] Nguyen Phuong Thai, Akira Shimazu.
Improving Phrase-Based SMTwith Morpho-Syntactic
Analysis and Transformation. Proceedings of the 7th
Conference of the Association for Machine Translation
in the Americas, p 138-147, Cambridge, 8/ 2006.
[21] Tran Ngoc Tuan, Phan Thi Tuoi. Syntax-
based SMT Model in Adaption to Vietnamese-English
Translation. Poster of the 4th Conference RIVF, 2006.
[22]
[23]
[24]
Nhận bài ngày: 31/07/2012
SƠ LƯỢC VỀ TÁC GIẢ
NGUYỄN THỊ THU HƯƠNG
Sinh năm 1964.
Tốt nghiệp Đại học Bách khoa Hà
Nội năm 1986. Bảo vệ luận án Thạc
sỹ ngành CNTT tại Đại học Bách
khoa Hà Nội năm 1998.
Hiện là giảng viên bộ môn Khoa
học Máy tính, Viện Công nghệ Thông tin và truyền
thông, Đại học Bách khoa Hà Nội.
Lĩnh vực nghiên cứu: Xử lý ngôn ngữ tự nhiên, Lý
thuyết ngôn ngữ và phương pháp dịch.
Email: [email protected]
LÊ NGỌC MINH
Sinh năm 1989.
Tốt nghiệp ngành Khoa học Máy
tính, Đại học Bách khoa Hà Nội
năm 2012.
Hiện đang học Cao học tại khoa
Khoa học Nhận thức, Đại học
Trento, Trento, Italia.
Lĩnh vực nghiên cứu: Dịch máy, Ngữ nghĩa phân phối,
Ngôn ngữ học nhận thức.
Email: [email protected]

File đính kèm:

ung_dung_van_pham_lien_ket_trong_dich_may_viet_anh.pdf