Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt

Transferring syntax trees is one of the
key tasks of machine translation systems. To transfer
syntax trees, they can be performed by different
models of the statistical translation method, rulebased translation method, or a hybrid of statistics and
rule-based translation method [9]. In this paper we
present a combination of bilingual corpus and
knowledge-based method, which transfers syntax trees
of English Base Noun Phrases via the Vietnamese
syntax from a pair of bilingual sentences to identify
anchor points. Our combination technique can help to
invert word order in noun phrases of the source
language to suit those of target language and improve
the performance of miss-alignment, null-alignment,
overlap and conflict projection of the existing
methods. The proposed technique can be easily
applied to other language pairs. Experiment on pairs
of sentences in the English-Vietnamese bilingual
corpus showed that our proposed method is
satisfactory.
Download
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
9 trang xuanhieu 17240 Free
Download
Bạn đang xem tài liệu "Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Chuyển đổi cây cú pháp cụm danh từ tiếng Anh theo tiếng Việt

ừ cơ sở tiếng Việt 
Phương pháp: 
Bước 1: Thực hiện các giải thuật 1, 2 và 3 để phân 
tích chuỗi nhập thành các thành phần chức năng ở các 
vị trí tương ứng. 
Bước 2: Sắp xếp lại các thành phần này vào các vị trí 
tương ứng trong cấu trúc cụm danh từ cơ sở tiếng Việt 
như sau: cất Y1 vào X1, cất Y2a hoặc Y3b, hoặc Y6a 
vào vị trí X2, cất Y5 vào vị trí X5, cất Y4, Y6b, Y3a 
vào vị trí X6 theo hai cấu trúc “Y3a Y4 Y6b” và “Y4 
Y3a Y6b”, cất Y2b vào vị trí X7; Xếp các vị trí này 
theo thứ tự tăng dần của X; Các thành tố trong chuỗi 
mới X1 X2 X5 X6 X7 là cấu trúc cụm danh từ cơ sở 
tiếng Anh đã chuyển đổi trật tự theo cấu trúc cụm 
danh từ cơ sở tiếng Việt; 
Ví dụ 2 mô tả quy trình chuyển đổi trật tự từ tiếng 
Anh theo tiếng Việt. 
Ví dụ 2: 
a) [her1/PRP$ first2/JJ six3/CD Vietnamese4/JJ 
dresses5/NNS] 
Sáu/CD cái/CL áo dài/NN Việt Nam/JJ đầu tiên/JJ của/PRO 
cô/NN ta/NN 
Sau khi phân tích ví dụ 2( a) chúng ta được Y2= 
her/PRP$, Y3a = first/JJ, Y3b = six/CD, 
Y4 = Vietnamese/JJ, Y5 = dresses/NNS và sắp xếp lại 
theo trật tự từ tiếng Việt là “Y3b Y5 Y4 Y3a Y2” 
chúng ta có trật tự như ví dụ 2(b). 
(b) [six1/CD dresses2/NNS Vietnamese3/JJ first4/JJ 
her5/PRP$] 
 Sáu/CD (cái/CL) áo dài/NN Việt Nam/JJ đầu tiên/JJ 
(của/PRO) cô/NN ta/NN 
CL là từ loại của từ “cái” và POS là từ loại của từ 
“của”. 
Quan sát bảng cấu trúc cụm danh từ cơ sở tiếng 
Việt trên hình 4, chúng ta thấy rằng: ngoại trừ các 
thành phần X2, X3, X4, X6, các thành phần khác đều 
có sự tương đương chức năng là 1-1 (X1 ↔ Y1, X5 
↔ Y5, X7 ↔ Y2b). Thành phần X3 và X4 là hai 
thành phần đặc trưng của cụm danh từ cơ sở tiếng 
Việt. X3, X4 không có thành phần tương đương chức 
năng bên cụm danh từ cơ sở tiếng Anh (X3 → φ, X4 
→ φ). Ở vị trí của thành phần X2 xuất hiện thành phần 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 9 (29), tháng 6/2013 
 - 53 -
Y2a hoặc thành phần Y3b hoặc thành phần Y6a là 
những thành phần tương đương chức năng với X2. Ở 
vị trí của thành phần X6, nếu có nhiều thành phần của 
cụm danh từ cơ sở tiếng Anh cùng xuất hiện ở vị trí 
này, thì thứ tự xuất hiện của chúng là X6 = {Y4 Y6b 
Y3a} như ví dụ 3 (b), hoặc X6 = {Y4 Y3a Y6b} như 
ví dụ 3 (c), phụ thuộc vào ngữ cảnh của câu tiếng Việt. 
Ví dụ 3: 
(a) [the/DT first/JJ three/CD young/JJ man/NN 
 Y2 Y3a Y3b Y4 Y5 
absent/JJ] will/MD be/VB punished/VBN 
Y6b 
(b) ba/CD thanh niên/NN trẻ/JJ vắng mặt/JJ đầu 
 X2 X5 
tiên/JJ sẽ/MD bị phạt/VB. 
 X6 
(c) ba/CD thanh niên/NN trẻ/JJ đầu tiên/JJ vắng 
 X2 X5 
mặt/JJ sẽ/MD bị phạt/VB. 
 X6 
Hình 4. Mô hình chuyển đổi trật tự từ tiếng Anh theo 
tiếng Việt 
Trong đó: 
- wk: Từ thứ k trong cụm danh từ tiếng Anh 
- Ck: Mã từ loại của từ thứ k 
- X1 đến X7: là các thành tố trong cụm danh từ 
tiếng Việt 
- Y1 đến Y6: là các thành tố của cụm danh từ 
tiếng Anh 
Phân tích các thành phần của ví dụ 3 bằng các giải 
thuật 1, 2 và 3. Chúng ta có Y2 = the/DT, Y3a = 
first/JJ, Y3b = three/CD, Y4 = young/JJ, Y5 = 
man/NN, Y6 = absent/JJ. Sắp xếp lại chúng theo trật 
tự của tiếng Việt theo giải thuật 4 cho câu trong ví dụ 
3(b) là “Y3b Y5 Y4 Y3a Y6b” và cho câu trong ví dụ 
3(c) là “Y3b Y5 Y3a Y4 Y6b”. 
Như vậy, trật tự của Y3a và Y4 có thể thay đổi cho 
nhau phụ thuộc vào câu dịch tiếng Việt. Tuy khác 
nhau về trật tự khi được sắp xếp theo thứ tự của cụm 
danh từ cơ sở tiếng Việt tương ứng, nhưng cả Y3a và 
Y4 trong cụm danh từ cơ sở tiếng Anh đều có chức 
năng tương đương với thành phần X6 trong cụm danh 
từ tiếng Việt. 
IV. KẾT QUẢ THỰC NGHIỆM 
 Dữ liệu đánh giá 
Để đảm bảo tính bao phủ của mô hình chuyển đổi 
trật tự từ trong cụm danh từ cơ sở tiếng Anh theo tiếng 
Việt, chúng tôi đã chuẩn bị bộ ngữ liệu mẫu. Bộ ngữ 
liệu này bao gồm 174 mẫu cụm danh từ cơ sở tiếng 
Anh. Những mẫu này có số từ lớn hơn 2 từ trở lên và 
có tần suất xuất hiện hơn 10 lần trong ngữ liệu của 
Penn Treebank [16]. Phần dịch ra tiếng Việt của 174 
mẫu cụm danh từ cơ sở tiếng Anh cũng như việc tách 
các cụm danh từ cơ sở tiếng Anh thành các thành phần 
từ Y1 đến Y6, các cụm danh từ cơ sở tiếng Việt từ X1 
đến X7 do Trung tâm nghiên cứu ngôn ngữ - Viện 
KHXH tại thành phố Hồ Chí Minh thực hiện. 
 Penn Treebank 
Dự án Penn Treebank được thực hiện trong 8 năm 
(1989-1996), đã gán nhãn bằng tay từ loại cho khoảng 
7 triệu lượt từ, 3 triệu từ được phân tính cú pháp và 
hơn 2 triệu từ trong câu được phân tích cấu trúc với 
Bảng cấu trúc cụm danh từ cơ sở 
tiếng Việt 
X1 X2 X3 X4 X5 X6 X7 
Y1 
Y2a/ 
Y3b/ 
Y6a 
φ φ Y5 
Y4 
Y6b 
Y3a 
Y2b 
Chuỗi từ có gán từ loại của 
cụm danh từ cơ sở tiếng 
Anh sắp xếp theo cấu trúc 
tiếng Việt 
Chương trình 
chuyển đổi trật tự từ 
w1/C1 
w2/C2 
wk/Ck 
$ 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 9 (29), tháng 6/2013 
 - 54 -
các chức năng ngữ pháp cho văn bản và 1,6 triệu từ 
phiên âm cho tiếng nói. Tài liệu dùng để chú giải là 
các tài liệu về máy tính của hãng IBM, ghi chú của y 
tá, các bài báo trong Tạp chí Phố Uôn (Wall Street 
Journal), các cuộc hội thoại qua điện thoại[17]. 
 Tiêu chuẩn đánh giá 
Trong đó: 
- A: Số NPbase do con người đánh giá lại từ kết 
quả đưa ra bởi máy tính 
- B: Số NPbase đưa ra bởi máy tính 
- C: Số NPbase do con người xác định từ dữ liệu 
đánh giá 
- Pre: Độ chính xác (precision) 
- Rec: Độ thu hồi (Recall) 
- AER: là tỷ số lỗi 
- Fβ: là trọng số điều hòa 
- β: Thông số cho trước, chúng tôi chọn β = 1 
Chúng tôi sử dụng tiêu chuẩn về đánh giá cụm từ 
(chunker) của Jurafsky và Matin [3] bao gồm các phép 
đo về độ chính xác Pre, độ thu hồi Rec, trọng số điều 
hòa Fβ theo các công thức (1), (2), (3). Chúng tôi cũng 
sử dụng công thức đánh giá tỷ suất lỗi đối sánh AER 
của Och [8] (công thức (4) để đánh giá cho các đối 
tượng trong chương này. 
(i) Phân tích cụm danh từ cơ sở tiếng Anh thành các 
thành phần từ Y1 đến Y6 
Để thực nghiệm cho mục này, chúng tôi sử dụng 
các giải thuật 1, 2 và 3 để phân tích 174 mẫu đã chọn 
vào các thành phần từ Y1 đến Y6. Sau đó lấy kết quả 
thu được từ máy tính để so trùng với các thành phần 
đã được thực hiện bởi các chuyên gia ngôn ngữ, cụ thể 
với 174 mẫu thu được như Bảng 5. 
Bảng 5. Kết quả phân tích cụm danh từ tiếng Anh 
Thành 
tố 
A B C Pre (A,B) Rec(A,C) AER Fβ 
Y1 13 13 13 100% 100% 0% 100% 
Y2a 73 75 75 97,3% 97,3% 2,7% 97,3% 
Y2b 16 16 16 100% 100% 0% 100% 
Y3a 2 2 2 100% 100% 0% 100% 
Y3b 25 26 26 96,2% 96,2% 3,8% 96,2% 
Y4 145 147 147 98,6% 98,6% 1,4% 98,6% 
Y5 173 174 174 99,4% 99,4% 0,6% 99,4% 
Y6a 3 3 3 100% 100% 0% 100% 
Y6b 3 3 3 100% 100% 0% 100% 
Trong Bảng 5: 
- Cột A là thống kê kết quả đánh giá lại của con người 
về các thành phần từ Y1 đến Y6 (của cụm danh từ cơ 
sở tiếng Anh) do máy tính đưa ra. 
- Cột B là thống kê ghi lại tổng số các thành phần từ 
Y1 đến Y6 do các giải thuật 1, 2 và 3 mà máy tính xác 
định được. 
- Cột C là thống kê số thành phần được phân tích 
trong bộ mẫu chuẩn do con người xác định trước. 
- Pre là độ chính xác đạt được của các giải thuật phân 
tích cụm danh từ cơ sở tiếng Anh 
- Rec là độ thu hồi đạt được của các giải thuật phân 
tích cụm danh từ cơ sở tiếng Anh Fβ là độ đo trọng số 
điều hòa 
- AER là tỷ suất lỗi 
Khi phân tích 174 mẫu thành các thành phần từ Y1 
đến Y6, chúng tôi thấy thành phần Y5 có 10 mẫu có 
liên từ, chiếm tỷ lệ là 10/174, các thành phần khác như 
Y6 có tỷ lệ là 1/9, Y4 có tỷ lệ là 6/147 và Y3 có tỷ lệ 
là 1/26. 
(ii) Chuyển đổi trật tự từ và xác định điểm neo 
Bảng 6 thống kê các điểm neo xác định được nhờ 
quá trình phân tích cụm danh từ cơ sở tiếng Anh và 
sắp xếp lại các thành phần này theo tiếng Việt bằng 
giải thuật 4. Sau đó, chúng tôi xác định các điểm neo 
trái và neo phải của cụm danh từ cơ sở tiếng Anh đã 
được sắp xếp để phục vụ cho bài toán chiếu tìm cụm 
danh từ tiếng Việt tương ứng. Điểm neo được xác định 
là từ nằm ở tận cùng bên trái làm điểm neo trái, từ 
nằm ở tận cùng bên phải làm điểm neo phải. Biên trái 
Pre(A,B) = A B 
Rec(A,C) = C 
A 
(1) 
(2) 
Fβ(Pre,Rec) = 
(β2+1)*Pre*Rec 
β2*(Pre+Rec) (3) 
AER(A,B,C) = 1 - B + C 
2*A (4) 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 9 (29), tháng 6/2013 
 - 55 -
và biên phải này là của cụm danh từ cơ sở tiếng Anh 
đã chuyển đổi trật tự từ theo tiếng Việt (đã loại bỏ 
stopword trong cụm danh từ cơ sở tiếng Anh). 
Bảng 6. Kết quả chuyển đổi trật tự từ và xác định 
điểm neo 
Điểm neo D E F Pre(D,F) Rec(D,F) AER Fβ 
L (trái) 173 174 174 99,4% 99,4% 0,6% 99,4% 
R (phải) 172 174 174 98,8% 98,8% 1,2% 98,8% 
NPed 171 174 174 98,3% 98,3% 1,7% 98,3% 
Trong Bảng 6: 
- Cột D là số điểm neo hoặc luật được thẩm định lại 
bởi con người từ kết quả đưa ra bởi máy tính 
- Cột E là số điểm neo hoặc luật do máy tính đưa ra. 
- Cột F là số điểm neo hoặc luật được định trước bởi 
con người trong mẫu thẩm định. 
- Cột Pre là độ chính xác đạt được (công thức (1)) 
- Cột Rec là độ thu hồi tính theo công thức (2). 
- AER là tỷ suất lỗi tính theo công thức (4). 
- Cột Fβ là độ đo trọng số điều hòa tính theo công 
thức (3) với β=1. 
- Hàng L là tổng số điểm neo trái của các mẫu đánh 
giá. 
- Hàng R là tổng điểm neo phải của các mẫu đánh giá. 
- Nped là luật sinh cụm danh từ cơ sở tiếng Anh đã 
chuyển đổi theo trật tự từ của cụm danh từ cơ sở tiếng 
Việt. 
V. KẾT LUẬN 
Bài báo đã trình bày mô hình chuyển đổi trật tự từ 
cụm danh từ cơ sở tiếng Anh theo tiếng Việt, để xác 
định điểm neo trong cụm danh từ tiếng Anh. Điểm neo 
trong bài toán này được định nghĩa là từ tận cùng bên 
trái và từ tận cùng bên phải của cụm danh từ tiếng Anh 
sau khi đã chuyển đổi trật tự từ theo tiếng Việt. 
Kết quả của nghiên cứu này phục vụ cho bài toán 
nhận biết cụm danh từ cơ sở tiếng Việt thông qua đối 
sánh điểm neo trong cặp câu song ngữ [5]. Mặc dù kết 
quả khá khả quan, nhưng đây mới chỉ là kết quả thực 
nghiệm trên 174 mẫu nghiên cứu do Trung tâm nghiên 
cứu ngôn ngữ - Viện KHXH tại thành phố Hồ Chí 
Minh thực hiện biên dịch và đánh giá so sánh. Cho dù 
số mẫu này thống kê có tần suất xuất hiện thường 
xuyên trong Penn Treebank và chúng chiếm tỷ lệ đến 
92% số luật sinh về cụm danh từ cơ sở trong các 
chương từ 15 đến 18 của Penn Treebank, chúng tôi 
vẫn cần khảo sát, nghiên cứu thêm nhiều mẫu cụm 
danh từ cơ sở khác nữa. 
TÀI LIỆU THAM KHẢO 
[1] M.Collins (1999), Head driven statistical models for 
natural language parsing, PhD dissertation, University 
of Pennsylvania. 
[2] Dinh Dien, Thuy Ngan, Xuan Quang, Chi 
Nam, “The Parallel Corpus Approach to Building the 
Syntactic Tree Transfer Set in the English-to-
Vietnamese Machine Translation”, International 
Conference on Electronics, Informations and 
Commumications. Hanoi, 16-18/08/2004. 
[3] D.Jurafsky and J.Matin (2006), Speech and 
Language Processing,  
~martin/slp2.html 
[4] NGUYỄN CHÍ HIẾU, Mô hình khai thác đặc tính ngôn 
ngữ đích nhằm xác định các cụm danh từ cơ sở tương 
ứng Anh-Việt, Luận án Tiến sĩ, Đại học Bách khoa – 
Thành phố Hồ Chí Minh, 2008. 
[5] NGUYỄN CHÍ HIẾU, “A Combination System for 
Identifying Base Noun Phrase”, Advanced Methods for 
Computational Collective Intelligence, SCI 457, pp. 13-
23, ©Springer-Verlag Berlin Heidelberg, 2012. 
[6] Y.S.Hwang, K.Paik, Y.Sasaki, “Bilingual 
Knowledge Extraction Using Chunk Alignment”, 
PACLIC 18, December 8th-10th, 2004, Waseda 
University, Tokyo. 
[7] J.Kupiec, “An Algorithm for finding Noun phrase 
Correspondences in Bilingual Corpora”, Proceedings 
of the 31st annual meeting on Association for 
Computational Linguistics, Columbus, Ohio, USA, 
Pages: 17 – 22, 1993. 
[8] F.J.Och, H.Ney, “A Systematic Comparision of 
Various Statistical Alignment Models”, Association 
for Computational Linguistics, 2003. 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 9 (29), tháng 6/2013 
 - 56 -
[9] M. Popel, “English-Czech Machine Translation 
Using TectoMT”, WDS'10 Proceedings of Contributed 
Papers, Part I, pages: 88–93, 2010. 
[10] VŨ NGỌC TÚ, Nghiên cứu đối chiếu trật tự từ Anh-
Việt trên một số cấu trúc cú pháp cơ bản, Luận án 
PTS Ngữ văn, ĐHQG Hà nội, 1996. 
[11] N.H.Tuong, The structure of the Vietnamese Noun 
Phrase, Ph.D. dissertation, Boston University 
Graduate School of Arts and Sciences, 2004. 
[12] N.P.Thai and A.Shimazu, “Improving Phrase-
Based SMT with Morpho-Syntactic Analysis and 
Transformation”, Proceedings of the 7th Conference of 
the Association for Machine Translation in the 
Americas, pages 138-147, Cambridge, August-2006. 
[13] W.Wang and M.Zhou, “Structure Alignment 
Using Bilingual Chunking”, The 19th International 
Conference on Computational Linguistics (Coling 
2002). 
[14] H. Wantanabe, S. Kurohashi and E. 
Aramaki, Finding Structural Correspondences from 
Bilingual Parsed Corpus, IBM Research, Tokyo 
Research Laboratory, 1999. 
[15] D.Yarowsky, G.Ngai and R.Wicentowski, 
“Inducing Multilingual Text Analysis Tools via 
Robust Projection across Aligned Corpora”, 
Proceedings of NAACL-2001. 
[16]  
[17] A.Taylor, M.Marcus, B.Santorini, The Penn 
Treebank: An Overview,  
PHỤ LỤC A 
BẢNG KÝ HIỆU MÃ TỪ LOẠI 
Nhãn Mô tả 
CC Coordinating conjunction (liên từ) 
CD Cardinal number (số từ) 
CD Determiner (định từ) 
EX Existential “there” (“có”) 
FW Foreign word (từ nước ngoài) 
IN Preposition (giới từ) 
JJ Adjective (tính từ) 
JJR Adjective, comparative 
JJS Adjective, superlative 
NN Noun, singular / mass 
NNS Noun, plural (danh từ số nhiều) 
NP Proper noun, singular (danh từ riêng số ít) 
NPS Proper noun, plural (danh từ riêng số nhiều) 
PDT Pre-determiner (tiền chỉ định từ) 
POS Possessive ending 
PRO Personal pronoun (đại từ nhân xưng) 
PRP$ Possessive pronoun (đại từ sở hữu) 
RB Adverb (trạng từ) 
RB Adverb, comparative (trạng từ so sánh hơn) 
RBS Adverb, superlative (trạng từ so sánh nhất) 
VB Verb, base form (động từ nguyên thể) 
VBD Verb, past tense (động từ quá khứ) 
VBG Verb, gerund or present participle 
VBN Verb, past participle (động từ quá khứ) 
VBP Verb, non 3rd person singular present 
VBZ Verb, 3rd person singular present 
WDT Wh-determiner (định từ bắt đầu bằng Wh) 
WP Wh-pronoun (đại từ bắt đầu bằng Wh) 
WP$ Possessive Wh-pronoun 
CL từ phân lớp 
CA tiểu từ “cái” 
PL “những”, “các” 
BA “bằng”, “từ” 
$ “đô la Mỹ” 
# “bảng Anh” 
Nhận bài ngày: 14/03/2013 
SƠ LƯỢC VỀ CÁC TÁC GIẢ 
NGUYỄN CHÍ HIẾU 
Sinh ngày 27/12/1959. 
Tốt nghiệp đại học ngành Chế 
tạo máy- Đại học Bách Khoa Hà 
Nội, năm 1981; đại học ngành 
CNTT - Đại học Bách Khoa TP. 
Hồ Chí Minh, năm 1998; Tốt 
nghiệp Thạc sỹ Khoa học máy 
tính- Đại học Bách Khoa TP. Hồ 
Chí Minh, năm 2002; Nhận 
bằng Tiến sĩ Kỹ thuật ngành 
Khoa học máy tính - Đại học Bách Khoa TP. Hồ Chí 
Minh, năm 2008. 
Hiện đang công tác tại Đại học Công nghiệp Thành 
phố Hồ Chí Minh. 
Hướng nghiên cứu chính : Xử lý ngôn ngữ tự nhiên 
E-mail: [email protected]
File đính kèm:
chuyen_doi_cay_cu_phap_cum_danh_tu_tieng_anh_theo_tieng_viet.pdf