Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

Dịch máy là bài toán lâu đời và khó nhưng đã thu

hút được sự quan tâm của rất nhiều nhóm nghiên cứu

trong nước và trên thế giới do tiềm năng ứng dụng của

nó. Tuy nhiên, do bản chất nhập nhằng của ngôn ngữ

ở mọi cấp độ và mọi khía cạnh cộng với sự khác biệt

giữa các ngôn ngữ khiến bài toán chuyển ngữ lại càng

phức tạp hơn. Đặc biệt đối với ngôn ngữ có sự khác

biệt về trật tự từ như giữa tiếng Hoa và tiếng Việt.

Đối với dịch tự động có liên quan tiếng Việt, chủ

yếu là dịch tự động Anh - Việt, hiện nay đã có một số

nhóm nghiên cứu khác nhau với các cách tiếp cận

khác nhau, cụ thể là:

- Nhóm Lê Khánh Hùng đã phát triển hệ dịch

Anh-Việt từ đầu những năm 1990 và đã có bản

thương mại tên là EVTran. Nhóm này chủ yếu

sử dụng phương pháp dịch dựa trên luật

(RBMT: Rule-based Machine Translation).

- Nhóm nghiên cứu của Đinh Điền (Trường Đại

Học Khoa Học Tự Nhiên TP.HCM): khởi đầu

từ năm 1995 là theo cách tiếp cận dựa trên luật

nhưng từ năm 2005 họ đã phát triển thêm cách

tiếp cận dựa trên thống kê (SMT: Statistical

Machine Translation) và có sự kết hợp tri thức

ngôn ngữ để nâng cao chất lượng.

- Nhóm nghiên cứu của Phan Thị Tươi (Trường

ĐạiHọc Bách Khoa TP.HCM): sử dụng phương

pháp phân tích cú pháp có xác suất để dịch văn

bản Anh-Việt và Việt-Anh[6].

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

11 trang xuanhieu 14780

Download

Bạn đang xem 10 trang mẫu của tài liệu "Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt

giao tiếp phổ thông, rất thường gặp trong giao tiếp
tiếng Hoa, chiều dài của các câu tương đối ngắn, bình
quân khoảng 10 từ trong một câu. Vì kho ngữ liệu tập
trung phổ biến các câu giao tiếp nên số lượng câu hỏi
xuất hiện khá nhiều. Chi tiết về kho ngữ liệu song ngữ
được trình bày ở Bảng 1.
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 75 -
Bảng 1. Đặc điểm các câu trong kho ngữ liệu
song ngữ
Tiêu đề Số lượng %
Sách [3] 4.000 40% tổng số câu
Sách [8] 3.000 30% tổng số câu
Trang web [9] 3.000 30% tổng số câu
Số từ trung bình
mỗi câu
10 từ
Câu hỏi 2.929 29% tổng số câu
Câu hỏi chính
phản
212 2,2% tổng số câu
7,3% tổng số câu
hỏi
III. CẤU TRÚC CÂU HỎI CHÍNH PHẢN
TRONG TIẾNG HOA
Câu hỏi chính phản: Là dạng câu hỏi sử dụng thể
khẳng định và phủ định của động từ hoặc hình dung từ
(tính từ) để hỏi. Thể phủ định của câu hỏi chính phản
là: 不/没 + động từ / hình dung từ. Có các hình thức
như sau:
- Hình thứ 1: Liên kết thể khẳng định và phủ định
của động từ hoặc cụm tính từ, có 2 dạng:
+ Dạng 1: Thể khẳng định của động từ/ tính từ +
thể phủ định của động từ / tính từ + tân ngữ
(hình 1)
Tân ngữ là từ đứng sau động từ và bổ nghĩa cho
động từ, tân ngữ thường là danh từ hoặc cụm
danh từ. Ví dụ trong câu sau thì từ “喝” là động
từ (“uống”) và từ “啤酒” là tân ngữ (“bia”):
Hình 1. Câu hỏi chính phản hình thức 1-dạng 1
+ Dạng 2: Thể khẳng định của động từ/ tính từ
+ tân ngữ + thể phủ định của động từ / tính
từ + tân ngữ (Hình 2)
Trong ví dụ này, từ “看” có nghĩa là “xem” (động
từ), từ “ 影” có nghĩa “ti vi” (tân ngữ).
Hình 2. Câu hỏi chính phản hình thức 2-dạng 2
Hình 3. Câu hỏi chính phản hình thức 2
- Hình thức 2: Nếu người nói đã có một sự đánh giá
hay nhận xét về một sự việc, hiện tượng nào đó;
muốn xác minh rõ ràng hơn nữa thì dùng “是不是”
để nêu câu hỏi. Trong tiếng việt, “是不是” có
nghĩa là “phải không”; nhưng nghĩa của từng từ sẽ
là: “是” nghĩa là “là”; “不” nghĩa là “không” (Hình
3)
- Hình thức 3: Dùng thể khẳng định của động từ /
tính từ + 没有
Trong câu hỏi, từ “没有” dịch sang tiếng việt có
nghĩa là “chưa”. Ở thể khẳng định, “没有” có nghĩa là
“không có” (Hình 4)
Hình 4. Câu hỏi chính phản hình thức 3
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 76 -
Trong ba hình thức của câu hỏi chính phản, hình
thức 3 đơn giản và cố định, chỉ có từ “没有?”. Do đó,
trong bài báo này chúng tôi sẽ không xử lý hình thức 3
vì nó đơn giản và hệ thống dịch SMT[5] sẽ tự học
được. Chúng tôi sẽ chỉ tập trung vào 2 dạng của hình
thức 1 và hình thức 2.
IV. CHUYỂN ĐỔI CÂU HỎI CHÍNH PHẢN
SANG CÂU HỎI THÔNG THƯỜNG
Như ở phần II.2 (Đặc điểm dịch thống kê Hoa-
Việt) chúng tôi đã trình bày về lỗi sai khi dịch câu hỏi
chính phản trong dịch thống kê Hoa-Việt. Do đó, đối
với câu hỏi chính phản, trước khi cho qua hệ thống
dịch, chúng tôi tiến hành chuyển đối chúng sang câu
hỏi thông thường. Câu hỏi thông thường là câu hỏi sau
khi đã xóa các từ thừa và bổ sung từ thiếu của câu hỏi
chính phản. Tương ứng với câu hỏi thông thường, dựa
vào kết quả dóng hàng từ trong kho ngữ liệu huấn
luyện, câu dịch đích sẽ cho kết quả chính xác hơn.
Ví dụ: Câu hỏi chính phản: 你喜 不喜 看
影？Sau khi xóa từ thừa “不喜 ” và bổ sung từ để
hỏi “ ” ở cuối câu, ta được câu hỏi thông thường
“你喜 看 影 ？”. Kết quả dịch thống kê đối với
ví dụ này cho kết quả chính xác như người dịch.
Câu hỏi chính phản và kết quả dịch:
你 喜 不 喜 看 影 ？
Bạn thích Không thích Xem phim ?
Sau khi chuyển đổi sang câu hỏi thông thường và kết
quả dịch tương ứng:
你 喜 看 影 ？
Bạn thích Xem phim Không ?
- Phương pháp chuyển đổi (Hình 5)
Phần này trình bày mô hình tổng quát quá trình
chuyển đổi câu tiếng Hoa trước khi cho qua hệ thống
dịch thống kê Hoa-Việt.
Kiểm tra câu tiếng Hoa có khả năng là câu hỏi
chính phản hay không?
Tìm trong câu đầu vào có chứa từ “不” hoặc “没”
hay không. Nếu có và 2 từ này không phải nằm ở đầu
hoặc cuối câu thì có khả năng câu này là câu hỏi chính
phản.
Hình 5. Chuyển đổi câu hỏi chính phản
sang câu hỏi thông thường
Tách từ câu hỏi chính phản bằng phương pháp
Maximum Matching (MM)[4]
Có hai hướng tách từ phổ biết hiện nay, đó là tách
từ dựa vào từ điển và tách từ dựa vào thống kê (điển
hình là phương pháp tách từ CRF của nhóm tác giả
PiChuan Chang, Michel Galley, Christorpher
D.Manning của trường đại học Stanford). Trong
nghiên cứu này, chúng tôi chỉ tách từ các câu có khả
năng là câu hỏi chính phản (các câu hỏi có chứa từ
“不” hoặc “没”) bằng phương pháp Maximum
Matching. Với từ điển đơn ngữ tiếng Hoa gồm 77.000
mục từ được định dạng bởi các chuyên gia Hoa ngữ
của công ty Kim Từ Điển nên chất lượng của từ điển
này rất tốt. Chất lượng của phương pháp tách từ MM
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 77 -
phụ thuộc vào chất lượng của từ điển nên trong nghiên
cứu này chúng tôi sử dụng phương pháp truyền thống
này trên từ điển sẵn có để tách từ. Qua khảo sát, với số
lượng câu hỏi chính phản là 212 câu, kết quả tách từ
theo thuật toán MM trên từ điển 77.000 mục từ cho
kết quả chính xác 100%.
Phương pháp Maximum Matching: Còn gọi là
LRMM (Left Right Maximum Matching). Ở phương
pháp này , chúng ta sẽ duyệt một ngữ hoặc câu từ trái
sang phải và chọn từ có nhiều âm tiết nhất có mặt
trong từ điển và cứ thực hiện lặp lại như vậy cho đến
hết câu.
Giả sử chúng ta có một chuỗi ký tự C1 , C2 , ,
Cn. Chúng ta sẽ áp dụng phương pháp từ đầu chuỗi.
Đầu tiên kiểm tra xem C1 có phải là từ hay không, sau
đó kiểm tra xem C1C2 có phải là từ hay không. Tiếp
tục thực hiện như thế cho đến khi tìm được từ dài nhất.
Phương pháp này thực hiện tách từ đơn giản,
nhanh và chỉ cần dựa vào từ điển để thực hiện. Tuy
nhiên, khuyết điểm của phương pháp này cũng chính
là từ điển, nghĩa là độ chính xác khi thực hiện tách từ
phụ thuộc hoàn toàn vào tính đủ, tính chính xác của từ
điển.
Kiểm tra câu hỏi chính phản ở dạng nào – Chuyển
sang câu hỏi thông thường.
Hình thức 1 - Dạng 1:
Quy tắc chuyển đổi cho dạng này như sau:
- Xác định câu hỏi có chứa từ “不” hoặc “没” hay
không
+ Nếu có,
Tách từ câu hỏi này.
Xác định từ liền trước và từ liền sau từ
“不/没” (trong tiếng Hoa từ đứng liền sau từ
“不/没” phải là động từ hoặc tính từ). Nếu
hai từ này giống nhau thì câu này là câu hỏi
chính phản dạng 1 hình thức 1, ta tiến hành
chuyển đổi như sau:
Xóa từ “不/没” và động từ/tính từ phía
sau nó.
Thêm từ “ ” ở cuối câu (trước dấu ?)
- Ví dụ câu hỏi chính phản “你喝不喝啤酒？” được
chuyển đổi như sau: (Hình 6)
Hình 6. Chuyển đổi câu hỏi chính phản
hình thức 1 – dạng 1 sang câu hỏi thông thường
Dạng 2: Mô hình chuyển đổi như sau
Quy tắc chuyển đổi cho dạng này như sau:
- Xác định câu hỏi có chứa từ “不” hoặc “没” hay
không
+ Nếu có,
Tách từ câu hỏi này.
Xác định từ liền sau từ “不/没”, tìm từ trong
ngữ phía trước từ “不/没” . Nếu hai từ này
giống nhau thì câu này là câu hỏi chính phản
dạng 1 hình thức 1, ta tiến hành chuyển đổi
như sau:
Xóa từ “不/没” và động từ/tính từ phía
sau nó.
Thêm từ “ ” ở cuối câu (trước dấu ?)
- Ví dụ câu hỏi chính phản “你看 影不看？” được
chuyển đổi như sau (Hình 7)
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 78 -
Hình 7. Chuyển đổi câu hỏi chính phản
hình thức 1 – dạng 2 sang câu hỏi thông thường
Ở dạng 1 và dạng 2 ở hình thức 1, khi gặp một câu
có khả năng là câu hỏi chính phản, để xác định câu
này có thực sự là câu hỏi chính phản hay không chúng
ta phải tách từ và kiểm định. Việc tách từ rất quan
trọng, nếu bỏ qua bước này có khả năng chúng ta nhận
diện bị sai. Ví dụ câu “学生不学 ”, nếu không tách
từ thì câu này thõa mãn đặc trưng của dạng 2 hình
thức 1 của câu hỏi chính phản. Trong câu này từ động
từ “学” (học) đứng trước và sau từ “不” nên thuộc câu
hỏi chính phản. Tuy nhiên, từ “学” trong trường hợp
này không phải là từ độc lập, câu này sau khi tách từ
có dạng như sau:
Rõ ràng sau khi tách từ, từ đứng trước và sau từ
“不” không còn giống nhau và câu này không phải là
câu hỏi chính phản. Qua ví dụ này cho thấy việc tách
từ rất quan trọng và cần thiết trong bài toán nhận diện
chính xác câu hỏi chính phản.
Hình thức 2: 是不是:
Đối với câu hỏi chứa cụm từ “是不是” chúng ta
không cần tách từ câu hỏi này vì chắc chắn đây là câu
hỏi chính phản thuộc hình thức 2, cụm từ này sẽ được
dịch là “phải không”.
Quy tắc chuyển đổi cho dạng này như sau:
- Xác định câu hỏi có chứa cụm từ “是不是”
+ Nếu có,
Xác định trong câu có chứa động từ hay
không.
Nếu có: Xóa cụm từ “是不是” và thêm từ
“ ” ở cuối câu.
Nếu không có: Xóa cụm từ “不是” và
thêm từ “ ” ở cuối câu
- Ví dụ câu hỏi chính phản “是不是 你 不想参加
个活 了？” được chuyển đổi như sau (Hình 8)
-
Hình 8. Chuyển đổi câu hỏi chính phản hình thức 2
sang câu hỏi thông thường
Kết quả thử nghiệm và thảo luận
Trong bài báo này chúng tôi thực hiện hai thử
nghiệm sau:
- Thử nghiệm 1: Dùng 10.000 cặp câu song ngữ tự
tạo: 9.000 dành cho huấn luyện (train), 500 dành
cho kiểm tra (test) và 500 dành cho điều chỉnh
tham số (dev).
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 79 -
Bảng 2. So sánh kết quả dịch qua ba hệ thống.
Hình 10. Hình chụp bản dịch google ngày 01/06/2011
+ Thử nghiệm dịch tự động SMT Baseline[5]
(không xử lý câu hỏi chính phản).
+ Thử nghiệm dịch tự động SMT Baseline[5] đã
qua tiền xử lý câu hỏi chính phản.
+ Trong 500 câu test có 14 câu hỏi chính phản.
Điểm BLEU[5] Baseline: 46,96; Điểm BLEU
có xử lý chính phản: 47,23
- Thử nghiệm 2: Sử dụng 4 câu hỏi chính phản ở
bài 24 và bài ôn tập 5 trong quyển sách “301 Câu
Đàm Thoại Tiếng Hoa” –Trương Văn Giới – Lê
Khắc Kiều Lục dịch; Nhà xuất bản Khoa Học Xã
Hội [3]. Sử dụng 5 câu hỏi chính phản ở bài 4 trong
quyển sách “Giáo Trình Ngữ Pháp Tiếng Hoa” –
tác giả Tô Cẩm Duy – Nhà xuất bản Trẻ [2]. Tổng
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 80 -
cộng 9 câu này được dịch qua ba hệ thống: Dịch
Baseline dùng tool Moses[5], dịch đã xử lý chính
phản (dùng tool Moses[5]) và dịch bởi Google
Translator. Kết quả dịch thể hiện ở bảng 2 và bản
dịch bởi google được thể hiện ở Hình 10.
Các phần chữ màu nhạt là phần dịch bị sai của hệ
dịch cơ sở (dịch chưa xử lý câu hỏi chính phản) và câu
dịch bởi Google. Lỗi chủ yếu khi dịch cấu trúc này:
dịch thừa từ và thiếu từ. Ví dụ như ở câu số 4:
“你喝不喝啤酒？” Trong câu này thì dịch cơ sở cho
kết quả là “Bạn uống không uống bia?” và Google cho
kết quả là “không uống bia uống rượu?”, trong khi câu
dịch đúng là “bạn uống bia không?”. Ở đây, chúng tôi
không đi sâu vào nguyên nhân dịch sai của hệ thống
Google, vì hệ thống này phải trải qua hai lần dịch khi
dịch câu Hoa–Việt; lỗi ở câu tiếng Việt bao gồm lỗi
khi dịch từ Hoa sang Anh và từ Anh sang Việt. Trong
phần này, chúng tôi chỉ bàn luận về nguyên nhân dịch
sai của dịch cơ sở.
Trong ngữ liệu huấn luyện của hệ dịch cơ sở, các
từ trong câu 4 sẽ được dịch tương ứng là: “你 (bạn) 喝
(uống) 不 (không) 喝 (uống) 啤酒 (bia)？”. Do đó, hệ
thống dịch cơ sở sẽ dịch câu này thành “bạn uống
không uống bia?”. Kết quả này không đúng với ý
nghĩa của người dịch, gây ra hai lỗi: thừa và thiếu từ.
Theo như phân loại ở phần III, câu “你喝不喝啤
酒？” thuộc câu hỏi chính phản dạng 1 hình thức 1
nên trước khi cho quả hệ thống dịch cơ sở, chúng tôi
đã chuyển đổi câu hỏi chính phản này sang câu hỏi
thông thường (Hình 9)
Hình 9. Xóa từ thừa và thêm từ để hỏi
Tương ứng với câu sau khi đã biến đổi (xóa và
thêm từ), kết quả dịch có chất lượng cao hơn nhiều so
với câu dịch cơ sở và Google, đúng với câu do con
người dịch.
V. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trong bài báo này, dựa trên kho ngữ liệu tự tạo,
chúng tôi đã thực hiện được việc dịch tự động trực tiếp
từ tiếng Hoa sang tiếng Việt mà không thông qua ngôn
ngữ trung gian tiếng Anh. Bên cạnh đó, chúng tôi
cũng đã khắc phục khá tốt các lỗi do câu hỏi chính
phản ở ngôn ngữ tiếng Hoa gây ra và cho ra kết quả
dịch gần như mong muốn.
Hướng sắp tới, chúng tôi sẽ tiếp tục khắc phục các
lỗi về trật tự từ thường xảy ra ở các câu chứa các từ:
“后” ，“以后”，“之后”, từ “的” Đồng thời nghiên
cứu, thử nghiệm các phương pháp như: tách từ Hoa-
Việt, gán nhãn từ loại hoa việt, phân loại văn bản,
nhằm tìm ra các phương pháp hiệu quả nhất để cải tiến
dịch tự động Hoa-Việt cho ra kết quả tốt nhất.
LỜI CẢM ƠN
Đề tài được thực hiện dưới sự tài trợ của quỹ
Nafosted và trường ĐH Khoa học Tự nhiên, thuộc
ĐHQG Tp.HCM
TÀI LIỆU THAM KHẢO.
[1]. ĐINH ĐIỀN, Xử lý ngôn ngữ tự nhiên, NXB Đại Học
Quốc Gia, 2006.
[2]. TÔ CẨM DUY, Giáo trình Ngữ pháp tiếng Hoa, Nhà
Xuất Bản Trẻ, 2006.
[3]. TRƯƠNG VĂN GIỚI, LÊ KHẮC KIỀU LỤC biên
dịch từ Học Viện Ngôn Ngữ Bắc Kinh, 301 Câu Đàm
Thoại Tiếng Hoa tập 1 - 2, Nhà Xuất Bản Khoa Học Xã
Hội, 2009.
[4]. Pak-kwong and Chorkin Chan, Chinese
Word Segmentation based on Maximum Matching and
Word Binding Force, Department of Computer Science
– The University of Hong Kong, .
[5]. Philipp Koehn, Statistical Machine Translation
System – User Manual and Code Guide, University of
Edinburgh, September 29, 2010.
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012
- 81 -
[6]. http:// www.jaist.ac.jp /~bao / VLSP-text/ March2008/
SP3_Baocaokythuat2008thang3.pdf, Báo cáo kỹ thuật,
2008.
[7]. Công ty Lạc Việt, Vietgle - Dịch tự động,
[8]. HỮU LÝ, TUẤN ANH, 3000 câu đàm thoại tiếng Hoa,
NXB Giao thông vận tải, 2008.
[9]. tiếng Hoa online dtt.
[10]. Tin học – công cụ dịch
Nhận bài ngày: 15/06/2011
SƠ LƯỢC VỀ TÁC GIẢ
TRẦN THANH PHƯỚC
Ngày sinh: 12-07-1981 tại Tiền
Giang.
Tốt nghiệp Đại học Sư Phạm Tp.
HCM năm 2006 chuyên ngành Tin
học; cao học Tin học năm 2011 tại
Trường Đại học Khoa Học Tự
Nhiên Tp. HCM.
Tham gia giảng dạy tại khoa Công nghệ Thông tin
Trường Đại học Công Nghiệp Thực Phẩm Tp. HCM.
Lĩnh vực nghiên cứu: Xử lý ngôn ngữ tự nhiên.
ĐT: 0908 350 132.
Email: phuoctt@cntp.edu.vn
ĐINH ĐIỀN
Sinh: 18-01-1966 tại Tp. HCM.
Tốt nghiệp Đại học ngành Vật lý
Điện tử năm 1988 tại trường ĐH
Tổng hợp Tp. HCM.; cao học Tin
học năm 1996 tại trường ĐH KH
Tự nhiên, Tp. HCM; Tiến sĩ Tin
học năm 2003 tại trường ĐH KH Tự nhiên, Tp.
HCM.; Tiến sĩ Ngôn ngữ học năm 2005 tại trường Đại
học Khoa học Xã hội & Nhân văn, Tp. HCM.; Được
phong Phó Giáo sư Tin học năm 2007.
Công tác giảng dạy và nghiên cứu về xử lý ngôn ngữ
tự nhiên tại khoa Công nghệ Thông tin Trường Đại
học Khoa học Tự nhiên Tp.HCM từ năm 1996 đến
nay.
ĐT: 090 827 8207
Email: ddien@fit.hcmus.edu.vn
.

File đính kèm:

xu_ly_cau_hoi_chinh_phan_trong_dich_tu_dong_hoa_viet.pdf