Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt
Dịch máy là bài toán lâu đời và khó nhưng đã thu
hút được sự quan tâm của rất nhiều nhóm nghiên cứu
trong nước và trên thế giới do tiềm năng ứng dụng của
nó. Tuy nhiên, do bản chất nhập nhằng của ngôn ngữ
ở mọi cấp độ và mọi khía cạnh cộng với sự khác biệt
giữa các ngôn ngữ khiến bài toán chuyển ngữ lại càng
phức tạp hơn. Đặc biệt đối với ngôn ngữ có sự khác
biệt về trật tự từ như giữa tiếng Hoa và tiếng Việt.
Đối với dịch tự động có liên quan tiếng Việt, chủ
yếu là dịch tự động Anh - Việt, hiện nay đã có một số
nhóm nghiên cứu khác nhau với các cách tiếp cận
khác nhau, cụ thể là:
- Nhóm Lê Khánh Hùng đã phát triển hệ dịch
Anh-Việt từ đầu những năm 1990 và đã có bản
thương mại tên là EVTran. Nhóm này chủ yếu
sử dụng phương pháp dịch dựa trên luật
(RBMT: Rule-based Machine Translation).
- Nhóm nghiên cứu của Đinh Điền (Trường Đại
Học Khoa Học Tự Nhiên TP.HCM): khởi đầu
từ năm 1995 là theo cách tiếp cận dựa trên luật
nhưng từ năm 2005 họ đã phát triển thêm cách
tiếp cận dựa trên thống kê (SMT: Statistical
Machine Translation) và có sự kết hợp tri thức
ngôn ngữ để nâng cao chất lượng.
- Nhóm nghiên cứu của Phan Thị Tươi (Trường
ĐạiHọc Bách Khoa TP.HCM): sử dụng phương
pháp phân tích cú pháp có xác suất để dịch văn
bản Anh-Việt và Việt-Anh[6].
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Tóm tắt nội dung tài liệu: Xử lý câu hỏi chính phản trong dịch tự động Hoa-Việt
giao tiếp phổ thông, rất thường gặp trong giao tiếp tiếng Hoa, chiều dài của các câu tương đối ngắn, bình quân khoảng 10 từ trong một câu. Vì kho ngữ liệu tập trung phổ biến các câu giao tiếp nên số lượng câu hỏi xuất hiện khá nhiều. Chi tiết về kho ngữ liệu song ngữ được trình bày ở Bảng 1. Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 - 75 - Bảng 1. Đặc điểm các câu trong kho ngữ liệu song ngữ Tiêu đề Số lượng % Sách [3] 4.000 40% tổng số câu Sách [8] 3.000 30% tổng số câu Trang web [9] 3.000 30% tổng số câu Số từ trung bình mỗi câu 10 từ Câu hỏi 2.929 29% tổng số câu Câu hỏi chính phản 212 2,2% tổng số câu 7,3% tổng số câu hỏi III. CẤU TRÚC CÂU HỎI CHÍNH PHẢN TRONG TIẾNG HOA Câu hỏi chính phản: Là dạng câu hỏi sử dụng thể khẳng định và phủ định của động từ hoặc hình dung từ (tính từ) để hỏi. Thể phủ định của câu hỏi chính phản là: 不/没 + động từ / hình dung từ. Có các hình thức như sau: - Hình thứ 1: Liên kết thể khẳng định và phủ định của động từ hoặc cụm tính từ, có 2 dạng: + Dạng 1: Thể khẳng định của động từ/ tính từ + thể phủ định của động từ / tính từ + tân ngữ (hình 1) Tân ngữ là từ đứng sau động từ và bổ nghĩa cho động từ, tân ngữ thường là danh từ hoặc cụm danh từ. Ví dụ trong câu sau thì từ “喝” là động từ (“uống”) và từ “啤酒” là tân ngữ (“bia”): Hình 1. Câu hỏi chính phản hình thức 1-dạng 1 + Dạng 2: Thể khẳng định của động từ/ tính từ + tân ngữ + thể phủ định của động từ / tính từ + tân ngữ (Hình 2) Trong ví dụ này, từ “看” có nghĩa là “xem” (động từ), từ “ 影” có nghĩa “ti vi” (tân ngữ). Hình 2. Câu hỏi chính phản hình thức 2-dạng 2 Hình 3. Câu hỏi chính phản hình thức 2 - Hình thức 2: Nếu người nói đã có một sự đánh giá hay nhận xét về một sự việc, hiện tượng nào đó; muốn xác minh rõ ràng hơn nữa thì dùng “是不是” để nêu câu hỏi. Trong tiếng việt, “是不是” có nghĩa là “phải không”; nhưng nghĩa của từng từ sẽ là: “是” nghĩa là “là”; “不” nghĩa là “không” (Hình 3) - Hình thức 3: Dùng thể khẳng định của động từ / tính từ + 没有 Trong câu hỏi, từ “没有” dịch sang tiếng việt có nghĩa là “chưa”. Ở thể khẳng định, “没有” có nghĩa là “không có” (Hình 4) Hình 4. Câu hỏi chính phản hình thức 3 Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 - 76 - Trong ba hình thức của câu hỏi chính phản, hình thức 3 đơn giản và cố định, chỉ có từ “没有?”. Do đó, trong bài báo này chúng tôi sẽ không xử lý hình thức 3 vì nó đơn giản và hệ thống dịch SMT[5] sẽ tự học được. Chúng tôi sẽ chỉ tập trung vào 2 dạng của hình thức 1 và hình thức 2. IV. CHUYỂN ĐỔI CÂU HỎI CHÍNH PHẢN SANG CÂU HỎI THÔNG THƯỜNG Như ở phần II.2 (Đặc điểm dịch thống kê Hoa- Việt) chúng tôi đã trình bày về lỗi sai khi dịch câu hỏi chính phản trong dịch thống kê Hoa-Việt. Do đó, đối với câu hỏi chính phản, trước khi cho qua hệ thống dịch, chúng tôi tiến hành chuyển đối chúng sang câu hỏi thông thường. Câu hỏi thông thường là câu hỏi sau khi đã xóa các từ thừa và bổ sung từ thiếu của câu hỏi chính phản. Tương ứng với câu hỏi thông thường, dựa vào kết quả dóng hàng từ trong kho ngữ liệu huấn luyện, câu dịch đích sẽ cho kết quả chính xác hơn. Ví dụ: Câu hỏi chính phản: 你喜 不喜 看 影?Sau khi xóa từ thừa “不喜 ” và bổ sung từ để hỏi “ ” ở cuối câu, ta được câu hỏi thông thường “你喜 看 影 ?”. Kết quả dịch thống kê đối với ví dụ này cho kết quả chính xác như người dịch. Câu hỏi chính phản và kết quả dịch: 你 喜 不 喜 看 影 ? Bạn thích Không thích Xem phim ? Sau khi chuyển đổi sang câu hỏi thông thường và kết quả dịch tương ứng: 你 喜 看 影 ? Bạn thích Xem phim Không ? - Phương pháp chuyển đổi (Hình 5) Phần này trình bày mô hình tổng quát quá trình chuyển đổi câu tiếng Hoa trước khi cho qua hệ thống dịch thống kê Hoa-Việt. Kiểm tra câu tiếng Hoa có khả năng là câu hỏi chính phản hay không? Tìm trong câu đầu vào có chứa từ “不” hoặc “没” hay không. Nếu có và 2 từ này không phải nằm ở đầu hoặc cuối câu thì có khả năng câu này là câu hỏi chính phản. Hình 5. Chuyển đổi câu hỏi chính phản sang câu hỏi thông thường Tách từ câu hỏi chính phản bằng phương pháp Maximum Matching (MM)[4] Có hai hướng tách từ phổ biết hiện nay, đó là tách từ dựa vào từ điển và tách từ dựa vào thống kê (điển hình là phương pháp tách từ CRF của nhóm tác giả PiChuan Chang, Michel Galley, Christorpher D.Manning của trường đại học Stanford). Trong nghiên cứu này, chúng tôi chỉ tách từ các câu có khả năng là câu hỏi chính phản (các câu hỏi có chứa từ “不” hoặc “没”) bằng phương pháp Maximum Matching. Với từ điển đơn ngữ tiếng Hoa gồm 77.000 mục từ được định dạng bởi các chuyên gia Hoa ngữ của công ty Kim Từ Điển nên chất lượng của từ điển này rất tốt. Chất lượng của phương pháp tách từ MM Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 - 77 - phụ thuộc vào chất lượng của từ điển nên trong nghiên cứu này chúng tôi sử dụng phương pháp truyền thống này trên từ điển sẵn có để tách từ. Qua khảo sát, với số lượng câu hỏi chính phản là 212 câu, kết quả tách từ theo thuật toán MM trên từ điển 77.000 mục từ cho kết quả chính xác 100%. Phương pháp Maximum Matching: Còn gọi là LRMM (Left Right Maximum Matching). Ở phương pháp này , chúng ta sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp lại như vậy cho đến hết câu. Giả sử chúng ta có một chuỗi ký tự C1 , C2 , , Cn. Chúng ta sẽ áp dụng phương pháp từ đầu chuỗi. Đầu tiên kiểm tra xem C1 có phải là từ hay không, sau đó kiểm tra xem C1C2 có phải là từ hay không. Tiếp tục thực hiện như thế cho đến khi tìm được từ dài nhất. Phương pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào từ điển để thực hiện. Tuy nhiên, khuyết điểm của phương pháp này cũng chính là từ điển, nghĩa là độ chính xác khi thực hiện tách từ phụ thuộc hoàn toàn vào tính đủ, tính chính xác của từ điển. Kiểm tra câu hỏi chính phản ở dạng nào – Chuyển sang câu hỏi thông thường. Hình thức 1 - Dạng 1: Quy tắc chuyển đổi cho dạng này như sau: - Xác định câu hỏi có chứa từ “不” hoặc “没” hay không + Nếu có, Tách từ câu hỏi này. Xác định từ liền trước và từ liền sau từ “不/没” (trong tiếng Hoa từ đứng liền sau từ “不/没” phải là động từ hoặc tính từ). Nếu hai từ này giống nhau thì câu này là câu hỏi chính phản dạng 1 hình thức 1, ta tiến hành chuyển đổi như sau: Xóa từ “不/没” và động từ/tính từ phía sau nó. Thêm từ “ ” ở cuối câu (trước dấu ?) - Ví dụ câu hỏi chính phản “你喝不喝啤酒?” được chuyển đổi như sau: (Hình 6) Hình 6. Chuyển đổi câu hỏi chính phản hình thức 1 – dạng 1 sang câu hỏi thông thường Dạng 2: Mô hình chuyển đổi như sau Quy tắc chuyển đổi cho dạng này như sau: - Xác định câu hỏi có chứa từ “不” hoặc “没” hay không + Nếu có, Tách từ câu hỏi này. Xác định từ liền sau từ “不/没”, tìm từ trong ngữ phía trước từ “不/没” . Nếu hai từ này giống nhau thì câu này là câu hỏi chính phản dạng 1 hình thức 1, ta tiến hành chuyển đổi như sau: Xóa từ “不/没” và động từ/tính từ phía sau nó. Thêm từ “ ” ở cuối câu (trước dấu ?) - Ví dụ câu hỏi chính phản “你看 影不看?” được chuyển đổi như sau (Hình 7) Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 - 78 - Hình 7. Chuyển đổi câu hỏi chính phản hình thức 1 – dạng 2 sang câu hỏi thông thường Ở dạng 1 và dạng 2 ở hình thức 1, khi gặp một câu có khả năng là câu hỏi chính phản, để xác định câu này có thực sự là câu hỏi chính phản hay không chúng ta phải tách từ và kiểm định. Việc tách từ rất quan trọng, nếu bỏ qua bước này có khả năng chúng ta nhận diện bị sai. Ví dụ câu “学生不学 ”, nếu không tách từ thì câu này thõa mãn đặc trưng của dạng 2 hình thức 1 của câu hỏi chính phản. Trong câu này từ động từ “学” (học) đứng trước và sau từ “不” nên thuộc câu hỏi chính phản. Tuy nhiên, từ “学” trong trường hợp này không phải là từ độc lập, câu này sau khi tách từ có dạng như sau: Rõ ràng sau khi tách từ, từ đứng trước và sau từ “不” không còn giống nhau và câu này không phải là câu hỏi chính phản. Qua ví dụ này cho thấy việc tách từ rất quan trọng và cần thiết trong bài toán nhận diện chính xác câu hỏi chính phản. Hình thức 2: 是不是: Đối với câu hỏi chứa cụm từ “是不是” chúng ta không cần tách từ câu hỏi này vì chắc chắn đây là câu hỏi chính phản thuộc hình thức 2, cụm từ này sẽ được dịch là “phải không”. Quy tắc chuyển đổi cho dạng này như sau: - Xác định câu hỏi có chứa cụm từ “是不是” + Nếu có, Xác định trong câu có chứa động từ hay không. Nếu có: Xóa cụm từ “是不是” và thêm từ “ ” ở cuối câu. Nếu không có: Xóa cụm từ “不是” và thêm từ “ ” ở cuối câu - Ví dụ câu hỏi chính phản “是不是 你 不想参加 个活 了?” được chuyển đổi như sau (Hình 8) - Hình 8. Chuyển đổi câu hỏi chính phản hình thức 2 sang câu hỏi thông thường Kết quả thử nghiệm và thảo luận Trong bài báo này chúng tôi thực hiện hai thử nghiệm sau: - Thử nghiệm 1: Dùng 10.000 cặp câu song ngữ tự tạo: 9.000 dành cho huấn luyện (train), 500 dành cho kiểm tra (test) và 500 dành cho điều chỉnh tham số (dev). Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 - 79 - Bảng 2. So sánh kết quả dịch qua ba hệ thống. Hình 10. Hình chụp bản dịch google ngày 01/06/2011 + Thử nghiệm dịch tự động SMT Baseline[5] (không xử lý câu hỏi chính phản). + Thử nghiệm dịch tự động SMT Baseline[5] đã qua tiền xử lý câu hỏi chính phản. + Trong 500 câu test có 14 câu hỏi chính phản. Điểm BLEU[5] Baseline: 46,96; Điểm BLEU có xử lý chính phản: 47,23 - Thử nghiệm 2: Sử dụng 4 câu hỏi chính phản ở bài 24 và bài ôn tập 5 trong quyển sách “301 Câu Đàm Thoại Tiếng Hoa” –Trương Văn Giới – Lê Khắc Kiều Lục dịch; Nhà xuất bản Khoa Học Xã Hội [3]. Sử dụng 5 câu hỏi chính phản ở bài 4 trong quyển sách “Giáo Trình Ngữ Pháp Tiếng Hoa” – tác giả Tô Cẩm Duy – Nhà xuất bản Trẻ [2]. Tổng Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 - 80 - cộng 9 câu này được dịch qua ba hệ thống: Dịch Baseline dùng tool Moses[5], dịch đã xử lý chính phản (dùng tool Moses[5]) và dịch bởi Google Translator. Kết quả dịch thể hiện ở bảng 2 và bản dịch bởi google được thể hiện ở Hình 10. Các phần chữ màu nhạt là phần dịch bị sai của hệ dịch cơ sở (dịch chưa xử lý câu hỏi chính phản) và câu dịch bởi Google. Lỗi chủ yếu khi dịch cấu trúc này: dịch thừa từ và thiếu từ. Ví dụ như ở câu số 4: “你喝不喝啤酒?” Trong câu này thì dịch cơ sở cho kết quả là “Bạn uống không uống bia?” và Google cho kết quả là “không uống bia uống rượu?”, trong khi câu dịch đúng là “bạn uống bia không?”. Ở đây, chúng tôi không đi sâu vào nguyên nhân dịch sai của hệ thống Google, vì hệ thống này phải trải qua hai lần dịch khi dịch câu Hoa–Việt; lỗi ở câu tiếng Việt bao gồm lỗi khi dịch từ Hoa sang Anh và từ Anh sang Việt. Trong phần này, chúng tôi chỉ bàn luận về nguyên nhân dịch sai của dịch cơ sở. Trong ngữ liệu huấn luyện của hệ dịch cơ sở, các từ trong câu 4 sẽ được dịch tương ứng là: “你 (bạn) 喝 (uống) 不 (không) 喝 (uống) 啤酒 (bia)?”. Do đó, hệ thống dịch cơ sở sẽ dịch câu này thành “bạn uống không uống bia?”. Kết quả này không đúng với ý nghĩa của người dịch, gây ra hai lỗi: thừa và thiếu từ. Theo như phân loại ở phần III, câu “你喝不喝啤 酒?” thuộc câu hỏi chính phản dạng 1 hình thức 1 nên trước khi cho quả hệ thống dịch cơ sở, chúng tôi đã chuyển đổi câu hỏi chính phản này sang câu hỏi thông thường (Hình 9) Hình 9. Xóa từ thừa và thêm từ để hỏi Tương ứng với câu sau khi đã biến đổi (xóa và thêm từ), kết quả dịch có chất lượng cao hơn nhiều so với câu dịch cơ sở và Google, đúng với câu do con người dịch. V. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong bài báo này, dựa trên kho ngữ liệu tự tạo, chúng tôi đã thực hiện được việc dịch tự động trực tiếp từ tiếng Hoa sang tiếng Việt mà không thông qua ngôn ngữ trung gian tiếng Anh. Bên cạnh đó, chúng tôi cũng đã khắc phục khá tốt các lỗi do câu hỏi chính phản ở ngôn ngữ tiếng Hoa gây ra và cho ra kết quả dịch gần như mong muốn. Hướng sắp tới, chúng tôi sẽ tiếp tục khắc phục các lỗi về trật tự từ thường xảy ra ở các câu chứa các từ: “后” ,“以后”,“之后”, từ “的” Đồng thời nghiên cứu, thử nghiệm các phương pháp như: tách từ Hoa- Việt, gán nhãn từ loại hoa việt, phân loại văn bản, nhằm tìm ra các phương pháp hiệu quả nhất để cải tiến dịch tự động Hoa-Việt cho ra kết quả tốt nhất. LỜI CẢM ƠN Đề tài được thực hiện dưới sự tài trợ của quỹ Nafosted và trường ĐH Khoa học Tự nhiên, thuộc ĐHQG Tp.HCM TÀI LIỆU THAM KHẢO. [1]. ĐINH ĐIỀN, Xử lý ngôn ngữ tự nhiên, NXB Đại Học Quốc Gia, 2006. [2]. TÔ CẨM DUY, Giáo trình Ngữ pháp tiếng Hoa, Nhà Xuất Bản Trẻ, 2006. [3]. TRƯƠNG VĂN GIỚI, LÊ KHẮC KIỀU LỤC biên dịch từ Học Viện Ngôn Ngữ Bắc Kinh, 301 Câu Đàm Thoại Tiếng Hoa tập 1 - 2, Nhà Xuất Bản Khoa Học Xã Hội, 2009. [4]. Pak-kwong and Chorkin Chan, Chinese Word Segmentation based on Maximum Matching and Word Binding Force, Department of Computer Science – The University of Hong Kong, . [5]. Philipp Koehn, Statistical Machine Translation System – User Manual and Code Guide, University of Edinburgh, September 29, 2010. Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 - 81 - [6]. http:// www.jaist.ac.jp /~bao / VLSP-text/ March2008/ SP3_Baocaokythuat2008thang3.pdf, Báo cáo kỹ thuật, 2008. [7]. Công ty Lạc Việt, Vietgle - Dịch tự động, [8]. HỮU LÝ, TUẤN ANH, 3000 câu đàm thoại tiếng Hoa, NXB Giao thông vận tải, 2008. [9]. tiếng Hoa online dtt. [10]. Tin học – công cụ dịch Nhận bài ngày: 15/06/2011 SƠ LƯỢC VỀ TÁC GIẢ TRẦN THANH PHƯỚC Ngày sinh: 12-07-1981 tại Tiền Giang. Tốt nghiệp Đại học Sư Phạm Tp. HCM năm 2006 chuyên ngành Tin học; cao học Tin học năm 2011 tại Trường Đại học Khoa Học Tự Nhiên Tp. HCM. Tham gia giảng dạy tại khoa Công nghệ Thông tin Trường Đại học Công Nghiệp Thực Phẩm Tp. HCM. Lĩnh vực nghiên cứu: Xử lý ngôn ngữ tự nhiên. ĐT: 0908 350 132. Email: phuoctt@cntp.edu.vn ĐINH ĐIỀN Sinh: 18-01-1966 tại Tp. HCM. Tốt nghiệp Đại học ngành Vật lý Điện tử năm 1988 tại trường ĐH Tổng hợp Tp. HCM.; cao học Tin học năm 1996 tại trường ĐH KH Tự nhiên, Tp. HCM; Tiến sĩ Tin học năm 2003 tại trường ĐH KH Tự nhiên, Tp. HCM.; Tiến sĩ Ngôn ngữ học năm 2005 tại trường Đại học Khoa học Xã hội & Nhân văn, Tp. HCM.; Được phong Phó Giáo sư Tin học năm 2007. Công tác giảng dạy và nghiên cứu về xử lý ngôn ngữ tự nhiên tại khoa Công nghệ Thông tin Trường Đại học Khoa học Tự nhiên Tp.HCM từ năm 1996 đến nay. ĐT: 090 827 8207 Email: ddien@fit.hcmus.edu.vn .
File đính kèm:
- xu_ly_cau_hoi_chinh_phan_trong_dich_tu_dong_hoa_viet.pdf