Báo cáo Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút dữ liệu từ kho ngữ liệu

pdf 37 trang thiennha21 14/04/2022 6081
Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút dữ liệu từ kho ngữ liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbao_cao_nghien_cuu_xay_dung_co_so_du_lieu_tu_dien_bang_phuon.pdf

Nội dung text: Báo cáo Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút dữ liệu từ kho ngữ liệu

  1. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CƠNG NGHỆ THƠNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS. Trần Thị Kiều Đà Nẵng, 12/2016
  2. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CƠNG NGHỆ THƠNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS. Trần Thị Kiều Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài Đà Nẵng, 12/2016
  3. MỤC LỤC MỞ ĐẦU 1 1. LÝ DO CHỌN ĐỀ TÀI 1 2. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU 2 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 2 3.1. Đối tượng nghiên cứu 2 3.2. Phạm vi nghiên cứu 2 4. BỐ CỤC CỦA BÁO CÁO 2 CHƯƠNG 1 TỔNG QUAN 4 1.1. CƠ SỞ LÝ THUYẾT 4 1.1.1. Tổng quan về từ điển 4 1.1.2. Cơ sở dữ liệu từ điển 5 1.1.3. Các chuẩn dữ liệu từ điển 5 1.1.4. Kho ngữ liệu 9 1.1.5. Các phương pháp tách từ tiếng Việt hiện nay 11 1.2. CÁC CƠNG TRÌNH NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN 11 1.3. TỔNG KẾT CHƯƠNG 1 12 CHƯƠNG 2 ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN TỪ KHO NGỮ LIỆU 13 2.1. PHÁT BIỂU BÀI TỐN 13 2.2. ĐỀ XUẤT GIẢI PHÁP 14 2.2.1. Mơ hình bài tốn 14 2.2.2. Đặc tả mơ hình bài tốn 15 2.3. LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT 16 2.3.1. Phân đoạn từ trong tiếng Việt 16 2.3.2. Dịch máy thống kê 18 2.3.3. Định dạng dữ liệu từ điển 20 2.4. TỔNG KẾT CHƯƠNG 2 20
  4. CHƯƠNG 3 TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM 21 3.1. TRIỂN KHAI ỨNG DỤNG 21 3.1.1. Lựa chọn cơng nghệ 21 3.1.2. Chuẩn bị dữ liệu 21 3.1.3. Kết quả đạt được 21 3.1.4. Đánh giá kết quả 25 3.2. TỔNG KẾT CHƯƠNG 3 25
  5. DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa 1 HTML HyperText Markup Language 2 CSDL Cơ sở dữ liệu 3 KDD Knowledge Discovery in Database 4 KPDL Khai phá dữ liệu 5 LRMM Left Right Maximum Matching 6 RLMM Right Left Maximum Matching 7 MMSEG Maximum Matching Segmentation 8 WFST Weighted finit–state Transducer
  6. DANH MỤC CÁC HÌNH VẼ Hình 1.1: Định dạng dict.org 7 Hình 1.2: Định dạng dict.org 7 Hình1.3: Ví dụ tập tin cĩ định dạng spdict. 8 Hình 2.1 :Phác thảo mơ hình bài tốn 14 Hình 2.2: Mơ phỏng phương pháp khớp tối đa 18 Hình 2.3: Ví dụ thống kê dựa vào cụm từ 20 Hình 3.1: Cấu trúc của tập tin kho ngữ liệu Anh – Việt 22 Hình 3.2: Kết quả phân tích từ từ kho song ngữ 22 Hình 3.3: Kết quả sau khi tách từ tiếng Anh 23 Hình 3.4: Kết quả sau khi tách từ tiếng Việt 23 Hình 3.5: Lưu dữ liệu từ điển theo định dạng dict.org 24
  7. DANH MỤC CÁC BẢNG Bảng 3.1: Kết quả thử nghiệm cơng cụ trích xuất dữ liệu từ điển 25
  8. TĨM TẮT KẾT QUẢ NGHIÊN CỨU Tên đề tài: Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu. Mã số: Chủ nhiệm: ThS. Trần Thị Kiều Điện thoại: 0905.433.387 E-mail: ttkieu@cit.udn.vn Cơ quan chủ trì: Trường Cao đẳng Cơng nghệ Thơng tin Đơn vị thực hiện: Trường Cao đẳng Cơng nghệ Thơng tin Thời gian thực hiện: 12 tháng 1. Mục tiêu: Mục tiêu chính của đề tài là nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu: Nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; kho ngữ liệu, các loại kho ngữ liệu. Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đĩ, cĩ thể làm nguồn dữ liệu cho các phần mềm từ điển, cĩ thể nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, 2. Nội dung chính: Nghiên cứu tổng quan từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển. Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Xây dựng cơng cụ xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu. 3. Kết quả đạt được (khoa học, ứng dụng, đào tạo, kinh tế - xã hội): Kết quả đạt được đã áp dụng đúng các nội dung trong thuyết minh, cụ thể như sau:
  9. Đã cơng bố 01 bài báo đăng tại CITA 2016. Báo cáo tổng kết. Đã xây dựng được cơng cụ xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu. Cơ quan Chủ trì Chủ nhiệm đề tài (ký, họ và tên, đĩng dấu) (ký, họ và tên)
  10. 1 MỞ ĐẦU 1. LÝ DO CHỌN ĐỀ TÀI Người ta vẫn thường nĩi rằng: “Chúng ta đang sống trong thời đại cơng nghệ thơng tin”, thực ra, chúng ta đang sống trong thời đại của dữ liệu. Lượng dữ liệu khổng lồ về tất cả các lĩnh vực kỹ thuật, kinh tế, xã hội, phần lớn đều cĩ thể tìm thấy thơng qua hệ thống mạng Internet. Tuy nhiên, lượng thơng tin trên mạng Internet vẫn chưa được khai thác triệt để vì nhiều lý do và một trong những lý do quan trọng đĩ là rào cản về ngơn ngữ. Để phá bỏ rào cản đĩ và giúp ta tiếp cận nhanh hơn với thời đại cơng nghệ, giao lưu và làm việc với bạn bè quốc tế. Và tất nhiên từ điển là một cơng cụ quan trọng và đắc lực phục vụ người học, người làm. Hiện tại cĩ rất nhiều phần mềm, rất nhiều trang web từ điển hỗ trợ nhưng cĩ một thực tế rằng lượng dữ liệu của mỗi nguồn từ điển là hữu hạn và mỗi phần mềm mỗi trang web đều cĩ lượng từ và hoạt động trong những lĩnh vực khác nhau. Cĩ những từ khơng tìm thấy trên trang web này nhưng cĩ thể tìm thấy ở trang web khác. Điều này làm cho người dùng cĩ thể phải sử dụng trên nhiều trang web, cài nhiều phần mềm, rất bất tiện. Hơn nữa, phần quan trọng nhất đối với ứng dụng từ điển chính là cơ sở dữ liệu, nĩ được coi là trái tim của chương trình. Qua khảo sát đã cĩ nhiều cơng trình, nhiều bài báo nghiên cứu để tạo nên một cơ sở dữ liệu từ: giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ [2], hay xây dựng từ điển dựa trên các kho ngữ liệu song song [6], [9]. Tuy nhiên, các cơng trình nghiên cứu này một là hợp nhất các cơ sở dữ liệu cĩ sẵn hoặc chưa xử lý trên ngơn ngữ tiếng Việt. Với những thực trạng đĩ, tơi mong muốn nghiên cứu giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Thay vì xây dựng các từ điển, các qui luật chuyển đổi bằng tay thì ở đây tự động xây dựng các từ điển, các qui luật dựa trên kết quả thống kê cĩ được từ các kho ngữ liệu. Mục đích làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luơn được cập nhật từ mới thường xuyên từ các kho ngữ
  11. 2 liệu; cĩ thể làm nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, 2. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU Nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; kho ngữ liệu, các loại kho ngữ liệu. Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đĩ, cĩ thể làm nguồn dữ liệu cho các phần mềm từ điển, cĩ thể nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 3.1. Đối tượng nghiên cứu 3.2. Phạm vi nghiên cứu Về lý thuyết: Nghiên cứu cơ sở lý thuyết về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; tổng quan về kho ngữ liệu, các loại kho ngữ liệu; các phương pháp, kỹ thuật tách từ tiếng Việt. Về thực nghiệm: Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đĩ, cĩ thể làm nguồn dữ liệu cho các phần mềm từ điển, cĩ thể nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, 4. BỐ CỤC CỦA BÁO CÁO Bố cục báo cáo được trình bày bao gồm 3 chương chính như sau: Chương 1 trình bày lý thuyết tổng quan về khai phá dữ liệu, về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; tổng quan về kho ngữ liệu, các loại kho ngữ liệu. Chương 2 trình bày đề xuất giải pháp, lý do lựa chọn phương pháp, kỹ thuật cho bài tốn xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu.
  12. 3 Chương 3 trình bày triển khai thực nghiệm xây dựng cơ sở dữ liệu từ điển, kết quả đạt được, chưa đạt được, hướng phát triển của bài tốn. Sau đĩ trình bày đề xuất hướng cải tiến bài tốn hiệu quả hơn
  13. 4 CHƯƠNG 1 TỔNG QUAN Chương này báo cáo trình bày cơ sở lý thuyết ban đầu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; trình bày tổng quan về kho ngữ liệu, các loại kho ngữ liệu. Ngồi ra, các cơng trình nghiên cứu về xây dựng cơ sở dữ liệu từ điển mà bản thân đã nghiên cứu cũng được trình bày ngắn gọn trong chương này. 1.1. CƠ SỞ LÝ THUYẾT 1.1.1. Tổng quan về từ điển Trên thế giới hiện nay cĩ hàng trăm quốc gia và mỗi quốc gia cĩ một ngơn ngữ riêng của mình. Việc học các ngơn ngữ của nhau giúp chúng ta tiếp cận nhanh hơn với thời đại cơng nghệ, giao lưu và làm việc với bạn bè quốc tế. Và tất nhiên từ điển là một cơng cụ quan trọng và đắc lực phục vụ cho người học. Trước đây, khi mà internet chưa phát triển, người học ngoại ngữ phải căng mắt, mỏi tay với mỗi lần tra nghĩa từ vựng trong những cuốn từ điển dày cộm thì hiện nay mọi thứ đã trở nên nhẹ nhàng và đơn ảgi n hơn rất nhiều khi những kho từ điển đồ sộ và khổng lồ kia đều đã được số hĩa, rất nhiều từ điển điện tử ra đời. Hiện nay cĩ hai loại từ điển điện tử phổ biến: từ điển online và offline. 1.1.1.1. Từ điển ngoại tuyến (offline) Từ điển offline là các chương trình phần mềm chạy trên máy tính cá nhân và cĩ thể sử dụng mà khơng cần kết nối internet. Stardict hiện tại là phần mềm nổi tiếng trong giới mã nguồn mở, nĩ cĩ khả năng tra từ khá nhanh, gọn nhẹ, định dạng của nĩ là một biến thể nâng cấp của chuẩn Dict. Kế đến là Lingoes – một phần mềm từ điển miễn phí với các tính năng khá tốt và ưu điểm hơn Stardict là phần danh sách từ xuyên suốt từ đầu đến cuối. Hay các phần mềm miễn phí gần đây như Miltidictionary, Jtranslator, Jtranslator là bộ từ điển đa ngơn ngữ sử dụng một định dạng cơ sở dữ liệu mở DICT của www.dict.org, chạy được trên các hệ điều hành khác nhau (Windows, Linux, Unix, Mac ).
  14. 5 Ngồi ra cịn một số từ điển thương mại phổ biến hiện nay như: LacViet mtd, Evatran 2.0, English study 4.0, Babylon, 1.1.1.2. Từ điển trực tuyến (online) Từ điển trực tuyến là một website cho phép người dùng tra cứu các từ hoặc cụm từ theo nhiều ngơn ngữ khác nhau. Nĩ ra đời nhằm tận dụng những ưu điểm của internet để phục vụ mọi người như tốc độ truy cập nhanh, khơng cần cài đặt, cĩ thể sử dụng mọi lúc mọi nơi chỉ cần cĩ một kết nối internet, thường xuyên được cập nhật từ mới và cĩ thể đĩng gĩp, cĩ thể sửa đổi. Một số từ điển trực tuyến phổ biến, uy tín với các tính năng mạnh mẽ hiện nay như: Từ điển Oxford: từ điển Cambridge: từ điển Vdict: từ điển Soha: 1.1.2. Cơ sở dữ liệu từ điển Phần quan trọng nhất đối với ứng dụng từ điển chính là cơ sở dữ liệu, nĩ được coi là trái tim của chương trình. Vì vậy, một từ điển được xem là chất lượng khi mà số lượng vốn từ của nĩ lớn nên việc thiết kế cơ sở dữ liệu cho từ điển phải đảm bảo được tốc độ truy cập nhanh, khả năng bảo trì và mở rộng dễ dàng. Dữ liệu từ điển cĩ thể tồn tại dưới rất nhiều định dạng khác nhau: dict.tab, spdict, dict.org. 1.1.3. Các chuẩn dữ liệu từ điển 1.1.3.1. Định dạng dict.tab Định dạng dict.tab là dữ liệu dạng text lớn (từ vài Mb trở lên). Từ điển stardict sau khi sử dụng cơng cụ convert file stardict sang định dạng dict.tab. File dict.tab này chi là file text và sẽ là file để lấy dữ liệu cho từ điển vì định dạng của nĩ cực kỳ đơn giản và nĩ cịn cĩ một số tính năng bổ trợ từ điển rất tốt [2]. Cụ thể định dạng của nĩ thể hiện như sau: a 1\n2\n3 b 4\\5\n6 c 789
  15. 6 Định dạng này cĩ nghĩa: đầu tiên viết từ cần tìm kiếm, sau đĩ là một ký tự tab và định nghĩa của từ đĩ. Nếu định nghĩa chứa dịng mới chỉ cần viết \n, nếu chứa ký tự \ thì \\. 1.1.3.2. Định dạng dict.org Dict.org là dạng từ điển được xây dựng bởi www.dict.org . Định dạng này được mơ tả như sau: toàn bộ cơ sở dữ liệu của từ điển được lưu trữ trong 2 tập tin: một tập tin chỉ mục và một tập tin chứa nghĩa của từ. a. Cấu trúc tập tin chỉ mục: tập tin chỉ mục bao gồm tên từ, vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa và độ dài của nghĩa [2]. Mỗi dịng trong tập tin chỉ mục chứa dữ liệu của một từ và các dịng phân cách nhau bởi ký tự xuống dịng. Cấu trúc của nĩ cĩ định dạng như sau: Từ1{tab}offset1{tab}len1 Từ2{tab}offset2{tab}len2 Trong đĩ: {tab}: là phím tab từ bàn phím offset: vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa len: độ dài nghĩa giải thích của từ trong tập tin chứa nghĩa Offset và len được mã hĩa theo nguyên tắc sau: Sử dụng 64 chữ cái: ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+ / Chữ cái A tương đương 0 và B tương đương 1 và các ký tự tiếp theo sẽ tang dần theo qui luật trên. Ví dụ: Cấu trúc tập tin chỉ mục của cơ sở dữ liệu từ điển lưu theo định dạng dict.org sau:
  16. 7 Hình 1.1: Định dạng dict.org Trong đĩ: Hình 1.2: Định dạng dict.org b. Cấu trúc tập tin chứa nghĩa: @từ Từ loại (danh từ, tính từ, ) o Định nghĩa 1 o Định nghĩa 2 Từ loại o Định nghĩa 3
  17. 8 1.1.3.3. Định dạng Spdict Tác giả Bùi Đức Tiến đã phát triền dựa trên định dạng dict.org. Đây là ví dụ 1 file từ điển abc gồm 2 từ a->aa, b->bb được mở bằng notepad2 ( trích ebook hướng dẫn làm từ điển của tác giả). Hình1.3: Ví dụ tập tin cĩ định dạng spdict. Định dạng spdict cĩ thể phần ra làm 4 phần (3 phần đĩng khung đỏ và 1 phần khơng đĩng khung): Phần thứ 1: o gồm chuỗi 2SPDict ở đầu file (để dánh dấu file này là của từ điển spdict tạo thành) o 4 byte tiếp theo ( ví dụ null null null) lưu vị trí của phần thứ 3 (phần khơng đĩng khung đỏ) o 4 byte tiếp theo lưu số dữ liệu thừa phát sinh trong quá trình làm từ điển (hiện mới tạo nên nĩ =0, 4 chữ null) Phần thứ 2: o 2 byte dạng short lưu độ dài của từ (null sqh rồi mới đến a), sau đĩ là nghĩa của từ (a) lưu độ dài bằng 4 byte (null null null stx) rồi đến aa. Tiếp theo b->bb. Phần thứ 3: cĩ giá trị tương tự như 1 nội dung ở phần 2 (2 byte lưu độ dài), phần cịn lại là nội dung (1 chuỗi gồm nhiều chuỗi con phân cách nhau với byte cĩ giá trị 0 (null): o Tên từ điển (abc) o Mã sắp xếp (en) o Giọng phát âm (kevin)
  18. 9 o Font, kích thước từ và nghĩa(tahoma,12,tahoma,12) o Tác giả (tienlbhoc) o Thơng tin thêm (demo) Phần thứ 4 gồm 8 byte, là 2 số integer (tương ứng với 2 từ), mỗi số lưu vị trí của 1 từ (a và b trong phần thứ 2 của từ điển). Cĩ thể nĩi đây là danh sách vị trí hay gọi là con trỏ văn bản. 1.1.4. Kho ngữ liệu 1.1.4.1. Kho ngữ liệu Kho ngữ liệu (corpus) dùng để chỉ tập hợp các văn bản trong các ngơn ngữ khác nhau dưới dạng điện tử. Đây là ộm t khái niệm cơ bản đối với Ngơn ngữ học khối liệu [8]. Theo T. McEnery và A. Wilson, kho ngữ liệu phải thỏa các tính chất sau: Kho ngữ liệu gồm tập các văn bản bất kì. Kho ngữ liệu phải cho phép sử dụng dễ dàng và thường xuyên. Kho ngữ liệu phải được xây dựng phải hàm chứa phong cách và biểu cảm ngơn ngữ. Trong lĩnh vực Ngơn ngữ học, kho ngữ liệu theo tiếng Latin cĩ nghĩa tức là bất kỳ khối văn bản nào (any body of text). Tuy nhiên, nếu xét kho ngữ liệu là cơ sở nghiên cứu của các phương pháp xây dựng và trợ giúp máy tính xử lý thơng tin thì kho ngữ liệu gồm các đặc điểm cơ bản sau: Các ngơn ngữ phải đồng điển hình. Cĩ kích cỡ xác định. Ở dạng đọc được trên máy tính. Cĩ các chú giải chuẩn về mặt ngơn ngữ. Các kho ngữ liệu cĩ thể được sử dụng để nhận biết các thơng tin hướng dẫn, tham khảo và số liệu thống kê về các đơn vị ngơn ngữ và lời nĩi. Kho ngữ liệu cĩ thể cung
  19. 10 cấp cho người sử dụng các thơng tin về tần số hoạt động của từ và cụm từ, lexeme và v.v Kho ngữ liệu cho phép theo dõi các thay đổi về tần số sử dụng các đơn vị từ vựng và các ngữ cảnh ở các giai đoạn phát triển khác nhau của lịch sử xã hội loài người. Khi nhận được các dữ liệu ngơn ngữ trong một giai đoạn phát triển lịch sử nhất định từ kho ngữ liệu, người sử dụng cĩ thể nghiên cứu các quá trình biến đổi thành phần từ vựng của ngơn ngữ trên thực tế, cĩ thể tiến hành các phân tích cú pháp ở các thể loại văn bản và của các tác giả khác nhau. Kho ngữ liệu cịn được sử dụng làm cơ sở cho việc chuẩn bị các loại từ điển hiện đại và lịch sử khác nhau một cách nhanh chĩng và hiệu quả. Vai trị của Ngơn ngữ học khối liệu càng được khẳng định khi các cơng trình nghiên cứu về kho ngữ liệu cho thấy kho ngữ liệu cĩ thể sử dụng để xây dựng các kĩ năng và kiểm tra ngữ pháp trong quá trình dạy học ngoại ngữ và dịch thuật [3]. 1.1.4.2. Kho ngữ liệu song song (Parallel Corpus) Kho ngữ liệu song song được định nghĩa là ộm t tập các văn bản (tài liệu) trong nhiều ngơn ngữ khác nhau, trong đĩ cĩ một ngơn ngữ nguồn và một hoặc nhiều ngơn ngữ đích [8]. Kho ngữ liệu song song cĩ thể được thu thập từ nhiều nguồn khác nhau như các nguồn ở dạng giấy viết hoặc các nguồn ở dạng tài liệu dạng điện tử. Nguồn tài nguyên ở dạng giấy viết cĩ thể được tìm thấy dễ dàng trong các sách học ngoại ngữ, các sách truyện, tài liệu song ngữ và các từ điển song ngữ. Việc thu thập dữ liệu từ nguồn tài nguyên này đơn giản, tuy nhiên quá trình nhập liệu vào máy tính tốn nhiều thời gian và cơng sức. Nguồn tài nguyên điện tử hiện nay rất phong phú dưới dạng hàng tỷ trang Web đa ngữ[3]. 1.1.4.3. Kho ngữ liệu đa ngữ (Multilingual Corpora) Kho ngữ liệu đa ngữ được định nghĩa là một tập các văn bản (tài liệu) được viết bằng nhiều ngơn ngữ [8]. Các tài liệu trong kho ngữ liệu đa ngữ thường được tổ chức theo một qui tắc để dễ quản lý hoặc xác định nguồn gốc của chúng.
  20. 11 1.1.4.4. Kho ngữ liệu (cĩ thể) so sánh (Comparable Corpus) Kho ngữ liệu so sánh là một tập các tài liệu trong các ngơn ngữ khác nhau trình bày cùng chủ đề chính thì được gọi là kho ngữ liệu so sánh (Comparable Corpus) [8]. Kho ngữ liệu này cũng cịn gọi là kho ngữ liệu song song ở mức tài liệu nhưng khơng song song ở mức câu hoặc đoạn. Nguyên nhân là các tài liệu ở các ngơn ngữ khác nhau trình bày cùng một chủ đề nhưng chưa hẳn các câu và các đoạn trong các văn bản đĩ song song với nhau. 1.1.5. Các phương pháp tách từ tiếng Việt hiện nay Ta thấy tiếng Anh và tiếng Việt cĩ nhiều điểm khác biệt (do loại hình ngơn ngữ, do nền văn hĩa) chẳng hạn: khác biệt về ngữ âm học, hình vị, ranh giới từ, sự từ vựng hĩa; từ loại; trật tự từ (tính từ và danh từ), kết cấu câu (chủ đề và cụm chủ vị), Vì vậy chúng ta khơng thể áp dụng y nguyên các mơ hình xử lý ngơn ngữ của tiếng Anh sang cho tiếng Việt được mà phải cĩ sự điều chỉnh nhất định. Do đĩ, chúng ta phải tìm hiểu về các hướng tiếp cận cho việc tách từ tiếng Việt [5]. Một số phương pháp tách từ tiếng Việt hiện nay cĩ thể kể đến như: Phương pháp Maximum Matching Phương pháp giải thuật học cải biến Mơ hình tách từ bằng WFST và mạng Neural. Phương pháp qui hoạch động (dynamic programming). Phương pháp tách từ dựa trên thống kê từ Internet và thuật tốn di truyền Phương pháp Pointwise 1.2. CÁC CƠNG TRÌNH NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN  Hợp nhất dữ liệu từ điển [2]: Tác giả đã đề xuất phải pháp hợp nhất dữ liệu từ điển. Tức là từ nhiều cơ sở dữ liệu từ điển khác nhau về cấu trúc, định dạng; tác giả thu thâp, phân tích, thiết kế ra cấu trúc và định dạng đồng nhất chung; sau đĩ tiến hành hợp nhất cấu trúc dữ liệu, hợp nhất dữ liệu tạo nên một cơ sở dữ liệu từ điển lớn hơn và chất lượng hơn. Tuy nhiên, cơng trình này tác giả chỉ mới dừng ở việc hợp nhất 2
  21. 12 nguồn dữ liệu, trong trường hợp hợp nhất nhiều nguồn và nhiều định dạng hơn thì sẽ phức tạp hơn rất nhiều.  Xây dựng cơ sở dữ liệu từ điển dựa trên kho ngữ liệu song song [6],[9]: xây dựng cơ sở từ điển dựa trên kho song ngữ Hungarian và Lithuanian [6], dựa trên kho song ngữ English-Germa, English-French, [9]. Tuy nhiên, các cơng trình này đều chưa xử lý trên ngơn ngữ tiếng Việt.  Nghiên cứu về dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngơn ngữ Anh – Việt [4]: Tác giả nghiên cứu về dịch thống kê, xây dựng mơ hình dịch Anh – Việt. Các nghiên cứu để làm tăng chất lượng hệ dịch vẫn đang được tiến hành với nhiều cặp song ngữ, trong đĩ, phương pháp tự động xây dựng các từ điển, các qui luật dựa trên kết quả thống kê cĩ được từ các kho ngữ liệu (phương pháp dịch dựa trên thống kê) là hướng tiếp cận gần đây được xem là khả thi và hiệu quả. 1.3. TỔNG KẾT CHƯƠNG 1 Phần quan trọng nhất đối với ứng dụng từ điển chính là cơ sở dữ liệu, nĩ được coi là trái tim của chương trình. Chương 1 là cơ sở lý thuyết tổng quan cho sự nghiên cứu và đề xuất giải pháp xây dựng cơ sở dữ liệu bằng phương pháp trích rút từ kho ngữ liệu. Trong chương tiếp theo báo cáo đề xuất các giải pháp cũng như lựa chọn về kỹ thuật xây dựng cơ sở dữ liệu từ điển.
  22. 13 CHƯƠNG 2 ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN TỪ KHO NGỮ LIỆU Nếu như chương 1 đã trình bày tổng quan về cơ sở lý thuyết, nền tảng để cĩ thể xây dựng cơ sở dữ liệu từ điển thì chương này báo cáo sẽ đề xuất giải pháp tổng thể xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ các khi ngữ liệu. Cụ thể: đề xuất giải pháp, đưa ra mơ hình bài tốn và đặc tả từng bước trong mơ hình đĩ cũng như lựa chọn các phương pháp kỹ thuật cho bài tốn sẽ được báo cáo trình bày trong chương này. 2.1. PHÁT BIỂU BÀI TỐN Hiện tại cĩ rất nhiều phần mềm, rất nhiều trang web từ điển hỗ trợ nhưng cĩ một thực tế rằng lượng dữ liệu của mỗi nguồn từ điển là hữu hạn và mỗi phần mềm mỗi trang web đều cĩ lượng từ và hoạt động trong những lĩnh vực khác nhau. Cĩ những từ khơng tìm thấy trên trang web này nhưng cĩ thể tìm thấy ở trang web khác. Điều này làm cho người dùng cĩ thể phải sử dụng trên nhiều trang web, cài nhiều phần mềm, rất bất tiện. Hơn nữa, phần quan trọng nhất đối với ứng dụng từ điển chính là cơ sở dữ liệu, nĩ được coi là trái tim của chương trình. Qua khảo sát đã cĩ nhiều cơng trình, nhiều bài báo nghiên cứu để tạo nên một cơ sở dữ liệu từ: giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ [2], hay xây dựng từ điển dựa trên các kho ngữ liệu song song [6]. Tuy nhiên, các cơng trình nghiên cứu này một là hợp nhất các cơ sở dữ liệu cĩ sẵn hoặc chưa xử lý trên ngơn ngữ tiếng Việt. Vì vậy, bài tốn đặt ra là chúng ta phải nghiên cứu giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Thay vì xây dựng các từ điển, các qui luật chuyển đổi bằng tay thì ở đây tự động xây dựng các từ điển, các qui luật dựa trên kết quả thống kê cĩ được từ các kho ngữ liệu. Mục đích làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luơn được cập nhật từ mới thường xuyên từ các kho ngữ
  23. 14 liệu; cĩ thể nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, 2.2. ĐỀ XUẤT GIẢI PHÁP 2.2.1. Mơ hình bài tốn Hình 2.1 :Phác thảo mơ hình bài tốn Trên đây là mơ hình các bước xây dựng bài tốn xây dựng cơ sở dữ liệu từ điển. Từ các kho song ngữ Anh – Việt, ta tiến hành trích xuất văn bản tiếng Anh, văn bản tiếng Việt. Sau đĩ, ta tiền xử lý văn bản: tách dịng và tách từ cho mỗi văn bản. Bước tiếp theo giĩng từ cho câu song ngữ. Và cuối cùng tao từ điển cho văn bản song ngữ. Như mơ hình trên, tơi tĩm tắt việc xây dựng cơ sở dữ liệu từ điển bằng 4 bước như sau:
  24. 15 Bước 1: Chuẩn bị dữ liệu Bước 2: Trích xuất văn bản tiếng Anh, văn bản tiếng Việt. Bước 3: Tiền xử lý văn bản, tách từ tiếng Việt Bước 4: Giĩng từ song ngữ Anh – Việt Bước 5: Tạo từ điển cho văn bản song ngữ Bước 6: Làm mịn dữ liệu 2.2.2. Đặc tả mơ hình bài tốn 2.2.2.1. Chuẩn bị dữ liệu Đây là bước đầu tiên và cực kỳ quan trọng. Như đã phân tích dữ liệu chính là trái tim của bất kỳ chương trình phần mềm từ điển nào vì vậy người làm dữ liệu từ điển phải tìm được các kho ngữ liệu chất lượng. Chúng ta cĩ thể tìm kiếm các kho ngữ liệu này từ các cá nhân, các tổ chức nghiên cứu muốn chia sẻ. Các nguồn ngữ liệu này cĩ thể tồn tại dưới nhiều định dạng khác nhau. Càng tìm kiếm được nhiều kho ngữ liệu thì chất lượng của việc tạo dữ liệu từ điển sẽ càng tốt. 2.2.2.2. Trích xuất văn bản tiếng Anh, văn bản tiếng Việt. Vì các kho ngữ liệu sau khi thu thập cĩ thể tồn tại ở nhiều định dạng khác nhau nên chúng ta sẽ phải đi phân tích từng kho ngữ liệu, đọc từng định dạng và tiến hành trích xuất văn bản tiếng Anh, văn bản tiếng Việt từ các kho song ngữ. Đầu vào: kho song ngữ Anh – Việt Đầu ra: văn bản tiếng Anh, văn bản tiếng Việt 2.2.2.3. Tiền xử lý văn bản, tách từ tiếng Việt Từ văn bản tiếng Anh, văn bản tiếng Việt đã trích xuất ở bước 2, ta tiền xử lý văn bản: mã hĩa, tách dịng, tách từ cho mỗi văn bản. 2.2.2.4. Giĩng từ Từ văn bản sau khi đã được tiền xử lý, ta tiến hành giĩng từ tương ứng cho mỗi câu trong mỗi văn bản.
  25. 16 2.2.2.5. Tạo từ điển cho văn bản song ngữ Tạo từ điển bằng giĩng câu và ví dụ từ kho ngữ liệu song ngữ 2.2.2.6. Làm mịn dữ liệu Đây là cơng đoạn cuối cùng của chuỗi qui trình tạo dữ liệu từ điển. Sau khi hồn thành quá trình tạo dữ liệu từ điển thì cĩ thể sẽ cĩ nhiều trường hợp dữ liệu bị trùng lặp hoặc các dữ liệu cĩ thể kết hợp lại được với nhau nhưng chúng ta chưa kết hợp, thì mục đích của cơng đoạn này là sẽ đi làm giảm sự dư thừa dữ liệu để làm cho chất lượng của cơ sở dữ liệu được tốt hơn 2.3. LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT 2.3.1. Phân đoạn từ trong tiếng Việt Các phương pháp phân loại khi ứng dụng vào các ngơn ngữ khác nhau sẽ cho hiệu quả khác nhau [5]. Nếu như tiếng Anh mỗi từ đều cĩ nghĩa thì trong tiếng Việt bên cạnh từ đơn cịn cĩ từ phức, từ ghép do nhiều từ đơn ghép lại mà tạo nên nghĩa. Ví dụ: Ví dụ, trong câu nĩi “phân_đoạn từ tiếng_Việt là một bài_tốn quan_trọng”, chúng ta cĩ thể thấy dấu cách trống khơng phải là dấu hiệu để nhận ra ranh giới của các từ. Các phương pháp đang được ứng dụng rộng rãi để tách từ tiếng Việt: MM Maximum Matching: forward / backward; LRMM: Left Right, RLMM: Right Left và phương pháp MMSEG: Maximum Matching Segmentation, đây là cách tách từ đơn giản nhanh sử dụng thuật tốn khớp tối đa (Maximum Matching). Theo phương pháp LRMM để phân đoạn từ tiếng Việt trong một ngữ/câu, ta đi từ trái sang phải và chọn từ cĩ nhiều âm tiết nhất mà cĩ mặt trong từ điển, rồi cứ tiếp tục cho từ kế tiếp cho đến hết câu. Với cách này, ta dễ dàng tách được chính xác các ngữ/câu như: “hợp tác xã | mua bán”; “thành lập | nước | Việt Nam | dân chủ | cộng hoà”, Phương pháp RLMM thì ngược lại, trong một câu/ngữ, ta đi từ phải sang trái và chọn từ cĩ nhiều âm tiết nhất mà cĩ mặt trong từ điển, rồi cứ tiếp tục cho từ kế tiếp cho đến hết câu. Phương pháp MMSEG là sự kết hợp của cả hai phương pháp LRMM và RLMM, do đĩ MMSEG cho kết quả tốt hơn hai phương pháp trên.
  26. 17 Trong đề tài tơi chọn phương pháp MMSEG để tách từ tiếng việt trong đĩ cĩ sử dụng từ điển Tiếng Việt.  Phương pháp Maximum Matching cho bài tốn tách từ tiếng Việt Với thuật tốn khớp tối đa (Maximum Matching) đã cĩ nhiều nghiên cứu với kết quả thực nghiệm rất khả quan. Trong tiếng Trung, cách này đạt được độ chính xác 98,41% [Chih-HaoTsai,2000]. Hơn nữa, cách tách từ của nĩ đơn giản, nhanh, chỉ cần dựa vào từ điển. Trong phạm vi đề tài tơi sử dụng thuật tốn so khớp để tách từ tiếng Việt dựa vào từ điển tiếng Việt gồm 70880 từ đơn và ừt ghép.; Phương pháp Maximum Matching được trình bày như sau: Phương pháp khớp tối đa (Maximum Matching). Theo phương pháp này, ta sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ cĩ nhiều âm tiết nhất cĩ mặt trong từ điển, rồi cứ thể tiếp tục cho từ kế tiếp cho đến hết câu. Thuật tốn được trình bày trong [13]. Dạng đơn giản được dùng giải quyết nhập nhằng từ đơn. Giả sử cĩ một chuỗi ký tự (tương đương với chuỗi tiếng trong tiếng Việt) C1, C2 , Cn. Ta bắt đầu từ đầu. Đầu tiên kiểm tra xem C1, cĩ phải là từ hay khơng, sau đĩ kiểm tra xem C1C2 cĩ phải là từ hay khơng. Tiếp tục tìm cho đến khi tìm được từ dài nhất. Từ cĩ vẻ hợp lý nhất sẽ là từ dài nhất. Chọn từ đĩ, sau đĩ tìm tiếp như trên cho những từ cịn lại cho đến khi xác định được tồn bộ chuỗi từ. Dạng phức tạp: quy tắc của dạng này là phân đoạn cĩ vẻ hợp lý nhất là đoạn ba từ với chiều dài tối đa. Thuật tốn bắt đầu như dạng đơn giản. Nếu phát hiện ra những cách tách từ gây nhập nhằng (ví dụ, C1 là từ và C1C2 cũng là từ), ta xem các chữ kế tiếp để tìm tất cả các đoạn ba từ cĩ thể cĩ bắt đầu với C1 hoặc C1C2. Ví dụ ta được những đoạn sau: C1 C2 C3 C4 C1C2 C3 C4 C5 C1C2 C3 C4 C5 C6
  27. 18 Chuỗi dài nhất sẽ là chuỗi thứ ba. Vậy từ đầu tiên của chuỗi thứ ba (C1C2) sẽ được chọn. Thực hiện lại các bước cho đến khi được chuỗi từ hồn chỉnh. Hình 2.2: Mơ phỏng phương pháp khớp tối đa 2.3.2. Dịch máy thống kê Mục tiêu là dịch một văn bản từ ngơn ngữ nguồn sang ngơn ngữ đích. Chúng ta cĩ câu văn bản trong ngơn ngữ nguồn (“Tiếng Anh”) 푒1 = e1, ,ei, mà được dịch thành câu văn bản trong ngơn ngữ đích (“Tiếng Việt”) 푣1 = v1, ,vi. Trong tất cả các câu cĩ thể cĩ trong văn bản đích, chúng ta chọn câu sao cho: 푣1 = argmax p|(푣1 |푒1 ) [4]  Ưu điểm của phương pháp dịch thống kê [4] Cho trước những từ trong ngơn ngữ nguồn, chúng ta phải quyết định chọn những từ trong ngơn ngữ đích. Vì vậy, nĩ tạo cho chúng ta một cảm giác là cĩ thể giải quyết nĩ bằng định lý quyết định thống kê. Điếu đĩ dẫn đến cách tiếp cận thống kê được đề xuất. Mối quan hệ giữa đối tượng ngơn ngữ như từ, cụm từ và cấu trúc ngữ pháp thường yếu và mơ hồ. Để mơ hình hĩa những phụ thuộc này, chúng ta cần một cơng thức hĩa như đưa ra phân phối xác suất mà nĩ cĩ thể giải quyết với những vấn đề phụ thuộc lẫn nhau.
  28. 19 Để thực hiện dịch máy, chúng ta nhất thiết phải kết hợp nhiều nguồn trí thức. Trong dịch thống kê, chúng ta dựa vào tốn học để thực hiện kết hợp tối ưu của các nguồn trí thức. Trong dịch máy thống kê, trí thức dịch được học một cách tự động từ dữ liệu huấn luyện. Với kết quả như vậy, việc phát triển một hệ dịch dựa vào thống kê sẽ rất nhanh so với hệ dịch dựa vào luật. Dịch máy thống kê khá phù hợp với ứng dụng nhúng mà ở đây dịch máy là một phần của ứng dụng lớn hơn. Việc đưa ra khái niệm “chính xác” của mối quan hệ ngữ pháp, ngữ nghĩa, văn phong là rất khĩ khăn nếu khơng nĩi là khơng thể. Vì vậy, việc hình thức hĩa vấn đề này càng chính xác càng tốt khơng thể dựa vào sự giằng buộc bởi các luật mơ tả chúng. Thay vào đĩ, trong cách tiếp cận thống kê, các giả định mơ hình được kiểm định bằng thực nghiệm dựa vào dữ liệu huấn luyện.  Dịch máy thống kê dựa vào cụm từ (phrase-based) Trong dịch máy thống kê trên cơ sở từ, các đơn vị cơ bản của bản dịch là một từ trong ngơn ngữ tự nhiên. Dịch máy thống kê trên cơ sở từ khơng sử dụng rộng rãi ngày nay, thay vào đĩ là dịch máy thống kê trên cơ sở cụm từ [4]. Dịch máy thống kê trên cơ sở cụm từ cĩ mục đích là để giảm bớt các hạn chế của dịch máy thống kê trên cơ sở từ bằng cách dịch cụm từ, trong đĩ độ dài cụm từ nguồn và cụm từ đích cĩ thể khác nhau. Các cụm từ trong kỹ thuật này thường khơng theo nghĩa ngơn ngữ học mà là các cụm từ được tìm thấy bằng cách sử dụng phương pháp thống kê để trích rút từ các cặp câu. Từ ngơn ngữ nguồn (Tiếng Anh) dựa vào thuật tốn tìm kiếm Beam và dựa trên các đặc trưng của hệ dịch máy thống kê dựa trên cụm từ (mơ hình ngơn ngữ, mơ hình dịch, mơ hình đảo cụm, ) để cho ra được ngơn ngữ đích (Tiếng Việt).
  29. 20 Hình 2.3: Ví dụ thống kê dựa vào cụm từ Hầu hết các hệ thống dựa trên cụm từ sử dụng Giza++ để giĩng hàng câu, trích rút ra các cặp câu song ngữ. 2.3.3. Định dạng dữ liệu từ điển Định dạng dict.tab là file text, cấu trúc của nĩ rất dễ hiểu. Theo cách thơng thường như hướng dẫn của chuẩn dict, để load danh sách là nạp tồn bộ danh sách từ vào listbox, các thao tác với danh sách từ rất đơn giản vì listbox đã hỗ trợ hết, nhưng nếu số lượng từ của từ điển tương đối nhiều thì tốc độ truy cập khơng tối ưu.Vì vậy người ta hiện nay khơng dùng nĩ làm dữ liệu của từ điển, nhưng cĩ thể kết hợp với dữ liệu từ điển theo định dạng Spdict làm tăng khả năng tra từ cho từ điển. Định dạng Spdict được tác giả Bùi Đức Tiến phát triển dựa trên định dạng dict.org và đã khắc phục được một số hạn chế của dict.org: thêm, sửa, xĩa nghĩa của từ. Cấu trúc của định dạng Spdict thì hơi phức tạp, nĩ gần giống mảng con trỏ. Ở báo cáo này tơi chọn lưu dữ liệu từ điển theo định dạng dict.org. Định dạng này rất dễ sử dụng và đã được một số cá nhân sử dụng để xây dựng những bộ từ điển khá lớn. Hơn nữa hiện nay cĩ thể dễ dàng chuyển đổi qua lại giữa các định dạng dữ liệu của từ điển nên chúng ta cĩ thể lưu dữ liệu từ điển ở bất cứ định dạng nào. 2.4. TỔNG KẾT CHƯƠNG 2 Giải pháp tổng thể bài tốn xây dựng cơ sở dữ liệu từ điển; sự lựa chọn các giải pháp kỹ thuật; nội dung các phương pháp tách câu từ, tách từ cho tiếng Việt cũng đã được trình bày trong chương 2 này. Lúc này ta cĩ thể xem như đã cĩ đầy đủ về mặt cơ sở lý thuyết cũng như giải pháp xây dựng dữ liệu từ điển. Bước tiếp theo ta hồn tồn cĩ thể xây dựng triển khai thực nghiệm được hệ thống. Đĩ cũng là nội dung sẽ trình bày trong chương tiếp theo.
  30. 21 CHƯƠNG 3 TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM Sau khi tìm hiểu tổng quan về lĩnh vực từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; tổng quan về kho ngữ liệu, các loại kho ngữ liệu ở chương 1. Và chương 2 cũng đã phân tích và trình bày đề xuất giải pháp cũng như sự lựa chọn về mặt phương pháp, kỹ thuật. Ta đã hoàn toàn cĩ cơ sở vững chắc để cĩ thể triển khai xây dựng dữ liệu từ điển. Vì vậy, tiếp theo chương 3 báo cáo trình bày nội dung triển khai thực nghiệm. 3.1. TRIỂN KHAI ỨNG DỤNG 3.1.1. Lựa chọn cơng nghệ Ứng dụng sử dụng ngơn ngữ Python kết hợp thư viện NLTK 3.0 trên hệ điều hành Linux. 3.1.2. Chuẩn bị dữ liệu Kho ngữ liệu song ngữ Anh – Việt được thu thập từ kho ngữ liệu của tác giả Đinh Điền. Kho song ngữ này đã được đăng ký quyền tác giả tại Cục Bản quyền Tác giả. 3.1.3. Kết quả đạt được Phần làm việc chính của chương trình gồm 3 phần: Phần (1) trích xuất văn bản tiếng Anh, văn bản tiếng Việt; tiền xử lý dữ liệu và tách từ tiếng Việt. Phần (2) giĩng từ Anh –Việt. Phần (3) lưu dữ liệu từ điển theo định dạng dict.org.  Phần (1) trích xuất văn bản tiếng Anh, văn bản tiếng Việt; tiền xử lý dữ liệu và tách từ tiếng Việt: Đầu vào: 3 file song ngữ Anh – Việt. Đa số các kho ngữ liệu song song hiện nay sử dụng XML để biểu diễn định dạng của chúng. XML cho phép tạo ra các định dạng chuẩn mà dễ dàng lưu trữ và trao đổi giữa các tổ chức, hệ thống khác nhau. Vì vậy, kho song ngữ Anh – Việt hiện tại tơi đang sử dụng cũng ở dạng chuẩn XML. E002905.xml : 300 câu song ngữ. E002906.xml: 300 câu song ngữ.
  31. 22 E002907.xml: 244 câu song ngữ. Hình 3.1: Cấu trúc của tập tin kho ngữ liệu Anh – Việt Cơng cụ tiến hành trích xuất văn bản tiếng Anh, văn bản tiếng Việt; tiền xử lý dữ liệu và giai đoạn tách từ tiếng Việt thì tơi sử dụng cơng cụ tách từ tiếng Việt vnTokenizer của tác giả Lê Hồng Phương. Kết quả như sau: Hình 3.2: Kết quả phân tích từ từ kho song ngữ
  32. 23 Đầu ra của quá trình này là 2 file chứa các câu Anh – Việt sau khi đã xử lý và tách từ o File source.tok: Hình 3.3: Kết quả sau khi tách từ tiếng Anh o File target.tok: Hình 3.4: Kết quả sau khi tách từ tiếng Việt Như vậy từ file source.tok, target.tok ta thấy kết quả tách từ của câu song ngữ Anh – Việt sau: They won against big artist like DBSK, Big_Bang, Lee_Hyori, and Rain making them the top girl group of the year. Họ đã giành chiến_thắng trước nghệ_sĩ lớn như DBSK, Big_Bang, Lee_Hyori và Rain làm cho họ trở_thành nhĩm nhạc nữ hàng_đầu của năm.
  33. 24  Phần (2) giĩng từ Anh – Việt: ở phần này tơi sử dụng tool GIZA++ Đầu vào: 2 file source.tok, target.tok, một tập tin chứa các câu của ngơn ngữ nguồn, một tập tin chứa các câu của ngơn ngữ đích. Mỗi câu nằm trên 1 dịng. Số câu trong 2 tập tin phải tương ứng nhau. Đầu ra: file sau khi đã giĩng từ song ngữ Anh – Việt # Sentence pair (1) source length 24 target length 26 họ đã giành chiến_thắng trước nghệ_sĩ lớn như dbsk , big_bang , lee_hyori và rain làm cho họ trở_thành nhĩm nhạc nữ hàng_đầu của năm . NULL ({ 2 24 }) they ({ 1 }) won ({ 3 }) against ({ 4 5 }) big ({ 7 }) artist ({ 6 }) like ({ 8 }) dbsk ({ 9 }) , ({ 10 }) big_bang ({ 11 }) , ({ 12 }) lee_hyori ({ 13 }) , ({ }) and ({ 14 }) rain ({ 15 }) making ({ 16 17 }) them ({ 18 }) the ({ }) top ({ 19 23 }) girl ({ 21 22 }) group ({ 20 }) of ({ }) the ({ }) year ({ 25 }) . ({ 26 })  Phần (3) lưu vào file dữ liệu từ điển theo định dạng dict.org. Hình 3.5: Lưu dữ liệu từ điển theo định dạng dict.org
  34. 25 3.1.4. Đánh giá kết quả Tơi tiến hành thử nghiệm trích xuất dữ liệu từ điển từ các kho ngữ liệu và được kết quả như sau: Lần Kho ngữ liệu Cặp câu Tổng số từ được tách Số từ điển đã thử song ngữ trích xuất Tiếng Anh Tiếng Việt 1 E002905.xml 300 6273 6546 295 2 E002906.xml 300 6707 6816 309 3 E002907.xml 244 4993 5201 261 Bảng 3.1: Kết quả thử nghiệm cơng cụ trích xuất dữ liệu từ điển Trên đây là đánh giá thử nghiệm đối với kho ngữ liệu: E002905.xml, E002906.xml, E002907.xml. Số từ điển trích xuất phụ thuộc nhiều trường hợp, chẳng hạn số lượng từ, cụm từ Anh – Việt được lặp đi lặp lại, hay 1 từ tiếngAnh được dịch ra nhiều nghĩa tiếng Việt. Nhìn chung, kết quả này khơng cao tuy nhiên nĩ cũng đạt được một hiệu quả nhất định. Hơn nữa, với phương pháp này ta cĩ thể luơn tạo được những dữ liệu từ điển mới từ các kho ngữ liệu mới và cĩ được ngân hàng ví vụ cho từ điển từ kho song ngữ. 3.2. TỔNG KẾT CHƯƠNG 3 Chương 3 đã triển khai thành cơng cơng cụ xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ các kho ngữ liệu. Từ đĩ, cĩ thể làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luơn được cập nhật từ mới thường xuyên từ các kho ngữ liệu; cĩ thể nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, Bên cạnh đĩ, chương này cũng đã trình bày những đánh giá cũng như những hạn chế chưa đạt được và đề ra định hướng nghiên cứu trong tương lai.
  35. 26 KẾT LUẬN Báo cáo đã trình bày nghiên cứu giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Thay vì xây dựng các từ điển, các qui luật chuyển đổi bằng tay thì ở đây tự động xây dựng các từ điển, các qui luật dựa trên kết quả thống kê cĩ được từ các kho ngữ liệu. Mục đích làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luơn được cập nhật từ mới thường xuyên từ các kho ngữ liệu; cĩ thể nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, Báo cáo cũng đã tiến hành thử nghiệm trên các kho song ngữ Anh- Việt và trích xuất được dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu. Kết quả này khơng cao tuy nhiên nĩ cũng đạt được một hiệu quả nhất định so với các cơng trình đã nghiên cứu trong lĩnh vực xây dựng cơ sở dữ liệu từ điển. Bên cạnh những kết quả đạt được, dù đã rất cố gắng nhưng do sự hữu hạn về thời gian và kiến thức, báo cáo vẫn cịn một số hạn chế: Chưa tiến hành so sánh phương pháp, kỹ thuật báo cáo đã chọn so với các phương pháp khác hiệu quả hơn như thế nào. Thay vào đĩ sự lựa chọn phương pháp, kỹ thuật này dựa trên sự đánh giá nghiên cứu của các cơng trình đã tuyên bố trước đây. Số lượng dữ liệu từ điển được trích xuất phụ thuộc vào chất lượng kho ngữ liệu. Tuy nhiên, trong báo cáo chưa thử nghiệm trên nhiều kho ngữ liệu ở nhiều lĩnh vực khác nhau và trên các kho ngữ liệu lớn. Định hướng nghiên cứu trong tương lai: Tiến hành so sánh phương pháp, kỹ thuật luận văn đã chọn so với các phương pháp khác hiệu quả hơn như thế nào. Tiến hành thử nghiệm nhiều hơn trên những kho ngữ liệu lớn trong nhiều lĩnh vực khác nhau, đưa ra đánh giá cụ thể hơn nữa. Cải thiện, cải tiến để cĩ thể triển khai hệ thống áp dụng trong thực tế.
  36. 27 TÀI LIỆU THAM KHẢO [1] Đặng Đại Thọ, Huỳnh Cơng Pháp (2013), “Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa”, Tạp chí Khoa học và Cơng nghệ, Đại học Đà Nẵng – Số 12 (73), Quyển II. [2] Ngơ Anh Vũ (2015), “Nghiên cứu giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ”, Luận văn Thạc Sĩ, Đại học Đà Nẵng. [3] Đặng Đại Thọ (2014), “Xây dựng hệ thống mở rộng kho ngữ liệu dịch tự động”, Đề tài khoa học và cơng nghệ - ĐHĐN, Mã số: Đ2013-07-06-BS. [4] Đào Ngọc Tú (2012), “Nghiên cứu về dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngơn ngữ Anh – Việt, Luận văn Thạc Sĩ, Học viện Cơng nghệ Bưu chính Viễn thơng. [5] Trần Thị Kiều (2015), “Nghiên cứu xây dựng hệ thống hỗ trợ tư vấn việc làm”, Luận văn Thạc Sĩ, Đại học Đà ẵN ng. [6] Enikư Héja (2010), “Dictionary Building based on Parallel Corpora and Word Alignment”, Research Institute for Linguistics, HAS, Dept. of Language Technology. [7] Huynh C-P (2016), “Solutions of Creating Large Data Resources in Natural Language Processing”, ACIIDS_2016_submission. [8] Huynh C-P. (2010) Des suites de test pour la TA à un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia. PhD thesis-National Polytechnic Institute of Grenoble, 228 p. [9] Adam Kilgarriff (2012), “Using corpora [and the web] as data sources for dictionaries”. [10] Huynh C-P (2011),”New approach for collecting high quality parallel corpora from multilingual Websites”, iiWAS11 Conference. Proceedings of the 13th International Conference on Information Integration and Web-based Applications & Services. [11] Hong Phuong Le, Thi Minh Huyen Nguyen, Azim Roussanaly, Tuong Vinh Ho, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 2nd International Conference on Language and Automata Theory and Applications - LATA 2008, Mar 2008, Tarragona, Spain. [12] J. Han and M. Kamber, Data mining: concepts and techniques. San Francisco: Morgan Kaufmann Publishers, 2006. [13] Chih-Hao Tsai, “MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”
  37. 28 [14] nd498054.html. Truy cập ngày 15/12/2016. [15] Truy cập ngày 15/12/2016. [16] Truy cập ngày 15/12/2016.