Báo cáo Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút dữ liệu từ kho ngữ liệu

37 trang thiennha21 11471

Download

Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút dữ liệu từ kho ngữ liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

bao_cao_nghien_cuu_xay_dung_co_so_du_lieu_tu_dien_bang_phuon.pdf

Nội dung text: Báo cáo Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút dữ liệu từ kho ngữ liệu

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CƠNG NGHỆ THƠNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS. Trần Thị Kiều Đà Nẵng, 12/2016
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CƠNG NGHỆ THƠNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS. Trần Thị Kiều Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài Đà Nẵng, 12/2016
MỤC LỤC MỞ ĐẦU 1 1. LÝ DO CHỌN ĐỀ TÀI 1 2. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU 2 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 2 3.1. Đối tượng nghiên cứu 2 3.2. Phạm vi nghiên cứu 2 4. BỐ CỤC CỦA BÁO CÁO 2 CHƯƠNG 1 TỔNG QUAN 4 1.1. CƠ SỞ LÝ THUYẾT 4 1.1.1. Tổng quan về từ điển 4 1.1.2. Cơ sở dữ liệu từ điển 5 1.1.3. Các chuẩn dữ liệu từ điển 5 1.1.4. Kho ngữ liệu 9 1.1.5. Các phương pháp tách từ tiếng Việt hiện nay 11 1.2. CÁC CƠNG TRÌNH NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN 11 1.3. TỔNG KẾT CHƯƠNG 1 12 CHƯƠNG 2 ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN TỪ KHO NGỮ LIỆU 13 2.1. PHÁT BIỂU BÀI TỐN 13 2.2. ĐỀ XUẤT GIẢI PHÁP 14 2.2.1. Mơ hình bài tốn 14 2.2.2. Đặc tả mơ hình bài tốn 15 2.3. LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT 16 2.3.1. Phân đoạn từ trong tiếng Việt 16 2.3.2. Dịch máy thống kê 18 2.3.3. Định dạng dữ liệu từ điển 20 2.4. TỔNG KẾT CHƯƠNG 2 20
CHƯƠNG 3 TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM 21 3.1. TRIỂN KHAI ỨNG DỤNG 21 3.1.1. Lựa chọn cơng nghệ 21 3.1.2. Chuẩn bị dữ liệu 21 3.1.3. Kết quả đạt được 21 3.1.4. Đánh giá kết quả 25 3.2. TỔNG KẾT CHƯƠNG 3 25
DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa 1 HTML HyperText Markup Language 2 CSDL Cơ sở dữ liệu 3 KDD Knowledge Discovery in Database 4 KPDL Khai phá dữ liệu 5 LRMM Left Right Maximum Matching 6 RLMM Right Left Maximum Matching 7 MMSEG Maximum Matching Segmentation 8 WFST Weighted finit–state Transducer
DANH MỤC CÁC HÌNH VẼ Hình 1.1: Định dạng dict.org 7 Hình 1.2: Định dạng dict.org 7 Hình1.3: Ví dụ tập tin cĩ định dạng spdict. 8 Hình 2.1 :Phác thảo mơ hình bài tốn 14 Hình 2.2: Mơ phỏng phương pháp khớp tối đa 18 Hình 2.3: Ví dụ thống kê dựa vào cụm từ 20 Hình 3.1: Cấu trúc của tập tin kho ngữ liệu Anh – Việt 22 Hình 3.2: Kết quả phân tích từ từ kho song ngữ 22 Hình 3.3: Kết quả sau khi tách từ tiếng Anh 23 Hình 3.4: Kết quả sau khi tách từ tiếng Việt 23 Hình 3.5: Lưu dữ liệu từ điển theo định dạng dict.org 24
DANH MỤC CÁC BẢNG Bảng 3.1: Kết quả thử nghiệm cơng cụ trích xuất dữ liệu từ điển 25
TĨM TẮT KẾT QUẢ NGHIÊN CỨU Tên đề tài: Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu. Mã số: Chủ nhiệm: ThS. Trần Thị Kiều Điện thoại: 0905.433.387 E-mail: ttkieu@cit.udn.vn Cơ quan chủ trì: Trường Cao đẳng Cơng nghệ Thơng tin Đơn vị thực hiện: Trường Cao đẳng Cơng nghệ Thơng tin Thời gian thực hiện: 12 tháng 1. Mục tiêu: Mục tiêu chính của đề tài là nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu: Nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; kho ngữ liệu, các loại kho ngữ liệu. Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đĩ, cĩ thể làm nguồn dữ liệu cho các phần mềm từ điển, cĩ thể nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, 2. Nội dung chính: Nghiên cứu tổng quan từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển. Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Xây dựng cơng cụ xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu. 3. Kết quả đạt được (khoa học, ứng dụng, đào tạo, kinh tế - xã hội): Kết quả đạt được đã áp dụng đúng các nội dung trong thuyết minh, cụ thể như sau:
Đã cơng bố 01 bài báo đăng tại CITA 2016. Báo cáo tổng kết. Đã xây dựng được cơng cụ xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu. Cơ quan Chủ trì Chủ nhiệm đề tài (ký, họ và tên, đĩng dấu) (ký, họ và tên)
1 MỞ ĐẦU 1. LÝ DO CHỌN ĐỀ TÀI Người ta vẫn thường nĩi rằng: “Chúng ta đang sống trong thời đại cơng nghệ thơng tin”, thực ra, chúng ta đang sống trong thời đại của dữ liệu. Lượng dữ liệu khổng lồ về tất cả các lĩnh vực kỹ thuật, kinh tế, xã hội, phần lớn đều cĩ thể tìm thấy thơng qua hệ thống mạng Internet. Tuy nhiên, lượng thơng tin trên mạng Internet vẫn chưa được khai thác triệt để vì nhiều lý do và một trong những lý do quan trọng đĩ là rào cản về ngơn ngữ. Để phá bỏ rào cản đĩ và giúp ta tiếp cận nhanh hơn với thời đại cơng nghệ, giao lưu và làm việc với bạn bè quốc tế. Và tất nhiên từ điển là một cơng cụ quan trọng và đắc lực phục vụ người học, người làm. Hiện tại cĩ rất nhiều phần mềm, rất nhiều trang web từ điển hỗ trợ nhưng cĩ một thực tế rằng lượng dữ liệu của mỗi nguồn từ điển là hữu hạn và mỗi phần mềm mỗi trang web đều cĩ lượng từ và hoạt động trong những lĩnh vực khác nhau. Cĩ những từ khơng tìm thấy trên trang web này nhưng cĩ thể tìm thấy ở trang web khác. Điều này làm cho người dùng cĩ thể phải sử dụng trên nhiều trang web, cài nhiều phần mềm, rất bất tiện. Hơn nữa, phần quan trọng nhất đối với ứng dụng từ điển chính là cơ sở dữ liệu, nĩ được coi là trái tim của chương trình. Qua khảo sát đã cĩ nhiều cơng trình, nhiều bài báo nghiên cứu để tạo nên một cơ sở dữ liệu từ: giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ [2], hay xây dựng từ điển dựa trên các kho ngữ liệu song song [6], [9]. Tuy nhiên, các cơng trình nghiên cứu này một là hợp nhất các cơ sở dữ liệu cĩ sẵn hoặc chưa xử lý trên ngơn ngữ tiếng Việt. Với những thực trạng đĩ, tơi mong muốn nghiên cứu giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Thay vì xây dựng các từ điển, các qui luật chuyển đổi bằng tay thì ở đây tự động xây dựng các từ điển, các qui luật dựa trên kết quả thống kê cĩ được từ các kho ngữ liệu. Mục đích làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luơn được cập nhật từ mới thường xuyên từ các kho ngữ
2 liệu; cĩ thể làm nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, 2. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU Nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; kho ngữ liệu, các loại kho ngữ liệu. Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đĩ, cĩ thể làm nguồn dữ liệu cho các phần mềm từ điển, cĩ thể nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 3.1. Đối tượng nghiên cứu 3.2. Phạm vi nghiên cứu Về lý thuyết: Nghiên cứu cơ sở lý thuyết về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; tổng quan về kho ngữ liệu, các loại kho ngữ liệu; các phương pháp, kỹ thuật tách từ tiếng Việt. Về thực nghiệm: Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đĩ, cĩ thể làm nguồn dữ liệu cho các phần mềm từ điển, cĩ thể nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, 4. BỐ CỤC CỦA BÁO CÁO Bố cục báo cáo được trình bày bao gồm 3 chương chính như sau: Chương 1 trình bày lý thuyết tổng quan về khai phá dữ liệu, về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; tổng quan về kho ngữ liệu, các loại kho ngữ liệu. Chương 2 trình bày đề xuất giải pháp, lý do lựa chọn phương pháp, kỹ thuật cho bài tốn xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu.
3 Chương 3 trình bày triển khai thực nghiệm xây dựng cơ sở dữ liệu từ điển, kết quả đạt được, chưa đạt được, hướng phát triển của bài tốn. Sau đĩ trình bày đề xuất hướng cải tiến bài tốn hiệu quả hơn
4 CHƯƠNG 1 TỔNG QUAN Chương này báo cáo trình bày cơ sở lý thuyết ban đầu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; trình bày tổng quan về kho ngữ liệu, các loại kho ngữ liệu. Ngồi ra, các cơng trình nghiên cứu về xây dựng cơ sở dữ liệu từ điển mà bản thân đã nghiên cứu cũng được trình bày ngắn gọn trong chương này. 1.1. CƠ SỞ LÝ THUYẾT 1.1.1. Tổng quan về từ điển Trên thế giới hiện nay cĩ hàng trăm quốc gia và mỗi quốc gia cĩ một ngơn ngữ riêng của mình. Việc học các ngơn ngữ của nhau giúp chúng ta tiếp cận nhanh hơn với thời đại cơng nghệ, giao lưu và làm việc với bạn bè quốc tế. Và tất nhiên từ điển là một cơng cụ quan trọng và đắc lực phục vụ cho người học. Trước đây, khi mà internet chưa phát triển, người học ngoại ngữ phải căng mắt, mỏi tay với mỗi lần tra nghĩa từ vựng trong những cuốn từ điển dày cộm thì hiện nay mọi thứ đã trở nên nhẹ nhàng và đơn ảgi n hơn rất nhiều khi những kho từ điển đồ sộ và khổng lồ kia đều đã được số hĩa, rất nhiều từ điển điện tử ra đời. Hiện nay cĩ hai loại từ điển điện tử phổ biến: từ điển online và offline. 1.1.1.1. Từ điển ngoại tuyến (offline) Từ điển offline là các chương trình phần mềm chạy trên máy tính cá nhân và cĩ thể sử dụng mà khơng cần kết nối internet. Stardict hiện tại là phần mềm nổi tiếng trong giới mã nguồn mở, nĩ cĩ khả năng tra từ khá nhanh, gọn nhẹ, định dạng của nĩ là một biến thể nâng cấp của chuẩn Dict. Kế đến là Lingoes – một phần mềm từ điển miễn phí với các tính năng khá tốt và ưu điểm hơn Stardict là phần danh sách từ xuyên suốt từ đầu đến cuối. Hay các phần mềm miễn phí gần đây như Miltidictionary, Jtranslator, Jtranslator là bộ từ điển đa ngơn ngữ sử dụng một định dạng cơ sở dữ liệu mở DICT của www.dict.org, chạy được trên các hệ điều hành khác nhau (Windows, Linux, Unix, Mac ).
5 Ngồi ra cịn một số từ điển thương mại phổ biến hiện nay như: LacViet mtd, Evatran 2.0, English study 4.0, Babylon, 1.1.1.2. Từ điển trực tuyến (online) Từ điển trực tuyến là một website cho phép người dùng tra cứu các từ hoặc cụm từ theo nhiều ngơn ngữ khác nhau. Nĩ ra đời nhằm tận dụng những ưu điểm của internet để phục vụ mọi người như tốc độ truy cập nhanh, khơng cần cài đặt, cĩ thể sử dụng mọi lúc mọi nơi chỉ cần cĩ một kết nối internet, thường xuyên được cập nhật từ mới và cĩ thể đĩng gĩp, cĩ thể sửa đổi. Một số từ điển trực tuyến phổ biến, uy tín với các tính năng mạnh mẽ hiện nay như: Từ điển Oxford: từ điển Cambridge: từ điển Vdict: từ điển Soha: 1.1.2. Cơ sở dữ liệu từ điển Phần quan trọng nhất đối với ứng dụng từ điển chính là cơ sở dữ liệu, nĩ được coi là trái tim của chương trình. Vì vậy, một từ điển được xem là chất lượng khi mà số lượng vốn từ của nĩ lớn nên việc thiết kế cơ sở dữ liệu cho từ điển phải đảm bảo được tốc độ truy cập nhanh, khả năng bảo trì và mở rộng dễ dàng. Dữ liệu từ điển cĩ thể tồn tại dưới rất nhiều định dạng khác nhau: dict.tab, spdict, dict.org. 1.1.3. Các chuẩn dữ liệu từ điển 1.1.3.1. Định dạng dict.tab Định dạng dict.tab là dữ liệu dạng text lớn (từ vài Mb trở lên). Từ điển stardict sau khi sử dụng cơng cụ convert file stardict sang định dạng dict.tab. File dict.tab này chi là file text và sẽ là file để lấy dữ liệu cho từ điển vì định dạng của nĩ cực kỳ đơn giản và nĩ cịn cĩ một số tính năng bổ trợ từ điển rất tốt [2]. Cụ thể định dạng của nĩ thể hiện như sau: a 1\n2\n3 b 4\\5\n6 c 789
6 Định dạng này cĩ nghĩa: đầu tiên viết từ cần tìm kiếm, sau đĩ là một ký tự tab và định nghĩa của từ đĩ. Nếu định nghĩa chứa dịng mới chỉ cần viết \n, nếu chứa ký tự \ thì \\. 1.1.3.2. Định dạng dict.org Dict.org là dạng từ điển được xây dựng bởi www.dict.org . Định dạng này được mơ tả như sau: toàn bộ cơ sở dữ liệu của từ điển được lưu trữ trong 2 tập tin: một tập tin chỉ mục và một tập tin chứa nghĩa của từ. a. Cấu trúc tập tin chỉ mục: tập tin chỉ mục bao gồm tên từ, vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa và độ dài của nghĩa [2]. Mỗi dịng trong tập tin chỉ mục chứa dữ liệu của một từ và các dịng phân cách nhau bởi ký tự xuống dịng. Cấu trúc của nĩ cĩ định dạng như sau: Từ1{tab}offset1{tab}len1 Từ2{tab}offset2{tab}len2 Trong đĩ: {tab}: là phím tab từ bàn phím offset: vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa len: độ dài nghĩa giải thích của từ trong tập tin chứa nghĩa Offset và len được mã hĩa theo nguyên tắc sau: Sử dụng 64 chữ cái: ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+ / Chữ cái A tương đương 0 và B tương đương 1 và các ký tự tiếp theo sẽ tang dần theo qui luật trên. Ví dụ: Cấu trúc tập tin chỉ mục của cơ sở dữ liệu từ điển lưu theo định dạng dict.org sau:
7 Hình 1.1: Định dạng dict.org Trong đĩ: Hình 1.2: Định dạng dict.org b. Cấu trúc tập tin chứa nghĩa: @từ Từ loại (danh từ, tính từ, ) o Định nghĩa 1 o Định nghĩa 2 Từ loại o Định nghĩa 3
8 1.1.3.3. Định dạng Spdict Tác giả Bùi Đức Tiến đã phát triền dựa trên định dạng dict.org. Đây là ví dụ 1 file từ điển abc gồm 2 từ a->aa, b->bb được mở bằng notepad2 ( trích ebook hướng dẫn làm từ điển của tác giả). Hình1.3: Ví dụ tập tin cĩ định dạng spdict. Định dạng spdict cĩ thể phần ra làm 4 phần (3 phần đĩng khung đỏ và 1 phần khơng đĩng khung): Phần thứ 1: o gồm chuỗi 2SPDict ở đầu file (để dánh dấu file này là của từ điển spdict tạo thành) o 4 byte tiếp theo ( ví dụ null null null) lưu vị trí của phần thứ 3 (phần khơng đĩng khung đỏ) o 4 byte tiếp theo lưu số dữ liệu thừa phát sinh trong quá trình làm từ điển (hiện mới tạo nên nĩ =0, 4 chữ null) Phần thứ 2: o 2 byte dạng short lưu độ dài của từ (null sqh rồi mới đến a), sau đĩ là nghĩa của từ (a) lưu độ dài bằng 4 byte (null null null stx) rồi đến aa. Tiếp theo b->bb. Phần thứ 3: cĩ giá trị tương tự như 1 nội dung ở phần 2 (2 byte lưu độ dài), phần cịn lại là nội dung (1 chuỗi gồm nhiều chuỗi con phân cách nhau với byte cĩ giá trị 0 (null): o Tên từ điển (abc) o Mã sắp xếp (en) o Giọng phát âm (kevin)
9 o Font, kích thước từ và nghĩa(tahoma,12,tahoma,12) o Tác giả (tienlbhoc) o Thơng tin thêm (demo) Phần thứ 4 gồm 8 byte, là 2 số integer (tương ứng với 2 từ), mỗi số lưu vị trí của 1 từ (a và b trong phần thứ 2 của từ điển). Cĩ thể nĩi đây là danh sách vị trí hay gọi là con trỏ văn bản. 1.1.4. Kho ngữ liệu 1.1.4.1. Kho ngữ liệu Kho ngữ liệu (corpus) dùng để chỉ tập hợp các văn bản trong các ngơn ngữ khác nhau dưới dạng điện tử. Đây là ộm t khái niệm cơ bản đối với Ngơn ngữ học khối liệu [8]. Theo T. McEnery và A. Wilson, kho ngữ liệu phải thỏa các tính chất sau: Kho ngữ liệu gồm tập các văn bản bất kì. Kho ngữ liệu phải cho phép sử dụng dễ dàng và thường xuyên. Kho ngữ liệu phải được xây dựng phải hàm chứa phong cách và biểu cảm ngơn ngữ. Trong lĩnh vực Ngơn ngữ học, kho ngữ liệu theo tiếng Latin cĩ nghĩa tức là bất kỳ khối văn bản nào (any body of text). Tuy nhiên, nếu xét kho ngữ liệu là cơ sở nghiên cứu của các phương pháp xây dựng và trợ giúp máy tính xử lý thơng tin thì kho ngữ liệu gồm các đặc điểm cơ bản sau: Các ngơn ngữ phải đồng điển hình. Cĩ kích cỡ xác định. Ở dạng đọc được trên máy tính. Cĩ các chú giải chuẩn về mặt ngơn ngữ. Các kho ngữ liệu cĩ thể được sử dụng để nhận biết các thơng tin hướng dẫn, tham khảo và số liệu thống kê về các đơn vị ngơn ngữ và lời nĩi. Kho ngữ liệu cĩ thể cung
10 cấp cho người sử dụng các thơng tin về tần số hoạt động của từ và cụm từ, lexeme và v.v Kho ngữ liệu cho phép theo dõi các thay đổi về tần số sử dụng các đơn vị từ vựng và các ngữ cảnh ở các giai đoạn phát triển khác nhau của lịch sử xã hội loài người. Khi nhận được các dữ liệu ngơn ngữ trong một giai đoạn phát triển lịch sử nhất định từ kho ngữ liệu, người sử dụng cĩ thể nghiên cứu các quá trình biến đổi thành phần từ vựng của ngơn ngữ trên thực tế, cĩ thể tiến hành các phân tích cú pháp ở các thể loại văn bản và của các tác giả khác nhau. Kho ngữ liệu cịn được sử dụng làm cơ sở cho việc chuẩn bị các loại từ điển hiện đại và lịch sử khác nhau một cách nhanh chĩng và hiệu quả. Vai trị của Ngơn ngữ học khối liệu càng được khẳng định khi các cơng trình nghiên cứu về kho ngữ liệu cho thấy kho ngữ liệu cĩ thể sử dụng để xây dựng các kĩ năng và kiểm tra ngữ pháp trong quá trình dạy học ngoại ngữ và dịch thuật [3]. 1.1.4.2. Kho ngữ liệu song song (Parallel Corpus) Kho ngữ liệu song song được định nghĩa là ộm t tập các văn bản (tài liệu) trong nhiều ngơn ngữ khác nhau, trong đĩ cĩ một ngơn ngữ nguồn và một hoặc nhiều ngơn ngữ đích [8]. Kho ngữ liệu song song cĩ thể được thu thập từ nhiều nguồn khác nhau như các nguồn ở dạng giấy viết hoặc các nguồn ở dạng tài liệu dạng điện tử. Nguồn tài nguyên ở dạng giấy viết cĩ thể được tìm thấy dễ dàng trong các sách học ngoại ngữ, các sách truyện, tài liệu song ngữ và các từ điển song ngữ. Việc thu thập dữ liệu từ nguồn tài nguyên này đơn giản, tuy nhiên quá trình nhập liệu vào máy tính tốn nhiều thời gian và cơng sức. Nguồn tài nguyên điện tử hiện nay rất phong phú dưới dạng hàng tỷ trang Web đa ngữ[3]. 1.1.4.3. Kho ngữ liệu đa ngữ (Multilingual Corpora) Kho ngữ liệu đa ngữ được định nghĩa là một tập các văn bản (tài liệu) được viết bằng nhiều ngơn ngữ [8]. Các tài liệu trong kho ngữ liệu đa ngữ thường được tổ chức theo một qui tắc để dễ quản lý hoặc xác định nguồn gốc của chúng.
11 1.1.4.4. Kho ngữ liệu (cĩ thể) so sánh (Comparable Corpus) Kho ngữ liệu so sánh là một tập các tài liệu trong các ngơn ngữ khác nhau trình bày cùng chủ đề chính thì được gọi là kho ngữ liệu so sánh (Comparable Corpus) [8]. Kho ngữ liệu này cũng cịn gọi là kho ngữ liệu song song ở mức tài liệu nhưng khơng song song ở mức câu hoặc đoạn. Nguyên nhân là các tài liệu ở các ngơn ngữ khác nhau trình bày cùng một chủ đề nhưng chưa hẳn các câu và các đoạn trong các văn bản đĩ song song với nhau. 1.1.5. Các phương pháp tách từ tiếng Việt hiện nay Ta thấy tiếng Anh và tiếng Việt cĩ nhiều điểm khác biệt (do loại hình ngơn ngữ, do nền văn hĩa) chẳng hạn: khác biệt về ngữ âm học, hình vị, ranh giới từ, sự từ vựng hĩa; từ loại; trật tự từ (tính từ và danh từ), kết cấu câu (chủ đề và cụm chủ vị), Vì vậy chúng ta khơng thể áp dụng y nguyên các mơ hình xử lý ngơn ngữ của tiếng Anh sang cho tiếng Việt được mà phải cĩ sự điều chỉnh nhất định. Do đĩ, chúng ta phải tìm hiểu về các hướng tiếp cận cho việc tách từ tiếng Việt [5]. Một số phương pháp tách từ tiếng Việt hiện nay cĩ thể kể đến như: Phương pháp Maximum Matching Phương pháp giải thuật học cải biến Mơ hình tách từ bằng WFST và mạng Neural. Phương pháp qui hoạch động (dynamic programming). Phương pháp tách từ dựa trên thống kê từ Internet và thuật tốn di truyền Phương pháp Pointwise 1.2. CÁC CƠNG TRÌNH NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN  Hợp nhất dữ liệu từ điển [2]: Tác giả đã đề xuất phải pháp hợp nhất dữ liệu từ điển. Tức là từ nhiều cơ sở dữ liệu từ điển khác nhau về cấu trúc, định dạng; tác giả thu thâp, phân tích, thiết kế ra cấu trúc và định dạng đồng nhất chung; sau đĩ tiến hành hợp nhất cấu trúc dữ liệu, hợp nhất dữ liệu tạo nên một cơ sở dữ liệu từ điển lớn hơn và chất lượng hơn. Tuy nhiên, cơng trình này tác giả chỉ mới dừng ở việc hợp nhất 2
12 nguồn dữ liệu, trong trường hợp hợp nhất nhiều nguồn và nhiều định dạng hơn thì sẽ phức tạp hơn rất nhiều.  Xây dựng cơ sở dữ liệu từ điển dựa trên kho ngữ liệu song song [6],[9]: xây dựng cơ sở từ điển dựa trên kho song ngữ Hungarian và Lithuanian [6], dựa trên kho song ngữ English-Germa, English-French, [9]. Tuy nhiên, các cơng trình này đều chưa xử lý trên ngơn ngữ tiếng Việt.  Nghiên cứu về dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngơn ngữ Anh – Việt [4]: Tác giả nghiên cứu về dịch thống kê, xây dựng mơ hình dịch Anh – Việt. Các nghiên cứu để làm tăng chất lượng hệ dịch vẫn đang được tiến hành với nhiều cặp song ngữ, trong đĩ, phương pháp tự động xây dựng các từ điển, các qui luật dựa trên kết quả thống kê cĩ được từ các kho ngữ liệu (phương pháp dịch dựa trên thống kê) là hướng tiếp cận gần đây được xem là khả thi và hiệu quả. 1.3. TỔNG KẾT CHƯƠNG 1 Phần quan trọng nhất đối với ứng dụng từ điển chính là cơ sở dữ liệu, nĩ được coi là trái tim của chương trình. Chương 1 là cơ sở lý thuyết tổng quan cho sự nghiên cứu và đề xuất giải pháp xây dựng cơ sở dữ liệu bằng phương pháp trích rút từ kho ngữ liệu. Trong chương tiếp theo báo cáo đề xuất các giải pháp cũng như lựa chọn về kỹ thuật xây dựng cơ sở dữ liệu từ điển.
13 CHƯƠNG 2 ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN TỪ KHO NGỮ LIỆU Nếu như chương 1 đã trình bày tổng quan về cơ sở lý thuyết, nền tảng để cĩ thể xây dựng cơ sở dữ liệu từ điển thì chương này báo cáo sẽ đề xuất giải pháp tổng thể xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ các khi ngữ liệu. Cụ thể: đề xuất giải pháp, đưa ra mơ hình bài tốn và đặc tả từng bước trong mơ hình đĩ cũng như lựa chọn các phương pháp kỹ thuật cho bài tốn sẽ được báo cáo trình bày trong chương này. 2.1. PHÁT BIỂU BÀI TỐN Hiện tại cĩ rất nhiều phần mềm, rất nhiều trang web từ điển hỗ trợ nhưng cĩ một thực tế rằng lượng dữ liệu của mỗi nguồn từ điển là hữu hạn và mỗi phần mềm mỗi trang web đều cĩ lượng từ và hoạt động trong những lĩnh vực khác nhau. Cĩ những từ khơng tìm thấy trên trang web này nhưng cĩ thể tìm thấy ở trang web khác. Điều này làm cho người dùng cĩ thể phải sử dụng trên nhiều trang web, cài nhiều phần mềm, rất bất tiện. Hơn nữa, phần quan trọng nhất đối với ứng dụng từ điển chính là cơ sở dữ liệu, nĩ được coi là trái tim của chương trình. Qua khảo sát đã cĩ nhiều cơng trình, nhiều bài báo nghiên cứu để tạo nên một cơ sở dữ liệu từ: giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ [2], hay xây dựng từ điển dựa trên các kho ngữ liệu song song [6]. Tuy nhiên, các cơng trình nghiên cứu này một là hợp nhất các cơ sở dữ liệu cĩ sẵn hoặc chưa xử lý trên ngơn ngữ tiếng Việt. Vì vậy, bài tốn đặt ra là chúng ta phải nghiên cứu giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Thay vì xây dựng các từ điển, các qui luật chuyển đổi bằng tay thì ở đây tự động xây dựng các từ điển, các qui luật dựa trên kết quả thống kê cĩ được từ các kho ngữ liệu. Mục đích làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luơn được cập nhật từ mới thường xuyên từ các kho ngữ
14 liệu; cĩ thể nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, 2.2. ĐỀ XUẤT GIẢI PHÁP 2.2.1. Mơ hình bài tốn Hình 2.1 :Phác thảo mơ hình bài tốn Trên đây là mơ hình các bước xây dựng bài tốn xây dựng cơ sở dữ liệu từ điển. Từ các kho song ngữ Anh – Việt, ta tiến hành trích xuất văn bản tiếng Anh, văn bản tiếng Việt. Sau đĩ, ta tiền xử lý văn bản: tách dịng và tách từ cho mỗi văn bản. Bước tiếp theo giĩng từ cho câu song ngữ. Và cuối cùng tao từ điển cho văn bản song ngữ. Như mơ hình trên, tơi tĩm tắt việc xây dựng cơ sở dữ liệu từ điển bằng 4 bước như sau:
15 Bước 1: Chuẩn bị dữ liệu Bước 2: Trích xuất văn bản tiếng Anh, văn bản tiếng Việt. Bước 3: Tiền xử lý văn bản, tách từ tiếng Việt Bước 4: Giĩng từ song ngữ Anh – Việt Bước 5: Tạo từ điển cho văn bản song ngữ Bước 6: Làm mịn dữ liệu 2.2.2. Đặc tả mơ hình bài tốn 2.2.2.1. Chuẩn bị dữ liệu Đây là bước đầu tiên và cực kỳ quan trọng. Như đã phân tích dữ liệu chính là trái tim của bất kỳ chương trình phần mềm từ điển nào vì vậy người làm dữ liệu từ điển phải tìm được các kho ngữ liệu chất lượng. Chúng ta cĩ thể tìm kiếm các kho ngữ liệu này từ các cá nhân, các tổ chức nghiên cứu muốn chia sẻ. Các nguồn ngữ liệu này cĩ thể tồn tại dưới nhiều định dạng khác nhau. Càng tìm kiếm được nhiều kho ngữ liệu thì chất lượng của việc tạo dữ liệu từ điển sẽ càng tốt. 2.2.2.2. Trích xuất văn bản tiếng Anh, văn bản tiếng Việt. Vì các kho ngữ liệu sau khi thu thập cĩ thể tồn tại ở nhiều định dạng khác nhau nên chúng ta sẽ phải đi phân tích từng kho ngữ liệu, đọc từng định dạng và tiến hành trích xuất văn bản tiếng Anh, văn bản tiếng Việt từ các kho song ngữ. Đầu vào: kho song ngữ Anh – Việt Đầu ra: văn bản tiếng Anh, văn bản tiếng Việt 2.2.2.3. Tiền xử lý văn bản, tách từ tiếng Việt Từ văn bản tiếng Anh, văn bản tiếng Việt đã trích xuất ở bước 2, ta tiền xử lý văn bản: mã hĩa, tách dịng, tách từ cho mỗi văn bản. 2.2.2.4. Giĩng từ Từ văn bản sau khi đã được tiền xử lý, ta tiến hành giĩng từ tương ứng cho mỗi câu trong mỗi văn bản.
16 2.2.2.5. Tạo từ điển cho văn bản song ngữ Tạo từ điển bằng giĩng câu và ví dụ từ kho ngữ liệu song ngữ 2.2.2.6. Làm mịn dữ liệu Đây là cơng đoạn cuối cùng của chuỗi qui trình tạo dữ liệu từ điển. Sau khi hồn thành quá trình tạo dữ liệu từ điển thì cĩ thể sẽ cĩ nhiều trường hợp dữ liệu bị trùng lặp hoặc các dữ liệu cĩ thể kết hợp lại được với nhau nhưng chúng ta chưa kết hợp, thì mục đích của cơng đoạn này là sẽ đi làm giảm sự dư thừa dữ liệu để làm cho chất lượng của cơ sở dữ liệu được tốt hơn 2.3. LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT 2.3.1. Phân đoạn từ trong tiếng Việt Các phương pháp phân loại khi ứng dụng vào các ngơn ngữ khác nhau sẽ cho hiệu quả khác nhau [5]. Nếu như tiếng Anh mỗi từ đều cĩ nghĩa thì trong tiếng Việt bên cạnh từ đơn cịn cĩ từ phức, từ ghép do nhiều từ đơn ghép lại mà tạo nên nghĩa. Ví dụ: Ví dụ, trong câu nĩi “phân_đoạn từ tiếng_Việt là một bài_tốn quan_trọng”, chúng ta cĩ thể thấy dấu cách trống khơng phải là dấu hiệu để nhận ra ranh giới của các từ. Các phương pháp đang được ứng dụng rộng rãi để tách từ tiếng Việt: MM Maximum Matching: forward / backward; LRMM: Left Right, RLMM: Right Left và phương pháp MMSEG: Maximum Matching Segmentation, đây là cách tách từ đơn giản nhanh sử dụng thuật tốn khớp tối đa (Maximum Matching). Theo phương pháp LRMM để phân đoạn từ tiếng Việt trong một ngữ/câu, ta đi từ trái sang phải và chọn từ cĩ nhiều âm tiết nhất mà cĩ mặt trong từ điển, rồi cứ tiếp tục cho từ kế tiếp cho đến hết câu. Với cách này, ta dễ dàng tách được chính xác các ngữ/câu như: “hợp tác xã | mua bán”; “thành lập | nước | Việt Nam | dân chủ | cộng hoà”, Phương pháp RLMM thì ngược lại, trong một câu/ngữ, ta đi từ phải sang trái và chọn từ cĩ nhiều âm tiết nhất mà cĩ mặt trong từ điển, rồi cứ tiếp tục cho từ kế tiếp cho đến hết câu. Phương pháp MMSEG là sự kết hợp của cả hai phương pháp LRMM và RLMM, do đĩ MMSEG cho kết quả tốt hơn hai phương pháp trên.
17 Trong đề tài tơi chọn phương pháp MMSEG để tách từ tiếng việt trong đĩ cĩ sử dụng từ điển Tiếng Việt.  Phương pháp Maximum Matching cho bài tốn tách từ tiếng Việt Với thuật tốn khớp tối đa (Maximum Matching) đã cĩ nhiều nghiên cứu với kết quả thực nghiệm rất khả quan. Trong tiếng Trung, cách này đạt được độ chính xác 98,41% [Chih-HaoTsai,2000]. Hơn nữa, cách tách từ của nĩ đơn giản, nhanh, chỉ cần dựa vào từ điển. Trong phạm vi đề tài tơi sử dụng thuật tốn so khớp để tách từ tiếng Việt dựa vào từ điển tiếng Việt gồm 70880 từ đơn và ừt ghép.; Phương pháp Maximum Matching được trình bày như sau: Phương pháp khớp tối đa (Maximum Matching). Theo phương pháp này, ta sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ cĩ nhiều âm tiết nhất cĩ mặt trong từ điển, rồi cứ thể tiếp tục cho từ kế tiếp cho đến hết câu. Thuật tốn được trình bày trong [13]. Dạng đơn giản được dùng giải quyết nhập nhằng từ đơn. Giả sử cĩ một chuỗi ký tự (tương đương với chuỗi tiếng trong tiếng Việt) C1, C2 , Cn. Ta bắt đầu từ đầu. Đầu tiên kiểm tra xem C1, cĩ phải là từ hay khơng, sau đĩ kiểm tra xem C1C2 cĩ phải là từ hay khơng. Tiếp tục tìm cho đến khi tìm được từ dài nhất. Từ cĩ vẻ hợp lý nhất sẽ là từ dài nhất. Chọn từ đĩ, sau đĩ tìm tiếp như trên cho những từ cịn lại cho đến khi xác định được tồn bộ chuỗi từ. Dạng phức tạp: quy tắc của dạng này là phân đoạn cĩ vẻ hợp lý nhất là đoạn ba từ với chiều dài tối đa. Thuật tốn bắt đầu như dạng đơn giản. Nếu phát hiện ra những cách tách từ gây nhập nhằng (ví dụ, C1 là từ và C1C2 cũng là từ), ta xem các chữ kế tiếp để tìm tất cả các đoạn ba từ cĩ thể cĩ bắt đầu với C1 hoặc C1C2. Ví dụ ta được những đoạn sau: C1 C2 C3 C4 C1C2 C3 C4 C5 C1C2 C3 C4 C5 C6
18 Chuỗi dài nhất sẽ là chuỗi thứ ba. Vậy từ đầu tiên của chuỗi thứ ba (C1C2) sẽ được chọn. Thực hiện lại các bước cho đến khi được chuỗi từ hồn chỉnh. Hình 2.2: Mơ phỏng phương pháp khớp tối đa 2.3.2. Dịch máy thống kê Mục tiêu là dịch một văn bản từ ngơn ngữ nguồn sang ngơn ngữ đích. Chúng ta cĩ câu văn bản trong ngơn ngữ nguồn (“Tiếng Anh”) 푒1 = e1, ,ei, mà được dịch thành câu văn bản trong ngơn ngữ đích (“Tiếng Việt”) 푣1 = v1, ,vi. Trong tất cả các câu cĩ thể cĩ trong văn bản đích, chúng ta chọn câu sao cho: 푣1 = argmax p|(푣1 |푒1 ) [4]  Ưu điểm của phương pháp dịch thống kê [4] Cho trước những từ trong ngơn ngữ nguồn, chúng ta phải quyết định chọn những từ trong ngơn ngữ đích. Vì vậy, nĩ tạo cho chúng ta một cảm giác là cĩ thể giải quyết nĩ bằng định lý quyết định thống kê. Điếu đĩ dẫn đến cách tiếp cận thống kê được đề xuất. Mối quan hệ giữa đối tượng ngơn ngữ như từ, cụm từ và cấu trúc ngữ pháp thường yếu và mơ hồ. Để mơ hình hĩa những phụ thuộc này, chúng ta cần một cơng thức hĩa như đưa ra phân phối xác suất mà nĩ cĩ thể giải quyết với những vấn đề phụ thuộc lẫn nhau.
19 Để thực hiện dịch máy, chúng ta nhất thiết phải kết hợp nhiều nguồn trí thức. Trong dịch thống kê, chúng ta dựa vào tốn học để thực hiện kết hợp tối ưu của các nguồn trí thức. Trong dịch máy thống kê, trí thức dịch được học một cách tự động từ dữ liệu huấn luyện. Với kết quả như vậy, việc phát triển một hệ dịch dựa vào thống kê sẽ rất nhanh so với hệ dịch dựa vào luật. Dịch máy thống kê khá phù hợp với ứng dụng nhúng mà ở đây dịch máy là một phần của ứng dụng lớn hơn. Việc đưa ra khái niệm “chính xác” của mối quan hệ ngữ pháp, ngữ nghĩa, văn phong là rất khĩ khăn nếu khơng nĩi là khơng thể. Vì vậy, việc hình thức hĩa vấn đề này càng chính xác càng tốt khơng thể dựa vào sự giằng buộc bởi các luật mơ tả chúng. Thay vào đĩ, trong cách tiếp cận thống kê, các giả định mơ hình được kiểm định bằng thực nghiệm dựa vào dữ liệu huấn luyện.  Dịch máy thống kê dựa vào cụm từ (phrase-based) Trong dịch máy thống kê trên cơ sở từ, các đơn vị cơ bản của bản dịch là một từ trong ngơn ngữ tự nhiên. Dịch máy thống kê trên cơ sở từ khơng sử dụng rộng rãi ngày nay, thay vào đĩ là dịch máy thống kê trên cơ sở cụm từ [4]. Dịch máy thống kê trên cơ sở cụm từ cĩ mục đích là để giảm bớt các hạn chế của dịch máy thống kê trên cơ sở từ bằng cách dịch cụm từ, trong đĩ độ dài cụm từ nguồn và cụm từ đích cĩ thể khác nhau. Các cụm từ trong kỹ thuật này thường khơng theo nghĩa ngơn ngữ học mà là các cụm từ được tìm thấy bằng cách sử dụng phương pháp thống kê để trích rút từ các cặp câu. Từ ngơn ngữ nguồn (Tiếng Anh) dựa vào thuật tốn tìm kiếm Beam và dựa trên các đặc trưng của hệ dịch máy thống kê dựa trên cụm từ (mơ hình ngơn ngữ, mơ hình dịch, mơ hình đảo cụm, ) để cho ra được ngơn ngữ đích (Tiếng Việt).
20 Hình 2.3: Ví dụ thống kê dựa vào cụm từ Hầu hết các hệ thống dựa trên cụm từ sử dụng Giza++ để giĩng hàng câu, trích rút ra các cặp câu song ngữ. 2.3.3. Định dạng dữ liệu từ điển Định dạng dict.tab là file text, cấu trúc của nĩ rất dễ hiểu. Theo cách thơng thường như hướng dẫn của chuẩn dict, để load danh sách là nạp tồn bộ danh sách từ vào listbox, các thao tác với danh sách từ rất đơn giản vì listbox đã hỗ trợ hết, nhưng nếu số lượng từ của từ điển tương đối nhiều thì tốc độ truy cập khơng tối ưu.Vì vậy người ta hiện nay khơng dùng nĩ làm dữ liệu của từ điển, nhưng cĩ thể kết hợp với dữ liệu từ điển theo định dạng Spdict làm tăng khả năng tra từ cho từ điển. Định dạng Spdict được tác giả Bùi Đức Tiến phát triển dựa trên định dạng dict.org và đã khắc phục được một số hạn chế của dict.org: thêm, sửa, xĩa nghĩa của từ. Cấu trúc của định dạng Spdict thì hơi phức tạp, nĩ gần giống mảng con trỏ. Ở báo cáo này tơi chọn lưu dữ liệu từ điển theo định dạng dict.org. Định dạng này rất dễ sử dụng và đã được một số cá nhân sử dụng để xây dựng những bộ từ điển khá lớn. Hơn nữa hiện nay cĩ thể dễ dàng chuyển đổi qua lại giữa các định dạng dữ liệu của từ điển nên chúng ta cĩ thể lưu dữ liệu từ điển ở bất cứ định dạng nào. 2.4. TỔNG KẾT CHƯƠNG 2 Giải pháp tổng thể bài tốn xây dựng cơ sở dữ liệu từ điển; sự lựa chọn các giải pháp kỹ thuật; nội dung các phương pháp tách câu từ, tách từ cho tiếng Việt cũng đã được trình bày trong chương 2 này. Lúc này ta cĩ thể xem như đã cĩ đầy đủ về mặt cơ sở lý thuyết cũng như giải pháp xây dựng dữ liệu từ điển. Bước tiếp theo ta hồn tồn cĩ thể xây dựng triển khai thực nghiệm được hệ thống. Đĩ cũng là nội dung sẽ trình bày trong chương tiếp theo.
21 CHƯƠNG 3 TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM Sau khi tìm hiểu tổng quan về lĩnh vực từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; tổng quan về kho ngữ liệu, các loại kho ngữ liệu ở chương 1. Và chương 2 cũng đã phân tích và trình bày đề xuất giải pháp cũng như sự lựa chọn về mặt phương pháp, kỹ thuật. Ta đã hoàn toàn cĩ cơ sở vững chắc để cĩ thể triển khai xây dựng dữ liệu từ điển. Vì vậy, tiếp theo chương 3 báo cáo trình bày nội dung triển khai thực nghiệm. 3.1. TRIỂN KHAI ỨNG DỤNG 3.1.1. Lựa chọn cơng nghệ Ứng dụng sử dụng ngơn ngữ Python kết hợp thư viện NLTK 3.0 trên hệ điều hành Linux. 3.1.2. Chuẩn bị dữ liệu Kho ngữ liệu song ngữ Anh – Việt được thu thập từ kho ngữ liệu của tác giả Đinh Điền. Kho song ngữ này đã được đăng ký quyền tác giả tại Cục Bản quyền Tác giả. 3.1.3. Kết quả đạt được Phần làm việc chính của chương trình gồm 3 phần: Phần (1) trích xuất văn bản tiếng Anh, văn bản tiếng Việt; tiền xử lý dữ liệu và tách từ tiếng Việt. Phần (2) giĩng từ Anh –Việt. Phần (3) lưu dữ liệu từ điển theo định dạng dict.org.  Phần (1) trích xuất văn bản tiếng Anh, văn bản tiếng Việt; tiền xử lý dữ liệu và tách từ tiếng Việt: Đầu vào: 3 file song ngữ Anh – Việt. Đa số các kho ngữ liệu song song hiện nay sử dụng XML để biểu diễn định dạng của chúng. XML cho phép tạo ra các định dạng chuẩn mà dễ dàng lưu trữ và trao đổi giữa các tổ chức, hệ thống khác nhau. Vì vậy, kho song ngữ Anh – Việt hiện tại tơi đang sử dụng cũng ở dạng chuẩn XML. E002905.xml : 300 câu song ngữ. E002906.xml: 300 câu song ngữ.
22 E002907.xml: 244 câu song ngữ. Hình 3.1: Cấu trúc của tập tin kho ngữ liệu Anh – Việt Cơng cụ tiến hành trích xuất văn bản tiếng Anh, văn bản tiếng Việt; tiền xử lý dữ liệu và giai đoạn tách từ tiếng Việt thì tơi sử dụng cơng cụ tách từ tiếng Việt vnTokenizer của tác giả Lê Hồng Phương. Kết quả như sau: Hình 3.2: Kết quả phân tích từ từ kho song ngữ
23 Đầu ra của quá trình này là 2 file chứa các câu Anh – Việt sau khi đã xử lý và tách từ o File source.tok: Hình 3.3: Kết quả sau khi tách từ tiếng Anh o File target.tok: Hình 3.4: Kết quả sau khi tách từ tiếng Việt Như vậy từ file source.tok, target.tok ta thấy kết quả tách từ của câu song ngữ Anh – Việt sau: They won against big artist like DBSK, Big_Bang, Lee_Hyori, and Rain making them the top girl group of the year. Họ đã giành chiến_thắng trước nghệ_sĩ lớn như DBSK, Big_Bang, Lee_Hyori và Rain làm cho họ trở_thành nhĩm nhạc nữ hàng_đầu của năm.
24  Phần (2) giĩng từ Anh – Việt: ở phần này tơi sử dụng tool GIZA++ Đầu vào: 2 file source.tok, target.tok, một tập tin chứa các câu của ngơn ngữ nguồn, một tập tin chứa các câu của ngơn ngữ đích. Mỗi câu nằm trên 1 dịng. Số câu trong 2 tập tin phải tương ứng nhau. Đầu ra: file sau khi đã giĩng từ song ngữ Anh – Việt # Sentence pair (1) source length 24 target length 26 họ đã giành chiến_thắng trước nghệ_sĩ lớn như dbsk , big_bang , lee_hyori và rain làm cho họ trở_thành nhĩm nhạc nữ hàng_đầu của năm . NULL ({ 2 24 }) they ({ 1 }) won ({ 3 }) against ({ 4 5 }) big ({ 7 }) artist ({ 6 }) like ({ 8 }) dbsk ({ 9 }) , ({ 10 }) big_bang ({ 11 }) , ({ 12 }) lee_hyori ({ 13 }) , ({ }) and ({ 14 }) rain ({ 15 }) making ({ 16 17 }) them ({ 18 }) the ({ }) top ({ 19 23 }) girl ({ 21 22 }) group ({ 20 }) of ({ }) the ({ }) year ({ 25 }) . ({ 26 })  Phần (3) lưu vào file dữ liệu từ điển theo định dạng dict.org. Hình 3.5: Lưu dữ liệu từ điển theo định dạng dict.org
25 3.1.4. Đánh giá kết quả Tơi tiến hành thử nghiệm trích xuất dữ liệu từ điển từ các kho ngữ liệu và được kết quả như sau: Lần Kho ngữ liệu Cặp câu Tổng số từ được tách Số từ điển đã thử song ngữ trích xuất Tiếng Anh Tiếng Việt 1 E002905.xml 300 6273 6546 295 2 E002906.xml 300 6707 6816 309 3 E002907.xml 244 4993 5201 261 Bảng 3.1: Kết quả thử nghiệm cơng cụ trích xuất dữ liệu từ điển Trên đây là đánh giá thử nghiệm đối với kho ngữ liệu: E002905.xml, E002906.xml, E002907.xml. Số từ điển trích xuất phụ thuộc nhiều trường hợp, chẳng hạn số lượng từ, cụm từ Anh – Việt được lặp đi lặp lại, hay 1 từ tiếngAnh được dịch ra nhiều nghĩa tiếng Việt. Nhìn chung, kết quả này khơng cao tuy nhiên nĩ cũng đạt được một hiệu quả nhất định. Hơn nữa, với phương pháp này ta cĩ thể luơn tạo được những dữ liệu từ điển mới từ các kho ngữ liệu mới và cĩ được ngân hàng ví vụ cho từ điển từ kho song ngữ. 3.2. TỔNG KẾT CHƯƠNG 3 Chương 3 đã triển khai thành cơng cơng cụ xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ các kho ngữ liệu. Từ đĩ, cĩ thể làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luơn được cập nhật từ mới thường xuyên từ các kho ngữ liệu; cĩ thể nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, Bên cạnh đĩ, chương này cũng đã trình bày những đánh giá cũng như những hạn chế chưa đạt được và đề ra định hướng nghiên cứu trong tương lai.
26 KẾT LUẬN Báo cáo đã trình bày nghiên cứu giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Thay vì xây dựng các từ điển, các qui luật chuyển đổi bằng tay thì ở đây tự động xây dựng các từ điển, các qui luật dựa trên kết quả thống kê cĩ được từ các kho ngữ liệu. Mục đích làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luơn được cập nhật từ mới thường xuyên từ các kho ngữ liệu; cĩ thể nguồn cho các chương trình dịch tự động, trích rút thơng tin tự động, tĩm tắt văn bản tự động, Báo cáo cũng đã tiến hành thử nghiệm trên các kho song ngữ Anh- Việt và trích xuất được dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu. Kết quả này khơng cao tuy nhiên nĩ cũng đạt được một hiệu quả nhất định so với các cơng trình đã nghiên cứu trong lĩnh vực xây dựng cơ sở dữ liệu từ điển. Bên cạnh những kết quả đạt được, dù đã rất cố gắng nhưng do sự hữu hạn về thời gian và kiến thức, báo cáo vẫn cịn một số hạn chế: Chưa tiến hành so sánh phương pháp, kỹ thuật báo cáo đã chọn so với các phương pháp khác hiệu quả hơn như thế nào. Thay vào đĩ sự lựa chọn phương pháp, kỹ thuật này dựa trên sự đánh giá nghiên cứu của các cơng trình đã tuyên bố trước đây. Số lượng dữ liệu từ điển được trích xuất phụ thuộc vào chất lượng kho ngữ liệu. Tuy nhiên, trong báo cáo chưa thử nghiệm trên nhiều kho ngữ liệu ở nhiều lĩnh vực khác nhau và trên các kho ngữ liệu lớn. Định hướng nghiên cứu trong tương lai: Tiến hành so sánh phương pháp, kỹ thuật luận văn đã chọn so với các phương pháp khác hiệu quả hơn như thế nào. Tiến hành thử nghiệm nhiều hơn trên những kho ngữ liệu lớn trong nhiều lĩnh vực khác nhau, đưa ra đánh giá cụ thể hơn nữa. Cải thiện, cải tiến để cĩ thể triển khai hệ thống áp dụng trong thực tế.
27 TÀI LIỆU THAM KHẢO [1] Đặng Đại Thọ, Huỳnh Cơng Pháp (2013), “Mở rộng kho ngữ liệu dịch tự động theo hướng ngữ nghĩa”, Tạp chí Khoa học và Cơng nghệ, Đại học Đà Nẵng – Số 12 (73), Quyển II. [2] Ngơ Anh Vũ (2015), “Nghiên cứu giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ”, Luận văn Thạc Sĩ, Đại học Đà Nẵng. [3] Đặng Đại Thọ (2014), “Xây dựng hệ thống mở rộng kho ngữ liệu dịch tự động”, Đề tài khoa học và cơng nghệ - ĐHĐN, Mã số: Đ2013-07-06-BS. [4] Đào Ngọc Tú (2012), “Nghiên cứu về dịch thống kê dựa vào cụm từ thử nghiệm với cặp ngơn ngữ Anh – Việt, Luận văn Thạc Sĩ, Học viện Cơng nghệ Bưu chính Viễn thơng. [5] Trần Thị Kiều (2015), “Nghiên cứu xây dựng hệ thống hỗ trợ tư vấn việc làm”, Luận văn Thạc Sĩ, Đại học Đà ẵN ng. [6] Enikư Héja (2010), “Dictionary Building based on Parallel Corpora and Word Alignment”, Research Institute for Linguistics, HAS, Dept. of Language Technology. [7] Huynh C-P (2016), “Solutions of Creating Large Data Resources in Natural Language Processing”, ACIIDS_2016_submission. [8] Huynh C-P. (2010) Des suites de test pour la TA à un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimédia. PhD thesis-National Polytechnic Institute of Grenoble, 228 p. [9] Adam Kilgarriff (2012), “Using corpora [and the web] as data sources for dictionaries”. [10] Huynh C-P (2011),”New approach for collecting high quality parallel corpora from multilingual Websites”, iiWAS11 Conference. Proceedings of the 13th International Conference on Information Integration and Web-based Applications & Services. [11] Hong Phuong Le, Thi Minh Huyen Nguyen, Azim Roussanaly, Tuong Vinh Ho, “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, 2nd International Conference on Language and Automata Theory and Applications - LATA 2008, Mar 2008, Tarragona, Spain. [12] J. Han and M. Kamber, Data mining: concepts and techniques. San Francisco: Morgan Kaufmann Publishers, 2006. [13] Chih-Hao Tsai, “MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”
28 [14] nd498054.html. Truy cập ngày 15/12/2016. [15] Truy cập ngày 15/12/2016. [16] Truy cập ngày 15/12/2016.