Luận văn Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

48 trang phuongvu95 15731 Free

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận văn Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

luan_van_phan_tich_du_lieu_van_ban_dua_tren_hoc_may_the_gioi.pdf

Nội dung text: Luận văn Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Phạm Thị Quỳnh Trang Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thơng tin Hà Nội, 12/2019
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Phạm Thị Quỳnh Trang Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng LUẬNVĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thơng tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy HÀ NỘI - 2019
LỜI CẢM ƠN Đầu tiên, em xin gửi lời biết ơn chân thành và sâu sắc nhất đến thầy giáo PGS.TS. Hà Quang Thụy, người đã luơn đợng viên, nhiệt tình hướng dẫn và tạo mọi điều kiệntớt nhất cho em hoàn thành được luận văn. Em xin chân thành cảm ơn các thầy cơ, các anh chị em trong phòng thí nghiệm Cơng nghệ và tri thức đã luơn giúp đỡ và đợng viên tinh thần trong thời gian em học tậpvà cơng tác. Em chân thành cảm ơn quý Thầy, Cơ trong Khoa Cơng Nghệ Thơng Tin nĩi riêng và trường đại học Cơng Nghệ - Đại học Quớc Gia Hà Nợi nĩi chung đã tận tình truyền đạt những kiến thức quý báu trong quá trình học tập tại Trường. Cuới cùng, em xin cảm ơn những người thân yêu của em, đặc biệt là chờng emđã luơn đợng viên, tạo điều kiện tớt nhất cho em trong quá trình học tập và hoàn thànhluận văn. Em xin chân thành cảm ơn! Luận văn này được thực hiện trong khuơn khổ đề tài Nafostef mã sớ:102.05- 2016.14 “Nghiên cứu và phát triển các mơ hình học máy tiên tiến phát hiện và trích xuất mới quan hệ tác dụng phụ của thuớc/hĩa chất và bệnh từ văn- bảny sinh”, năm 2016. i
LỜI CAM ĐOAN Tơi xin cam đoan rằng luận văn thạc sĩ cơng nghệ thơng tin “Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng” là cơng trình nghiên cứu của riêng tơi, khơng sao chép lại của người khác. Trong toàn bợ nợi dung của luận văn, những điềuđã được trình bày hoặc là của chính cá nhân tơi hoặc là được tổng hợp từ nhiều nguờntài liệu. Tất cả các nguờn tài liệu tham khảo đều cĩ xuất xứ rõ ràng và hợp pháp. Tơi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy địnhcho lời cam đoan này. Hà Nợi, ngày 15 tháng 12 năm 2019 Học viên Phạm Thị Quỳnh Trang ii
Mục Lục LỜI CẢM ƠN i LỜI CAM ĐOAN ii TĨM TẮT iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH ẢNH vii Mở đầu 1 Chương 1. Học máy thế giới mở và bài toán chuẩn hĩa tên thực thể bệnh 3 1.1 Học máy truyền thớng 3 1.2. Học máy suớt đời 5 1.2.1 Định nghĩa học máy suớt đời 7 1.2.2. Các hướng nghiên cứu LL 12 1.3. Học máy thế giới mở 12 1.4. Mục tiêu của luận văn 15 Kết luận Chương 1 17 Chương 2. Học sâu thế giới mở cho văn bản 18 2.1. Học thế giới mở khơng gian đơn giản trung tâm 18 2.1.1 Tăng cường cập nhật mơ hình học CBS 18 2.1.2 Kiểm tra mơ hình học CBS 20 2.1.3 Học CBS cho phát hiện lớp chưa thấy 20 2.2. Học sâu thế giới mở phân lớp văn bản 21 2.2.1 CNN và các lớp chuyển tiếp của DOC 22 2.2.2 Tầng 1- với-phần còn lại 23 2.2.2 Giảm rủi ro khơng gian mở 23 Kết luận Chương 2 24
Chương 3: Ứng dụng mơ hình DOC vào chuẩn hĩa tên bệnh 25 3.1. Ứng dụng chuẩn hĩa tên thực thể bệnh 25 3.2.1. Mơ hình đề xuất 27 Bợ phân giải viết tắt 28 Mạng nơ ron học sâu thế giới mở 28 Kết luận Chương 3 30 Chương 4: Thực nghiệm và đánh giá 31 4.1. Dữ liệu thực nghiệm chuẩn hố tên bệnh 31 4.2 Mơi trường và các cơng cụ thực nghiệm 32 4.3 Kết quả và đánh giá 32 Kết luận 36 Tài liệu tham khảo 37
TĨM TẮT Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng Phạm Thị Quỳnh Trang Khĩa học: QH-2013- I/CQ Ngành: Hệ thớng thơng tin Tĩm tắt: Học máy suớt đời (Lifelong Machine Learning: LML) là mợt tiếp cận học máy liên tục, trích chọn và lưuiữ g tri thức từ quá khứ để sử dụng khi giải quyết các bài toán họcmới. Học thế giới mở, mợt dạng của học máy suớt đời, cĩ năng lựcphát hiện các trường hợp chưa từng thấy để hình thành các bài toán mới. Phân lớp thế giới mở thực hiện ba bài toán thành phần là (i) Phát hiện những thực thể mới, khơng thể thuợc vào các lớp hiện cĩ, (ii) Xây dựng mơ hình phân lớp cho các lớp mới, và (iii) hiệu chỉnh các mơ hình phân lớp vớn cĩ để nâng caohiệu năng bợ phân lớp khi cĩ thêm các lớp mới. Dựa trên mơ hình phân lớp học sâu thế giới mở DOC (Deep Open Classification) của L. Shu và cợng sự, luận văn đề nghị mơ hình ứng dụng phân lớp học sâu thế giới mở cho bài toán chuẩn hoá thực thể tên và phân lớp quan hệ trong văn bản y sinh. Việc trích xuất tự đợng tri thức từ văn bản đĩng vai trò quan trọng trong học suớt đời. Nĩ bao gờm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ giữa chúng. Hai bước sau thường hay xuất hiện các đới tượng mới, đặc biệt là trong lĩnh vực ysinh. Các kết quả thực nghiệm trên bợ dữ liệu chuẩn đã chỉ ra tính hiệu quả của mơ hìnhđềxuất trong vấn đề nhận dạng được các đới tượng mới chưa xuất hiện khi huấn luyện mơhình và trong vấn đề chuẩn hoá tên. Đặc biệt, mơ hình chuẩn hoá thực thể tên cĩ thể đạt giá trị đợ đo F1 = 80%, tớt hơn của các phương pháp cùng thể loại tính đến thời điểm hiệntại. Từ khĩa: Học máy suốt đời, học thế giới mở, học sâu, chuẩn hố tên thực thể bệnh. iv
DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM Support Vector Machines/Máy vector hỗ trợ CNN Convolutional neural network/Mạng nơ ron tích chập LL Life long learning/Học suớt đời ML Machine learning/Học máy DOC Deep Open Classification/Phân lớp mở sâu CBS Center Based Similarity/Đợ tương tự dựa trên trung tâm NNO Nearest Non-Outlier/Khơng ngoại lai gần nhất v
DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví dụ về bài tốn chuẩn hố tên bệnh. 17 Bảng 3.1 - Một ví dụ về bài tốn chuẩn hố tên thực thể thuốc .27 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh 33 Bảng 4.2: Các cơng cụ thực nghiệm 34 Bảng 4.3: So sánh kết quả sử dụng dữ liệu cả câu và dữ liệu SDP trên số lớp đã biết khác nhau của tập dữ liệu SemEval-2010 Task 8. 37 Bảng 4.4: Tổng hợp kết quả mơ hình DOC chuẩn hĩa thực thể tên bệnh. 38 Bảng 4.5: Kết quả thực nghiệm và so sánh. 38 vi
DANH SÁCH HÌNH ẢNH Hình 1.1: Kiến trúc mơ hình học máy cổ điển. 4 Hình 2.1: Kiến trúc tổng quan của hệ thống học suốt đời 10 Hình 2.1: Mơ hình tổng quan DOC 22 Hình 2.2: Mơ hình tổng quan DOC 23 Hình 3.1: Định danh, tên chính hay dùng và các tên đồng nghĩa của một bệnh trong MEDIC. 27 Hình 3.1: Mơ hình đường ống chuẩn hố thực thể tên bệnh. 28 Hình 3.2: Kiến trúc hệ thống chuẩn hố tên thực thể y sinh dựa trên mạng nơ ron tích chập do Cho và cợng sự đề xuất [9] 28 . vii
Mở đầu Trong cuợc sớng, con người học hỏi suớt đờiđể tích lũy tri thức, vận dụng tri thức và kỹ năng tích lũy được để giải quyết các vấn đề/tác vụ mới gặp phải, từ đĩ giúp cho việchọc nhanh hơn và hiệu quả hơn. Trong quá trình tiến hĩa hàng triệu năm của loài người, khả năng học suớt đời đã giúp con người thích nghi,tờn tại và phát triển được trong nhiều mơi trường sớng khắc nghiệt khác nhau. Học máy suớt đời, là mợt hướng nghiên cứu học máy mới nhằm mục đích bắt chước quá trình và khả năng học tập suớt đời của con người trong các mơi trường mở, đầybiến đợng. Kiểu học này khá tự nhiên vì mọi thứ xung quanh chúng ta cĩ liên quan chặt chẽvà liên kết với nhau. Con người chúng ta luơn giữ lại kiến thức đã học trong quá khứ vàsử dụng nĩ để giúp học tập và giải quyết vấn đề trong tương lai. Học máy suớt đời làbước tiến hoá hợp lý tiếp theo của học máy cổ điển; nĩ là hướng nghiên cứu mới nổi vàđầy hứa hẹn để khắc phục những thiếu sĩt đĩ của học máy cổ điển, với mục tiêu cuới cùng là xây dựng những cỗ máy học hỏi như con người. Học thế giới mở, là mợt hình thức của học máy suớt đời, khơng yêu cầu giả định thế giới đĩng, cĩ khả năng phát hiện các trường hợp của các lớpchưa thấy trong quá trình hoạt đợng của hệ thớng học. Nĩ cĩ khả năng xây dựng mơ hình phân lớp cho các lớp mới và cập nhật mơ hình phân lớp cho các lớp đã cĩ mà khơng học lại toàn bợ các mơ hình từ đầu. Việc trích xuất tự đợng tri thức từ văn bản đĩng vai trò quan trọng trong học suớt đời. Nĩ bao gờm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ giữa chúng. Hai bước sau thường hay xuất hiện các đới tượng mới, đặcbiệt là trong lĩnh vực y sinh, với rất nhiều thách thức, khi cần phải xác định mợt biểu hiện tên bệnh mới xuất hiện cĩ thuợc về mợt thực thể tên bệnh đã cĩ hay là biểu hiện của mợt tên bệnh mới. Trong trường hợp này, mơ hình phân lớp thế giới mở là phù hợp đểgiải quyết bài toán. Nợi dung của luận văn được tổ chức thành các chương như sau: 1
Chương 1 trình bày mợt giới thiệu tổng quan về học máy suớt đời và học máy thế giới mở. Tiếp đĩ, bài toán chuẩn hoá thực thể tên bệnh trong văn bản y sinh được giới thiệu. Chương 2 trình bày mơ hình phân lớp văn bản thế giới mở dựa trên kỹ thuật họcsâu. Chương 3 trình bày mơ hình ứng dụng phân lớp thế giới mở dựa trên kỹ thuật học sâu cho chuẩn hoá thực thể tên bệnh, là bước tiền đề cho việc trích xuất các quan hệgiữa các thực thể y sinh. Các quan hệ được biểu diễn trong văn bản là các tri thứctờn tại dưới định dạng chỉ con người mới “đọc hiểu” được. Việc trích xuất quan hệ từ văn bản sẽ tạo ra cơ sở dữ liệu tri thức, là thành phần quan trọng của học máy suớt đời. Chương 4 trình bày các kết quả thực nghiệm củamơ hình ứng dụng được đề xuất trong Chương 3, cũng như các phân tích các kết quả thực nghiệm này. Phần Kết luận tĩm lược kết quả đạt được của khĩa luận và định hướng phát triển tương lai. 2
Chương 1. Học máy thế giới mở và bài tốn chuẩn hĩa tên thực thể bệnh Học máy (Machine Learning: ML) đã là cơng cụ cho sự tiến bợ của cả phân tích dữ liệu và trí tuệ nhân tạo (Artificial Intelligence: AI). Thành cơng gần đây của học sâu đã đưa ML lên mợt tầm cao mới. Các thuật toán ML đã được áp dụng trong hầu hết các lĩnh vực khoa học máy tính, khoa học tự nhiên, kỹ thuật, khoa học xã hợi và hơn thế nữa. Nếu khơng cĩ thuật tốn ML hiệu quả, nhiều ngành sẽ khơng tờn tại hoặc phát triển, ví dụ: thương mại điện tử và tìm kiếm trên web. Tuy nhiên, mơ hình ML hiện tại khơng phải khơng cĩ điểm yếu. Trước tiên luận văn sẽ giới thiệu về mơ hình ML cổ điển và những thiếu sĩt của nĩ, sau đĩ giới thiệu Lifelong ML (Học suớt đời (LL) và học thế giới mở (OpenWorld ML, mợt dạng học máy suớt đời) như mợt hướng đi mới nổi và đầy hứa hẹn để khắc phục những thiếu sĩt đĩ với mục tiêu cuới cùng là xây dựng những cỗ máy học hỏi như con người [2]. Bài tốn chuẩn hĩa tên thực thể bệnh trong văn bản y sinh dưới dạng mợt bài tốn học thế giới mở sẽ được giới thiệu ở cuới chương. 1.1 Học máy truyền thống Mơ hình ML phổ biến hiện nay là chạy thuật tốn ML trên tập dữ liệu đã cho để tạo mơ hình. Mơ hình này sau đĩ được áp dụng trong các nhiệm vụ thực tế. Mơ hình học này được gọi là mơ hình cơ lập bởi vì nĩ khơng xem xét bất kỳ thơng tin liên quan nào khác hoặc tri thức đã học, tích luỹ được trước đĩ (xem Hình 1) [2]. Vấn đề cơ bản của mơ hình học tập cơ lập này là nĩ khơng lưu giữ và tích lũy kiến thức đã học trong quá khứ và sử dụng nĩ trong tương lai. Điều này trái ngược hồn tồn với việc học của con người. Con người chúng ta luơn tích luỹ lại kiến thức đã học trong quá khứ và sử dụng nĩ để giúp học tập và giải quyết vấn đề mới trong tương lai. Khơng cĩ khả năng tích lũy và sử dụng kiến thức trong quá khứ, thuật toán ML thường cần mợt sớ lượng lớn các ví dụ huấn luyện để học hiệu quả. Các mơi trường học thường là tĩnh và đĩng. Đới với việc học cĩ giám sát, việc gán nhãn dữ liệu huấn luyện thường được thực hiện thủ cơng, rất tớn cơng sức và thời gian. Vì thế giới quá phức tạp với nhiều nhiệm vụ khác hẳn nhau, nên gần như khơng thể gán nhãn mợt sớ lượng lớn các ví dụ cho mọi nhiệm vụ để thuật tốn ML cĩ thể học hiệu quả. Tệ hơn nữa, mọi thứ xung quanh chúng ta luơn thay đổi liên tục, do đĩ việc gán nhãn cần phải được thực hiện liên tục; đĩ là mợt việc hết sức khĩ khăn đới với con người. 3
Ngay cả đới với học khơng giám sát, việc thu thập mợt khới lượng dữ liệu lớn cĩ thể khơng thực hiện được trong nhiều trường hợp. Hình 1.1. Kiến trúc mơ hình học máy cổ điển [2]. Mơ hình học cơ lập cổ điển khơng thể thực hiện được việc học suớt đời. Như đã đề cập trước đĩ, nĩ chỉ phù hợp cho các nhiệm vụ hẹp và hạn chế trong mơi trường kín.Nĩ cũng cĩ thể khơng đủ để xây dựng mợt hệ thớng thơng minh cĩ thể học liên tục để đạt được mức đợ thơng minh như con người. LL nhằm mục đích đạt được tiến bợ theo hướng này. Với sự phổ biến của robot, trợ lýảo thơng minh, LL ngày càng trở nên quan trọng vì các hệ thớng này phải tương tác với con người và/hoặc các hệ thớng khác, liên tục học hỏi trong quá trình hoạt đợng và duy trì kiến thức đã học trong các tương tác của chúng trong các mơi trường khác nhau, qua đĩ cĩ thể hoạt đợng tớt hơn theo thời gian. Trong 25 năm qua, đã cĩ những tiến bợ đáng kể trong lý thuyết học máy và thuật toán. Tuy nhiên, hiện vẫn cĩ rất ít thuật toán cĩ khả năng học nhiều nhiệm vụkhác nhau trong mợt thời gian dài. Học cĩ giám sát cổ điển đưa ra giả định thế giới khép kín, cĩ nghĩa là tất cả cáclớp dữ liệu lúc kiểm tra đều đã xuất hiện trong lúc học [1, 5, 6]. Mặc dù giả định này đúng trong nhiều ứng dụng, nhưng nĩ bị vi phạm ở nhiều ứng dụng khác, đặc biệt là trong mơi trường đợng và mở; trong đĩ các dữ liệu của các lớp khơng mong muớn cĩ thể xuất hiện trong lúc kiểm tra hoặc hệ thớng đi vào hoạt đợng. Ví dụ, khi đọc, hệ thớng cĩ thể thấy mợt từ mới mà nĩ khơng biết, khi đĩ hệ thớng phải học nĩ bằng cách tra từ trong từ điển. Trong cuợc trò chuyện giữa người và máy, trợ lý ảo cĩ thể khơng hiểu mợt sớ điều được nĩi bởi người dùng và sau đĩ nĩ cần yêu cầu người dùng giải thích thêm để tìm hiểu. Để 4
học trong mợt mơi trường mở như vậy, chúng ta cần học thế giới mở (phân loại thế giới mở hoặc đơn giản là phân loại mở), trong đĩ phải phát hiệnđược các lớp chưa xuất hiện trong quá trình huấn luyện mơ hình, và sau đĩ thêm dần các lớp mới này vào mơ hình mà khơng phải huấn luyện lại toàn bợ mơ hình từ đầu. Hình thức học này còn được gọi làhọc tích lũy trong [5]. Luận văn này sẽ tập trung vào mơ hình học cĩ giám sát thế giới mở. Học cĩ giám sát truyền thớng dựa trên giả định thế giới đĩng với các lớp trong tập dữ liệu kiểm tra (test) đều đã xuất hiện trong dữ liệu huấn luyện D khi huấn luyện mơ hình. D = {(x1, y1), (x2, y2), , (xn, yn)} -xi là dữ liệu thứ i, iy ∈ {l1, l2, , lm} = Y là lớp/nhãn của xi. Khi đĩ cần xây mơ hình f(x) cĩ khả năng phân loại dữ liệu x trong tập test vào mợt trong m lớp đã biết trong Y. Giả thiết thế giới đĩng khơng đúng với nhiều ứng dụng trong thực tế,đặcbiệt trong mơi trường mở, biến đợng. Ví dụ, đới với dữ liệu truyền thơng mạng xã hợi luơn cĩ thêm những chủ đề mới được bàn luận, hay với ứng dụng xe tự lái thường cĩ các lớp đới tượng mới xuất hiện, hay các tên bệnh mới cĩ thể chưa cĩ sớ định danh trong CSDL. 1.2. Học máy suốt đời Trong cuợc sớng, con người luơn phải học hỏi suớt đời, thơng qua việc tích lũy, vận dụng tri thức và kỹ năng cĩ sẵn để giải quyết các vấn đề/tác vụ mới gặp phải, từđĩgiúp cho việc học nhanh hơn và hiệu quả hơn. Trong quá trình tiến hĩa hàng triệu năm của loài người, khả năng học suớt đời đã giúp con người thích nghi, sớng sĩt và phát triểnđược trong nhiều mơi trường sớng khắc nghiệt khác nhau. Lấy ví dụ về năng lực giao tiếp, học suớt đời giúp chúng ta cĩ khả năng sử dụng ngơn ngữ để giao tiếp với nhau thơng qua các cơng cụ, các khái niệm (tri thức) hữu dụng học được từ cha mẹ và giáo viên. Đầu tiên, các từ và cụm từ cĩ ý nghĩa gần như giớng nhau trong tất cả các lĩnh vực và tất cả các nhiệm vụ. Thứ hai, các câu trong mỗingữ cảnh sử dụng đều tuân theo cùng mợt cú pháp. Thứ ba, gần như tất cả các vấn đề về ngơnngữ tự nhiên cĩ liên quan chặt chẽ với nhau, điều đĩ cĩ nghĩa là chúng cĩ liên kếtvới nhau và ảnh hưởng lẫn nhau theo mợt sớ cách. 5
Hai lý do đầu tiên ở trên đảm bảo rằng kiến thức đã học cĩ thể được sử dụngtrong các tác vụ khác nhau (của các lĩnh vực khác nhau). Đĩ là lý do tại sao con người chúng ta khơng cần phải học lại ngơn ngữ (hoặc học mợt ngơn ngữ mới) mỗi khi chúng ta bắt gặp mợt miền ứng dụng mới. Ví dụ, giả sử chúng ta chưa bao giờ nghiên cứu tâm lý học,và bây giờ muớn nghiên cứu nĩ. Chúng ta khơng cần phải học lại ngơn ngữ được sửdụng trong văn bản tâm lý học, ngoại trừ mợt sớ khái niệm mới trong lĩnh vực tâm lý học. Lý do thứ ba ở trên đảm bảo rằng kiến thức về ngơn ngữ của chúng ta cĩ thể được sửdụng trên các loại nhiệm vụ khác nhau. Ví dụ, giả sử chúng ta đã tích luỹđược tri thức rằng: “iPhone là sản phẩm và mọi sản phẩm đều cĩ giá của nĩ” và tính từ “đắt” mơ tả thuợc tính giá của mợt sản phẩm. Sau đĩ, từ câu nhận xét: “Chất lượng hình ảnh của iPhone rất tuyệt, nhưng nĩ khá đắt”, thơng qua việc sử dụng các kiến thức được tích luỹ từ trước, chúng ta cĩ thể dễ dàng nhận ra rằng “chất lượng hình ảnh” là mợt tính năng hoặc thuợc tính của iPhone và “nĩ/it” là để chỉ “iPhone” chứ khơng phải là thuợc tính “chất lượng hình ảnh” của iPhone. Hai vấn đề này cĩ liên quan chặt chẽ với nhau và cĩ thể giúp đỡ lẫn nhau vì kết quả từ mợt vấn đề cĩ thể hữu ích cho những người khác, trong việc xử lý nhiệm vụ khác. Hiện tượng trên khơng chỉ đúng cho khả năng học ngơn ngữ của con người màcòn đúng cho bất kỳ lĩnh vực nào khác bởi vì mọi thứ trên thế giới cĩ liên quan và liên kếtvới nhau. Do đĩ, kiến thức học được trong quá khứ trong mợt sớ lĩnh vực cĩ thể được áp dụng trong mợt sớ lĩnh vực khác cĩ bới cảnh tương tự. Học máy suớt đời được phát triển nhằm mục đích bắt chước quá trình và khả năng học tập suớt đời của con người. Kiểu học này khá tự nhiên vì mọi thứ xung quanh chúng ta cĩ liên quan chặt chẽ và liên kết với nhau. Kiến thức đã học về mợt sớ mơn học cĩthể giúp chúng ta hiểu và học mợt sớ mơn học khác. Ví dụ, con người chúng ta khơngcần 1.000 đánh giá tích cực và 1.000 đánh giá tiêu cực về phim trực tuyến như thuật toán ML cần để xây dựng bợ phân loại đánh giá tích cực và tiêu cực về các bợ phim. Trong thựctế, đới với nhiệm vụ này, khơng cần cĩ mợt ví dụ huấn luyện, con người chúng ta cũng đãcĩ thể thực hiện nhiệm vụ phân loại này. Lý do rất đơn giản. Đĩ là bởi vì con người chúng ta đã tích lũy rất nhiều kiến thức trong quá khứ về các cách mà mọi người sử dụngđểkhen hoặc chỉ trích mọi thứ, mặc dù cĩ thể rất ít trong sớ những lời khen hoặc phê bình đĩlàvề các bợ phim trực tuyến. 6
Nếu chúng ta khơng cĩ kiến thức tích luỹ được từ quá khứ như vậy, con người chúng ta cĩ thể khơng thể tự xây dựng mợt bợ phân loại tớt ngay cảkhi cĩ tập huấn luyện gờm 1.000 đánh giá tích cực và 1.000 đánh giá tiêu cực. Ví dụ: nếu bạn khơng cĩ kiến thứcvề tiếng Ả Rập và ai đĩ cung cấp cho bạn 2.000 đánh giá được dán nhãn bằng tiếng ẢRập và yêu cầu bạn xây dựng mợt bợ phân loại theo cách thủ cơng, rất cĩ thể bạn sẽ khơng thể làm điều đĩ nếu khơng sử dụng trình dịch. Mặc dù LL đã được đề xuất hơn 20 năm trước, nhưng nghiên cứu trong lĩnh vực này vẫn chưa phát triển mạnh. Mợt sớ lý do cĩ thể như sau [2]: - Đầu tiên, cợng đờng nghiên cứu ML trong 20 năm qua đã tập trung vào các phương pháp thớng kê và thuật toán. LL thường cần mợt cách tiếp cận hệ thớngkếthợp nhiều thành phần và thuật toán học. - Thứ hai, phần lớn các nghiên cứu và ứng dụng ML trước đây tập trung vào việchọc cĩ giám sát bằng cách sử dụng dữ liệu cĩ cấu trúc, điều này khơng dễ dàng đớivới LL vì cĩ rất ít điểm giớng nhau giữa các nhiệm vụ hoặc lĩnh vực. Ví dụ, kiến thức học được từ hệ thớng học cĩ giám sát trong đơn xin vay vớn khĩ được sử dụng trong ứng dụng y tế hoặc giáo dục vì chúng khơng cĩ nhiều điểm chung. Ngoài ra, hầu hết các thuật toán học cĩ giám sát khơng tạo ratri thức nào ngoài mơ hình phân lớp cuới cùng. Mơ hình được tạo ra rất khĩ được sử dụng làm tri thức tiền nghiệm cho mợt nhiệm vụ phân lớp khác, ngay cả trong mợt lĩnh vực tương tự. - Thứ ba, nhiều phương pháp ML hiệu quả như SVM và học sâu khơng thể dễ dàng sử dụng tri thức tiền nghiệm. Các bợ phân lớp này là hợp đen với cơ chế hoạt đợng rất khĩ để giải thích. Chúng thường hoạt đợng chính xác hơn trên dữ liệu huấn luyện; càng nhiều dữ liệu hoạt đợng càng tớt. 1.2.1 Định nghĩa học máy suốt đời Năm 1996, Thrun đã đưa ra mợt định nghĩa về học máy suớt đời như sau: “Tại bất kỳ thời điểm nào, hệ thống đã học cách thực hiện N nhiệm vụ. Khi đối mặt với nhiệm vụ N + 1, nó sử dụng kiến thức thu được từ N nhiệm vụ trước để giúp giải quyết nhiệm vụ thứ N + 1.” [2]. Năm 2018, Z. Chen và B. Liu [2] đã mở rợng định nghĩa này bằng cách cung cấp cho nĩ thêm các chi tiết và các tính năng bổ sung, bao gờm: (i) mợt hệ cơ sở tri thức 7
tường minh (Knowlegde Base) được thêm vào để lưu lại tri thức đã học đượctừcác nhiệm vụ trước; (ii) khả năng khám phá các nhiệm vụ học mới; (iii) khả năng học trong khi làm (hoặc học trong cơng việc). Định nghĩa củaChen và Liu được phát biểu như sau: “Học máy suốt đời (LL) là một quá trình học liên tục. Tại bất kỳ thời điểm nào, bộ học đã thực hiện một chuỗi N nhiệm vụ học T1, T2, , TN. Các nhiệm vụ này, cịn được gọi là các nhiệm vụ trước, có N bộ dữ liệu tương ứng D1, D2, , DN. Các nhiệm vụ có thể thuộc các loại khác nhau và từ các miền khác nhau. Khi phải đối mặt với nhiệm vụ mới N + 1 là TN+1 (được gọi là nhiệm vụ mới hoặc hiện tại) với dữ liệu DN+1, bộ học có thể tận dụng kiến thức trong quá khứ được lưu trong hệ cơ sở tri thức (KB) để giải quyết TN+1. Nhiệm vụ có thể được đưa ra hoặc được phát hiện bởi chính hệ thống (xem bên dưới). Mục tiêu của LL thường là tối ưu hóa hiệu suất của nhiệm vụ mới TN+1, nhưng nó có thể tối ưu hóa bất kỳ nhiệm vụ nào bằng cách coi các nhiệm vụ cịn lại là các nhiệm vụ trước. KB duy trì tri thức đã học và tích lũy từ việc học các nhiệm vụ trước đó. Sau khi hồn thành việc học TN+1, KB được cập nhật tri thức mới có được từ việc học TN+1. Việc cập nhật có thể liên quan đến việc kiểm tra tính nhất quán, lập luận và khai phá siêu tri thức cấp cao hơn” [2]. Cĩ hai loại nhiệm vụ trong hệ thớng học suớt đời: - Nhiệm vụ đợc lập: Mỗi nhiệm vụ Ti đợc lập với các nhiệm vụ khác. Điều nàycĩ nghĩa là mỗi nhiệm vụ cĩ thể được học đợc lập, mặc dù do sự tương đờng và chiasẻ mợt sớ cấu trúc hoặc kiến thức tiềm ẩn, việc họcTi cĩ thể tận dụng kiến thức thu được từ việc học các nhiệm vụ trước đĩ. - Nhiệm vụ phụ thuợc: Mỗi nhiệm vụ Ti cĩ mợt sớ phụ thuợc vào mợt sớ nhiệm vụ khác. Ví dụ, trong học tập thế giới mở, mỗi nhiệm vụ học cĩ giám sát mới sẽthêm mợt lớp mới vào bài toán phânlớp trước đĩ và cần xây dựng mợt trình phân lớp nhiều lớp mới cĩ khả năng phân loại dữ liệu từ tất cả các lớp trước và hiện tại. Việc chuyển sang nhiệm vụ mới cĩ thể xảy ra đợt ngợt hoặc dần dần, vàcácnhiệm vụ và dữ liệu của chúng khơng phải được cung cấp bởi mợt sớ hệ thớng bên ngoài hoặc người dùng. Mợt bợ học suớt đời lý tưởng cĩ thể tự phát hiện ra các nhiệm vụ học và dữ liệu đào tạo của riêng mình khi tương tác với con người và mơi trường hoặc sử dụng kiến thứcđã học trước đĩ để thực hiện học trong thế giới mở và tự giám sát. 8
Từ định nghĩa trên, cĩ thể thấy LL cĩ năm đặc điểm chính sau [2]: 1. Học liên tục. 2. Tri thức được tích luỹ và lưu giữ trong KB. 3. Sử dụng tri thức tích lũy trong quá khứ để học trong tương lai 4. Cĩ khả năng khám phá ra các nhiệm vụ mới 5. Cĩ khả năng học trong khi làm việc hoặc học trong cơngviệc. Khơng cĩ những khả năng này, mợt hệ thớng ML sẽ khơng thể tự học trong mơi trường mở, luơn biến đợng; hệ quả là sẽ khơng bao giờ thực sự thơng minh. Vì kiến thức được tích lũy và sử dụng trong LL, do đĩ, LL cĩ liên quan đến nhiều khía cạnh khác của trí tuệ nhân tạo cho ML, ví dụ: biểu diễn tri thức, thu nhận, lập luận và duy trì tri thức. Tri thức tích luỹ được khơng chỉ cĩ thể giúp cải thiện việc học trong tương lai, mà còn cĩ thể giúp thu thập và gán nhãn dữ liệu huấn (tự giám sát) và khám phá các nhiệm vụ mới cĩ khả năng sẽ được học. Con người cĩ khả năng tích hợp của cả học dựa trên dữ liệu và học dựa trên tri thức. ML hiện tại tập trung gần như hoàn toànvào việc học tới ưu dựa trên dữ liệu, điều mà con người chúng ta khơng giỏi. Thay vàođĩ, chúng ta rất giỏi học dựa trên tri thức trước đây của chúng ta. Chúng ta càng biết nhiều thì chúng ta học càng dễ hơn. LL cĩ thể yêu cầu mợt cách tiếp cận cĩ hệ thớng kết hợp nhiều thuật toán họcvàcác sơ đờ biểu diễn tri thức khác nhau. Mợt thuật toán họcduy nhất cĩ thể khơng đạt được mục tiêu của LL. Trên thực tế, LL đại diện cho mợt khơng gian vấn đề rất lớn và phong phú. Kiến trúc hệ thớng LL được thể hiện trong Hình 1.2. Khơng phải tất cả các hệ thớng LL hiện cĩ đều sử dụng tất cả các thành phần nhưtrong hình. Trong thực tế, hầu hết các hệ thớng hiện tại đơn giản hơn nhiều. Hơn nữa, vẫn chưa cĩ mợt hệ thớng LL chungcĩ thể thực hiện LL trong tất cả các miền cĩ thể, cho tất cả các loại nhiệm vụ cĩ thể. Trong thực tế, chúng ta vẫn còn ở rất xa điều đĩ. 9
Hình 1.2. Kiến trúc tổng quan của hệ thống học suốt đời [2]. Mợt hệ thớng LL điển hình sẽ cĩ các thành phần cơ bản sau [2]: - Hệ cơ sở tri thức (KB): Chủ yếu để lưu trữ tri thức đã học trước đĩ. Nĩ cĩ mợt vài thành phần phụ: . Kho thơng tin quá khứ (PIS): lưu trữ thơng tin kết quả từ quá trình học trước đây, bao gờm các mơ hình kết quả, mơ hình hoặc các dạng kết quả khác.PIS cĩ thể chứa các thơng tin liên quan như: (1) dữ liệu gớc được sử dụng trong mỗi nhiệm vụ trước, (2) kết quả trung gian từ mỗi nhiệm vụ trước và (3) mơ hình cuới cùng hoặc các mẫu được học từ mỗi nhiệm vụ trước. . Cơng cụ khai thác kiến thức tổng hợp (MKM): thực hiện khai thác siêu kiến thức trong PIS và trong kho siêu tri thức (xem bên dưới). . Kho siêu kiến thức (MKS): lưu trữ kiến thức được khai thác hoặc tích hợp từ PIS và cũng như từ chính MKS. . Bộ lập luận trên tri thức (KR): suy luận dựa trên tri thức trong MKB và PIS để tạo thêm tri thức mới. Hầu hết các hệ thớng hiện tại khơng cĩ thành phần phụ này. Tuy nhiên, với sự tiến bợ của LL, thành phần này sẽ ngày càng trở nên quan trọng. 10
- Bộ học dựa trên tri thức (KBL): Đới với LL, bợ học cần cĩ khả năng sử dụngtri thức tích luỹ được khi học. Mợt bợ học như vậy là bợ học dựa trên tri thức, cĩthể tận dụng tri thức trong KB để học nhiệm vụ mới.Thành phần này cĩ thể cĩ hai thành phần phụ: . Cơng cụ khai phá tri thức nhiệm vụ (TKM), sử dụng thơng tin hoặc thơng tin thơ trong KB để khai thác hoặc xác định kiến thức phù hợp với nhiệm vụ hiện tại. Điều này là cần thiết bởi vì trong mợt sớ trường hợp,KBL khơng thể sử dụng trực tiếp kiến thức thơ trong KB mà cần mợt sớ kiến thức cụ thể và cụ thểhơn được khai thác từ KB. . Bợ học cĩ thể tận dụng kiến thức khai thác trong quá trình học. - Cơng cụ khai thác kiến thức dựa trên nhiệm vụ (TKM): Mơ-đun này khai thác kiến thức từ KB đặc biệt cho nhiệm vụ mới - Mơ hình: Đây là các mơ hình đã học, cĩ thể là mơ hình dự đoán hoặc phân loại trong học tập được giám sát, các cụm hoặc chủ đề trong học tập khơng giám sát,mợt chính sách trong học tập củng cớ, v.v. - Ứng dụng: Đây là ứng dụng của mơ hình trong thế giới thực. Điều quan trọng cần lưu ý là trong quá trình áp dụng mơ hình, hệ thớng vẫn cĩ thể học kiến thức mới(tức là, kiến thức về các kết quả, và cĩ thể khám phá các nhiệm vụ mới sẽ được học.Ứng dụng cũng cĩ thể cung cấp phản hời cho người học dựa trên kiến thức để cải tiến mơ hình. - Trình quản lý tác vụ (TM): Nĩ nhận và quản lý các tác vụ đến trong hệ thớng, xử lý sự thay đổi nhiệm vụ và trình bày nhiệm vụ học tập mới cho KBL theo cách trọn đời. - Quy trình học tập suốt đời: Mợt quy trình LL điển hình bắt đầu bằng Trình quản lý tác vụ gán mợt nhiệm vụ mới cho KBL (nhiệm vụ cĩ thể được đưa ra hoặc tự đợng phát hiện). KBL sau đĩ hoạt đợng với sự trợ giúp của kiến thức trong quá khứđược lưu trữ trong KB để tạo ra mợt mơ hình đầu ra cho người dùng và cũng gửi thơng tin hoặc kiến thức cần được giữ lại để sử dụng trong tương lai cho KB. Trong quá trình ứng dụng, hệ thớng cũng cĩ thể khám phá các nhiệm vụ mới và học trong khilàm việc (học trong cơng việc). Mợt sớ kiến thứcthu được trong các ứng dụng cũng cĩ thể được giữ lại để giúp học tập trong tương lai. 11
1.2.2. Các hướng nghiên cứu LL Học cĩ giám sát suốt đời: Mợt sớ kỹ thuật LL đã được đề xuất dựa trên mạngnơ ron, Nạve Bayesian, mơ hình trường ngẫu nhiên cĩ điều kiện (CRF). Học liên tục sử dụng các mạng nơ ron sâu: Trong vài năm qua, do sự phổ biến của học sâu, nhiều nhà nghiên cứu đã nghiên cứu vấn đề liên tục học mợt chuỗi các nhiệmvụ sử dụng kỹ thuật học sâu. Trong cợng đờng nghiên cứu học sâu thì LL cũng được gọi là học liên tục. Mục tiêu của nĩ xây dựng mạng nơ ron sâu cĩ khả năng học thêm từng nhiệm vụ mới mà khơng quên đi các mơ hình đã học cho các nhiệm vụ trước. Học thế giới mở: Học cĩ giám sát truyền thớng đòi hỏi giả định thế giới đĩng phải đúng: các lớp của các dữ liệu mới phải được nhìn thấy trong quá trình học/huấn luyện [6]. Điều này khơng phù hợp để học trong các mơi trường mởvà biến đợng với những lớp mới luơn xuất hiện. Học khơng giám sát suốt đời: Các nghiên cứu trong hướng này chủ yếu là vềmơ hình hố chủ đề suớt đời và trích chọn thơng tin suớt đời. Các kỹ thuật này đều dựa trên khai thác cấp đợ meta, tức là khai thác kiến thức được chia sẻ qua các tácvụ. Học bán giám sát suốt đời: Nghiên cứu điển hình trong hướng này là hệ thớng hệ thớng NELL (Bợ học ngơn ngữ khơng ngừng). Nĩ đã đọc nợi dung trên Internet liên tục từ tháng 1 năm 2010 để khai thác thơng tin, và đã tích lũy được hàng triệu thực thể và quan hệ giữa chúng. Học tăng cường suốt đời: Hướng nghiên cứu này tập trung xây dựng các tác nhân (agent) học liên tục cĩ khả năng giải quyết dần các nhiệm vụ phức tạp bằng cách họcgiải quyết các nhiệm vụ dễ dàng trước tiên. 1.3. Học máy thế giới mở Do thế giới thực cĩ tính chất mở, luơn cĩ biến đợng chúng ta cần xây dựng mơ hình cĩ thể nhận ra các lớp mới. Học máy cĩ giám sát thế giớimởnhằm xây dựng các bợ phân lớp cĩ khả năng nhận ra các lớp đã biết và các lớp chưa từngthấy. Điều này trái ngược với học máy cĩ giám sát thế giới đĩng. Hiện nay cơng nghệ đang phát triển theo hướng trợlý ảo cá nhân hĩa mợt cách thơng minh, xe tự lái, các robot làm việc trong mơi trường mở và tương tác với con người, 12
v.v. Việc xây dựng bợ phân lớp trong thế giới mở đang trở nênrất quan trọng. Lấy ví dụ: ứng dụng đầu tiên về trợ lý cá nhân hĩa thơng minh (như Amazon Alexa, Google Assistant và Microsoft Cortana, v.v.) sử dụng những bài viết của người dùng để phân lớp ý định người dùng và miền ứng dụng (ví dụ: Alexa’s skills, Google’s actions và Cortana’s skills), từ đĩ cũng phát hiện ra các bài viết khơng thuợc vào mợt trong những lớp ýđịnh và miền đã biết. Hầu hết các giải pháp hiện cĩ cho học thế giới mở được xâydựngdựa trên các mơ hình phân lớp thế giới đĩng. Thêm nữa, các mơ hình này rất khĩ cĩ thể phát hiện các lớp mới (chưa thấy) vào tập các lớp đã thấy mà khơng cần học lại hoặc học tăng cường. Ví dụ: Alexa cho phép các nhà phát triển bên thứ 3 thêm các kỹ năng mới (ứng dụng mới), tức là các miền mới hoặc các lớp mục đích mới. Điều này đặt ra mợt thách thức lớn đới với việc duy trì triển khai mơ hình và dữ liệu đào tạo cho các lớpmới. Xây dựng mợt mơ hình cĩ khả năng phân loại dữ liệu trong tập test vào mợt trong những lớp đã biết hoặc bác bỏ nĩ(dữ liệu đĩ khơng thuợc về bất kỳ lớp nào trong tập huấn luyện, hay thuợc lớp chưa được thấy). Nĩi cách khác, xây dựng 1 bợ phân lớp f(x) cho (m + 1) lớp thuợc tập C = {l1, l2, , lm, rejection}. Học máy thế giới mở được định nghĩa như sau [1, 5]. 1. Tại mợt thời điểm nào đĩ, bợ học đã xây dựng được mợt mơ hình phân lớp FN dựa p trên N lớp từ tập dữ liệu huấn luyện trước đây: D = {D1, D2, , DN} với các lớp N tương ứng Y = {l1, l2, , lN}. FN cĩ khả năng phân loại mợt đới tượng dữ liệu vào N mợt trong các lớp li thuợc Y hoặc bác bỏ nĩ và để nĩ vào tập bị bác bỏR. 2. Bợ phân loại hoặc người dùng sẽ xác định tập các lớp chưa xuất hiện C trong R và thu thập dữ liệu huấn luyện cho các lớp chưa xuất hiện này. 3. Giả sử rằng cĩ k lớp mới trong C cĩ đủ dữ liệu huấn luyện. Bợ học sẽ học tăng dần cho k lớp này dựa trên dữ liệu học của chúng. Mơ hình FN hiện cĩ được cập nhật để tạo thành mơ hình FN+k mới. Học thế giới mở là mợt hình thức học suớt đời (LL) vì nĩ phù hợp với địnhnghĩa của LL. Cụ thể, nhiệm vụ học mới TN+1 là để xây dựng mợt bợ phân lớp mở đa lớp dựa trên tất cả dữ liệu quá khứ và hiện tại các lớpđã được học. Hệ cơ sở tri thức (KB) chứa mơ hình quá khứ FN và tất cả tập dữ liệu huấn luyện trong quá khứ [2]. Lưu ý rằng nhiệm vụ thứ ba của việc học tăng dần các lớp mới ở đây khác với việc học lớp tăng dần truyền thớng (ICL) được nghiên cứu ởcácmiền khác nhau vì ICL truyền 13
thớng vẫn học trong thế giới khép kín (nghĩa là nĩ khơng thực hiệnviệc bác bỏ lớp chưa xuất hiện) mặc dù nĩ cĩ thể thêm các lớp mới tăng dầnvào hệ thớng phân loại mà khơng cầnhọc lại từ đầu toàn bợ mơ hình. Ví dụ, chúng ta muớn xây dựng mợt robot chào mừng cho mợt khách sạn. Tại bấtkỳ thời điểm nào, robot đã học cách nhận ra tất cả khách hiện tại của khách sạn. Khi thấy mợt vị khách cũ nĩ cĩ thể gọi tên và trò chuyện với anh ấy/cơ ấy. Đờng thời, nĩ cũng phải phát hiện bất kỳ vị khách mới nào mà nĩ chưa từng thấy trước đây. Khi nhìn thấy mợtvị khách mới, nĩ cĩ thể nĩi xin chào, hỏi tên của khách, chụp mợt sớ ảnh và học cách nhận ra vị khách đĩ. Lần sau khi gặp lại người đĩ, nĩ cĩ thể gọi tên của anh ấy/cơ ấy vàtrò chuyện như mợt người bạn cũ. Kịch bản trong xe tự lái cũng tương tự vì rất khĩ, nếu khơng muớn nĩi là khơng thể huấn luyện mợt hệ thớng cĩ khả năng nhận ra mọi vật thể cĩ thể xuất hiện trên đường. Hệ thớng phải nhận ra các vật thể mà nĩ chưa học trướcđĩ và học chúng trong khi lái xe (cĩ thể thơng qua tương tác với hành khách của con người) để khi nhìn thấy các vật thể lần sau, nĩ sẽ khơng gặp vấn đề gì khi nhận rachúng. Fei và cợng sự [5] đã đưa ra mợt ví dụ khác trong phân loại văn bản. Cuợc bầu cử tổng thớng năm 2016 tại Hoa Kỳ là mợt chủ đề nĩng trên phương tiện truyền thơng xãhợi và nhiều nhà nghiên cứu khoa học xã hợi đã dựa vào các cuợc thảo luận được thuthậpđể thực hiện nghiên cứu của họ. Trong chiến dịch, mọi đề xuất mới của mợt ứng cửviênsẽ được thảo luận sơi nổi trên phương tiện truyền thơng xã hợi. Bợ phân loại được xây dựng ban đầu chắc chắn sẽ gặp các chủ đề mới (ví dụ, kế hoạch cải cách nhập cư củaDonald Trump, hoặc đề xuất tăng thuế của Hillary Clinton), những chủ đề đã khơng xuất hiện trong quá trình huấn luyện mơ hình trước đĩ. Trong trường hợp này, trước tiên bợ phân loại nên nhận ra các chủ đề mới này thay vì phân loại chúngvào mợt sớ chủ đề hiện cĩ. Thứ hai, sau khi thu thập đủ các ví dụhuấn luyện cho các chủ đề mới, bợ phân loại hiện cĩ nên kết hợp các chủ đề mớimợt cách tăng dần mà khơng cần phải huấn luyện lại toàn bợ hệ thớng phân loại từ đầu. Bendale và Boult [1] đã cớ gắng giải quyết vấn đề học thế giới mở để phân loại ảnh. Phương pháp của nĩ được gọi là Phương pháp khơng ngoại lai gần nhất (Nearest Non- Outlier, NNO), được phát triển từ phương pháp Trung bình lớp gần nhất (Nearest Class Mean) do Mensink và cợng sự đề xuất. Trong NNO, mỗi ảnh được biểu diễn dưới dạng mợt vectơ đặc trưng và mỗi lớp được biểu diễn bằng vector trung bình của các vectơ đặc 14
trưng của tất cả các ảnh trong lớp đĩ. Khi kiểm tra mơ hình, vectơ đặc trưng của ảnh kiểm tra được so sánh với từng vector trung bình của mỗi mợt lớp và phân ảnh vào lớp cĩ vector trung bình gần nhất. NNO thêm tính năng bác bỏ lớp mới vào mơ hình chỉ đơn giản bằng cách thêm vector trung bình của lớp mới vào tập vector của lớp hiện cĩ. Năng lực bác bỏ của NNO đã được cải thiện trong OpenMax [1]. OpenMax, dựa trên học sâu, thay tầng phân loại softmax truyền thớng bằng mợt tầng mới, gọi là tầng OpenMax, (từ đĩ cho phép bác bỏ) để ước lượng xác suất dữ liệu đầu vào là từ mợt lớp chưa nhìn thấy. Tuy nhiên, việc huấn luyện OpenMax cần các dữ liệu ví dụ cho mợt sớ lớp chưa nhìn thấy (khơng nhất thiết là các lớp trong tập dữ liệu kiểm tra) để tinh chỉnh các tham sớ. Shu và cợng sự [13] đã giới thiệu mơ hình DOC, dựa trên tư tưởng của OpenMax, được chứng tỏ là vượt trợi hơn OpenMax cho cả phân loại mở cả văn bản lẫn ảnh mà khơng yêu cầu bất kỳ dữ liệu ví dụ huấn luyện nào cho lớp chưa nhìn thấy. Trong miền ứng dụng xử lý dữ liệu y văn, các tên thực thể y sinh (thuớc, bệnh, gien, protein, v.v) cần được phân vào các khái niệm y sinh được lưu trữ trong mợt, hoặc nhiều bợ CSDL từ vựng chuẩn cho trước. Quá trình này được gọi là quá trình chuẩn hoá tên thực thể y sinh. Trong thực tế, nhiều trường hợp các tên thực thể y sinh được nhắc đến trong các tài liệu là mới, chưa được lưu trữtrong các CSDL từ vựng cho trước. Cĩ nhiều hệ thớng chuẩn hĩa tên thực thể y sinh khác nhau đã được phát triển trong thập kỷ qua. Tuy vậy, theo hiểu biết của tơi, đến thời điểm hiện tạitất cả các phương pháp này đều khơng phải là học thế giới mở, dẫn đếnviệc các tên mới đều phải được phân vào ít nhất1 khái niệm trong CSDL từ vựng cho trước. Vì những lý do trên, luận văn này sẽ tập trung nghiên cứu ứng dụng học thế giới mở vào bài toán chuẩn hoá tên thực thểbệnh (gọi tắt là tên bệnh), là mợt thực thể y sinh quan trọng, nhận được nhiều quan tâm nghiên cứu của cợng đờng nghiên cứu- y sinh. 1.4. Mục tiêu của luận văn Cĩ thể thấy rằng, cơ sở dữ liệu tri thức tích luỹ được là hết sức quan trọng, và thiết yếu đới vớihọc suớt đời. Các tri thức được lưu trữ dưới định dạnh cĩ cấu trúc, cĩ thể “đọc” được bởi máy tính, từ đĩ cĩ thể thực hiện các phép suy diễn. Tuy nhiên, lúc đầu các tri thức lại thường được thể hiện dưới dạng văn bản phi cấu trúc, do con người viết ra và chỉ con người mới hiểu được. Các tri thức thường là mới quan hệ giữa các đới tượng, hiện tượng nào đĩ. Việc trích xuất tự đợng tri thứcđược viết trong văn bản đang ngày trở nên 15
quan trọng và cấp thiết, đặc biệt là khi sớ lượng văn bản trong các lĩnh vực chuyên ngành đang liên tục được tạo ra với mợt tớc đợ chĩng mặt. Về cơ bản, bài toán trích xuất tri thức (dưới dạng quan hệ) trong văn bản baogờmba bước chính: phát hiện đới tượng/thực thể tên, chuẩn hoá thực thể tên và phân loại quanhệ giữa các thực thể. Luận văn do đĩ sẽ tập trung nghiên cứu ứng dụng mơ hình DOC vào pha cĩ nhiều khả năng cĩ cái mới chưa được thấy, đĩ là chuẩn hoá thực thể tên (tên mới). Đặc biệt, với bài toán chuẩn hoá thực thể tên,luận văn sẽ chọn tên bệnh trong miền văn bản y sinh, là mợt miền ứng dụng cĩ nhiều ý nghĩa và đầy thách thức. Phát hiện và chuẩn hĩa thực thể y sinh đang ngày càng trở nên rất quan trọng cho việc khám phá ra các quan hệ mới, quan trọng giữa các hĩa chất/thuớc và các bệnh khơng xuất hiện cùng nhau trong cùng mợt bài báo y văn được xuất bản [2].Bài toán chuẩn hĩa tên bệnh là mợt trong những bài toán chuẩn hĩa thực thể y sinh quan trọng, đầy thách thức, cĩ đầu vào và đầu ra như sau: Đầu vào: Tập nhãn/lớp: Mợt bợ từ vựng được xây dựng sẵn V chứa các khái niệm bệnh (định danh tên bệnh, cùng với các tên đờng nghĩa của nĩ). Dữ liệu huấn luyện: Mợt tập các tên bệnh (disease mention) đãđượcgán định danh khái niệm bệnh trong V. Tập các tên bệnh chưa được gán định danh D Đầu ra: Mơ hình cĩ khả năng gán (hoặc bác bỏ) định danh khái niệm bệnh trong V cho các tên thuớc trong D (Xem ví dụ Bảng 1.1). Input Output lidocaine D008012 depression D003866 bradyarrhythmias Unknown Bảng 1.1 - Mợt ví dụ về bài toán chuẩn hoá tênbệnh. 16
Kết luận Chương 1 Chương này đã trình bày mợt giới thiệu tổngquát về mơ hình ML cổ điển và những thiếu sĩt của nĩ, sau đĩ là về Học suớt đời (LL) và học thế giới mở (OpenWorld ML, mợt dạng học máy suớt đời). Học máy suớt đời là mợt hướng đi mới nổi tất yếu và đầy hứa hẹn để khắc phục những thiếu sĩt của học máy truyền thớng, với mục tiêu cuới cùng là xây dựng những cỗ máy học hỏi như con người. Tầm quan trọng của hệ cơ sở dữ liệu tri thức (KB) đới với học suớt đời đã được chỉ ra. Cuới cùng mục tiêu của luận văn cũng đã được giới thiệu, đĩ là ứng dụng mơ hình học thế giới mở cho bước quan trọng trong việc trích xuất tự đợng tri thức từ văn bản y sinh, đĩ là chuẩn hĩa thực thể tên. Đây là bước cĩ sự xuất hiện của đới tượng mới chưa xuất hiện lúc học, đặc biệt là trong lĩnh vực y sinh, ví dụ: tên bệnh mới. Tầm quan trọng và thách thức của việc giải quyết bài toán này đới với lĩnh vực y sinh cũng được đề cập. Chương 2 sẽ giới thiệu sâu về học thế giới mở dựa trên kỹ thuật học sâu. 17
Chương 2. Học sâu thế giới mở cho văn bản 2.1. Học thế giới mở khơng gian đơn giản trung tâm G. Fei và cợng sự [5] đã giới thiệu mợt mơ hình phân lớp thế giới mở dựa trên phương pháp học khơng gian tương tự dựa trên trung tâm (được gọi là học CBS Center- Based Similarity (CBS) Learning). Nĩ cĩ khả năng phân loại các dữ liệu vào các lớp đã biết/đã thấy, hoặc bác bỏ để đưa vào lớp chưa biết. 2.1.1 Tăng cường cập nhật mơ hình học CBS Con người được tiếp xúc với các khái niệm mới mọi lúc. Mợt cách chúng tahọcmợt khái niệm mới là tìm kiếm từ các khái niệm đãbiếtđể tìm ra các khái niệm tương tự với khái niệm mới, và sau đĩ cớ gắng tìm ra sự khác biệt giữa các khái niệm đã biết vàkhái niệm mới mà khơng cần sử dụng tất cả các khái niệm đã biết. Ví dụ, giả sử chúng tađã học được các khái niệm như“phim truyện”, “đồ nội thất”, “bĩng đá”. Giả sử bây giờ chúng ta cần tìm hiểu khái niệm “bĩng rổ” từ bợ tài liệu về nĩ. Chúng ta sẽ nhận ra rằng “bĩng rổ” giớng với “bĩng đá” và rất khác với “phim truyện” và “đờ nợi thất”. Do đĩ, chúng ta chỉ cần tập trung vào sự khác nhau giữa “bĩng rổ”với “bĩng đá” mà khơng cần quan tâm đến nĩ với “phim truyện” và “đờ nợi thất”. G. Fei và cợng sự [5] sử dụng chiến lược 1-so-với-phần-cịn-lại (one-vs.-rest) của SVM để học tăng cường của nhiều lớp (hoặc khái niệm) (xem Thuật toán 2.1). Trước khi lớp mới CN+1 xuất hiện, hệ thớng học đã xây dựng được mơ hình phân lớp FN, bao gờm N bợ phân loại nhị phân 1-so-với-phần-cịn-lại FN= {f1, f2, , fN} cho N lớp trước đây, các p N lớp sử dụng tập huấn luyện D = {D1; D2; ; DN} với các nhãn lớp tương ứng Y = {l1; l2; ; lN}. Mỗi fi là mợt mơ hình phân lớp nhị phân được xây dựng bằng phương pháp học CBS để xác định các đới tượng dữ liệu thuợc vềlớp li. Khi cĩ mợt bợ dữ liệu mới DN+1 cho lớp lN+1, hệ thớng sẽ thực hiện hai bước sau để cập nhật mơ hình phân lớp FN thành mơ hình FN+1 mới cĩ khả năng phân loại dữ liệu kiểm tra hoặc dữ liệu của của các lớp trong tập YN+1 = {l1; l2; ; lN; lN+1} và phát hiện ra bất kỳ lớp C0 nào chưa được thấy. 1. Tìm kiếm mợt tập các lớpSC tương tự như lớp mới lN+1. 2. Học cách tách lớp mới lN+1 và các lớp đã xuất hiện từ trước trong SC. 18
Trong bước 1, sự giớng nhau giữa lớp mới lN+1 và các lớp trước l1; l2; ; lN được tính bằng cách chạy từng bợ phân loại nhị phân 1 so với phần còn lại trong FN = {f1; f2; ; fN} để phân loại các dữ liệu trong DN+1. Các lớp của các bợ phân lớp nhị phân hiện cĩ mà chấp nhận (phân loại là lớp dương) mợt sớ/phần trăm nhất định λsim của các dữ liệu trong tập DN+1 được xem là các lớp tương tự SC. λsim là ngưỡng kiểm soát sớ phần trăm các dữ liệu trong DN+1 nên được phân loại vào lớp li trước khi xem xét li gần với lớpl N+1. Bước 2 tách lớp mới lN+1 và các lớp trong SC bao gờm hai bước phụ: (1) xây dựng trình phân loại nhị phân mới fN+1 cho lớp mới lN+1; (2) cập nhật các bợ phân loại hiện cĩ cho các lớp trong SC. fN+1 được huấn luyện bằng cách sử dụng DN+1 như là ví dụ huấn luyện dương và dữ liệu cho các lớp trong SC làm dữ liệu huấn luyện âm. Lý do để cập nhật các bợ phân loại trong SC là việc bổ sung lN+1 gây ra nhầm lẫn cho các bợ phân loại trong SC. Để xây dựng lại từng bợ phân loại, hệ thớng cần sử dụng tập dữ liệu ví dụ âm hiện cĩ (đã được sử dụng khi xây dựng bợ phân lớp fi) cợng với dữ liệu mới trong DN+1 làm dữ liệu ví dụ huấn luyện âm mới. Lý do mà dữ liệu ví dụ huấn luyện âm cũ vẫn được sử dụng là do bợ phân loại mới vẫn cầnphân biệt lớpl i với các lớp cũ. Tĩm lại, quá trình học sử dụng tập SC của các lớp tương tự với lớpmớilN+1 để kiểm soát cả sớ lượng bợphân loại nhị phân cần được xây dựng/cập nhật lại lẫn cả sớ lượng các dữ liệu ví dụ huấn luyện âm được sử dụng trong việc xây dựng bợ phân loại mới fN+1. Điều này cải thiện đáng kể hiệu quả so với việcphải xây dựng lại mợt bợ phân loại đa lớp mớiF N+1 từ đầu. Thuật tốn 2.1. Học tăng dần các lớp CBS p *Đầu vào: Mơ hình phân lớp FN= {f1, f2, , fN}, tập các dữ liệu trong quá khứ D = {D1; D2; ; DN}, tập dữ liệu mới DN+1 và ngưỡng tương tự λsim *Đầu ra: Mơ hình phân lớp FN+1= {f1, f2, , fN, fN+1 }. 19
2.1.2 Kiểm tra mơ hình học CBS Để kiểm tra mơ hình phân lớp mới FN+1 = {f1, f2, ; fN, fN+1}, N+1 bợ phân loại nhị phân 1-so-với-phần-cịn-lại được kết hợp lại để thực hiện phân loại nhiều lớp với tùy chọn “bác bỏ” được thêm vào tập nhãn/lớp. Do đầu ra từ các bợ phân loại SVM khác nhau là khơng thể so sánh được với nhau, nên điểm đầu ra từ SVM cho mỗi bợ phân loại sẽ được chuyển thành xác suất sử dụng cơng cụ trong bợ thư viện LIBSVM. Gọi P(y|x) là xác suất phân loại dữ liệu x vào lớp y thuợc Y= (l1; l2; ; lN; lN+1). Đặt 0.5 là ngưỡng phân loại * mặc định, y là lớp dự đoán cuới cùng cho x vàC0 là nhãn chưa xuất hiện. Phân loại dữ liệu x được thực hiện như sau: 퐚퐫퐠퐦퐚퐱 퐍+ 푷(풚|풙) 풏ế 풖 푷(풚|풙) ≥ . y*= { 퐲€풀 (2.1) 퐂 퐭퐫ườ퐧퐠 퐡ợ 퐩 퐜퐨̀퐧 퐥퐚̣퐢 Ý tưởng ở đây là, với mỗi dữ liệu x, mỗi bợ phân loại nhị phân fi được sử dụng để ước lượng xác suất P(li|x). Nếu khơng cĩ xác suất nào lớn hơn ngưỡng (= 0,5), dữ liệu x được phân vào lớp khơng nhìn thấy / khơng xác định C0; nếu khơng, nĩ được phân vào lớp cĩ xác suất cao nhất. 2.1.3 Học CBS cho phát hiện lớp chưa thấy Phương pháp học dựa trên ý tưởng giảm rủi ro khơng gian mở trong khi vẫn cân bằng rủi ro thực nghiệm trên dữ liệu huấn luyện. Bợ học cổ điển định nghĩa rủi ro thực nghiệm và tới ưu hĩa nĩ trên dữ liệu huấn luyện. Với học thế giới mở, điều quan trọng là phải làm thế nào để mở rợng mơ hình cổ điển để cĩ thể nắm bắt được rủi ro của lớp chưa xuất hiện khi học bằng cách ngăn chặn việc khái quát hĩa quá mức. Để giải quyết vấnđề này, Scheirer và cợng sự [12] đã giới thiệu khái niệm về rủi ro khơng gian mở. Ý tưởng cơ bản của việc học giảm rủi ro khơng gian mở CBS là tìm ra mợt “quả bĩng” (biên giới quyết định phân lớp) để bao phủ vùng dữ liệu của lớp dương. Bất kỳ dữ liệu nào nằm ngoài phạm vi của quả bĩng đều được coi là thuợc lớp .âm Mặc dù nĩ chỉ thực hiện phân loại nhị phân, nhưng khi áp dụng phương pháp 1-so-với-phần-cịn-lại như được mơ tả trong [5], sẽ tạo ra mơ hình phân lớp CBS nhiều lớp, được gọi là cbsSVM. Rủi ro khơng gian mở 20
Khơng gian mở O được định nghĩa là khơng gian bên ngoài “quả bĩng” bao lấy tập các ví dụ dữ liệu huấn luyện dương. Rủi ro khơng gian mở được định nghĩa là khả năng phân loại dữ liệu thuợc O (cách xa các ví dụ huấn luyện dương) vào lớp dương [12]. G. Fei và cợng sự [5], định nghĩa O là khu vực được phân lớp dương đủ xa trung tâm của các ví dụ huấn luyện dương. Đặt Bry(ceny) là mợt quả bĩng kín cĩ bán kính ry xung quanh tâm ceny của lớp dương y. Lý tưởng nhất, Bry(ceny) chỉ bao gờm tất cả các ví dụ huấn luyện dương lớp y; Đặt S0 là quả bĩng đờng tâm ceny lớn hơn Bro(ceny) cĩ bán kính r0. Đặt hàm phân loại f(y|x) = 1 nếu x € Br0(ceny) và f(y|x) = 0 nếu ngược lại. Ngồi ra, gọi q là nửa khơng gian dương được xác định bởi mợt siêu phẳng quyết định Ω của bợ phân lớp SVM nhị phân thu được bằng cách sử dụng các ví dụhuấn luyện. Fei và cợng sự định nghĩa kích thước của bĩng Bro bị giới hạn bởi Ω, Bro ∩ q =Bro. Từ đĩ, khơng gian mở dương được định nghĩa là O = S0 - Bry(ceny), trong đĩ S0 cần phải được xác định trong quá trình học cho lớp dương. Cơng thức khơng gian mở này làm giảm đáng kể rủi rokhơng gian mở so với mơ hình SVM truyền thớng và mơ hình 1-sv-phần-cịn-lại của Scheirer và cợng sự [12]. Đới với SVM truyền thớng, hàm phân loại fy(x) = 1 khi x thuợc q và khơng gian mở dương của nĩ là q - Bry(ceny), chỉ bị giới hạn bởi siêu phẳng quyết định Ω của SVM. Đới với bợ phân lớp 1-với-phần-cịn-lại trong [12], fy(x) =1 khi x € g, trong đĩ g là mợt khu vực sàn được giới hạn bởi hai siêu phẳng song song Ω và ψ của SVM trong q. Khơng gian mở dương của nĩ là g – g ∩ Bry(ceny). Cĩ thể thấy rằng cả hai phương pháp định nghĩa khơng gian mở này đều gắn nhãn dương cho mợt vùng khơng gian khơng giới hạn, trong khi phương pháp của [5] giới hạn vào khơng gian bên trong của mợt quả bĩng. Với định nghĩa khơng gian mở của [5], câu hỏi là làm thế nào để ước tínhSo cho lớp dương. Fei và cợng sự đã sử dụng phương pháp học khơng gian tương tự dựa trên trung tâm (học CBS). CBS giúp chuyển đổi khơng gian tài liệu gớc thành khơng gian tương tự. Việc phân loại cuới cùng được thực hiện trong khơng gian CBS. 2.2. Học sâu thế giới mở phân lớp văn bản Phân lớp mở sâu (DOC [13]) sử dụng mơ hình học sâu [7]. Khơng giớng như phân lớp truyền thớng, DOC xây dựng mợt bợ phân loại nhiều lớp với mợt tầng sigmoids 1-v- phần-cịn-lại cuới cùng thay vì softmax để giảm rủi ro khơng gian mở. Nĩ làm giảm rủi ro 21
khơng gian mở hơn nữa bằng cách thắt chặt ranh giới quyết định của các hàm sigmoid với kỹ thuật khớp Gaussian. 2.2.1 CNN và các lớp chuyển tiếp của DOC Hệ thớng DOC được đề xuất (được nêu trong Hình3) là mợt biến thể của kiến trúc CNN để phân loại văn bản [7]. Tầng đầu biểu diễn dữ liệu vào thành các véc tơ. Tầng thứ hai thực hiện tích chập trên các vectơ đĩ sử dụng các bợ lọc cĩ kích thước khácnhau (xem phần 3.4). Tiếp theo, tầng pooling cực đại theo thời gian (max-over-time) chọn phần tử lớn nhất của mỗi bợ lọc đặc trưng từ kết quả của tầng tích chậpđểtạo thành mợt véc tơ đặc trưng h cĩ k chiều. Vector h sau đĩ được giảm thành vector m chiều d = d1: m (m tương ứng với sớ lớp đã biết) thơng qua 2 tầng kết nới đầy đủ và mợttầng kích hoạt ReLU trung gian: d= W’(ReLU(Wh+b)) + b’ (2.2) Trong đĩ W ∈ Rr×k, b ∈ Rr, W′ ∈ Rm×r, và b′ ∈ Rm là các trọng sớ cĩ thể huấn luyện được; r là kích thước đầu ra của lớp được kết nới đầy đủ đầutiên.Đầu ra của DOC là mợt tầng 1-với-phần-cịn-lại được áp dụng cho d1: m, cho phép loại bỏ. Hình 2.1: Kiến trúc mạng tổng quan của mơ hình DOC [13] 22
Các mơ hình học sâu khác hiện cĩ như RNN và LSTM cũng cĩ thể được sử dụng thay cho CNN. Tương tự như RNN, CNN cũng hoạt đợng trên dữ liệu tuần tự được nhúng (sử dụng tích chập 1D trên văn bản thay vì tích chập 2D trên ảnh). 2.2.2 Tầng 1- với-phần còn lại Phân loại đa lớp truyền thớng sử dụng softmax làm tầng đầu ra cuới cùng; nĩ khơng cĩ khả năng bác bỏ lớp chưa xuất hiện vì xác suất dự đoán cho mỗi lớp đã được chuẩn hĩa cho tất cả các lớp huấn luyện / nhìn thấy. Thay vào đĩ, mợt tầng 1-với-phần-cịn-lại được sử dụng, chứa các N hàm sigmoid cho N lớp. Với hàm sigmoid thứ i tương ứng với lớp li, DOC lấy tất cả các ví dụ với y =li là ví dụ tích cực và tất cả phần còn lạilà tiêu cực ví dụ 6y = l làm ví dụ tích cực, các iy còn lại là tiêu cực. Mơ hình được học với hàm mục tiêu làm nhỏ nhất log của hàm mất mát của các hàm sigmoid trên dữ liệu huấn luyện D. 2.2.2 Giảm rủi ro khơng gian mở Hàm Sigmoid thường sử dụng ngưỡng mặc định ti = 0.5 để phân loại cho từng lớp i. Nhưng ngưỡng này khơng xem xét rủi ro khơng gian mở tiềm năng từcác lớp chưa xuất hiện (bị bác bỏ). Chúng ta cĩ thể cải thiện ranh giới bằng cách tang giá trị ti. Để cĩ được các ti tớt hơn cho mỗi lớp thứ i đã xuất hiện khi học, phương pháp phát hiện ngoại lai trong thớng kê được sử dụng: 1. Giả sử xác suất dự đoán p(y =li| xj, yj = li) của tất cả dữ liệu học của lớp i thuợc về mợt nửa ( 1) sẽ được tạo ra bằng cách thêm điểm đới xứng qua (1, 0) cho mỗi điểm (xác suất) tương ứng với dữ liệu dương, đĩ là điểm 1 + (1 - p (y = li| xj, yj = li) (khơng phải là mợt xác suất). 23
Hình 2.2: Rủi ro khơng gian mở của hàm sigmoid [13] 2. Ước tính đợ lệch chuẩn σi bằng cả điểm hiện cĩ và các điểm giả được tạo ra. 3. Trong thớng kê, nếu mợt giá trị/điểm dữ liệu nằm ngoài khoảng xung quanh kỳ vọng mợt sớ nhất định (α =3) lần đợ lệch chuẩn sẽ được coi là mợt điểm ngoại lai. Do đĩ, ngưỡng xác suất được thiệt lập theo cơng thức ti = max (0.5, 1 – ασi), trong đĩ α = 3. Kết luận Chương 2 Dựa trên mục tiêu được đề ra trong Chương 1, Chương 2 trình bày chi tiết về hai phương pháp học thế giới mở được giới thiệu gần, đây đĩ là: (i) mơ hình phân lớp thế giới mở dựa trên phương pháp học khơng gian tương tự dựa trên trung tâm do Fei và Liu đề xuất năm 2015 và (ii) mơ hình phân lớp mở dựa trên kỹ thuật học sâu (DOC) sử dụng mơ hình học sâu do Shu và cợng sự đề xuất năm 2017. Cả hai phương pháp này đều sử dụng khái niệm “Rủi ro khơng gian mở” cĩ khả năng giải quyết vấn đề phát hiện ra các dữ liệu mới chưa xuất hiện lúc huấn luyện mơ hình. Chúng đã được các tác giả thực nghiệm và cho kết quả tớt cho bài tốn phân loại văn bản mở. Tuy nhiên vẫn chưa cĩ nghiên cứu nào về hiệu quả ứng dụng của chúng cho bài tốn chuẩn hĩa thực thể tên, là bài tốn con quan trọng cĩ sự xuất hiện của nhiều tên mới (đặc biệt trong lĩnh vực y sinh), thiết yếu trong việc trích xuất tri thức được viết (ở dạng phi cấu trúc) trong văn bản. Chương 3 tiếp theo sẽ giới thiệu mợt mơ hình ứng dụng DOC vào bài tốn chuẩn hố quan trọng này. 24
Chương 3: Ứng dụng mơ hình DOC vào chuẩn hĩa tên bệnh 3.1. Ứng dụng chuẩn hĩa tên thực thể bệnh Khai phá tri thức từ y văn đĩng mợt vai trò quan trọng đới với các nhà nghiên cứu y sinh như cũng như các nhà khoa học dữ liệu trong những năm gần đây. Nĩ đã giúp các nhà nghiên cứu đẩy nhanh quá trình nghiên cứu, khám phá ra các tri thức mớicủa họ, qua đĩ giúp giảm chi phí nghiên cứu trong lĩnh vực y sinh hiện đang rất tớn .kém Lấy ví dụ, theo [15], mợt loại thuớc mất trung bình khoảng 14 năm và hai tỷ đơ la Mỹ để được phát triển thành cơng, xuất hiện trên thị trường. Quá trình tớn kém này cĩ thể được cải thiện mạnh mẽ nếu các tác dụng phụ gây bệnh của thuớc cĩ thể được phát hiện nhanh mợt cách tự đợng từ mợt khới lượng khổng lờ văn bản y sinh. Việc phát hiện và chuẩn hĩa thực thể y sinh do đĩ là rất quan trọng để khám phá ra các quan hệ mới, quan trọng giữa các thuớc và các bệnh khơng được mơ tả trong cùng mợt bài báo y sinh [2]. Chuẩn hĩa thực thể tên bệnh (Named Entity Normalization) là mợt các phần thiếu yếu của trích xuất thơng tin, đặc biệt cĩ ý nghĩa cho các nghiên cứu y sinh và ứng dụng lâm sàng. Nĩ thực hiện việc liên kết mỗi mợt tên bệnh được nhắc đến trong tài liệu y sinh đến định dang tương ứng của nĩ được lưu sẵn trong các bợ từ vựng y sinh hiện cĩ [8] (Xem Bảng 3.1). Bài toán NEN cho các tên thực thể bệnh cĩ rất nhiều thách thức: 1) sựnhập nhằng: cùng mợt tên bệnh cĩ thể cĩ nhiều định danh; 2) sự phong phú: nhiều cách đặt tên cho mợt [định danh] bệnh [9]. Hơn nữa, tên bệnh là được đặt tên theo nhiều cách, tùy thuợc vào vị trí giải phẫu, triệu chứng, điều trị, v.v. Bên cạnh đĩ,các tên bệnh thường dài và phức tạp, thậm chí là viết tắt. Nhiều nghiên cứu đã sử dụng thuật toán dựa trên luật để giải quyết vấn đề chuẩn hoá tên bệnh, nhưng khơng hiệu quả trong việc xử lý tất cả thuật ngữ bệnh trong các tài liệu y sinh. Ví dụ, cả hai từ “carcinoma” và “cancer" đều đề cập đến bệnh “tăng trưởng bất thường của các tế bào cĩ thể di căn”; Từ KMS cĩ thể là từ viết tắt của hợi chứng Kabuki (Kabuki make up syndrome) hoặc hợi chứng Kallmann (Kallmann syndrome), là hai hợi chứng rới loạn hoàn toàn khơng liên quan đến nhau. Với bài toán chuẩn hoá tên bệnh, các nghiên cứu trên thế giới đều sử dụng bợ từ vựng MEDIC (MErged DIsease voCabulary) [4], được duy trì bởi Cơ sở dữ liệu đới sánh 25
Toxicogenomics [4], mợt hệ CSDL về tác đợng của việc tiếp xúc với mơi trường đới với sức khỏe con người. MEDIC được tạo ra bằng cách tích hợpCSDL OMIM (Mendel trực tuyến di truyền ở người), mợt bợ từ vựng được kiểm soát về các bệnh di truyền ởngười và mợt sớ phần của MeSH, là mợt bợ từ vựng được tổ chức theo thứ bậc thành 16nhánh. Trong sớ các nhánh này, nhánh bệnh và nhánh phụ củaRối loạn tâm thần và nhánh Tâm lý học chứa các khái niệm bệnh được sử dụng để xây dựng MEDIC [4]. Document Intravenous administration of a single 50-mg bolus of lidocaine in a 67-year-old man resulted in profound depression of the activity of the sinoatrial and atrioventricular nodal pacemakers. The patient had no apparent associated conditions which might have predisposed him to the development of bradyarrhythmias; and, thus, this probably represented a true idiosyncrasy to lidocaine. Input Output lidocaine D008012 depression D003866 bradyarrhythmias Unknown Bảng 3.1 - Một ví dụ về bài tốn chuẩn hố tên thực thể thuốc. MEDIC được cập nhật hàng tháng, hiện tại cĩ 9.664 khái niệm (định danh) bệnh, với tổng sớ 67.782 tên bệnh. Trung bình, mỗi bệnh cĩ 7.01 tên đờng nghĩa, bao gờm các tên chính và các tên đờng nghĩa. 91% bệnh cĩ tên đờng nghĩa với các tên chính và 47% bệnh cĩ định nghĩa hoặc mơ tả về các khái niệm này. Mợt ví dụ về bệnh trong MEDIC được đưa ra trong Hình 3.2. Bệnh này cĩ định danh là MESH:D009369, (ban đầu nĩ xuất phát từ MeSH). Bệnh này cĩ tên chính là Neoplasms, là tên hay được sử dụng, và chín thuật ngữ khác đờng nghĩa. Cĩ thể thấy rằng các thuật ngữ từ đờng nghĩa cĩ thể là tên thay thế cho tên chính, hoặc là các biến thể của tên chính hoặc các từ đờng nghĩa khác, ví dụ như Neoplasm, Benign và Benign Neoplasm. Trong mợt sớ trường hợp, nĩ cũng cĩ thể là từ viết tắt của các tên khác của bệnh, hoặc tên với tính từ bổ nghĩa đi kèm. 26
Hình 3.1. Định danh, tên chính hay dùng và các tên đồng nghĩa của một bệnh trong MEDIC. 3.2.1. Mơ hình đề xuất Tổng quan về mơ hình đề xuất được minh họa trong Hình 3.3. Nĩ là mợt mơ hình đường ớng bao gờm ba thành phần: • Mơ đun tiền xử lý và phân giải viết tắt. • Mơ-đun khớp từ điển để đẩy nhanh việc chuẩn hoá. • Mạng nơ ron học sâu thế giới mở để chuẩn hoá tên bệnh (khơng được tìm thấy trong từ điển) thành định danh của nĩ trong bợ từ vựng. Hình 3.2: Mơ hình đường ống chuẩn hố thực thể tên bệnh. 27
Bộ phân giải viết tắt Trong tài liệu y sinh, cĩ rất nhiều thực thể tên bệnh dài, và thường được gọi bằng cách sử dụng các từ viết tắt. Khơng cĩ mợt quy tắc thớng nhất nào để cĩ thể phân giải được từ viết tắt thành tên đầy đủvì trong các tài liệu khác nhau mợt từviết tắt cĩ thể cĩ ý nghĩa khác nhau và/ngược lại các từ khác nhau cĩ thể cĩ cùng ý nghĩa. Đới với các thực thể tên bệnh, luận văn sử dụng cơng cụ Ab3P (Abbreviation Plus Pseudo-Precision) [14] để phân giải từ viết tắt. Ab3p được sử dụng để xác định từ viết tắt trong tài liệu và đưa ra danh sách các từ đầy đủ cho nĩ cùng với xác suất đi kèm. Ví dụ, nếu thực thể PFS xuất hiện trong tài liệu, Ab3P sẽ phát hiện ra nĩ và trả về kết quả: PFS| progression-free survival (sống sót khơng cĩ tiến triển) | 0.999408; trong đĩ PFS là tên viết tắt, progression-free survival là tên đầy đủ và 0,999408 là xác suất của tên viết tắtlà cho tên đầy đủ. Ngồi ra, để phục vụ cho mơ đun tìm kiếm từ điển, các tên bệnh (được đề cập trong văn bản cũng như trong tập từ vựng MEDIC) được chuyển về chữ thường. Các ký tự chấm câu và các ký tự đặc biệt bị loại bỏ.Các tên được chuyển về dạng gớc của nĩ bằng cơng cụ Snowball. Mạng nơ ron học sâu thế giới mở Với mỗi thực thể tên bệnh m trong tài liệu được gán nhãn định danh IDm, tạo ra: Mợt tập Nm+ gờm các tên bệnh trong từ vựng (n+) cĩ nhãn định danh là IDm. Cặp được xem là mợt ví dụ dương. Mợt tập Nm-, cĩ kích cỡ bằng của Nm+, gờm các tên bệnh trong từ vựng (n-) mà khơng cĩ nhãn định danh là IDm. Các tên bệnh n- này là những tên giớng với m nhất, được tính theo đợ đo tích vơ hướng của vector TF-IDF(m) và TF- IDF(n-), trong đĩ TF-IDF(.) là vector tần sớ từ-tần sớ tài liệu ngược. Cặp được xem là mợt ví dụ âm. Đặt M = {m1, m2, , mn} là tập chứa tất cả các thực thể tên bệnh xuất hiện trong văn bản trong tập huấn luyện. Tập dữ liệu huấn luyện dương và âm (tương ứng gờm các cặp ví dụ dương và âm) được tạo ra từ tất cả các thực thểmi trong M. Điều tương tự cũng được tạo ra cho tất cả văn bản trong tập dữ liệu kiểm định (Validation) để tinh chỉnh mơ hình. 28
Luận văn sử dụng mơ hình chuẩn hoá tên thực thể y sinh dựa trên mạng nơ ron tích chập (CNN) do Cho và cợng sự giới thiệu năm 2017 [3]. Luận văn ứng dụng học thế giới mở bằng cách thay tầng softmax cuới cùng bằng tầng 1-so-với-còn lại sigmoids, như được sử dụng trong mơ hình DOC. Mơ hình do Cho và cợng sự giới thiệu nhận đầu vào là2 tập Nm+ và Nm- như được mơ tả ở trên đây. Mỗi mợt cặp được đi qua tầng nhúng từ (embedding) để tạo ra ma trận các vector biễu diễn cho các từ trong mention m và tên (name) n.Ở tầng tích chập (convolution) tiếp theo các bợ lọc (filter) với kích thước khác nhau sẽ được áp dụng đợc lập trên mention m và tên n để tạo ra các bản đờ đặc trưng chập (convolution feature maps). Các bản đờ đặc trưng trên m và n sẽ được đi qua hai tầng pooling trước khi được gợp lại với nhau tại tầng gợp (join layer). Ngoài ra, đầu ra của hai tầng pooling còn được đi qua tầng so khớp giớng nhau (similarity matching) để tạo ra mợt đặc trưng thể hiện sự giớng nhau của m và n. Đặc trưng này cũng được gợp vào với 2 đặc trưng pooling ởtầng gợp. Đầu ra từ tầng gợp sẽ được cho đi qua mợt tầng ẩn kết nới đầy đủ trước khi choqua tầng softmax cuới cùng. Kiến trúc tổng thể của mơ hình của Cho và cợng sự được thể hiện ở Hình 3.3. Hình 3.3. Kiến trúc hệ thống chuẩn hố tên thực thể y sinh dựa trên mạng nơ ron tích chập do Cho và cợng sự đề xuất [3]. 29
Kết luận Chương 3 Chương 3 giới thiệu mợt mơ hình ứng dụng DOC vào bài tốn con quan trọng, thiết yếu cho quá trình trích xuất tự đợng tri thức (được viết dưới dạng phi cấu trúc) trong văn bản y sinh, đĩ là (i) chuẩn hĩa thực thể tên bệnh. Đây là bài toán thường cĩ sự xuất hiện của các đới tượng dữ liệu thuợc lớp mới chưa xuất hiện trong lúc huấn luyện mơ hình, đặc biệt là trong lĩnh vực y sinh. Chương 4 sau đây sẽ trình bày kết quả thực nghiệm của mơ hình ứng dụng này. 30
Chương 4: Thực nghiệm và đánh giá 4.1. Dữ liệu thực nghiệm chuẩn hố tên bệnh Thực nghiệm vào bài toán chuẩn hoá tên thực thể thuớc (disease normalization) với bợ dữ liệu chuẩn NCBI disease do nhĩm nghiên cứu từ bợ khoa học cơng nghệ sinh học Mỹ (NCBI) cung cấp. Đây là bợ dữ liệu chuẩn vàng được sử dụng bởi các mơ hình chuẩn hoá tên thực thể bệnh khác trên thế giới. Bợ dữ liệu gờm 3 tập con: tập train,tập development, tập test cĩ sớ lượng abstract (tĩm tắt bài báo y sinh) tương ứng là 593, 100, 100. Trong đĩ sớ lượng các disease mentions (các đoạn text tên bệnh), và sớ lượng tên bệnh khác nhau được cho như sau: Subset Articles Mentions Uniques Corpus Training 593 5145 1710 NCBI Development 100 787 368 Test 100 960 203 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh Mơ hình đề xuất của luận văn sử dụng các vector biễu diễn từ cĩ 300 chiều, được cung cấp miễn phí (gờm 6 triệu từ khác nhau) bởi Pyysalo và cợng sự [11] khi họ huấn luyện mơ hình word2vec trên tập tất cả các văn bản tĩm tắt trên CSDL PubMed và các toàn văn trong CSDL PMC [11]. Cĩ 59/203 (30%) mã định danh (IDs) trong tập test khơng xuất hiện trong tập train + dev. 31
4.2 Mơi trường và các cơng cụ thực nghiệm Bảng sau giới thiệu chi tiết về cơng cụ, mơi trường và phần mềm thực nghiệm STT Phần mềm Ý nghĩa Nguồn 1 Pycharm Mơi trường phát triển 2 Python 2.7 Ngơn ngữ phát triển 3 Tensorflow Thư viện cho học sâu 4 Sklearn Thư viện hỗ trợ các cơng cụ học máy Bảng 4.4: Các cơng cụ thực nghiệm. 4.3 Kết quả và đánh giá Mơ hình được đánh giá và so sánh dựa trên đợ đoF1ở mức mã định danh. Giả sử tập {A, B, C, D} là tập tất cả các định danh khác nhau được gán cho tất cả các tênbệnh trong tập kiểm tra và tập {A, B, E, F} là tập tất cả các định danh khác nhau được dự đoán bởi mơ hình cho tất cả các tên bệnh trong tập kiểm tra. Khi đĩ A và B là 2 TP (True Positive), C và D là 2 FN (False Negative), E và F là 2 FP (False Positive). Mơ hình được cho chạy 20 lần và micro F1 sẽ được tính để đo hiệu quả của mơ hình. Sử dụng 2 sigmoids (100% nhãn), và cả 2 ngưỡng T=0.5 mặc định luận văn thu được đợ đo trung bình F1=78%. Dùng cơng thức điều chỉnh ngưỡng của mơ hình DOC (Ti = max(0.5; 1 - alpha*stdi; alpha =3), do 1-alpha*stdi rất nhỏ (=0.09) nên Ti vẫn bằng 0.5 như mặc định cho 2 sigmoids), do đĩ luận văn vẫn thu được F1 trung bình 78% (xem Bảng 4.5). Kết quả này xấp xỉ với kết của của mơ hìnhchuẩn hoá thực thể tên bệnh của [3]. 32
100% Ti=0.5 mặc định Ti = max(0.5; 1 – 3*std) Ti = max(0; 1 - 3*std) F1 78% 78% 78.6 Bảng 4.5: Bảng tổng hợp kết quả mơ hình DOC chuẩn hoá thực thể tên bệnh. Luận văn đã sử dụng cơng thức điều chỉnh ngưỡng của mơ hình DOC bằng cơng thức Ti = max(0.5; 1 - alpha*stdi), từ đĩ thu được 2 ngưỡng mới là T1 = 0,09 và T2 = 0.7. Với hai ngưỡng mới này, mơ hình chuẩn hoá thực thể tên bệnh của luận văn đạt trung bình F1 = 78.6%. Thực nghiệm với 1 sigmoid, mơ hình chuẩn hoá thực thể tên bệnh của luận văn cĩ khả năng đạt tới giá trị trung bình F1 = 80.2%, tớt hơn kết quả của mơ hình Cho và cợng sự, là mơ hình tớt nhất đến thời điểm hiện tại vàcùng thể loại với mơ hình đề xuất của luận văn. Model micro F1 Chỉ sử dụng Khớp từ điển 66.10 Mơ hình luận văn 80.2% Cho & cợng sự, 2017 [3] 78.80 Wright, 2019 [16] 87.8% Phan & cợng sự, 2019 [10] 87.7% Bảng 4.6. Kết quả thực nghiệm và so sánh Mơ hình đề xuất của luận vănhiện cĩ kết quả chuẩn hoá tên thực thể bệnh kém hơn hai mơ hình chuẩn hoá tên thực thể bệnh được giới thiệu gần đây nhất (2019) củaWright 33
[16] và Phan & cợng sự [10]. Tuy vậy, khác với mơ hình đề xuất của luận văn,cả hai mơ hình này đều sử dụng thêm thơng tin biểu diễn các tên bệnh từ việc tích hợp thêm bợ mã hoá dựa trên mạng nơ ron hời quy hai chiều bidirectional Long Short Term Memory. Với thực nghiệm sử dụng phiên bản rút gọn của bợ từ vựng MEDIC tức tập từ vựng chỉ chứa các ID bệnh (cùng các tên đờng nghĩa) xuất hiện trong tậptrain+dev. Dùng 1 sigmoid mơ hình luận văn cho kết quả micro F1 = 76.1 và phát hiện ra 22/59 IDs mới (unknown/rejection). 34
Kết luận Chương 4 Chương này trình bày giới thiệu về mợt bợ dữ liệu chuẩn vàng mà mơ hình ứng dụng ở Chương 3 được thực nghiệm ở trên đĩ. Các kết quả thực nghiệm, cùng với các so sánh và đánh giá được giới thiệu, chứng tỏ hiệu quả của mơ hình ứng dụng học thế giới mở dựa trên kỹ thuật học sâu trong bài tốn chuẩn hĩa thực thể tên bệnh. 35
Kết luận Luận văn đã trình bày chi tiết về Họcmáy thế giới mở, là mợt nợi dung quan trọng của lĩnh vực học máy suớt đời. Học máy thế giới mở khơng yêu cầu giả định thế giới đĩng; nĩ cĩ khả năng phát hiện các trường hợp của các lớp khơng nhìn thấy trong quá trìnhthử nghiệm hoặc ứng dụng mơ hình, và tăng dần các lớp mới để cập nhật các lớp mớimơhình mà khơng đào tạo lại toàn bợ mơ hình từ đầu. Luận văn đã trình bày mợt mơ hình đề xuất ứng dụng học thế giới mở dựa trên kỹ thuật học sâu (cụ thể là mạng nơ ron tích chập CNN) cho bài toán chuẩn hoá thực thể tên (là vấn đề gặp nhiều đới tượng mới). Chuẩn hoá tên thực thể cĩ rất nhiều thách thức, đã và đang nhận được nhiều quan tâm nghiên cứu của các nhĩm nghiên cứu lớn trên thế giới. Luận văn đã chọn miền văn bản y sinh là miền ứng dụng cĩ rất nhiều tên mới xuất hiện. Bài toán chuẩn hoá thể bệnh tên bệnh là vấn đề cĩ nhiều ý nghĩa cho cợng đờng nghiên cứu -y sinh-dược. Các kết quả thực nghiệm trên bợ dữ liệu chuẩn tên bệnh đã chỉ ra tính hiệu quả củamơ hình đề xuất trong vấn đề nhận dạng được cáctên mới chưa xuất hiện khi huấn luyện mơ hình và trong vấn đề chuẩn hoá thực thể tên bệnh. Đặc biệt, mơ hình chuẩn hoá thực thể tên cĩ thể đạt giá trị đợ đo F1 = 80%, tớt hơncủa các phương pháp cùng thể loại tính đến thời điểm hiện tại. Trong năm 2019 cĩ hai cơng trình mới nhất đã được giới thiệu cho bài toán chuẩn hĩa thực thể tên bệnh từ y văn với kết quả rất ấn tượng (F1=90%). Tuy vậy, cả hai mơ hình mới này đều khơng cĩ khả năng phát hiện các tên mới chưa xuất hiệntronglúchọc. Chúng sử dụng thêm mạng BiLSTM để nâng cao hiệu năng mơ hình. Mợt hướng nghiên cứu tiếp theo khả quan của luận án là tích hợp BiLSTM vàomơhình thê giới mở dựa trên kỹ thuật học sâu chuẩn hĩa tên bệnh của luận văn. Cuới cùng, tiếp tục cải tiến mơ hình phân lớp mở quan hệ sử dụng các kỹ thuật học sâu (thế giới đĩng) mới nhất cũng sẽ là mợt hướng nghiên cứu khả quan tiếp theo của luận văn. 36
Tài liệu tham khảo 1. Bendale A., Boult T.E. Towards open world recognition. CVPR 2015: 1893-1902. 2. Chen Z., and Liu B Lifelong Machine Learning (2nd edition). Morgan & Claypool, 2018. 3. Cho H., Choi W., and Lee H., A method for named entity normalization in biomedical articles: application to diseases and plants. In BMC Bioinformatics, 2017. 4. Davis A.P., Wiegers T. C., Rosenstein M. C., and Mattingly C. J MEDIC: a practical disease vocabulary used at the Comparative Toxicogenomics Database. In Database, 2012. 5. Fei F., Wang S., Liu B., Learning Cumulatively to Become More Knowledgeable. KDD 2016: 1565-1574. 6. Fei G., Liu B., Breaking the Closed World Assumption in Text Classification. HLT-NAACL 2016: 506-514. 7. Kim Y., (2014). Convolutional neural networks for sentence classification. ArXiv Preprint ArXiv:1408.5882. DOI: 10.3115/v1/d14-1181. 8. Leaman R., Doğan R.I., and Lu Z., “DNorm: disease name normalization with pairwise learning to rank”, Bioinformatics 29, 2013, no. 22, pp. 2909-2917. 9. Li H., Chen Q., Tang B., Wang X., Xu H., Wang B., and Huang D., “CNN-based ranking for biomedical entity normalization”, BMC bioinformatics, 2017, no. 11, vol. 18, pp. 385. 10. Phan, M.C., Sun, A. and Tay, Y., 2019, July. Robust Representation Learning of Biomedical Names. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 3275-3285). 11. Pyysalo S., Ginter F., and Moen H., “Distributional semantics resources for biomedical text processing”, LBM 2013, pp. 39-44. 12. Scheirer W.J., Rocha A.d.R., Sapkota A., and Boult T.E., (2013). Toward open set recognition. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 35(7), pages 1757–1772. DOI: 10.1109/tpami.2012.256. 13. Shu L., Xu H., and Liu B., (2017). DOC: Deep open classification of text documents. In EMNLP. DOI: 10.18653/v1/d17-1314. 14. Sohn S, Comeau DC, Kim W, Wilbur WJ. BMC Bioinformatics. 2008 Sep 25;9:402. PubMed ID: 18817555. 15. Wei C.H., Peng Y., Leaman R., Davis A.P., Mattingly C.J., Li J., Wiegers T.C., and Lu Z., “Overview of the BioCreative V chemical disease relation (CDR) task”, 37
Proceedings of the fifth BioCreative challenge evaluation workshop, 2015, pp. 154-166, Spain: Sevilla. 16. Wright, D., 2019. NormCo: Deep disease normalization for biomedical knowledge base construction (Doctoral dissertation, UC San Diego). 38