Luận văn Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

pdf 48 trang phuongvu95 6240
Bạn đang xem 20 trang mẫu của tài liệu "Luận văn Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfluan_van_phan_tich_du_lieu_van_ban_dua_tren_hoc_may_the_gioi.pdf

Nội dung text: Luận văn Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Phạm Thị Quỳnh Trang Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thơng tin Hà Nội, 12/2019
  2. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Phạm Thị Quỳnh Trang Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng LUẬNVĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY Ngành: Hệ thống thơng tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy HÀ NỘI - 2019
  3. LỜI CẢM ƠN Đầu tiên, em xin gửi lời biết ơn chân thành và sâu sắc nhất đến thầy giáo PGS.TS. Hà Quang Thụy, người đã luơn đợng viên, nhiệt tình hướng dẫn và tạo mọi điều kiệntớt nhất cho em hoàn thành được luận văn. Em xin chân thành cảm ơn các thầy cơ, các anh chị em trong phòng thí nghiệm Cơng nghệ và tri thức đã luơn giúp đỡ và đợng viên tinh thần trong thời gian em học tậpvà cơng tác. Em chân thành cảm ơn quý Thầy, Cơ trong Khoa Cơng Nghệ Thơng Tin nĩi riêng và trường đại học Cơng Nghệ - Đại học Quớc Gia Hà Nợi nĩi chung đã tận tình truyền đạt những kiến thức quý báu trong quá trình học tập tại Trường. Cuới cùng, em xin cảm ơn những người thân yêu của em, đặc biệt là chờng emđã luơn đợng viên, tạo điều kiện tớt nhất cho em trong quá trình học tập và hoàn thànhluận văn. Em xin chân thành cảm ơn! Luận văn này được thực hiện trong khuơn khổ đề tài Nafostef mã sớ:102.05- 2016.14 “Nghiên cứu và phát triển các mơ hình học máy tiên tiến phát hiện và trích xuất mới quan hệ tác dụng phụ của thuớc/hĩa chất và bệnh từ văn- bảny sinh”, năm 2016. i
  4. LỜI CAM ĐOAN Tơi xin cam đoan rằng luận văn thạc sĩ cơng nghệ thơng tin “Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng” là cơng trình nghiên cứu của riêng tơi, khơng sao chép lại của người khác. Trong toàn bợ nợi dung của luận văn, những điềuđã được trình bày hoặc là của chính cá nhân tơi hoặc là được tổng hợp từ nhiều nguờntài liệu. Tất cả các nguờn tài liệu tham khảo đều cĩ xuất xứ rõ ràng và hợp pháp. Tơi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy địnhcho lời cam đoan này. Hà Nợi, ngày 15 tháng 12 năm 2019 Học viên Phạm Thị Quỳnh Trang ii
  5. Mục Lục LỜI CẢM ƠN i LỜI CAM ĐOAN ii TĨM TẮT iv DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH ẢNH vii Mở đầu 1 Chương 1. Học máy thế giới mở và bài toán chuẩn hĩa tên thực thể bệnh 3 1.1 Học máy truyền thớng 3 1.2. Học máy suớt đời 5 1.2.1 Định nghĩa học máy suớt đời 7 1.2.2. Các hướng nghiên cứu LL 12 1.3. Học máy thế giới mở 12 1.4. Mục tiêu của luận văn 15 Kết luận Chương 1 17 Chương 2. Học sâu thế giới mở cho văn bản 18 2.1. Học thế giới mở khơng gian đơn giản trung tâm 18 2.1.1 Tăng cường cập nhật mơ hình học CBS 18 2.1.2 Kiểm tra mơ hình học CBS 20 2.1.3 Học CBS cho phát hiện lớp chưa thấy 20 2.2. Học sâu thế giới mở phân lớp văn bản 21 2.2.1 CNN và các lớp chuyển tiếp của DOC 22 2.2.2 Tầng 1- với-phần còn lại 23 2.2.2 Giảm rủi ro khơng gian mở 23 Kết luận Chương 2 24
  6. Chương 3: Ứng dụng mơ hình DOC vào chuẩn hĩa tên bệnh 25 3.1. Ứng dụng chuẩn hĩa tên thực thể bệnh 25 3.2.1. Mơ hình đề xuất 27 Bợ phân giải viết tắt 28 Mạng nơ ron học sâu thế giới mở 28 Kết luận Chương 3 30 Chương 4: Thực nghiệm và đánh giá 31 4.1. Dữ liệu thực nghiệm chuẩn hố tên bệnh 31 4.2 Mơi trường và các cơng cụ thực nghiệm 32 4.3 Kết quả và đánh giá 32 Kết luận 36 Tài liệu tham khảo 37
  7. TĨM TẮT Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng Phạm Thị Quỳnh Trang Khĩa học: QH-2013- I/CQ Ngành: Hệ thớng thơng tin Tĩm tắt: Học máy suớt đời (Lifelong Machine Learning: LML) là mợt tiếp cận học máy liên tục, trích chọn và lưuiữ g tri thức từ quá khứ để sử dụng khi giải quyết các bài toán họcmới. Học thế giới mở, mợt dạng của học máy suớt đời, cĩ năng lựcphát hiện các trường hợp chưa từng thấy để hình thành các bài toán mới. Phân lớp thế giới mở thực hiện ba bài toán thành phần là (i) Phát hiện những thực thể mới, khơng thể thuợc vào các lớp hiện cĩ, (ii) Xây dựng mơ hình phân lớp cho các lớp mới, và (iii) hiệu chỉnh các mơ hình phân lớp vớn cĩ để nâng caohiệu năng bợ phân lớp khi cĩ thêm các lớp mới. Dựa trên mơ hình phân lớp học sâu thế giới mở DOC (Deep Open Classification) của L. Shu và cợng sự, luận văn đề nghị mơ hình ứng dụng phân lớp học sâu thế giới mở cho bài toán chuẩn hoá thực thể tên và phân lớp quan hệ trong văn bản y sinh. Việc trích xuất tự đợng tri thức từ văn bản đĩng vai trò quan trọng trong học suớt đời. Nĩ bao gờm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ giữa chúng. Hai bước sau thường hay xuất hiện các đới tượng mới, đặc biệt là trong lĩnh vực ysinh. Các kết quả thực nghiệm trên bợ dữ liệu chuẩn đã chỉ ra tính hiệu quả của mơ hìnhđềxuất trong vấn đề nhận dạng được các đới tượng mới chưa xuất hiện khi huấn luyện mơhình và trong vấn đề chuẩn hoá tên. Đặc biệt, mơ hình chuẩn hoá thực thể tên cĩ thể đạt giá trị đợ đo F1 = 80%, tớt hơn của các phương pháp cùng thể loại tính đến thời điểm hiệntại. Từ khĩa: Học máy suốt đời, học thế giới mở, học sâu, chuẩn hố tên thực thể bệnh. iv
  8. DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT SVM Support Vector Machines/Máy vector hỗ trợ CNN Convolutional neural network/Mạng nơ ron tích chập LL Life long learning/Học suớt đời ML Machine learning/Học máy DOC Deep Open Classification/Phân lớp mở sâu CBS Center Based Similarity/Đợ tương tự dựa trên trung tâm NNO Nearest Non-Outlier/Khơng ngoại lai gần nhất v
  9. DANH SÁCH BẢNG Bảng 1.1: Bảng 1.1 - Một ví dụ về bài tốn chuẩn hố tên bệnh. 17 Bảng 3.1 - Một ví dụ về bài tốn chuẩn hố tên thực thể thuốc .27 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh 33 Bảng 4.2: Các cơng cụ thực nghiệm 34 Bảng 4.3: So sánh kết quả sử dụng dữ liệu cả câu và dữ liệu SDP trên số lớp đã biết khác nhau của tập dữ liệu SemEval-2010 Task 8. 37 Bảng 4.4: Tổng hợp kết quả mơ hình DOC chuẩn hĩa thực thể tên bệnh. 38 Bảng 4.5: Kết quả thực nghiệm và so sánh. 38 vi
  10. DANH SÁCH HÌNH ẢNH Hình 1.1: Kiến trúc mơ hình học máy cổ điển. 4 Hình 2.1: Kiến trúc tổng quan của hệ thống học suốt đời 10 Hình 2.1: Mơ hình tổng quan DOC 22 Hình 2.2: Mơ hình tổng quan DOC 23 Hình 3.1: Định danh, tên chính hay dùng và các tên đồng nghĩa của một bệnh trong MEDIC. 27 Hình 3.1: Mơ hình đường ống chuẩn hố thực thể tên bệnh. 28 Hình 3.2: Kiến trúc hệ thống chuẩn hố tên thực thể y sinh dựa trên mạng nơ ron tích chập do Cho và cợng sự đề xuất [9] 28 . vii
  11. Mở đầu Trong cuợc sớng, con người học hỏi suớt đờiđể tích lũy tri thức, vận dụng tri thức và kỹ năng tích lũy được để giải quyết các vấn đề/tác vụ mới gặp phải, từ đĩ giúp cho việchọc nhanh hơn và hiệu quả hơn. Trong quá trình tiến hĩa hàng triệu năm của loài người, khả năng học suớt đời đã giúp con người thích nghi,tờn tại và phát triển được trong nhiều mơi trường sớng khắc nghiệt khác nhau. Học máy suớt đời, là mợt hướng nghiên cứu học máy mới nhằm mục đích bắt chước quá trình và khả năng học tập suớt đời của con người trong các mơi trường mở, đầybiến đợng. Kiểu học này khá tự nhiên vì mọi thứ xung quanh chúng ta cĩ liên quan chặt chẽvà liên kết với nhau. Con người chúng ta luơn giữ lại kiến thức đã học trong quá khứ vàsử dụng nĩ để giúp học tập và giải quyết vấn đề trong tương lai. Học máy suớt đời làbước tiến hoá hợp lý tiếp theo của học máy cổ điển; nĩ là hướng nghiên cứu mới nổi vàđầy hứa hẹn để khắc phục những thiếu sĩt đĩ của học máy cổ điển, với mục tiêu cuới cùng là xây dựng những cỗ máy học hỏi như con người. Học thế giới mở, là mợt hình thức của học máy suớt đời, khơng yêu cầu giả định thế giới đĩng, cĩ khả năng phát hiện các trường hợp của các lớpchưa thấy trong quá trình hoạt đợng của hệ thớng học. Nĩ cĩ khả năng xây dựng mơ hình phân lớp cho các lớp mới và cập nhật mơ hình phân lớp cho các lớp đã cĩ mà khơng học lại toàn bợ các mơ hình từ đầu. Việc trích xuất tự đợng tri thức từ văn bản đĩng vai trò quan trọng trong học suớt đời. Nĩ bao gờm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ giữa chúng. Hai bước sau thường hay xuất hiện các đới tượng mới, đặcbiệt là trong lĩnh vực y sinh, với rất nhiều thách thức, khi cần phải xác định mợt biểu hiện tên bệnh mới xuất hiện cĩ thuợc về mợt thực thể tên bệnh đã cĩ hay là biểu hiện của mợt tên bệnh mới. Trong trường hợp này, mơ hình phân lớp thế giới mở là phù hợp đểgiải quyết bài toán. Nợi dung của luận văn được tổ chức thành các chương như sau: 1
  12. Chương 1 trình bày mợt giới thiệu tổng quan về học máy suớt đời và học máy thế giới mở. Tiếp đĩ, bài toán chuẩn hoá thực thể tên bệnh trong văn bản y sinh được giới thiệu. Chương 2 trình bày mơ hình phân lớp văn bản thế giới mở dựa trên kỹ thuật họcsâu. Chương 3 trình bày mơ hình ứng dụng phân lớp thế giới mở dựa trên kỹ thuật học sâu cho chuẩn hoá thực thể tên bệnh, là bước tiền đề cho việc trích xuất các quan hệgiữa các thực thể y sinh. Các quan hệ được biểu diễn trong văn bản là các tri thứctờn tại dưới định dạng chỉ con người mới “đọc hiểu” được. Việc trích xuất quan hệ từ văn bản sẽ tạo ra cơ sở dữ liệu tri thức, là thành phần quan trọng của học máy suớt đời. Chương 4 trình bày các kết quả thực nghiệm củamơ hình ứng dụng được đề xuất trong Chương 3, cũng như các phân tích các kết quả thực nghiệm này. Phần Kết luận tĩm lược kết quả đạt được của khĩa luận và định hướng phát triển tương lai. 2
  13. Chương 1. Học máy thế giới mở và bài tốn chuẩn hĩa tên thực thể bệnh Học máy (Machine Learning: ML) đã là cơng cụ cho sự tiến bợ của cả phân tích dữ liệu và trí tuệ nhân tạo (Artificial Intelligence: AI). Thành cơng gần đây của học sâu đã đưa ML lên mợt tầm cao mới. Các thuật toán ML đã được áp dụng trong hầu hết các lĩnh vực khoa học máy tính, khoa học tự nhiên, kỹ thuật, khoa học xã hợi và hơn thế nữa. Nếu khơng cĩ thuật tốn ML hiệu quả, nhiều ngành sẽ khơng tờn tại hoặc phát triển, ví dụ: thương mại điện tử và tìm kiếm trên web. Tuy nhiên, mơ hình ML hiện tại khơng phải khơng cĩ điểm yếu. Trước tiên luận văn sẽ giới thiệu về mơ hình ML cổ điển và những thiếu sĩt của nĩ, sau đĩ giới thiệu Lifelong ML (Học suớt đời (LL) và học thế giới mở (OpenWorld ML, mợt dạng học máy suớt đời) như mợt hướng đi mới nổi và đầy hứa hẹn để khắc phục những thiếu sĩt đĩ với mục tiêu cuới cùng là xây dựng những cỗ máy học hỏi như con người [2]. Bài tốn chuẩn hĩa tên thực thể bệnh trong văn bản y sinh dưới dạng mợt bài tốn học thế giới mở sẽ được giới thiệu ở cuới chương. 1.1 Học máy truyền thống Mơ hình ML phổ biến hiện nay là chạy thuật tốn ML trên tập dữ liệu đã cho để tạo mơ hình. Mơ hình này sau đĩ được áp dụng trong các nhiệm vụ thực tế. Mơ hình học này được gọi là mơ hình cơ lập bởi vì nĩ khơng xem xét bất kỳ thơng tin liên quan nào khác hoặc tri thức đã học, tích luỹ được trước đĩ (xem Hình 1) [2]. Vấn đề cơ bản của mơ hình học tập cơ lập này là nĩ khơng lưu giữ và tích lũy kiến thức đã học trong quá khứ và sử dụng nĩ trong tương lai. Điều này trái ngược hồn tồn với việc học của con người. Con người chúng ta luơn tích luỹ lại kiến thức đã học trong quá khứ và sử dụng nĩ để giúp học tập và giải quyết vấn đề mới trong tương lai. Khơng cĩ khả năng tích lũy và sử dụng kiến thức trong quá khứ, thuật toán ML thường cần mợt sớ lượng lớn các ví dụ huấn luyện để học hiệu quả. Các mơi trường học thường là tĩnh và đĩng. Đới với việc học cĩ giám sát, việc gán nhãn dữ liệu huấn luyện thường được thực hiện thủ cơng, rất tớn cơng sức và thời gian. Vì thế giới quá phức tạp với nhiều nhiệm vụ khác hẳn nhau, nên gần như khơng thể gán nhãn mợt sớ lượng lớn các ví dụ cho mọi nhiệm vụ để thuật tốn ML cĩ thể học hiệu quả. Tệ hơn nữa, mọi thứ xung quanh chúng ta luơn thay đổi liên tục, do đĩ việc gán nhãn cần phải được thực hiện liên tục; đĩ là mợt việc hết sức khĩ khăn đới với con người. 3
  14. Ngay cả đới với học khơng giám sát, việc thu thập mợt khới lượng dữ liệu lớn cĩ thể khơng thực hiện được trong nhiều trường hợp. Hình 1.1. Kiến trúc mơ hình học máy cổ điển [2]. Mơ hình học cơ lập cổ điển khơng thể thực hiện được việc học suớt đời. Như đã đề cập trước đĩ, nĩ chỉ phù hợp cho các nhiệm vụ hẹp và hạn chế trong mơi trường kín.Nĩ cũng cĩ thể khơng đủ để xây dựng mợt hệ thớng thơng minh cĩ thể học liên tục để đạt được mức đợ thơng minh như con người. LL nhằm mục đích đạt được tiến bợ theo hướng này. Với sự phổ biến của robot, trợ lýảo thơng minh, LL ngày càng trở nên quan trọng vì các hệ thớng này phải tương tác với con người và/hoặc các hệ thớng khác, liên tục học hỏi trong quá trình hoạt đợng và duy trì kiến thức đã học trong các tương tác của chúng trong các mơi trường khác nhau, qua đĩ cĩ thể hoạt đợng tớt hơn theo thời gian. Trong 25 năm qua, đã cĩ những tiến bợ đáng kể trong lý thuyết học máy và thuật toán. Tuy nhiên, hiện vẫn cĩ rất ít thuật toán cĩ khả năng học nhiều nhiệm vụkhác nhau trong mợt thời gian dài. Học cĩ giám sát cổ điển đưa ra giả định thế giới khép kín, cĩ nghĩa là tất cả cáclớp dữ liệu lúc kiểm tra đều đã xuất hiện trong lúc học [1, 5, 6]. Mặc dù giả định này đúng trong nhiều ứng dụng, nhưng nĩ bị vi phạm ở nhiều ứng dụng khác, đặc biệt là trong mơi trường đợng và mở; trong đĩ các dữ liệu của các lớp khơng mong muớn cĩ thể xuất hiện trong lúc kiểm tra hoặc hệ thớng đi vào hoạt đợng. Ví dụ, khi đọc, hệ thớng cĩ thể thấy mợt từ mới mà nĩ khơng biết, khi đĩ hệ thớng phải học nĩ bằng cách tra từ trong từ điển. Trong cuợc trò chuyện giữa người và máy, trợ lý ảo cĩ thể khơng hiểu mợt sớ điều được nĩi bởi người dùng và sau đĩ nĩ cần yêu cầu người dùng giải thích thêm để tìm hiểu. Để 4
  15. học trong mợt mơi trường mở như vậy, chúng ta cần học thế giới mở (phân loại thế giới mở hoặc đơn giản là phân loại mở), trong đĩ phải phát hiệnđược các lớp chưa xuất hiện trong quá trình huấn luyện mơ hình, và sau đĩ thêm dần các lớp mới này vào mơ hình mà khơng phải huấn luyện lại toàn bợ mơ hình từ đầu. Hình thức học này còn được gọi làhọc tích lũy trong [5]. Luận văn này sẽ tập trung vào mơ hình học cĩ giám sát thế giới mở. Học cĩ giám sát truyền thớng dựa trên giả định thế giới đĩng với các lớp trong tập dữ liệu kiểm tra (test) đều đã xuất hiện trong dữ liệu huấn luyện D khi huấn luyện mơ hình. D = {(x1, y1), (x2, y2), , (xn, yn)} -xi là dữ liệu thứ i, iy ∈ {l1, l2, , lm} = Y là lớp/nhãn của xi. Khi đĩ cần xây mơ hình f(x) cĩ khả năng phân loại dữ liệu x trong tập test vào mợt trong m lớp đã biết trong Y. Giả thiết thế giới đĩng khơng đúng với nhiều ứng dụng trong thực tế,đặcbiệt trong mơi trường mở, biến đợng. Ví dụ, đới với dữ liệu truyền thơng mạng xã hợi luơn cĩ thêm những chủ đề mới được bàn luận, hay với ứng dụng xe tự lái thường cĩ các lớp đới tượng mới xuất hiện, hay các tên bệnh mới cĩ thể chưa cĩ sớ định danh trong CSDL. 1.2. Học máy suốt đời Trong cuợc sớng, con người luơn phải học hỏi suớt đời, thơng qua việc tích lũy, vận dụng tri thức và kỹ năng cĩ sẵn để giải quyết các vấn đề/tác vụ mới gặp phải, từđĩgiúp cho việc học nhanh hơn và hiệu quả hơn. Trong quá trình tiến hĩa hàng triệu năm của loài người, khả năng học suớt đời đã giúp con người thích nghi, sớng sĩt và phát triểnđược trong nhiều mơi trường sớng khắc nghiệt khác nhau. Lấy ví dụ về năng lực giao tiếp, học suớt đời giúp chúng ta cĩ khả năng sử dụng ngơn ngữ để giao tiếp với nhau thơng qua các cơng cụ, các khái niệm (tri thức) hữu dụng học được từ cha mẹ và giáo viên. Đầu tiên, các từ và cụm từ cĩ ý nghĩa gần như giớng nhau trong tất cả các lĩnh vực và tất cả các nhiệm vụ. Thứ hai, các câu trong mỗingữ cảnh sử dụng đều tuân theo cùng mợt cú pháp. Thứ ba, gần như tất cả các vấn đề về ngơnngữ tự nhiên cĩ liên quan chặt chẽ với nhau, điều đĩ cĩ nghĩa là chúng cĩ liên kếtvới nhau và ảnh hưởng lẫn nhau theo mợt sớ cách. 5
  16. Hai lý do đầu tiên ở trên đảm bảo rằng kiến thức đã học cĩ thể được sử dụngtrong các tác vụ khác nhau (của các lĩnh vực khác nhau). Đĩ là lý do tại sao con người chúng ta khơng cần phải học lại ngơn ngữ (hoặc học mợt ngơn ngữ mới) mỗi khi chúng ta bắt gặp mợt miền ứng dụng mới. Ví dụ, giả sử chúng ta chưa bao giờ nghiên cứu tâm lý học,và bây giờ muớn nghiên cứu nĩ. Chúng ta khơng cần phải học lại ngơn ngữ được sửdụng trong văn bản tâm lý học, ngoại trừ mợt sớ khái niệm mới trong lĩnh vực tâm lý học. Lý do thứ ba ở trên đảm bảo rằng kiến thức về ngơn ngữ của chúng ta cĩ thể được sửdụng trên các loại nhiệm vụ khác nhau. Ví dụ, giả sử chúng ta đã tích luỹđược tri thức rằng: “iPhone là sản phẩm và mọi sản phẩm đều cĩ giá của nĩ” và tính từ “đắt” mơ tả thuợc tính giá của mợt sản phẩm. Sau đĩ, từ câu nhận xét: “Chất lượng hình ảnh của iPhone rất tuyệt, nhưng nĩ khá đắt”, thơng qua việc sử dụng các kiến thức được tích luỹ từ trước, chúng ta cĩ thể dễ dàng nhận ra rằng “chất lượng hình ảnh” là mợt tính năng hoặc thuợc tính của iPhone và “nĩ/it” là để chỉ “iPhone” chứ khơng phải là thuợc tính “chất lượng hình ảnh” của iPhone. Hai vấn đề này cĩ liên quan chặt chẽ với nhau và cĩ thể giúp đỡ lẫn nhau vì kết quả từ mợt vấn đề cĩ thể hữu ích cho những người khác, trong việc xử lý nhiệm vụ khác. Hiện tượng trên khơng chỉ đúng cho khả năng học ngơn ngữ của con người màcòn đúng cho bất kỳ lĩnh vực nào khác bởi vì mọi thứ trên thế giới cĩ liên quan và liên kếtvới nhau. Do đĩ, kiến thức học được trong quá khứ trong mợt sớ lĩnh vực cĩ thể được áp dụng trong mợt sớ lĩnh vực khác cĩ bới cảnh tương tự. Học máy suớt đời được phát triển nhằm mục đích bắt chước quá trình và khả năng học tập suớt đời của con người. Kiểu học này khá tự nhiên vì mọi thứ xung quanh chúng ta cĩ liên quan chặt chẽ và liên kết với nhau. Kiến thức đã học về mợt sớ mơn học cĩthể giúp chúng ta hiểu và học mợt sớ mơn học khác. Ví dụ, con người chúng ta khơngcần 1.000 đánh giá tích cực và 1.000 đánh giá tiêu cực về phim trực tuyến như thuật toán ML cần để xây dựng bợ phân loại đánh giá tích cực và tiêu cực về các bợ phim. Trong thựctế, đới với nhiệm vụ này, khơng cần cĩ mợt ví dụ huấn luyện, con người chúng ta cũng đãcĩ thể thực hiện nhiệm vụ phân loại này. Lý do rất đơn giản. Đĩ là bởi vì con người chúng ta đã tích lũy rất nhiều kiến thức trong quá khứ về các cách mà mọi người sử dụngđểkhen hoặc chỉ trích mọi thứ, mặc dù cĩ thể rất ít trong sớ những lời khen hoặc phê bình đĩlàvề các bợ phim trực tuyến. 6
  17. Nếu chúng ta khơng cĩ kiến thức tích luỹ được từ quá khứ như vậy, con người chúng ta cĩ thể khơng thể tự xây dựng mợt bợ phân loại tớt ngay cảkhi cĩ tập huấn luyện gờm 1.000 đánh giá tích cực và 1.000 đánh giá tiêu cực. Ví dụ: nếu bạn khơng cĩ kiến thứcvề tiếng Ả Rập và ai đĩ cung cấp cho bạn 2.000 đánh giá được dán nhãn bằng tiếng ẢRập và yêu cầu bạn xây dựng mợt bợ phân loại theo cách thủ cơng, rất cĩ thể bạn sẽ khơng thể làm điều đĩ nếu khơng sử dụng trình dịch. Mặc dù LL đã được đề xuất hơn 20 năm trước, nhưng nghiên cứu trong lĩnh vực này vẫn chưa phát triển mạnh. Mợt sớ lý do cĩ thể như sau [2]: - Đầu tiên, cợng đờng nghiên cứu ML trong 20 năm qua đã tập trung vào các phương pháp thớng kê và thuật toán. LL thường cần mợt cách tiếp cận hệ thớngkếthợp nhiều thành phần và thuật toán học. - Thứ hai, phần lớn các nghiên cứu và ứng dụng ML trước đây tập trung vào việchọc cĩ giám sát bằng cách sử dụng dữ liệu cĩ cấu trúc, điều này khơng dễ dàng đớivới LL vì cĩ rất ít điểm giớng nhau giữa các nhiệm vụ hoặc lĩnh vực. Ví dụ, kiến thức học được từ hệ thớng học cĩ giám sát trong đơn xin vay vớn khĩ được sử dụng trong ứng dụng y tế hoặc giáo dục vì chúng khơng cĩ nhiều điểm chung. Ngoài ra, hầu hết các thuật toán học cĩ giám sát khơng tạo ratri thức nào ngoài mơ hình phân lớp cuới cùng. Mơ hình được tạo ra rất khĩ được sử dụng làm tri thức tiền nghiệm cho mợt nhiệm vụ phân lớp khác, ngay cả trong mợt lĩnh vực tương tự. - Thứ ba, nhiều phương pháp ML hiệu quả như SVM và học sâu khơng thể dễ dàng sử dụng tri thức tiền nghiệm. Các bợ phân lớp này là hợp đen với cơ chế hoạt đợng rất khĩ để giải thích. Chúng thường hoạt đợng chính xác hơn trên dữ liệu huấn luyện; càng nhiều dữ liệu hoạt đợng càng tớt. 1.2.1 Định nghĩa học máy suốt đời Năm 1996, Thrun đã đưa ra mợt định nghĩa về học máy suớt đời như sau: “Tại bất kỳ thời điểm nào, hệ thống đã học cách thực hiện N nhiệm vụ. Khi đối mặt với nhiệm vụ N + 1, nó sử dụng kiến thức thu được từ N nhiệm vụ trước để giúp giải quyết nhiệm vụ thứ N + 1.” [2]. Năm 2018, Z. Chen và B. Liu [2] đã mở rợng định nghĩa này bằng cách cung cấp cho nĩ thêm các chi tiết và các tính năng bổ sung, bao gờm: (i) mợt hệ cơ sở tri thức 7
  18. tường minh (Knowlegde Base) được thêm vào để lưu lại tri thức đã học đượctừcác nhiệm vụ trước; (ii) khả năng khám phá các nhiệm vụ học mới; (iii) khả năng học trong khi làm (hoặc học trong cơng việc). Định nghĩa củaChen và Liu được phát biểu như sau: “Học máy suốt đời (LL) là một quá trình học liên tục. Tại bất kỳ thời điểm nào, bộ học đã thực hiện một chuỗi N nhiệm vụ học T1, T2, , TN. Các nhiệm vụ này, cịn được gọi là các nhiệm vụ trước, có N bộ dữ liệu tương ứng D1, D2, , DN. Các nhiệm vụ có thể thuộc các loại khác nhau và từ các miền khác nhau. Khi phải đối mặt với nhiệm vụ mới N + 1 là TN+1 (được gọi là nhiệm vụ mới hoặc hiện tại) với dữ liệu DN+1, bộ học có thể tận dụng kiến thức trong quá khứ được lưu trong hệ cơ sở tri thức (KB) để giải quyết TN+1. Nhiệm vụ có thể được đưa ra hoặc được phát hiện bởi chính hệ thống (xem bên dưới). Mục tiêu của LL thường là tối ưu hóa hiệu suất của nhiệm vụ mới TN+1, nhưng nó có thể tối ưu hóa bất kỳ nhiệm vụ nào bằng cách coi các nhiệm vụ cịn lại là các nhiệm vụ trước. KB duy trì tri thức đã học và tích lũy từ việc học các nhiệm vụ trước đó. Sau khi hồn thành việc học TN+1, KB được cập nhật tri thức mới có được từ việc học TN+1. Việc cập nhật có thể liên quan đến việc kiểm tra tính nhất quán, lập luận và khai phá siêu tri thức cấp cao hơn” [2]. Cĩ hai loại nhiệm vụ trong hệ thớng học suớt đời: - Nhiệm vụ đợc lập: Mỗi nhiệm vụ Ti đợc lập với các nhiệm vụ khác. Điều nàycĩ nghĩa là mỗi nhiệm vụ cĩ thể được học đợc lập, mặc dù do sự tương đờng và chiasẻ mợt sớ cấu trúc hoặc kiến thức tiềm ẩn, việc họcTi cĩ thể tận dụng kiến thức thu được từ việc học các nhiệm vụ trước đĩ. - Nhiệm vụ phụ thuợc: Mỗi nhiệm vụ Ti cĩ mợt sớ phụ thuợc vào mợt sớ nhiệm vụ khác. Ví dụ, trong học tập thế giới mở, mỗi nhiệm vụ học cĩ giám sát mới sẽthêm mợt lớp mới vào bài toán phânlớp trước đĩ và cần xây dựng mợt trình phân lớp nhiều lớp mới cĩ khả năng phân loại dữ liệu từ tất cả các lớp trước và hiện tại. Việc chuyển sang nhiệm vụ mới cĩ thể xảy ra đợt ngợt hoặc dần dần, vàcácnhiệm vụ và dữ liệu của chúng khơng phải được cung cấp bởi mợt sớ hệ thớng bên ngoài hoặc người dùng. Mợt bợ học suớt đời lý tưởng cĩ thể tự phát hiện ra các nhiệm vụ học và dữ liệu đào tạo của riêng mình khi tương tác với con người và mơi trường hoặc sử dụng kiến thứcđã học trước đĩ để thực hiện học trong thế giới mở và tự giám sát. 8
  19. Từ định nghĩa trên, cĩ thể thấy LL cĩ năm đặc điểm chính sau [2]: 1. Học liên tục. 2. Tri thức được tích luỹ và lưu giữ trong KB. 3. Sử dụng tri thức tích lũy trong quá khứ để học trong tương lai 4. Cĩ khả năng khám phá ra các nhiệm vụ mới 5. Cĩ khả năng học trong khi làm việc hoặc học trong cơngviệc. Khơng cĩ những khả năng này, mợt hệ thớng ML sẽ khơng thể tự học trong mơi trường mở, luơn biến đợng; hệ quả là sẽ khơng bao giờ thực sự thơng minh. Vì kiến thức được tích lũy và sử dụng trong LL, do đĩ, LL cĩ liên quan đến nhiều khía cạnh khác của trí tuệ nhân tạo cho ML, ví dụ: biểu diễn tri thức, thu nhận, lập luận và duy trì tri thức. Tri thức tích luỹ được khơng chỉ cĩ thể giúp cải thiện việc học trong tương lai, mà còn cĩ thể giúp thu thập và gán nhãn dữ liệu huấn (tự giám sát) và khám phá các nhiệm vụ mới cĩ khả năng sẽ được học. Con người cĩ khả năng tích hợp của cả học dựa trên dữ liệu và học dựa trên tri thức. ML hiện tại tập trung gần như hoàn toànvào việc học tới ưu dựa trên dữ liệu, điều mà con người chúng ta khơng giỏi. Thay vàođĩ, chúng ta rất giỏi học dựa trên tri thức trước đây của chúng ta. Chúng ta càng biết nhiều thì chúng ta học càng dễ hơn. LL cĩ thể yêu cầu mợt cách tiếp cận cĩ hệ thớng kết hợp nhiều thuật toán họcvàcác sơ đờ biểu diễn tri thức khác nhau. Mợt thuật toán họcduy nhất cĩ thể khơng đạt được mục tiêu của LL. Trên thực tế, LL đại diện cho mợt khơng gian vấn đề rất lớn và phong phú. Kiến trúc hệ thớng LL được thể hiện trong Hình 1.2. Khơng phải tất cả các hệ thớng LL hiện cĩ đều sử dụng tất cả các thành phần nhưtrong hình. Trong thực tế, hầu hết các hệ thớng hiện tại đơn giản hơn nhiều. Hơn nữa, vẫn chưa cĩ mợt hệ thớng LL chungcĩ thể thực hiện LL trong tất cả các miền cĩ thể, cho tất cả các loại nhiệm vụ cĩ thể. Trong thực tế, chúng ta vẫn còn ở rất xa điều đĩ. 9
  20. Hình 1.2. Kiến trúc tổng quan của hệ thống học suốt đời [2]. Mợt hệ thớng LL điển hình sẽ cĩ các thành phần cơ bản sau [2]: - Hệ cơ sở tri thức (KB): Chủ yếu để lưu trữ tri thức đã học trước đĩ. Nĩ cĩ mợt vài thành phần phụ: . Kho thơng tin quá khứ (PIS): lưu trữ thơng tin kết quả từ quá trình học trước đây, bao gờm các mơ hình kết quả, mơ hình hoặc các dạng kết quả khác.PIS cĩ thể chứa các thơng tin liên quan như: (1) dữ liệu gớc được sử dụng trong mỗi nhiệm vụ trước, (2) kết quả trung gian từ mỗi nhiệm vụ trước và (3) mơ hình cuới cùng hoặc các mẫu được học từ mỗi nhiệm vụ trước. . Cơng cụ khai thác kiến thức tổng hợp (MKM): thực hiện khai thác siêu kiến thức trong PIS và trong kho siêu tri thức (xem bên dưới). . Kho siêu kiến thức (MKS): lưu trữ kiến thức được khai thác hoặc tích hợp từ PIS và cũng như từ chính MKS. . Bộ lập luận trên tri thức (KR): suy luận dựa trên tri thức trong MKB và PIS để tạo thêm tri thức mới. Hầu hết các hệ thớng hiện tại khơng cĩ thành phần phụ này. Tuy nhiên, với sự tiến bợ của LL, thành phần này sẽ ngày càng trở nên quan trọng. 10
  21. - Bộ học dựa trên tri thức (KBL): Đới với LL, bợ học cần cĩ khả năng sử dụngtri thức tích luỹ được khi học. Mợt bợ học như vậy là bợ học dựa trên tri thức, cĩthể tận dụng tri thức trong KB để học nhiệm vụ mới.Thành phần này cĩ thể cĩ hai thành phần phụ: . Cơng cụ khai phá tri thức nhiệm vụ (TKM), sử dụng thơng tin hoặc thơng tin thơ trong KB để khai thác hoặc xác định kiến thức phù hợp với nhiệm vụ hiện tại. Điều này là cần thiết bởi vì trong mợt sớ trường hợp,KBL khơng thể sử dụng trực tiếp kiến thức thơ trong KB mà cần mợt sớ kiến thức cụ thể và cụ thểhơn được khai thác từ KB. . Bợ học cĩ thể tận dụng kiến thức khai thác trong quá trình học. - Cơng cụ khai thác kiến thức dựa trên nhiệm vụ (TKM): Mơ-đun này khai thác kiến thức từ KB đặc biệt cho nhiệm vụ mới - Mơ hình: Đây là các mơ hình đã học, cĩ thể là mơ hình dự đoán hoặc phân loại trong học tập được giám sát, các cụm hoặc chủ đề trong học tập khơng giám sát,mợt chính sách trong học tập củng cớ, v.v. - Ứng dụng: Đây là ứng dụng của mơ hình trong thế giới thực. Điều quan trọng cần lưu ý là trong quá trình áp dụng mơ hình, hệ thớng vẫn cĩ thể học kiến thức mới(tức là, kiến thức về các kết quả, và cĩ thể khám phá các nhiệm vụ mới sẽ được học.Ứng dụng cũng cĩ thể cung cấp phản hời cho người học dựa trên kiến thức để cải tiến mơ hình. - Trình quản lý tác vụ (TM): Nĩ nhận và quản lý các tác vụ đến trong hệ thớng, xử lý sự thay đổi nhiệm vụ và trình bày nhiệm vụ học tập mới cho KBL theo cách trọn đời. - Quy trình học tập suốt đời: Mợt quy trình LL điển hình bắt đầu bằng Trình quản lý tác vụ gán mợt nhiệm vụ mới cho KBL (nhiệm vụ cĩ thể được đưa ra hoặc tự đợng phát hiện). KBL sau đĩ hoạt đợng với sự trợ giúp của kiến thức trong quá khứđược lưu trữ trong KB để tạo ra mợt mơ hình đầu ra cho người dùng và cũng gửi thơng tin hoặc kiến thức cần được giữ lại để sử dụng trong tương lai cho KB. Trong quá trình ứng dụng, hệ thớng cũng cĩ thể khám phá các nhiệm vụ mới và học trong khilàm việc (học trong cơng việc). Mợt sớ kiến thứcthu được trong các ứng dụng cũng cĩ thể được giữ lại để giúp học tập trong tương lai. 11
  22. 1.2.2. Các hướng nghiên cứu LL Học cĩ giám sát suốt đời: Mợt sớ kỹ thuật LL đã được đề xuất dựa trên mạngnơ ron, Nạve Bayesian, mơ hình trường ngẫu nhiên cĩ điều kiện (CRF). Học liên tục sử dụng các mạng nơ ron sâu: Trong vài năm qua, do sự phổ biến của học sâu, nhiều nhà nghiên cứu đã nghiên cứu vấn đề liên tục học mợt chuỗi các nhiệmvụ sử dụng kỹ thuật học sâu. Trong cợng đờng nghiên cứu học sâu thì LL cũng được gọi là học liên tục. Mục tiêu của nĩ xây dựng mạng nơ ron sâu cĩ khả năng học thêm từng nhiệm vụ mới mà khơng quên đi các mơ hình đã học cho các nhiệm vụ trước. Học thế giới mở: Học cĩ giám sát truyền thớng đòi hỏi giả định thế giới đĩng phải đúng: các lớp của các dữ liệu mới phải được nhìn thấy trong quá trình học/huấn luyện [6]. Điều này khơng phù hợp để học trong các mơi trường mởvà biến đợng với những lớp mới luơn xuất hiện. Học khơng giám sát suốt đời: Các nghiên cứu trong hướng này chủ yếu là vềmơ hình hố chủ đề suớt đời và trích chọn thơng tin suớt đời. Các kỹ thuật này đều dựa trên khai thác cấp đợ meta, tức là khai thác kiến thức được chia sẻ qua các tácvụ. Học bán giám sát suốt đời: Nghiên cứu điển hình trong hướng này là hệ thớng hệ thớng NELL (Bợ học ngơn ngữ khơng ngừng). Nĩ đã đọc nợi dung trên Internet liên tục từ tháng 1 năm 2010 để khai thác thơng tin, và đã tích lũy được hàng triệu thực thể và quan hệ giữa chúng. Học tăng cường suốt đời: Hướng nghiên cứu này tập trung xây dựng các tác nhân (agent) học liên tục cĩ khả năng giải quyết dần các nhiệm vụ phức tạp bằng cách họcgiải quyết các nhiệm vụ dễ dàng trước tiên. 1.3. Học máy thế giới mở Do thế giới thực cĩ tính chất mở, luơn cĩ biến đợng chúng ta cần xây dựng mơ hình cĩ thể nhận ra các lớp mới. Học máy cĩ giám sát thế giớimởnhằm xây dựng các bợ phân lớp cĩ khả năng nhận ra các lớp đã biết và các lớp chưa từngthấy. Điều này trái ngược với học máy cĩ giám sát thế giới đĩng. Hiện nay cơng nghệ đang phát triển theo hướng trợlý ảo cá nhân hĩa mợt cách thơng minh, xe tự lái, các robot làm việc trong mơi trường mở và tương tác với con người, 12
  23. v.v. Việc xây dựng bợ phân lớp trong thế giới mở đang trở nênrất quan trọng. Lấy ví dụ: ứng dụng đầu tiên về trợ lý cá nhân hĩa thơng minh (như Amazon Alexa, Google Assistant và Microsoft Cortana, v.v.) sử dụng những bài viết của người dùng để phân lớp ý định người dùng và miền ứng dụng (ví dụ: Alexa’s skills, Google’s actions và Cortana’s skills), từ đĩ cũng phát hiện ra các bài viết khơng thuợc vào mợt trong những lớp ýđịnh và miền đã biết. Hầu hết các giải pháp hiện cĩ cho học thế giới mở được xâydựngdựa trên các mơ hình phân lớp thế giới đĩng. Thêm nữa, các mơ hình này rất khĩ cĩ thể phát hiện các lớp mới (chưa thấy) vào tập các lớp đã thấy mà khơng cần học lại hoặc học tăng cường. Ví dụ: Alexa cho phép các nhà phát triển bên thứ 3 thêm các kỹ năng mới (ứng dụng mới), tức là các miền mới hoặc các lớp mục đích mới. Điều này đặt ra mợt thách thức lớn đới với việc duy trì triển khai mơ hình và dữ liệu đào tạo cho các lớpmới. Xây dựng mợt mơ hình cĩ khả năng phân loại dữ liệu trong tập test vào mợt trong những lớp đã biết hoặc bác bỏ nĩ(dữ liệu đĩ khơng thuợc về bất kỳ lớp nào trong tập huấn luyện, hay thuợc lớp chưa được thấy). Nĩi cách khác, xây dựng 1 bợ phân lớp f(x) cho (m + 1) lớp thuợc tập C = {l1, l2, , lm, rejection}. Học máy thế giới mở được định nghĩa như sau [1, 5]. 1. Tại mợt thời điểm nào đĩ, bợ học đã xây dựng được mợt mơ hình phân lớp FN dựa p trên N lớp từ tập dữ liệu huấn luyện trước đây: D = {D1, D2, , DN} với các lớp N tương ứng Y = {l1, l2, , lN}. FN cĩ khả năng phân loại mợt đới tượng dữ liệu vào N mợt trong các lớp li thuợc Y hoặc bác bỏ nĩ và để nĩ vào tập bị bác bỏR. 2. Bợ phân loại hoặc người dùng sẽ xác định tập các lớp chưa xuất hiện C trong R và thu thập dữ liệu huấn luyện cho các lớp chưa xuất hiện này. 3. Giả sử rằng cĩ k lớp mới trong C cĩ đủ dữ liệu huấn luyện. Bợ học sẽ học tăng dần cho k lớp này dựa trên dữ liệu học của chúng. Mơ hình FN hiện cĩ được cập nhật để tạo thành mơ hình FN+k mới. Học thế giới mở là mợt hình thức học suớt đời (LL) vì nĩ phù hợp với địnhnghĩa của LL. Cụ thể, nhiệm vụ học mới TN+1 là để xây dựng mợt bợ phân lớp mở đa lớp dựa trên tất cả dữ liệu quá khứ và hiện tại các lớpđã được học. Hệ cơ sở tri thức (KB) chứa mơ hình quá khứ FN và tất cả tập dữ liệu huấn luyện trong quá khứ [2]. Lưu ý rằng nhiệm vụ thứ ba của việc học tăng dần các lớp mới ở đây khác với việc học lớp tăng dần truyền thớng (ICL) được nghiên cứu ởcácmiền khác nhau vì ICL truyền 13
  24. thớng vẫn học trong thế giới khép kín (nghĩa là nĩ khơng thực hiệnviệc bác bỏ lớp chưa xuất hiện) mặc dù nĩ cĩ thể thêm các lớp mới tăng dầnvào hệ thớng phân loại mà khơng cầnhọc lại từ đầu toàn bợ mơ hình. Ví dụ, chúng ta muớn xây dựng mợt robot chào mừng cho mợt khách sạn. Tại bấtkỳ thời điểm nào, robot đã học cách nhận ra tất cả khách hiện tại của khách sạn. Khi thấy mợt vị khách cũ nĩ cĩ thể gọi tên và trò chuyện với anh ấy/cơ ấy. Đờng thời, nĩ cũng phải phát hiện bất kỳ vị khách mới nào mà nĩ chưa từng thấy trước đây. Khi nhìn thấy mợtvị khách mới, nĩ cĩ thể nĩi xin chào, hỏi tên của khách, chụp mợt sớ ảnh và học cách nhận ra vị khách đĩ. Lần sau khi gặp lại người đĩ, nĩ cĩ thể gọi tên của anh ấy/cơ ấy vàtrò chuyện như mợt người bạn cũ. Kịch bản trong xe tự lái cũng tương tự vì rất khĩ, nếu khơng muớn nĩi là khơng thể huấn luyện mợt hệ thớng cĩ khả năng nhận ra mọi vật thể cĩ thể xuất hiện trên đường. Hệ thớng phải nhận ra các vật thể mà nĩ chưa học trướcđĩ và học chúng trong khi lái xe (cĩ thể thơng qua tương tác với hành khách của con người) để khi nhìn thấy các vật thể lần sau, nĩ sẽ khơng gặp vấn đề gì khi nhận rachúng. Fei và cợng sự [5] đã đưa ra mợt ví dụ khác trong phân loại văn bản. Cuợc bầu cử tổng thớng năm 2016 tại Hoa Kỳ là mợt chủ đề nĩng trên phương tiện truyền thơng xãhợi và nhiều nhà nghiên cứu khoa học xã hợi đã dựa vào các cuợc thảo luận được thuthậpđể thực hiện nghiên cứu của họ. Trong chiến dịch, mọi đề xuất mới của mợt ứng cửviênsẽ được thảo luận sơi nổi trên phương tiện truyền thơng xã hợi. Bợ phân loại được xây dựng ban đầu chắc chắn sẽ gặp các chủ đề mới (ví dụ, kế hoạch cải cách nhập cư củaDonald Trump, hoặc đề xuất tăng thuế của Hillary Clinton), những chủ đề đã khơng xuất hiện trong quá trình huấn luyện mơ hình trước đĩ. Trong trường hợp này, trước tiên bợ phân loại nên nhận ra các chủ đề mới này thay vì phân loại chúngvào mợt sớ chủ đề hiện cĩ. Thứ hai, sau khi thu thập đủ các ví dụhuấn luyện cho các chủ đề mới, bợ phân loại hiện cĩ nên kết hợp các chủ đề mớimợt cách tăng dần mà khơng cần phải huấn luyện lại toàn bợ hệ thớng phân loại từ đầu. Bendale và Boult [1] đã cớ gắng giải quyết vấn đề học thế giới mở để phân loại ảnh. Phương pháp của nĩ được gọi là Phương pháp khơng ngoại lai gần nhất (Nearest Non- Outlier, NNO), được phát triển từ phương pháp Trung bình lớp gần nhất (Nearest Class Mean) do Mensink và cợng sự đề xuất. Trong NNO, mỗi ảnh được biểu diễn dưới dạng mợt vectơ đặc trưng và mỗi lớp được biểu diễn bằng vector trung bình của các vectơ đặc 14
  25. trưng của tất cả các ảnh trong lớp đĩ. Khi kiểm tra mơ hình, vectơ đặc trưng của ảnh kiểm tra được so sánh với từng vector trung bình của mỗi mợt lớp và phân ảnh vào lớp cĩ vector trung bình gần nhất. NNO thêm tính năng bác bỏ lớp mới vào mơ hình chỉ đơn giản bằng cách thêm vector trung bình của lớp mới vào tập vector của lớp hiện cĩ. Năng lực bác bỏ của NNO đã được cải thiện trong OpenMax [1]. OpenMax, dựa trên học sâu, thay tầng phân loại softmax truyền thớng bằng mợt tầng mới, gọi là tầng OpenMax, (từ đĩ cho phép bác bỏ) để ước lượng xác suất dữ liệu đầu vào là từ mợt lớp chưa nhìn thấy. Tuy nhiên, việc huấn luyện OpenMax cần các dữ liệu ví dụ cho mợt sớ lớp chưa nhìn thấy (khơng nhất thiết là các lớp trong tập dữ liệu kiểm tra) để tinh chỉnh các tham sớ. Shu và cợng sự [13] đã giới thiệu mơ hình DOC, dựa trên tư tưởng của OpenMax, được chứng tỏ là vượt trợi hơn OpenMax cho cả phân loại mở cả văn bản lẫn ảnh mà khơng yêu cầu bất kỳ dữ liệu ví dụ huấn luyện nào cho lớp chưa nhìn thấy. Trong miền ứng dụng xử lý dữ liệu y văn, các tên thực thể y sinh (thuớc, bệnh, gien, protein, v.v) cần được phân vào các khái niệm y sinh được lưu trữ trong mợt, hoặc nhiều bợ CSDL từ vựng chuẩn cho trước. Quá trình này được gọi là quá trình chuẩn hoá tên thực thể y sinh. Trong thực tế, nhiều trường hợp các tên thực thể y sinh được nhắc đến trong các tài liệu là mới, chưa được lưu trữtrong các CSDL từ vựng cho trước. Cĩ nhiều hệ thớng chuẩn hĩa tên thực thể y sinh khác nhau đã được phát triển trong thập kỷ qua. Tuy vậy, theo hiểu biết của tơi, đến thời điểm hiện tạitất cả các phương pháp này đều khơng phải là học thế giới mở, dẫn đếnviệc các tên mới đều phải được phân vào ít nhất1 khái niệm trong CSDL từ vựng cho trước. Vì những lý do trên, luận văn này sẽ tập trung nghiên cứu ứng dụng học thế giới mở vào bài toán chuẩn hoá tên thực thểbệnh (gọi tắt là tên bệnh), là mợt thực thể y sinh quan trọng, nhận được nhiều quan tâm nghiên cứu của cợng đờng nghiên cứu- y sinh. 1.4. Mục tiêu của luận văn Cĩ thể thấy rằng, cơ sở dữ liệu tri thức tích luỹ được là hết sức quan trọng, và thiết yếu đới vớihọc suớt đời. Các tri thức được lưu trữ dưới định dạnh cĩ cấu trúc, cĩ thể “đọc” được bởi máy tính, từ đĩ cĩ thể thực hiện các phép suy diễn. Tuy nhiên, lúc đầu các tri thức lại thường được thể hiện dưới dạng văn bản phi cấu trúc, do con người viết ra và chỉ con người mới hiểu được. Các tri thức thường là mới quan hệ giữa các đới tượng, hiện tượng nào đĩ. Việc trích xuất tự đợng tri thứcđược viết trong văn bản đang ngày trở nên 15
  26. quan trọng và cấp thiết, đặc biệt là khi sớ lượng văn bản trong các lĩnh vực chuyên ngành đang liên tục được tạo ra với mợt tớc đợ chĩng mặt. Về cơ bản, bài toán trích xuất tri thức (dưới dạng quan hệ) trong văn bản baogờmba bước chính: phát hiện đới tượng/thực thể tên, chuẩn hoá thực thể tên và phân loại quanhệ giữa các thực thể. Luận văn do đĩ sẽ tập trung nghiên cứu ứng dụng mơ hình DOC vào pha cĩ nhiều khả năng cĩ cái mới chưa được thấy, đĩ là chuẩn hoá thực thể tên (tên mới). Đặc biệt, với bài toán chuẩn hoá thực thể tên,luận văn sẽ chọn tên bệnh trong miền văn bản y sinh, là mợt miền ứng dụng cĩ nhiều ý nghĩa và đầy thách thức. Phát hiện và chuẩn hĩa thực thể y sinh đang ngày càng trở nên rất quan trọng cho việc khám phá ra các quan hệ mới, quan trọng giữa các hĩa chất/thuớc và các bệnh khơng xuất hiện cùng nhau trong cùng mợt bài báo y văn được xuất bản [2].Bài toán chuẩn hĩa tên bệnh là mợt trong những bài toán chuẩn hĩa thực thể y sinh quan trọng, đầy thách thức, cĩ đầu vào và đầu ra như sau: Đầu vào: Tập nhãn/lớp: Mợt bợ từ vựng được xây dựng sẵn V chứa các khái niệm bệnh (định danh tên bệnh, cùng với các tên đờng nghĩa của nĩ). Dữ liệu huấn luyện: Mợt tập các tên bệnh (disease mention) đãđượcgán định danh khái niệm bệnh trong V. Tập các tên bệnh chưa được gán định danh D Đầu ra: Mơ hình cĩ khả năng gán (hoặc bác bỏ) định danh khái niệm bệnh trong V cho các tên thuớc trong D (Xem ví dụ Bảng 1.1). Input Output lidocaine D008012 depression D003866 bradyarrhythmias Unknown Bảng 1.1 - Mợt ví dụ về bài toán chuẩn hoá tênbệnh. 16
  27. Kết luận Chương 1 Chương này đã trình bày mợt giới thiệu tổngquát về mơ hình ML cổ điển và những thiếu sĩt của nĩ, sau đĩ là về Học suớt đời (LL) và học thế giới mở (OpenWorld ML, mợt dạng học máy suớt đời). Học máy suớt đời là mợt hướng đi mới nổi tất yếu và đầy hứa hẹn để khắc phục những thiếu sĩt của học máy truyền thớng, với mục tiêu cuới cùng là xây dựng những cỗ máy học hỏi như con người. Tầm quan trọng của hệ cơ sở dữ liệu tri thức (KB) đới với học suớt đời đã được chỉ ra. Cuới cùng mục tiêu của luận văn cũng đã được giới thiệu, đĩ là ứng dụng mơ hình học thế giới mở cho bước quan trọng trong việc trích xuất tự đợng tri thức từ văn bản y sinh, đĩ là chuẩn hĩa thực thể tên. Đây là bước cĩ sự xuất hiện của đới tượng mới chưa xuất hiện lúc học, đặc biệt là trong lĩnh vực y sinh, ví dụ: tên bệnh mới. Tầm quan trọng và thách thức của việc giải quyết bài toán này đới với lĩnh vực y sinh cũng được đề cập. Chương 2 sẽ giới thiệu sâu về học thế giới mở dựa trên kỹ thuật học sâu. 17
  28. Chương 2. Học sâu thế giới mở cho văn bản 2.1. Học thế giới mở khơng gian đơn giản trung tâm G. Fei và cợng sự [5] đã giới thiệu mợt mơ hình phân lớp thế giới mở dựa trên phương pháp học khơng gian tương tự dựa trên trung tâm (được gọi là học CBS Center- Based Similarity (CBS) Learning). Nĩ cĩ khả năng phân loại các dữ liệu vào các lớp đã biết/đã thấy, hoặc bác bỏ để đưa vào lớp chưa biết. 2.1.1 Tăng cường cập nhật mơ hình học CBS Con người được tiếp xúc với các khái niệm mới mọi lúc. Mợt cách chúng tahọcmợt khái niệm mới là tìm kiếm từ các khái niệm đãbiếtđể tìm ra các khái niệm tương tự với khái niệm mới, và sau đĩ cớ gắng tìm ra sự khác biệt giữa các khái niệm đã biết vàkhái niệm mới mà khơng cần sử dụng tất cả các khái niệm đã biết. Ví dụ, giả sử chúng tađã học được các khái niệm như“phim truyện”, “đồ nội thất”, “bĩng đá”. Giả sử bây giờ chúng ta cần tìm hiểu khái niệm “bĩng rổ” từ bợ tài liệu về nĩ. Chúng ta sẽ nhận ra rằng “bĩng rổ” giớng với “bĩng đá” và rất khác với “phim truyện” và “đờ nợi thất”. Do đĩ, chúng ta chỉ cần tập trung vào sự khác nhau giữa “bĩng rổ”với “bĩng đá” mà khơng cần quan tâm đến nĩ với “phim truyện” và “đờ nợi thất”. G. Fei và cợng sự [5] sử dụng chiến lược 1-so-với-phần-cịn-lại (one-vs.-rest) của SVM để học tăng cường của nhiều lớp (hoặc khái niệm) (xem Thuật toán 2.1). Trước khi lớp mới CN+1 xuất hiện, hệ thớng học đã xây dựng được mơ hình phân lớp FN, bao gờm N bợ phân loại nhị phân 1-so-với-phần-cịn-lại FN= {f1, f2, , fN} cho N lớp trước đây, các p N lớp sử dụng tập huấn luyện D = {D1; D2; ; DN} với các nhãn lớp tương ứng Y = {l1; l2; ; lN}. Mỗi fi là mợt mơ hình phân lớp nhị phân được xây dựng bằng phương pháp học CBS để xác định các đới tượng dữ liệu thuợc vềlớp li. Khi cĩ mợt bợ dữ liệu mới DN+1 cho lớp lN+1, hệ thớng sẽ thực hiện hai bước sau để cập nhật mơ hình phân lớp FN thành mơ hình FN+1 mới cĩ khả năng phân loại dữ liệu kiểm tra hoặc dữ liệu của của các lớp trong tập YN+1 = {l1; l2; ; lN; lN+1} và phát hiện ra bất kỳ lớp C0 nào chưa được thấy. 1. Tìm kiếm mợt tập các lớpSC tương tự như lớp mới lN+1. 2. Học cách tách lớp mới lN+1 và các lớp đã xuất hiện từ trước trong SC. 18
  29. Trong bước 1, sự giớng nhau giữa lớp mới lN+1 và các lớp trước l1; l2; ; lN được tính bằng cách chạy từng bợ phân loại nhị phân 1 so với phần còn lại trong FN = {f1; f2; ; fN} để phân loại các dữ liệu trong DN+1. Các lớp của các bợ phân lớp nhị phân hiện cĩ mà chấp nhận (phân loại là lớp dương) mợt sớ/phần trăm nhất định λsim của các dữ liệu trong tập DN+1 được xem là các lớp tương tự SC. λsim là ngưỡng kiểm soát sớ phần trăm các dữ liệu trong DN+1 nên được phân loại vào lớp li trước khi xem xét li gần với lớpl N+1. Bước 2 tách lớp mới lN+1 và các lớp trong SC bao gờm hai bước phụ: (1) xây dựng trình phân loại nhị phân mới fN+1 cho lớp mới lN+1; (2) cập nhật các bợ phân loại hiện cĩ cho các lớp trong SC. fN+1 được huấn luyện bằng cách sử dụng DN+1 như là ví dụ huấn luyện dương và dữ liệu cho các lớp trong SC làm dữ liệu huấn luyện âm. Lý do để cập nhật các bợ phân loại trong SC là việc bổ sung lN+1 gây ra nhầm lẫn cho các bợ phân loại trong SC. Để xây dựng lại từng bợ phân loại, hệ thớng cần sử dụng tập dữ liệu ví dụ âm hiện cĩ (đã được sử dụng khi xây dựng bợ phân lớp fi) cợng với dữ liệu mới trong DN+1 làm dữ liệu ví dụ huấn luyện âm mới. Lý do mà dữ liệu ví dụ huấn luyện âm cũ vẫn được sử dụng là do bợ phân loại mới vẫn cầnphân biệt lớpl i với các lớp cũ. Tĩm lại, quá trình học sử dụng tập SC của các lớp tương tự với lớpmớilN+1 để kiểm soát cả sớ lượng bợphân loại nhị phân cần được xây dựng/cập nhật lại lẫn cả sớ lượng các dữ liệu ví dụ huấn luyện âm được sử dụng trong việc xây dựng bợ phân loại mới fN+1. Điều này cải thiện đáng kể hiệu quả so với việcphải xây dựng lại mợt bợ phân loại đa lớp mớiF N+1 từ đầu. Thuật tốn 2.1. Học tăng dần các lớp CBS p *Đầu vào: Mơ hình phân lớp FN= {f1, f2, , fN}, tập các dữ liệu trong quá khứ D = {D1; D2; ; DN}, tập dữ liệu mới DN+1 và ngưỡng tương tự λsim *Đầu ra: Mơ hình phân lớp FN+1= {f1, f2, , fN, fN+1 }. 19
  30. 2.1.2 Kiểm tra mơ hình học CBS Để kiểm tra mơ hình phân lớp mới FN+1 = {f1, f2, ; fN, fN+1}, N+1 bợ phân loại nhị phân 1-so-với-phần-cịn-lại được kết hợp lại để thực hiện phân loại nhiều lớp với tùy chọn “bác bỏ” được thêm vào tập nhãn/lớp. Do đầu ra từ các bợ phân loại SVM khác nhau là khơng thể so sánh được với nhau, nên điểm đầu ra từ SVM cho mỗi bợ phân loại sẽ được chuyển thành xác suất sử dụng cơng cụ trong bợ thư viện LIBSVM. Gọi P(y|x) là xác suất phân loại dữ liệu x vào lớp y thuợc Y= (l1; l2; ; lN; lN+1). Đặt 0.5 là ngưỡng phân loại * mặc định, y là lớp dự đoán cuới cùng cho x vàC0 là nhãn chưa xuất hiện. Phân loại dữ liệu x được thực hiện như sau: 퐚퐫퐠퐦퐚퐱 퐍+ 푷(풚|풙) 풏ế 풖 푷(풚|풙) ≥ . y*= { 퐲€풀 (2.1) 퐂 퐭퐫ườ퐧퐠 퐡ợ 퐩 퐜퐨̀퐧 퐥퐚̣퐢 Ý tưởng ở đây là, với mỗi dữ liệu x, mỗi bợ phân loại nhị phân fi được sử dụng để ước lượng xác suất P(li|x). Nếu khơng cĩ xác suất nào lớn hơn ngưỡng (= 0,5), dữ liệu x được phân vào lớp khơng nhìn thấy / khơng xác định C0; nếu khơng, nĩ được phân vào lớp cĩ xác suất cao nhất. 2.1.3 Học CBS cho phát hiện lớp chưa thấy Phương pháp học dựa trên ý tưởng giảm rủi ro khơng gian mở trong khi vẫn cân bằng rủi ro thực nghiệm trên dữ liệu huấn luyện. Bợ học cổ điển định nghĩa rủi ro thực nghiệm và tới ưu hĩa nĩ trên dữ liệu huấn luyện. Với học thế giới mở, điều quan trọng là phải làm thế nào để mở rợng mơ hình cổ điển để cĩ thể nắm bắt được rủi ro của lớp chưa xuất hiện khi học bằng cách ngăn chặn việc khái quát hĩa quá mức. Để giải quyết vấnđề này, Scheirer và cợng sự [12] đã giới thiệu khái niệm về rủi ro khơng gian mở. Ý tưởng cơ bản của việc học giảm rủi ro khơng gian mở CBS là tìm ra mợt “quả bĩng” (biên giới quyết định phân lớp) để bao phủ vùng dữ liệu của lớp dương. Bất kỳ dữ liệu nào nằm ngoài phạm vi của quả bĩng đều được coi là thuợc lớp .âm Mặc dù nĩ chỉ thực hiện phân loại nhị phân, nhưng khi áp dụng phương pháp 1-so-với-phần-cịn-lại như được mơ tả trong [5], sẽ tạo ra mơ hình phân lớp CBS nhiều lớp, được gọi là cbsSVM. Rủi ro khơng gian mở 20
  31. Khơng gian mở O được định nghĩa là khơng gian bên ngoài “quả bĩng” bao lấy tập các ví dụ dữ liệu huấn luyện dương. Rủi ro khơng gian mở được định nghĩa là khả năng phân loại dữ liệu thuợc O (cách xa các ví dụ huấn luyện dương) vào lớp dương [12]. G. Fei và cợng sự [5], định nghĩa O là khu vực được phân lớp dương đủ xa trung tâm của các ví dụ huấn luyện dương. Đặt Bry(ceny) là mợt quả bĩng kín cĩ bán kính ry xung quanh tâm ceny của lớp dương y. Lý tưởng nhất, Bry(ceny) chỉ bao gờm tất cả các ví dụ huấn luyện dương lớp y; Đặt S0 là quả bĩng đờng tâm ceny lớn hơn Bro(ceny) cĩ bán kính r0. Đặt hàm phân loại f(y|x) = 1 nếu x € Br0(ceny) và f(y|x) = 0 nếu ngược lại. Ngồi ra, gọi q là nửa khơng gian dương được xác định bởi mợt siêu phẳng quyết định Ω của bợ phân lớp SVM nhị phân thu được bằng cách sử dụng các ví dụhuấn luyện. Fei và cợng sự định nghĩa kích thước của bĩng Bro bị giới hạn bởi Ω, Bro ∩ q =Bro. Từ đĩ, khơng gian mở dương được định nghĩa là O = S0 - Bry(ceny), trong đĩ S0 cần phải được xác định trong quá trình học cho lớp dương. Cơng thức khơng gian mở này làm giảm đáng kể rủi rokhơng gian mở so với mơ hình SVM truyền thớng và mơ hình 1-sv-phần-cịn-lại của Scheirer và cợng sự [12]. Đới với SVM truyền thớng, hàm phân loại fy(x) = 1 khi x thuợc q và khơng gian mở dương của nĩ là q - Bry(ceny), chỉ bị giới hạn bởi siêu phẳng quyết định Ω của SVM. Đới với bợ phân lớp 1-với-phần-cịn-lại trong [12], fy(x) =1 khi x € g, trong đĩ g là mợt khu vực sàn được giới hạn bởi hai siêu phẳng song song Ω và ψ của SVM trong q. Khơng gian mở dương của nĩ là g – g ∩ Bry(ceny). Cĩ thể thấy rằng cả hai phương pháp định nghĩa khơng gian mở này đều gắn nhãn dương cho mợt vùng khơng gian khơng giới hạn, trong khi phương pháp của [5] giới hạn vào khơng gian bên trong của mợt quả bĩng. Với định nghĩa khơng gian mở của [5], câu hỏi là làm thế nào để ước tínhSo cho lớp dương. Fei và cợng sự đã sử dụng phương pháp học khơng gian tương tự dựa trên trung tâm (học CBS). CBS giúp chuyển đổi khơng gian tài liệu gớc thành khơng gian tương tự. Việc phân loại cuới cùng được thực hiện trong khơng gian CBS. 2.2. Học sâu thế giới mở phân lớp văn bản Phân lớp mở sâu (DOC [13]) sử dụng mơ hình học sâu [7]. Khơng giớng như phân lớp truyền thớng, DOC xây dựng mợt bợ phân loại nhiều lớp với mợt tầng sigmoids 1-v- phần-cịn-lại cuới cùng thay vì softmax để giảm rủi ro khơng gian mở. Nĩ làm giảm rủi ro 21
  32. khơng gian mở hơn nữa bằng cách thắt chặt ranh giới quyết định của các hàm sigmoid với kỹ thuật khớp Gaussian. 2.2.1 CNN và các lớp chuyển tiếp của DOC Hệ thớng DOC được đề xuất (được nêu trong Hình3) là mợt biến thể của kiến trúc CNN để phân loại văn bản [7]. Tầng đầu biểu diễn dữ liệu vào thành các véc tơ. Tầng thứ hai thực hiện tích chập trên các vectơ đĩ sử dụng các bợ lọc cĩ kích thước khácnhau (xem phần 3.4). Tiếp theo, tầng pooling cực đại theo thời gian (max-over-time) chọn phần tử lớn nhất của mỗi bợ lọc đặc trưng từ kết quả của tầng tích chậpđểtạo thành mợt véc tơ đặc trưng h cĩ k chiều. Vector h sau đĩ được giảm thành vector m chiều d = d1: m (m tương ứng với sớ lớp đã biết) thơng qua 2 tầng kết nới đầy đủ và mợttầng kích hoạt ReLU trung gian: d= W’(ReLU(Wh+b)) + b’ (2.2) Trong đĩ W ∈ Rr×k, b ∈ Rr, W′ ∈ Rm×r, và b′ ∈ Rm là các trọng sớ cĩ thể huấn luyện được; r là kích thước đầu ra của lớp được kết nới đầy đủ đầutiên.Đầu ra của DOC là mợt tầng 1-với-phần-cịn-lại được áp dụng cho d1: m, cho phép loại bỏ. Hình 2.1: Kiến trúc mạng tổng quan của mơ hình DOC [13] 22
  33. Các mơ hình học sâu khác hiện cĩ như RNN và LSTM cũng cĩ thể được sử dụng thay cho CNN. Tương tự như RNN, CNN cũng hoạt đợng trên dữ liệu tuần tự được nhúng (sử dụng tích chập 1D trên văn bản thay vì tích chập 2D trên ảnh). 2.2.2 Tầng 1- với-phần còn lại Phân loại đa lớp truyền thớng sử dụng softmax làm tầng đầu ra cuới cùng; nĩ khơng cĩ khả năng bác bỏ lớp chưa xuất hiện vì xác suất dự đoán cho mỗi lớp đã được chuẩn hĩa cho tất cả các lớp huấn luyện / nhìn thấy. Thay vào đĩ, mợt tầng 1-với-phần-cịn-lại được sử dụng, chứa các N hàm sigmoid cho N lớp. Với hàm sigmoid thứ i tương ứng với lớp li, DOC lấy tất cả các ví dụ với y =li là ví dụ tích cực và tất cả phần còn lạilà tiêu cực ví dụ 6y = l làm ví dụ tích cực, các iy còn lại là tiêu cực. Mơ hình được học với hàm mục tiêu làm nhỏ nhất log của hàm mất mát của các hàm sigmoid trên dữ liệu huấn luyện D. 2.2.2 Giảm rủi ro khơng gian mở Hàm Sigmoid thường sử dụng ngưỡng mặc định ti = 0.5 để phân loại cho từng lớp i. Nhưng ngưỡng này khơng xem xét rủi ro khơng gian mở tiềm năng từcác lớp chưa xuất hiện (bị bác bỏ). Chúng ta cĩ thể cải thiện ranh giới bằng cách tang giá trị ti. Để cĩ được các ti tớt hơn cho mỗi lớp thứ i đã xuất hiện khi học, phương pháp phát hiện ngoại lai trong thớng kê được sử dụng: 1. Giả sử xác suất dự đoán p(y =li| xj, yj = li) của tất cả dữ liệu học của lớp i thuợc về mợt nửa ( 1) sẽ được tạo ra bằng cách thêm điểm đới xứng qua (1, 0) cho mỗi điểm (xác suất) tương ứng với dữ liệu dương, đĩ là điểm 1 + (1 - p (y = li| xj, yj = li) (khơng phải là mợt xác suất). 23
  34. Hình 2.2: Rủi ro khơng gian mở của hàm sigmoid [13] 2. Ước tính đợ lệch chuẩn σi bằng cả điểm hiện cĩ và các điểm giả được tạo ra. 3. Trong thớng kê, nếu mợt giá trị/điểm dữ liệu nằm ngoài khoảng xung quanh kỳ vọng mợt sớ nhất định (α =3) lần đợ lệch chuẩn sẽ được coi là mợt điểm ngoại lai. Do đĩ, ngưỡng xác suất được thiệt lập theo cơng thức ti = max (0.5, 1 – ασi), trong đĩ α = 3. Kết luận Chương 2 Dựa trên mục tiêu được đề ra trong Chương 1, Chương 2 trình bày chi tiết về hai phương pháp học thế giới mở được giới thiệu gần, đây đĩ là: (i) mơ hình phân lớp thế giới mở dựa trên phương pháp học khơng gian tương tự dựa trên trung tâm do Fei và Liu đề xuất năm 2015 và (ii) mơ hình phân lớp mở dựa trên kỹ thuật học sâu (DOC) sử dụng mơ hình học sâu do Shu và cợng sự đề xuất năm 2017. Cả hai phương pháp này đều sử dụng khái niệm “Rủi ro khơng gian mở” cĩ khả năng giải quyết vấn đề phát hiện ra các dữ liệu mới chưa xuất hiện lúc huấn luyện mơ hình. Chúng đã được các tác giả thực nghiệm và cho kết quả tớt cho bài tốn phân loại văn bản mở. Tuy nhiên vẫn chưa cĩ nghiên cứu nào về hiệu quả ứng dụng của chúng cho bài tốn chuẩn hĩa thực thể tên, là bài tốn con quan trọng cĩ sự xuất hiện của nhiều tên mới (đặc biệt trong lĩnh vực y sinh), thiết yếu trong việc trích xuất tri thức được viết (ở dạng phi cấu trúc) trong văn bản. Chương 3 tiếp theo sẽ giới thiệu mợt mơ hình ứng dụng DOC vào bài tốn chuẩn hố quan trọng này. 24
  35. Chương 3: Ứng dụng mơ hình DOC vào chuẩn hĩa tên bệnh 3.1. Ứng dụng chuẩn hĩa tên thực thể bệnh Khai phá tri thức từ y văn đĩng mợt vai trò quan trọng đới với các nhà nghiên cứu y sinh như cũng như các nhà khoa học dữ liệu trong những năm gần đây. Nĩ đã giúp các nhà nghiên cứu đẩy nhanh quá trình nghiên cứu, khám phá ra các tri thức mớicủa họ, qua đĩ giúp giảm chi phí nghiên cứu trong lĩnh vực y sinh hiện đang rất tớn .kém Lấy ví dụ, theo [15], mợt loại thuớc mất trung bình khoảng 14 năm và hai tỷ đơ la Mỹ để được phát triển thành cơng, xuất hiện trên thị trường. Quá trình tớn kém này cĩ thể được cải thiện mạnh mẽ nếu các tác dụng phụ gây bệnh của thuớc cĩ thể được phát hiện nhanh mợt cách tự đợng từ mợt khới lượng khổng lờ văn bản y sinh. Việc phát hiện và chuẩn hĩa thực thể y sinh do đĩ là rất quan trọng để khám phá ra các quan hệ mới, quan trọng giữa các thuớc và các bệnh khơng được mơ tả trong cùng mợt bài báo y sinh [2]. Chuẩn hĩa thực thể tên bệnh (Named Entity Normalization) là mợt các phần thiếu yếu của trích xuất thơng tin, đặc biệt cĩ ý nghĩa cho các nghiên cứu y sinh và ứng dụng lâm sàng. Nĩ thực hiện việc liên kết mỗi mợt tên bệnh được nhắc đến trong tài liệu y sinh đến định dang tương ứng của nĩ được lưu sẵn trong các bợ từ vựng y sinh hiện cĩ [8] (Xem Bảng 3.1). Bài toán NEN cho các tên thực thể bệnh cĩ rất nhiều thách thức: 1) sựnhập nhằng: cùng mợt tên bệnh cĩ thể cĩ nhiều định danh; 2) sự phong phú: nhiều cách đặt tên cho mợt [định danh] bệnh [9]. Hơn nữa, tên bệnh là được đặt tên theo nhiều cách, tùy thuợc vào vị trí giải phẫu, triệu chứng, điều trị, v.v. Bên cạnh đĩ,các tên bệnh thường dài và phức tạp, thậm chí là viết tắt. Nhiều nghiên cứu đã sử dụng thuật toán dựa trên luật để giải quyết vấn đề chuẩn hoá tên bệnh, nhưng khơng hiệu quả trong việc xử lý tất cả thuật ngữ bệnh trong các tài liệu y sinh. Ví dụ, cả hai từ “carcinoma” và “cancer" đều đề cập đến bệnh “tăng trưởng bất thường của các tế bào cĩ thể di căn”; Từ KMS cĩ thể là từ viết tắt của hợi chứng Kabuki (Kabuki make up syndrome) hoặc hợi chứng Kallmann (Kallmann syndrome), là hai hợi chứng rới loạn hoàn toàn khơng liên quan đến nhau. Với bài toán chuẩn hoá tên bệnh, các nghiên cứu trên thế giới đều sử dụng bợ từ vựng MEDIC (MErged DIsease voCabulary) [4], được duy trì bởi Cơ sở dữ liệu đới sánh 25
  36. Toxicogenomics [4], mợt hệ CSDL về tác đợng của việc tiếp xúc với mơi trường đới với sức khỏe con người. MEDIC được tạo ra bằng cách tích hợpCSDL OMIM (Mendel trực tuyến di truyền ở người), mợt bợ từ vựng được kiểm soát về các bệnh di truyền ởngười và mợt sớ phần của MeSH, là mợt bợ từ vựng được tổ chức theo thứ bậc thành 16nhánh. Trong sớ các nhánh này, nhánh bệnh và nhánh phụ củaRối loạn tâm thần và nhánh Tâm lý học chứa các khái niệm bệnh được sử dụng để xây dựng MEDIC [4]. Document Intravenous administration of a single 50-mg bolus of lidocaine in a 67-year-old man resulted in profound depression of the activity of the sinoatrial and atrioventricular nodal pacemakers. The patient had no apparent associated conditions which might have predisposed him to the development of bradyarrhythmias; and, thus, this probably represented a true idiosyncrasy to lidocaine. Input Output lidocaine D008012 depression D003866 bradyarrhythmias Unknown Bảng 3.1 - Một ví dụ về bài tốn chuẩn hố tên thực thể thuốc. MEDIC được cập nhật hàng tháng, hiện tại cĩ 9.664 khái niệm (định danh) bệnh, với tổng sớ 67.782 tên bệnh. Trung bình, mỗi bệnh cĩ 7.01 tên đờng nghĩa, bao gờm các tên chính và các tên đờng nghĩa. 91% bệnh cĩ tên đờng nghĩa với các tên chính và 47% bệnh cĩ định nghĩa hoặc mơ tả về các khái niệm này. Mợt ví dụ về bệnh trong MEDIC được đưa ra trong Hình 3.2. Bệnh này cĩ định danh là MESH:D009369, (ban đầu nĩ xuất phát từ MeSH). Bệnh này cĩ tên chính là Neoplasms, là tên hay được sử dụng, và chín thuật ngữ khác đờng nghĩa. Cĩ thể thấy rằng các thuật ngữ từ đờng nghĩa cĩ thể là tên thay thế cho tên chính, hoặc là các biến thể của tên chính hoặc các từ đờng nghĩa khác, ví dụ như Neoplasm, Benign và Benign Neoplasm. Trong mợt sớ trường hợp, nĩ cũng cĩ thể là từ viết tắt của các tên khác của bệnh, hoặc tên với tính từ bổ nghĩa đi kèm. 26
  37. Hình 3.1. Định danh, tên chính hay dùng và các tên đồng nghĩa của một bệnh trong MEDIC. 3.2.1. Mơ hình đề xuất Tổng quan về mơ hình đề xuất được minh họa trong Hình 3.3. Nĩ là mợt mơ hình đường ớng bao gờm ba thành phần: • Mơ đun tiền xử lý và phân giải viết tắt. • Mơ-đun khớp từ điển để đẩy nhanh việc chuẩn hoá. • Mạng nơ ron học sâu thế giới mở để chuẩn hoá tên bệnh (khơng được tìm thấy trong từ điển) thành định danh của nĩ trong bợ từ vựng. Hình 3.2: Mơ hình đường ống chuẩn hố thực thể tên bệnh. 27
  38. Bộ phân giải viết tắt Trong tài liệu y sinh, cĩ rất nhiều thực thể tên bệnh dài, và thường được gọi bằng cách sử dụng các từ viết tắt. Khơng cĩ mợt quy tắc thớng nhất nào để cĩ thể phân giải được từ viết tắt thành tên đầy đủvì trong các tài liệu khác nhau mợt từviết tắt cĩ thể cĩ ý nghĩa khác nhau và/ngược lại các từ khác nhau cĩ thể cĩ cùng ý nghĩa. Đới với các thực thể tên bệnh, luận văn sử dụng cơng cụ Ab3P (Abbreviation Plus Pseudo-Precision) [14] để phân giải từ viết tắt. Ab3p được sử dụng để xác định từ viết tắt trong tài liệu và đưa ra danh sách các từ đầy đủ cho nĩ cùng với xác suất đi kèm. Ví dụ, nếu thực thể PFS xuất hiện trong tài liệu, Ab3P sẽ phát hiện ra nĩ và trả về kết quả: PFS| progression-free survival (sống sót khơng cĩ tiến triển) | 0.999408; trong đĩ PFS là tên viết tắt, progression-free survival là tên đầy đủ và 0,999408 là xác suất của tên viết tắtlà cho tên đầy đủ. Ngồi ra, để phục vụ cho mơ đun tìm kiếm từ điển, các tên bệnh (được đề cập trong văn bản cũng như trong tập từ vựng MEDIC) được chuyển về chữ thường. Các ký tự chấm câu và các ký tự đặc biệt bị loại bỏ.Các tên được chuyển về dạng gớc của nĩ bằng cơng cụ Snowball. Mạng nơ ron học sâu thế giới mở Với mỗi thực thể tên bệnh m trong tài liệu được gán nhãn định danh IDm, tạo ra: Mợt tập Nm+ gờm các tên bệnh trong từ vựng (n+) cĩ nhãn định danh là IDm. Cặp được xem là mợt ví dụ dương. Mợt tập Nm-, cĩ kích cỡ bằng của Nm+, gờm các tên bệnh trong từ vựng (n-) mà khơng cĩ nhãn định danh là IDm. Các tên bệnh n- này là những tên giớng với m nhất, được tính theo đợ đo tích vơ hướng của vector TF-IDF(m) và TF- IDF(n-), trong đĩ TF-IDF(.) là vector tần sớ từ-tần sớ tài liệu ngược. Cặp được xem là mợt ví dụ âm. Đặt M = {m1, m2, , mn} là tập chứa tất cả các thực thể tên bệnh xuất hiện trong văn bản trong tập huấn luyện. Tập dữ liệu huấn luyện dương và âm (tương ứng gờm các cặp ví dụ dương và âm) được tạo ra từ tất cả các thực thểmi trong M. Điều tương tự cũng được tạo ra cho tất cả văn bản trong tập dữ liệu kiểm định (Validation) để tinh chỉnh mơ hình. 28
  39. Luận văn sử dụng mơ hình chuẩn hoá tên thực thể y sinh dựa trên mạng nơ ron tích chập (CNN) do Cho và cợng sự giới thiệu năm 2017 [3]. Luận văn ứng dụng học thế giới mở bằng cách thay tầng softmax cuới cùng bằng tầng 1-so-với-còn lại sigmoids, như được sử dụng trong mơ hình DOC. Mơ hình do Cho và cợng sự giới thiệu nhận đầu vào là2 tập Nm+ và Nm- như được mơ tả ở trên đây. Mỗi mợt cặp được đi qua tầng nhúng từ (embedding) để tạo ra ma trận các vector biễu diễn cho các từ trong mention m và tên (name) n.Ở tầng tích chập (convolution) tiếp theo các bợ lọc (filter) với kích thước khác nhau sẽ được áp dụng đợc lập trên mention m và tên n để tạo ra các bản đờ đặc trưng chập (convolution feature maps). Các bản đờ đặc trưng trên m và n sẽ được đi qua hai tầng pooling trước khi được gợp lại với nhau tại tầng gợp (join layer). Ngoài ra, đầu ra của hai tầng pooling còn được đi qua tầng so khớp giớng nhau (similarity matching) để tạo ra mợt đặc trưng thể hiện sự giớng nhau của m và n. Đặc trưng này cũng được gợp vào với 2 đặc trưng pooling ởtầng gợp. Đầu ra từ tầng gợp sẽ được cho đi qua mợt tầng ẩn kết nới đầy đủ trước khi choqua tầng softmax cuới cùng. Kiến trúc tổng thể của mơ hình của Cho và cợng sự được thể hiện ở Hình 3.3. Hình 3.3. Kiến trúc hệ thống chuẩn hố tên thực thể y sinh dựa trên mạng nơ ron tích chập do Cho và cợng sự đề xuất [3]. 29
  40. Kết luận Chương 3 Chương 3 giới thiệu mợt mơ hình ứng dụng DOC vào bài tốn con quan trọng, thiết yếu cho quá trình trích xuất tự đợng tri thức (được viết dưới dạng phi cấu trúc) trong văn bản y sinh, đĩ là (i) chuẩn hĩa thực thể tên bệnh. Đây là bài toán thường cĩ sự xuất hiện của các đới tượng dữ liệu thuợc lớp mới chưa xuất hiện trong lúc huấn luyện mơ hình, đặc biệt là trong lĩnh vực y sinh. Chương 4 sau đây sẽ trình bày kết quả thực nghiệm của mơ hình ứng dụng này. 30
  41. Chương 4: Thực nghiệm và đánh giá 4.1. Dữ liệu thực nghiệm chuẩn hố tên bệnh Thực nghiệm vào bài toán chuẩn hoá tên thực thể thuớc (disease normalization) với bợ dữ liệu chuẩn NCBI disease do nhĩm nghiên cứu từ bợ khoa học cơng nghệ sinh học Mỹ (NCBI) cung cấp. Đây là bợ dữ liệu chuẩn vàng được sử dụng bởi các mơ hình chuẩn hoá tên thực thể bệnh khác trên thế giới. Bợ dữ liệu gờm 3 tập con: tập train,tập development, tập test cĩ sớ lượng abstract (tĩm tắt bài báo y sinh) tương ứng là 593, 100, 100. Trong đĩ sớ lượng các disease mentions (các đoạn text tên bệnh), và sớ lượng tên bệnh khác nhau được cho như sau: Subset Articles Mentions Uniques Corpus Training 593 5145 1710 NCBI Development 100 787 368 Test 100 960 203 Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh Mơ hình đề xuất của luận văn sử dụng các vector biễu diễn từ cĩ 300 chiều, được cung cấp miễn phí (gờm 6 triệu từ khác nhau) bởi Pyysalo và cợng sự [11] khi họ huấn luyện mơ hình word2vec trên tập tất cả các văn bản tĩm tắt trên CSDL PubMed và các toàn văn trong CSDL PMC [11]. Cĩ 59/203 (30%) mã định danh (IDs) trong tập test khơng xuất hiện trong tập train + dev. 31
  42. 4.2 Mơi trường và các cơng cụ thực nghiệm Bảng sau giới thiệu chi tiết về cơng cụ, mơi trường và phần mềm thực nghiệm STT Phần mềm Ý nghĩa Nguồn 1 Pycharm Mơi trường phát triển 2 Python 2.7 Ngơn ngữ phát triển 3 Tensorflow Thư viện cho học sâu 4 Sklearn Thư viện hỗ trợ các cơng cụ học máy Bảng 4.4: Các cơng cụ thực nghiệm. 4.3 Kết quả và đánh giá Mơ hình được đánh giá và so sánh dựa trên đợ đoF1ở mức mã định danh. Giả sử tập {A, B, C, D} là tập tất cả các định danh khác nhau được gán cho tất cả các tênbệnh trong tập kiểm tra và tập {A, B, E, F} là tập tất cả các định danh khác nhau được dự đoán bởi mơ hình cho tất cả các tên bệnh trong tập kiểm tra. Khi đĩ A và B là 2 TP (True Positive), C và D là 2 FN (False Negative), E và F là 2 FP (False Positive). Mơ hình được cho chạy 20 lần và micro F1 sẽ được tính để đo hiệu quả của mơ hình. Sử dụng 2 sigmoids (100% nhãn), và cả 2 ngưỡng T=0.5 mặc định luận văn thu được đợ đo trung bình F1=78%. Dùng cơng thức điều chỉnh ngưỡng của mơ hình DOC (Ti = max(0.5; 1 - alpha*stdi; alpha =3), do 1-alpha*stdi rất nhỏ (=0.09) nên Ti vẫn bằng 0.5 như mặc định cho 2 sigmoids), do đĩ luận văn vẫn thu được F1 trung bình 78% (xem Bảng 4.5). Kết quả này xấp xỉ với kết của của mơ hìnhchuẩn hoá thực thể tên bệnh của [3]. 32
  43. 100% Ti=0.5 mặc định Ti = max(0.5; 1 – 3*std) Ti = max(0; 1 - 3*std) F1 78% 78% 78.6 Bảng 4.5: Bảng tổng hợp kết quả mơ hình DOC chuẩn hoá thực thể tên bệnh. Luận văn đã sử dụng cơng thức điều chỉnh ngưỡng của mơ hình DOC bằng cơng thức Ti = max(0.5; 1 - alpha*stdi), từ đĩ thu được 2 ngưỡng mới là T1 = 0,09 và T2 = 0.7. Với hai ngưỡng mới này, mơ hình chuẩn hoá thực thể tên bệnh của luận văn đạt trung bình F1 = 78.6%. Thực nghiệm với 1 sigmoid, mơ hình chuẩn hoá thực thể tên bệnh của luận văn cĩ khả năng đạt tới giá trị trung bình F1 = 80.2%, tớt hơn kết quả của mơ hình Cho và cợng sự, là mơ hình tớt nhất đến thời điểm hiện tại vàcùng thể loại với mơ hình đề xuất của luận văn. Model micro F1 Chỉ sử dụng Khớp từ điển 66.10 Mơ hình luận văn 80.2% Cho & cợng sự, 2017 [3] 78.80 Wright, 2019 [16] 87.8% Phan & cợng sự, 2019 [10] 87.7% Bảng 4.6. Kết quả thực nghiệm và so sánh Mơ hình đề xuất của luận vănhiện cĩ kết quả chuẩn hoá tên thực thể bệnh kém hơn hai mơ hình chuẩn hoá tên thực thể bệnh được giới thiệu gần đây nhất (2019) củaWright 33
  44. [16] và Phan & cợng sự [10]. Tuy vậy, khác với mơ hình đề xuất của luận văn,cả hai mơ hình này đều sử dụng thêm thơng tin biểu diễn các tên bệnh từ việc tích hợp thêm bợ mã hoá dựa trên mạng nơ ron hời quy hai chiều bidirectional Long Short Term Memory. Với thực nghiệm sử dụng phiên bản rút gọn của bợ từ vựng MEDIC tức tập từ vựng chỉ chứa các ID bệnh (cùng các tên đờng nghĩa) xuất hiện trong tậptrain+dev. Dùng 1 sigmoid mơ hình luận văn cho kết quả micro F1 = 76.1 và phát hiện ra 22/59 IDs mới (unknown/rejection). 34
  45. Kết luận Chương 4 Chương này trình bày giới thiệu về mợt bợ dữ liệu chuẩn vàng mà mơ hình ứng dụng ở Chương 3 được thực nghiệm ở trên đĩ. Các kết quả thực nghiệm, cùng với các so sánh và đánh giá được giới thiệu, chứng tỏ hiệu quả của mơ hình ứng dụng học thế giới mở dựa trên kỹ thuật học sâu trong bài tốn chuẩn hĩa thực thể tên bệnh. 35
  46. Kết luận Luận văn đã trình bày chi tiết về Họcmáy thế giới mở, là mợt nợi dung quan trọng của lĩnh vực học máy suớt đời. Học máy thế giới mở khơng yêu cầu giả định thế giới đĩng; nĩ cĩ khả năng phát hiện các trường hợp của các lớp khơng nhìn thấy trong quá trìnhthử nghiệm hoặc ứng dụng mơ hình, và tăng dần các lớp mới để cập nhật các lớp mớimơhình mà khơng đào tạo lại toàn bợ mơ hình từ đầu. Luận văn đã trình bày mợt mơ hình đề xuất ứng dụng học thế giới mở dựa trên kỹ thuật học sâu (cụ thể là mạng nơ ron tích chập CNN) cho bài toán chuẩn hoá thực thể tên (là vấn đề gặp nhiều đới tượng mới). Chuẩn hoá tên thực thể cĩ rất nhiều thách thức, đã và đang nhận được nhiều quan tâm nghiên cứu của các nhĩm nghiên cứu lớn trên thế giới. Luận văn đã chọn miền văn bản y sinh là miền ứng dụng cĩ rất nhiều tên mới xuất hiện. Bài toán chuẩn hoá thể bệnh tên bệnh là vấn đề cĩ nhiều ý nghĩa cho cợng đờng nghiên cứu -y sinh-dược. Các kết quả thực nghiệm trên bợ dữ liệu chuẩn tên bệnh đã chỉ ra tính hiệu quả củamơ hình đề xuất trong vấn đề nhận dạng được cáctên mới chưa xuất hiện khi huấn luyện mơ hình và trong vấn đề chuẩn hoá thực thể tên bệnh. Đặc biệt, mơ hình chuẩn hoá thực thể tên cĩ thể đạt giá trị đợ đo F1 = 80%, tớt hơncủa các phương pháp cùng thể loại tính đến thời điểm hiện tại. Trong năm 2019 cĩ hai cơng trình mới nhất đã được giới thiệu cho bài toán chuẩn hĩa thực thể tên bệnh từ y văn với kết quả rất ấn tượng (F1=90%). Tuy vậy, cả hai mơ hình mới này đều khơng cĩ khả năng phát hiện các tên mới chưa xuất hiệntronglúchọc. Chúng sử dụng thêm mạng BiLSTM để nâng cao hiệu năng mơ hình. Mợt hướng nghiên cứu tiếp theo khả quan của luận án là tích hợp BiLSTM vàomơhình thê giới mở dựa trên kỹ thuật học sâu chuẩn hĩa tên bệnh của luận văn. Cuới cùng, tiếp tục cải tiến mơ hình phân lớp mở quan hệ sử dụng các kỹ thuật học sâu (thế giới đĩng) mới nhất cũng sẽ là mợt hướng nghiên cứu khả quan tiếp theo của luận văn. 36
  47. Tài liệu tham khảo 1. Bendale A., Boult T.E. Towards open world recognition. CVPR 2015: 1893-1902. 2. Chen Z., and Liu B Lifelong Machine Learning (2nd edition). Morgan & Claypool, 2018. 3. Cho H., Choi W., and Lee H., A method for named entity normalization in biomedical articles: application to diseases and plants. In BMC Bioinformatics, 2017. 4. Davis A.P., Wiegers T. C., Rosenstein M. C., and Mattingly C. J MEDIC: a practical disease vocabulary used at the Comparative Toxicogenomics Database. In Database, 2012. 5. Fei F., Wang S., Liu B., Learning Cumulatively to Become More Knowledgeable. KDD 2016: 1565-1574. 6. Fei G., Liu B., Breaking the Closed World Assumption in Text Classification. HLT-NAACL 2016: 506-514. 7. Kim Y., (2014). Convolutional neural networks for sentence classification. ArXiv Preprint ArXiv:1408.5882. DOI: 10.3115/v1/d14-1181. 8. Leaman R., Doğan R.I., and Lu Z., “DNorm: disease name normalization with pairwise learning to rank”, Bioinformatics 29, 2013, no. 22, pp. 2909-2917. 9. Li H., Chen Q., Tang B., Wang X., Xu H., Wang B., and Huang D., “CNN-based ranking for biomedical entity normalization”, BMC bioinformatics, 2017, no. 11, vol. 18, pp. 385. 10. Phan, M.C., Sun, A. and Tay, Y., 2019, July. Robust Representation Learning of Biomedical Names. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 3275-3285). 11. Pyysalo S., Ginter F., and Moen H., “Distributional semantics resources for biomedical text processing”, LBM 2013, pp. 39-44. 12. Scheirer W.J., Rocha A.d.R., Sapkota A., and Boult T.E., (2013). Toward open set recognition. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 35(7), pages 1757–1772. DOI: 10.1109/tpami.2012.256. 13. Shu L., Xu H., and Liu B., (2017). DOC: Deep open classification of text documents. In EMNLP. DOI: 10.18653/v1/d17-1314. 14. Sohn S, Comeau DC, Kim W, Wilbur WJ. BMC Bioinformatics. 2008 Sep 25;9:402. PubMed ID: 18817555. 15. Wei C.H., Peng Y., Leaman R., Davis A.P., Mattingly C.J., Li J., Wiegers T.C., and Lu Z., “Overview of the BioCreative V chemical disease relation (CDR) task”, 37
  48. Proceedings of the fifth BioCreative challenge evaluation workshop, 2015, pp. 154-166, Spain: Sevilla. 16. Wright, D., 2019. NormCo: Deep disease normalization for biomedical knowledge base construction (Doctoral dissertation, UC San Diego). 38