Báo cáo Mô hình dự báo giá cổ phiếu dựa trên việc tích hợp mô hình mờ TSK và tri thức tiên nghiệm

58 trang thiennha21 10140 Free

Download

Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo Mô hình dự báo giá cổ phiếu dựa trên việc tích hợp mô hình mờ TSK và tri thức tiên nghiệm", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

bao_cao_mo_hinh_du_bao_gia_co_phieu_dua_tren_viec_tich_hop_m.pdf

Nội dung text: Báo cáo Mô hình dự báo giá cổ phiếu dựa trên việc tích hợp mô hình mờ TSK và tri thức tiên nghiệm

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ MÔ HÌNH DỰ BÁO GIÁ CỔ PHIẾU DỰA TRÊN VIỆC TÍCH HỢP MÔ HÌNH MỜ TSK VÀ TRI THỨC TIÊN NGHIỆM Mã số: T2017-07-02 Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài Nguyễn Đức Hiển Đà Nẵng, 12/2017
i MỤC LỤC MỤC LỤC i DANH MỤC HÌNH VẼ iii DANH MỤC BẢNG BIỂU iv DANH MỤC CÁC TỪ VIẾT TẮT v THÔNG TIN KẾT QUẢ NGHIÊN CỨU vi MỞ ĐẦU 1 1. Tổng quan 1 2. Tính cấp thiết của đề tài 2 3. Mục tiêu đề tài 2 4. Cách tiếp cận và phương pháp nghiên cứu 3 5. Đối tượng và phạm vi nghiên cứu 4 6. Nội dung nghiên cứu 4 Chương 1. CƠ SỞ LÝ THUYẾT MÔ HÌNH MỜ TSK VÀ MÁY HỌC VÉC-TƠ 6 1.1. Mô hình mờ 6 1.1.1. Mô hình mờ Mamdani 13 1.1.2. Mô hình mờ Takagi-Sugeno 14 1.2. Cơ sở lý thuyết Máy học Véc-tơ hỗ trợ 15 1.2.1. Máy học Véc-tơ hỗ trợ 15 1.2.2. Máy học Véc-tơ hỗ trợ cho vấn đề tối ưu hóa hồi qui 17 1.3. Sự tương tự giữa máy học Véc-tơ hỗ trợ và mô hình mờ 18 1.4. Trích xuất luật mờ từ dữ liệu dựa trên sự kết hợp máy học SVM và mô hình 20 Chương 2. VIỆC HỌC MÔ HÌNH MỜ VỚI TRI THỨC TIÊN NGHIỆM Error! Bookmark not defined. 2.1. Vai trò của tri thức tiên nghiệm Error! Bookmark not defined. 2.2. Học dựa trên sự giải thích (EBL) Error! Bookmark not defined. 2.3. Học dựa trên sự thích hợp (RBL) Error! Bookmark not defined. 2.4. Học quy nạp dựa trên tri thức (KBIL) Error! Bookmark not defined. Chương 3. TÍCH HỢP TRI THỨC TIÊN NGHIỆM VÀO QUÁ TRÌNH HỌC 22 3.1. Điều kiện đảm bảo tính “có thể diễn dịch được” của mô hình mờ 22
ii 3.2. Tích hợp tri thức tiên nghiệm trong mô hình mờ dựa trên máy học véc-tơ hỗ trợ 24 Chương 4. MỘT SỐ KẾT QUẢ THỰC NGHỆM 27 4.1. Ví dụ hồi quy phi tuyến tính Error! Bookmark not defined. 4.2. Chuỗi thời gian hỗn loạn Mackey-Glass Error! Bookmark not defined. 4.3. Hệ thống Lorenz Error! Bookmark not defined. KẾT LUẬN VÀ KIẾN NGHỊ 33 TÀI LIỆU THAM KHẢO i
iii DANH MỤC HÌNH VẼ Hình 1. Cấu trúc của một mô hình mờ 6 Hình 2. Hình ảnh phân lớp với SVM 11 Hình 3. Sự tương đương giữa SVM và Mô hình mờ 14 Hình 4. Sơ đồ khối thuật toán f-SVM .16 Hình 5. Mô hình học EBL 18 Hình 6. Mô hình học RBL 19 Hình 7. Mô hình học KBIL 20 Hình 8. Thuật toán SVM-IF 25 Hình 9. Kết quả mô hình đã tối ưu hóa (RMSE = 0.0183) 28 Hình 10. Kết quả dự đoán trên 200 mẫu dữ liệu thử nghiệm (RMSE = 0.0092) 31 Hình 11. (a) Kết quả mô hình đã tối ưu hóa (RMSE = 0.0043), (b)(c)(d) Các hàm thành viên tương ứng x(t-1), y(t-1) và x(t-1) 33
iv DANH MỤC BẢNG BIỂU Bảng 1. Tập luật trích xuất được từ mô hình đã tối ưu hóa – 4.1 28 Bảng 2. So sánh kết quả các mô hình qua thông số RMSE – 4.1 28 Bảng 3. Diễn dịch ngôn ngữ cho các luật ở bảng 1 29 Bảng 4. Tập luật trích xuất được 800 mẫu dữ liệu huấn luyện – 4.2 30 Bảng 5. So sánh kết quả các mô hình qua thông số RMSE – 4.2 31 Bảng 6. Tập luật trích xuất được 500 mẫu dữ liệu huấn luyện – 4.3 32 Bảng 7. So sánh kết quả các mô hình qua thông số RMSE – 4.3 34
v DANH MỤC CÁC TỪ VIẾT TẮT SVM Support Vector Machine SOM Self Organizing Map GA Genetic Algorithm EBL explaination-based learning RBL relevance-based learning KBIL Knowledge-based inductive learning SMO Sequential Minimal Optimization SVs Support vectors RMSE Root Mean Squared Error
vi ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc THÔNG TIN KẾT QUẢ NGHIÊN CỨU 1. Thông tin chung: - Tên đề tài: Mô hình dự báo giá cổ phiếu dựa trên việc tích hợp mô hình mờ TSK và tri thức tiên nghiệm - Mã số: T2017-07-02 - Chủ nhiệm: NGUYỄN ĐỨC HIỂN - Thành viên tham gia: không có - Cơ quan chủ trì: TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN - Thời gian thực hiện: 01/2017 – 12/2017 2. Mục tiêu: Nghiên cứu xây dựng mô hình dự báo gia cổ phiếu dựa trên sự tích hợp mô hình mờ TSK hướng dữ liệu (data-driven models) trích xuất từ máy học véc-tơ hỗ trợ với tri thức tiên nghiệm. 3. Tính mới và sáng tạo: Đề xuất xây dựng một mô hình mờ TSK cho bài toán dự báo giá cổ phiếu dựa trên việc tích hợp mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ hồi quy với tri thức tiên nghiệm. 4. Tóm tắt kết quả nghiên cứu: Đối với lý thuyết mô hình mờ (fuzzy modelling) và máy học Véc-tơ hỗ trợ, đề tài đã nghiên cứu những lý thuyết toán học cơ bản của mô hình mờ TSK, và của mô hình máy học SVM cho bài toán phân lớp và bài toán tối ưu hóa hồi quy. Đối với vai trò của tri thức tiên nghiệm, đề tài đã nghiên cứu vai trò của tri thức tiên nghiệm trong việc học mô hình mờ và các kịch bản tích hợp tri thức tiên nghiệm vào quá trình học mô hình mờ để cải thiện hiệu quả mô hình. Đối với pháp tích hợp tri thức tiên nghiệm vào mô hình mờ TSK trích xuát từ máy học véc-tơ hỗ trợ hồi quy, đề tài đã phân tích và đề xuất thuật toán mới SVM-IF. Đề tài cũng đã tiến hành thực nghiệm thuật toán đề xuất trên một số bài toán ví dụ và phân tích, đánh giá kết quả kết hợp so sánh với một số mô hình có trước khác.
vii 5. Tên sản phẩm: Bài báo khoa học đăng trên kỷ yếu Hội thảo khoa học quốc tế: Hybrid Model of Self- Organized Map and Integrated Fuzzy Rules with Support Vector Machine: Application to Analysis Stock Price. Chapter in Springer AISC, Vol. 672, Proc. of INDIA-2017. Mô hình đề xuất và một số kết quả thực nghiệm với mô hình mờ trích xuất được Một báo cáo tổng kết đề tài nghiên cứu khoa học 6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: Hiệu quả về mặt giáo dục - đào tạo: Kỹ thuật trích xuất luật mờ từ dữ liệu dựa trên máy học véc-tơ hỗ trợ với thuật toán SVM-IF và mô hình tích hợp nhiề giai đoạn cho bài toán dự báo giá cổ phiếu là một hướng để sinh viên ngành CNTT có thể phát triển các ứng dụng khai phá dữ liệu, hệ chuyên gia dự báo, Hiệu quả về mặt khoa học: đóng góp của đề tài là đề xuất một thuật toán - SVM-IF cho phép trích xuất mô hình mờ từ máy học véc-tơ hỗ trợ và mô hình mờ tích hợp nhiều giai đoạn cho bài toán dự báo hồi quy. Về sản phẩm ứng dụng: Mô hình đề xuất là một thiết kế cho việc xây dựng mô hình mờ dạng luật để giải quyết các bài toán phân tích dữ liệu tài chính, hệ chuyên gia dự đoán, dự báo. 7. Hình ảnh, sơ đồ minh họa chính
viii Hình 3. Sự tương đương giữa SVM và Mô hình mờ Begin Khởi tạo các tham số của SVMs Centers : 푖, 푖 = 1. . Variances : 휎푖, 푖 = 1. . Trích xuất luật mờ từ SVMs IF x is Gaussmf( 푖, 휎푖) THEN y is B Tối ưu hóa ሺ − ሻ2 ሺ − ሻ2 휎 ሺ푡 + 1ሻ = 휎 ሺ푡ሻ + 훿휀 ቂ 푒 ቀ− ቁቃ 푖 푖 1,푖 휎3 2휎2 −ሺ − ሻ ሺ − ሻ2 ሺ푡 + 1ሻ = ሺ푡ሻ + 훿휀 ቂ 푒 ቀ− ቁቃ 푖 푖 1,푖 휎2 2휎2 End Hình. 4. Sơ đồ khối thuật toán f-SVM.
ix 1. Procedure ModelExtraction(ℋ, k, tol) 2. Khởi tạo các giá trị tham số: , 휀, 휎, 푠푡푒 3. while error>tol do l ∗ 4. fሺxሻ = ∑i=1ሺαi − αi ሻ Kሺxi, xሻ + b ∗ ∗ 5. 푆 = {ሺ훼푖 − 훼푖 ሻ: ሺ훼푖 − 훼푖 ሻ ≠ 0, 푖 ∈ {0, , 푙}} 6. InterpretabilityTest(SV, n, σ, k) ′ − ′ 7. Điều chỉnh ma trận kernel: ′ = ቂ ቃ, − ′ ′ 〈 ሺ ሻ 〉 ′ 휑 푖 , 휑( 푗) 푣ớ푖 푖푗 = ∑푗〈휑ሺ 푖ሻ, 휑( 푗)〉 8. 푒 표 = [‖ ሺ ሻ − ℋ‖2] 9. 휀 = 휀 + 푠푡푒 10. end while ሺx−cሻ2 ሺx−cሻ2 11. σ ሺt + 1ሻ = σ ሺtሻ + δε ቂ exp ቀ− ቁቃ i i 1,i σ3 2σ2 −ሺx−cሻ ሺx−cሻ2 12. c ሺt + 1ሻ = c ሺtሻ + δε ቂ exp ቀ− ቁቃ i i 1,i σ2 2σ2 푙 ∗ ∑푖=1(훼푖−훼푖 )퐾ሺ 푖, ሻ 13. return ሺ ሻ = 푙 ∗ ∑푖=1(훼푖−훼푖 ) 14. end procedure 15. Procedure InterpretabilityTest(SV, n, σ, k) 16. repeat 2 − 2 σ푒 σ 17. Tính độ sự tương tự giữa các cặp tập mờ: 푆 ( 푖, 푗) = 2 − 2σ−σ푒 σ2 ∗ ∗ 18. Lựa chọn môt cặp tập mờ 푖 và 푗 sao cho ∗ ∗ 푆 ( 푖 , 푗 ) = 푖,푗{푆 ( 푖, 푗)} ∗ ∗ 19. if 푆 ( 푖 , 푗 ) > then ∗ ∗ 20. Gộp cặp tập mờ 푖 và 푗 thành một tập mờ mới 21. end if 22. until không còn căp tập mờ nào có độ đo sự tương tự 푆 ( 푖, 푗) > 23. end procedure Hình 4. Thuật toán SVM-IF
x Huấn luyện Part 1 SVM-IF 1 Part 2 SVM-IF 2 Phân cụm Lựa chọn Dữ liệu dữ liệu Các tập thuộc tính dữ vào bằng liệu vào Part n-1 luật mờ SOM SVM-IF n-1 Part n SVM-IF n Dự đoán Part 1 Phân cụm Suy luận trên Các Giá trị dữ liệu tập luật mờ bằng dự đoán SOM Part n Hình 8. Mô hình dự đoán giá cổ phiếu kết hợp SOM và SVM-IF Bảng IV. 5 luật trong 1 phân cụm trích xuất từ dữ liệu huấn luyện của cổ phiếu S&P500. Thứ tự Luật R1 IF x1=Gaussmf(0.09,-0.11) and x2=Gaussmf(0.09,-0.12) and x3=Gaussmf(0.09,-0.04) and x4=Gaussmf(0.09,-0.10) and x5=Gaussmf(0.09,-0.09) THEN y=0.10 R2 IF x1=Gaussmf(0.10,-0.01) and x2=Gaussmf(0.09,-0.06) and x3=Gaussmf(0.10,0.04) and x4=Gaussmf(0.10,-0.10) and x5=Gaussmf(0.10,-0.12) THEN y=0.57 R3 IF x1=Gaussmf(0.09,0.02) and x2=Gaussmf(0.10,0.02) and x3=Gaussmf(0.09,0.08) and x4=Gaussmf(0.10,-0.08) and x5=Gaussmf(0.10,-0.13) THEN y=-0.02 R4 IF x1=Gaussmf(0.10,-0.04) and x2=Gaussmf(0.10,-0.08) and x3=Gaussmf(0.10,0.02) and x4=Gaussmf(0.09,-0.08) and x5=Gaussmf(0.09,-0.11) THEN y=-0.29
xi R5 IF x1=Gaussmf(0.10,-0.03) and x2=Gaussmf(0.09,-0.06) and x3=Gaussmf(0.10,0.03) and x4=Gaussmf(0.09,-0.10) and x5=Gaussmf(0.09,-0.13) THEN y=-0.38 Bảng Va. Kết quả thử nghiệm trên mô hình SOM+ANFIS và mô hình SOM+SVM. Mã Số SOM + ANFIS SOM + SVM cổ phân phiếu cụm Số luật NMSE MAE DS Số SVs NMSE MAE DS IBM 6 1367 1.2203 0.0617 47.74 1157 1.1054 0.0564 48.05 APPL 55 1898 2.8274 0.0650 49.75 1423 1.0877 0.0474 52.27 SP500 6 # 1.7836 0.1421 48.24 1356 1.1100 0.1200 51.25 DJI 35 # 1.7602 0.1614 49.75 1144 1.0660 0.1104 50.86 Bảng Vb. Kết quả thử nghiệm trên mô hình SOM+f-SVM và mô hình SOM+SVM-IF đề xuất. Mã Số SOM + f-SVM SOM + SVM-IF cổ phân phiếu cụm Số luật NMSE MAE DS Số luật NMSE MAE DS IBM 6 1157 1.1028 0.0577 44.22 5*6 1.0324 0.0554 50.75 APPL 55 1323 1.1100 0.0445 52.76 5*55 1.0467 0.0435 53.27 SP500 6 1356 1.1081 0.1217 52.76 5*6 1.0836 0.1207 53.27 DJI 35 1144 1.0676 0.1186 50.25 5*35 1.0459 0.1181 51.76 Đà Nẵng, ngày 26 tháng 12 năm 2017 Cơ quan chủ trì Chủ nhiệm đề tài NGUYỄN ĐỨC HIỂN
1 MỞ ĐẦU 1. Tổng quan Mô hình dự báo chuỗi thời gian sẽ giúp dự báo các giá trị tương lai về một đối tượng dự báo nào đó trên nền tảng xu hướng vận động của chính chuỗi dữ liệu đó trong quá khứ và hiệntại [22]. Vấn đề dự báo theo chuỗi thời gian, mà đặc biệt là vấn đề dự báo giá cổ phiếu đã và đang thu hút được nhiều sự quan tâm nghiên cứu của các nhà khoa học, với nhiều mô hình và giải pháp đề xuất, như mạng nơ-ron nhân tạo (ANN) [7][16], máy học Véc-tơ hỗ trợ (SVM) [4][8][16][19], mô hình chuỗi Markov ẩn (HMN) [17], . Đồng thời cũng có nhiều giải pháp đề xuất cải tiến và tích hợp các mô hình, với mục tiêu cuối cùng là nâng cao tính chính xác của kết quả dự báo [4][9][11][21]. Vấn đề dự báo dữ liệu chuỗi thời gian tài chính, mà cụ thể là dự báo giá cổ phiếu hiện nay chủ yếu được tiếp cận dưới hai dạng, đó là dự báo giá cổ phiếu hoặc xu hướng của giá cổ phiếu sau n-ngày [6], [15]. Một trong những hướng tiếp cận phổ biến hiện nay để giải quyết bài toán dự đoán giá cổ phiếu là trích xuất mô hình mờ dự đoán giá cổ phiếu từ dữ liệu giao dịch lịch sử, gọi là mô hình mờ hướng dữ liệu (data-driven model). Một trong những kỹ thuật trích xuất luật mờ tự động từ dữ liệu khá hiệu quả đó là dựa vào máy học véc-tơ hỗ trợ (Support vector machines - SVM) được nhóm tác giả J.-H Chiang và P.-Y Hao nghiên cứu và công bố lần đầu tiên trong [8]. Theo hướng tiếp cận này, nhiều tác giả đã nghiên cứu đề xuất và ứng dụng các kỹ thuật rút trích các luật mờ từ SVM cho việc phát triển các mô hình mờ hướng dữ liệu cho các bài toán phân lớp [4][9], dự báo hồi quy [12][14]. Một đặc điểm đáng lưu ý của máy học Véc-tơ hỗ trợ là đối với một tập dữ liệu học nhất định, nếu điều chỉnh các tham số để tăng tính chính xác của mô hình dự đoán thì số lượng véc-tơ hỗ trợ (Support Vector - SVs) cũng tăng lên [4][5][12]. Nói cách khác là khi tăng hiệu suất của mô hình thì đồng nghĩa với việc làm giảm tính “có thể diễn dịch được” (intepretability) của mô hình. Như vậy vấn đề đặt ra là làm thế nào
2 có thể trích xuất được hệ thống mờ đảm bảo tính chính xác trong dự đoán, đồng thời đảm bảo được đặc tính “có thể diễn dịch được”. Bên cạnh đó, lý thuyết học dựa trên tri thức cho thấy các kiểu khác nhau của tri thức có thể sử dụng để cải thiện hiệu quả của mô hình máy học nói chung và mô hình mờ nói riêng. Tùy thuộc vào vai trò của tri thức, việc học dựa trên tri thức có thể phân thành các kịch bản như sau: học dựa trên giải thích (explaination-based learning) hay còn gọi là EBL, học dựa trên sự phù hợp (relevance-based learning) hay còn gọi là RBL, và học qui nạp dựa trên tri thức (knowledge-based learning) hay còn gọi là KBIL [17]. Như vậy hướng nghiên cứu tich hợp tri thưc tiên nghiệm với mô hình mờ hướng dữ liệu TSK được chọn như là một trong những giải đề xuất để cải thiện hiệu quả mô hình dự báo giá chứng khoán dự trên mô hình mờ hướng dữ liệu. 2. Tính cấp thiết của đề tài Sự khác biệt chủ yếu giữa hệ thống mờ dựa trên máy học Véc-tơ hỗ trợ và mô hình máy học Véc-tơ hỗ trợ nguyên thủy chính là đặc tính “có thể diễn dịch được” (interpretability); đặc tính này cho phép hệ thống mờ dễ hiểu hơn so với mô hình máy học Véc-tơ hỗ trợ. Tuy nhiên, đối với mô hình máy học Véc-tơ hỗ trợ, tính chính xác của mô hình thu được tỷ lệ thuận với sốlượng SVs (Support vectors) sinh ra, và điều đó đồng nghĩa với việc số lượng luật mờ cũng tăng lên. Nói cách khác, khi tăng hiệu suất của mô hình thì đồng nghĩa với việc làm giảm tính “có thể diễn dịch được” của mô hình mờ trích xuất được. Giải pháp tích hợp tri thức tiên nghiệm vào mô hình mờ dựa trên F-SVM sẽ giúp đảm bảo được tính “có thể diễn dịch được” của mô hình mờ trích xuất được. Mô hình mờ dự báo giá cổ phiếu dựa trên việc tích hợp với tri thức tiên nghiệm với quá trình học mô hình mờ từ dữ liệu ẽs khác với mô hình dự báo dựa trên phương pháp thống kế thông thường, đó là tập luật mờ học được sau khi huấn luyện mô hình có thể diễn dịch ngôn ngữ được; đây là cơ sở để chuyên gia có thể đánh giá các luật và có giải pháp tối ưu hóa hợp lý. 3. Mục tiêu đề tài
3 Nghiên cứu xây dựng mô hình dự báo gia cổ phiếu dựa trên sự tích hợp mô hình mờ TSK hướng dữ liệu (data-driven models) trích xuất từ máy học véc-tơ hỗ trợ với tri thức tiên nghiệm. Các mục tiêu cụ thể: Mô hình hồi quy và bài toán dự báo giá cổ phiếu. Xây dựng mô hình mờ TSK từ máy học véc-tơ hỗ trợ hồi quy. Giải pháp tích hợp tri thức tiên nghiệm vào mô hình mờ TSK trích xuất từ máy học Véc-tơ hỗ trợ; Đề xuất một mô hình dự báo giá cổ phiếu dựa trên mô hình mờ TSK trích xuất từ máy học véc-tơ hỗ trợ. 4. Cách tiếp cận và phương pháp nghiên cứu 4.1. Cách tiếp cận: Tiếp cận theo hướng hàn lâm: dựa vào tài liệu và các công bố khoa học. Tiếp cận theo hướng mục tiêu: dựa vào mục tiêu đề tài. Đề tài sẽ được thực hiện theo 4 giai đoạn: Giai đoạn 1: Nghiên cứu mô hình hồi quy và bài toán dự báo giá cổ phiếu Giai đoạn 2: Nghiên cứu thuật toán trích xuất mô hình mờ từ máy học Véc- tơ hỗ trợ Giai đoạn 3: Giải pháp tích hợp tri thức tiên nghiệm vào mô hình mờ hướng dữ liệu trích xuất từ máy học Véc-tơ hỗ trợ Giai đoạn 4: Xây dựng một mô hình tích hợp nhiều giai đoạn cho bài toán dự báo giá cổ phiếu dưa trên Giải pháp tích hợp Tri thức tiên nghiệm với mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ 4.2. Phương pháp nghiên cứu: Đề tài sử dụng phương pháp nghiên cứu lý thuyết, cơ sở toán học, kết hợp với thực nghiệm. Cụ thể là: trên cơ sở nghiên cứu các tài liệu và công bố khoa học mới nhất về vấn đề trích xuất mô hình mờ từ máy học SVM, kết hợp với việc phân tích lựa chọn các kiểu của tri thức tiên nghiệm để từ đó xây dựng thuật toán cho phép tích
4 hợp tri thức tiên nghiệm vào việc học mô hình mờ TSK từ máy học SVM hồi quy; cuối cùng là thực nghiệm mô hình và đánh giá kết quả. 5. Đối tượng và phạm vi nghiên cứu 5.1. Đối tượng nghiên cứu: Đề tài tập trung vào các đối tượng nghiên cứu cơ bản sau: Mô hình hồi quy và bài toán dự báo giá cổ phiếu Mô hình mờ TSK hướng dữ liệu trích xuất từ máy học Véc-tơ hỗ trợ Mô hình tích hợp Tri thức tiên nghiệm với mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ Mô hình tích hợp nhiều giai đoạn cho bài toán dự báo giá cổ phiếu 5.2. Phạm vi nghiên cứu: Nâng cao hiệu quả dự báo giá cổ phiếu dựa trên mô hình mờ dự báo hồi quy dựa trên việc tích hợp tri thức tiên nghiệm với mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ. 6. Nội dung nghiên cứu Đề tài được tiến hành thực hiện theo các nội dung và tiến độ cụ thể như sau: ST Các nội dung, công việc Sản phẩm Thời gian (bắt đầu-kết Người thực hiện T thực hiện thúc) 1 Nghiên cứu mô hình hồi quy và Báo cáo 02/17 - Nguyễn Đức Hiển bài toán dự báo giá cổ phiếu 03/17 Nghiên cứu giải pháp trích xuất Báo cáo 04/17 - Nguyễn Đức Hiển 2 mô hình mờ từ máy học Véc-tơ 05/17 hỗ trợ 3 Giải pháp tích hợp Tri thức tiên Thuật toán 06/17 - Nguyễn Đức Hiển nghiệm với mô hình mờ trích và số liệu 07/17 xuất từ máy học Véc-tơ hỗ trợ thực nghiệm 4 Mô hình tích hợp nhiều giai đoạn Mô hình 08/16 - Nguyễn Đức Hiển cho bài toán dự báo giá cổ phiếu 09/16
5 5 Thực nghiệm cho một số mã cổ Số liệu 10/16 – Nguyễn Đức Hiển phiếu thực 12/16 nghiệm Trong các chương tiếp theo sau đây của báo cáo, chúng tôi sẽ trình bày những kết quả nghiên cứu chính về lý thuyết và thực nghiệm đã thực hiện được. Chương 1 sẽ giới thiệu tóm lượcvề mô hình hồi quy, bài toán dự báo chõi thời gian và bài toán dự báo giá cổ phiếu, chương 2 sẽ trình bày sơ lượt về mô hình mờ TSK, mô hình máy học Véc-tơ hõ trợ hồi quy và giải pháp trích xuất mô hình mò từ máy học véc-tơ hỗ trợ, chương 3 sẽ trình bày về giải pháp tích hợp tri thức tiên nghiệm vào việc học mô hình mờ TSK dựa trên máy học véc-tơ hỗ trợ hồi quy, chương 4 trình bày mô hình tích hợp đề xuất và các kết quả thực nghiệm; và cuối cùng là kết luận và một số kiến nghị rút ra từ kết quả của đề tài.
6 Chương 1. MÔ HÌNH HỒI QUY VÀ BÀI TOÁN DỰ BÁO GIÁ CỔ PHIẾU 1. Mô hình hồi quy 1.1. Mô hình hồi quy tuyến tính cổ điển Mô hình hồi quy tuyến tính cổ điển là một cách xem xét bản chất và hình thức của mối quan hệ giữa hai hay nhiều biến số. Ở đây chúng tôi chỉ chỉ xem xét trường hợp mô hình hai biến. Trong đó Y là biến phụ thuộc và X là biến độc lập (hay còn gọi là biến giải thích). Như vậy, chúng ta muốn giải thích/dự báo giá trị của Y theo các giá trị khác nhau của X. Giả sử, X và Y có mối quan hệ tuyến tính như sau: ሺ푌푡ሻ = 훽0 + 훽1 푡 ሺ1.1ሻ Trong đó, ሺ푌푡ሻ là giá trị trung bình có điều kiện của 푌푡 theo 푡, và 훽0, 훽1 là các tham số chưa biết của tổng thể (t ký hiệu theo thông lệ dữ liệu chuỗi thời gian cho quan sát vào thời điểm t của biến quan sát). Phương trình (1.1) được gọi là phương trình hồi quy tổng thể. Giá trị thực 푌푡 sẽ không phải luôn luôn bằng giá trị kỳ vọng ሺ푌푡ሻ, vì vậy 푌푡 có thể được thể hiện như sau: 푌푡 = ሺ푌푡ሻ + 푡 푌푡 = 훽0 + 훽1 푡 + 푡 ሺ1.2ሻ Trong đó, 푡 được gọi là hạng nhiễu ngẫu nhiên. Và 푡 luôn tồn tại do các nguyên nhân như bỏ sót biết giải thích, sai dạng mô hình do bỏ qua các tác động trễ, sai dạng hàm, lỗi đo lường, hoặc do đơn giản hóa mô hình bằng cách tổng hợp một số biến khác nhau thành một biến giải thích duy nhất. Các tham số hồi quy 훽0, 훽1 được ước lượng bằng phương pháp bình phương tối thiểu: ∑(푌푡 − 푌̂푡) = min ሺ1.3ሻ Từ đó ta có hệ phương trình sau: ̂ ̂ ∑ 푌푡 = 푛훽0 + 훽1 ∑ 푡 { ሺ1.4ሻ ̂ ̂ 2 ∑ 푡푌푡 = 훽0 ∑ 푡 + 훽1 ∑ 푡 Trong đó n là số quan sát trong mẫu. Giải hệ phương trình này chúng ta xác định được các tham số hồi quy β0, β1 ước lượng.
7 1.2. Mô hình hồi quy phi tuyến Là các dạng mô hình hồi quy phi tuyến nói lên mức phụ thuộc của một biến phụ thuộc với một hay nhiều biến độc lập mà phương trình của mô hình hồi quy có dạng phi tuyến tính đối với các hệ số. Xét mô hình hồi quy tương quan giữa hai biến X và Y. Trong đó Y là biến phụ thuộc và X là biến độc lập.  Mô hình Parabol: Hàm hồi quy có dạng như sau: 2 Yt = β0 + β1Xt + β2Xt ሺ1.5ሻ Áp dụng phương pháp bình phương cực tiểu sẽ có hệ phương trình sau để các định các tham số hồi quy ước lượng 훽0, 훽1, 훽2: ̂ ̂ ̂ 2 ∑ 푌푡 = 푛훽0 + 훽1 ∑ 푡 + 훽2 ∑ 푡 ̂ ̂ 2 ̂ 3 ∑ 푡푌푡 = 훽 ∑ 푡 + 훽 ∑ 푡 + 훽 ∑ 푡 ሺ1.6ሻ 0 1 2 ∑ 2푌 = 훽̂ ∑ 2 + ̂훽 ∑ 3 + 훽̂ ∑ 4 { 푡 푡 0 푡 1 푡 2 푡 Phương trình Parabol bậc 2 được dùng trong trường hợp khi biến độc lập X tăng (giảm) với lượng đều nhau thì biến phụ thuộc Y biến động với lượng không đều.  Mô hình Hypebol: Hàm hồi quy có dạng như sau: 훽1 Yt = β0 + ሺ1.7ሻ 푡 Áp dụng phương pháp bình phương cực tiểu sẽ có hệ phương trình sau để các định các tham số hồi quy ước lượng β0, β1: 1 ∑ 푌 = 푛훽̂ + 훽̂ ∑ 푡 0 1 푡 ሺ1.8ሻ 1 1 1 ̂ ̂ ∑ 푌푡 = 훽0 ∑ + 훽1 ∑ 2 { 푡 푡 푡 Phương trình hypebol được dùng trong trường hợp trị số của biến độc lập X tăng thì trị số của biến phụ thuộc Y giảm với tốc độ không đều.  Mô hình hàm mũ: Hàm hồi quy có dạng như sau: Yt = β0훽1 ሺ1.9ሻ
8 Áp dụng phương pháp bình phương cực tiểu sẽ có hệ phương trình sau để các định các tham số hồi quy ước lượng β0, β1: ̂ ̂ ∑ 푙푛 푌푡 = 푛 푙푛 훽0 + 푙푛 훽1 ∑ 푡 { ሺ1.10ሻ ̂ ̂ 2 ∑ 푡 푙푛 푌푡 = ln 훽0 ∑ 푡 + ln 훽1 ∑ 푡 1.3. Mô hình hồi quy tuyến tính đa bội Thông thường trong các mối quan hệ trong bài toán thực tế, biến phụ thuộc, Y, phụ thuộc vào nhiều biến giải thích khác nhau. Do đó, chúng ta cần phải mở rộng phân tích hồi quy cho trường hợp tổng quát hơn. Hàm hồi quy tổng thể ngẫu nhiên với k biến có thể được biểu diễn như sau: 푌푡 = 훽1 + 훽2 2푡 + ⋯ + 훽 푡 + 푡 푣ớ푖 푡 = 1, 2, 3, , 푛 (1.11) Trong đó, 훽1 là hệ số cắt,훽 2, , 훽 là các hệ số hồi quy riêng, 푡 là hạng nhiễu ngẫu nhiên, và 푡 là quan sát thứ 푡, 푛 được xem là quy mô toàn bộ của tổng thể. Phương trình (2.11) cũng được chia thành hai thành phần: (1) Thành phần xác định E(푌푡/ 2푡,, 3푡, , 푡ሻ, nghĩa là giá trị trung bình có điều kiện của Y theo các giá trị cho trước của các X, và (2) Thành phần ngẫu nhiên 푡 đại diện cho tất cả các yếu tố khác ngoài các biến 2푡,, 3푡, , 푡 có ảnh hưởng lên 푌푡. 2. Bài toán dự báo chuỗi thời gian Về cơ bản, mục tiêu của dự báo chuỗi thời gian là để ước tính một số giá trị trong tương lai dựa vào mẫu dữ liệu hiện tại và trong quá khứ. Về mặt toán học có thể biểu diễn như sau [22]: x̂ሺt + ∆tሻ = fሺxሺt − aሻ, xሺt − bሻ, xሺt − cሻ, ሻ, ሺ1.12ሻ trong đó, với ví dụ cụ thể này, x̂ là giá trị dự đoán của một chuỗi thời gian rời rạc x. Mục tiêu của dự báo chuỗi thời gian là tìm một hàm fሺxሻ sao cho giá trị dự đoán x̂ của chuỗi thời gian tại một thời điểm trong tương lai là không thiên lệch (unbiased) và nhất quán (consistent). Lưu ý rằng thước đo độ tốt của mô hình dự báo chính là hiệu quả và độ sai lệch (bias). Giới hạn Cramér-Rao cho biết giới hạn dưới cho phương sai của ước lượng độ không thiên lệch. Nếu ước lượng độ không thiên lệch đạt đến giới hạn này thì có thể nói mô hình dự đoán là hiệu quả [19].
9 Ước lượng thường rơi vào 2 loại là tuyến tính (linear) và không tuyến tính (nonlinear). Trong nhiều thập niên qua, rất nhiều tài liệu viết về kỹ thuật dự đoán tuyến tính: dự đoán ước lượng một giá trị trong tương lai dựa vào sự kết hợp tuyến tính của các giá trị trong quá khứ và hiện tại. Thực tế thì việc dự đoán chuỗi thời gian trong thế giới thực thường không rơi vào kiểu dự đoán tuyến tính mà lại là mô hình dự đoán không tuyến tính. Như đã đề cập ở phần trước, vấn đề dự báo theo chuỗi thời gian, mà đặc biệt là vấn đề dự báo giá cổ phiếu đã và đang thu hút được nhiều sự quan tâm nghiên cứu của các nhà khoa học. Những nghiên cứu phổ biến hiện nay cho vấn đề dự báo thị trường chứng khoán chủ yếu là khai phá dữ liệu, ứng dụng các mô hình máy học thống kê [1][3], như mạng nơ-ron nhân tạo [7][16], máy học véc-tơ hỗ trợ [8], mô hình markov ẩn (HMM – Hidden Markov Model) [17]. Những hướng nghiên cứu cải tiến mô hình dự đoán theo kiểu kết hợp nhiều phương thức học khác nhau, kết hợp mô hình mờ dạng luật (fuzzy models) cũng có thể được tìm thấy trong [4], [9], [11][19]. 3. Bài toán dự báo giá cổ phiếu Như đã trình bày ở phần trước, vấn đề dự báo dữ liệu chuỗi thời gian tài chính, mà cụ thể là dự báo giá cổ phiếu hiện nay chủ yếu được tiếp cận dưới hai dạng, đó là dự báo giá cổ phiếu hoặc xu hướng của giá cổ phiếu sau n-ngày [6], [15]. Có thể nói rõ hơn đó là dựa vào thông tin giá cổ phiếu trong quá khứ và hiện tại để dự báo xu hướng hoặc giá cổ phiếu trong tương lai sau n-ngày. Trong thực tế vấn đề dư báo giá cổ phiếu được các chuyên gia phân tích tài chính dư đoán dựa vào rất nhiều yếu tố, ví dự như: giá cổ phiếu trong quá khứ, tình hình kinh tế vĩ mô, tình hình chính trị, tình hình hoạt động doanh nghiệp, chu kỳ tăng trưởng, chu kỳ trả lãi, Tuy nhiên, trong nghiên cứu này chúng tôi chỉ giới hạn lựa chọn thông tin giá cổ phiếu trong quá khứ và hiện tại để phân tích dự báo. Theo mô hình dự báo giá cổ phiếu được đề xuất bởi Cao và Tay [8], bài toán đặt ra là dự báo giá cổ dự đoán giá cổ phiếu sau thời gian 5-ngày. Tuy nhiên việc dự đoán giá cổ phiếu cụ thể trong từng ngày thực sự không có ý nghĩa trong việc kinh doanh
10 cổ phiếu, đồng thời có những trường hợp giá cổ phiếu tăng giảm với biên độ cao cũng gây nhiều khó khăn cho mô hình dự đoán. Vì vậy giá đóng phiên hàng ngày ban đầu được chuyển đổi thành RDP-n (Relative Difference in Percentage of price) là giá trị tính theo tỷ lệ % khác biệt của giá đóng phiên so với n-ngày trước đó. Như vậy, giá trị dự báo cụ thể của bài toán dự báo giá cổ phiếu trong trường hợp này là RDP+5. Các thuộc tính dữ liệu đầu vào được chọn gồm bốn giá trị RDP, được thể hiện cụ thể trong bảng I. Ngoài ra còn có một thuộc tính dữ liệu EMA100 được xác định bằng cách trừ giá đóng phiên của ngày hiện tại cho giá trị trung bình trượt của 100 ngày (100-day exponential moving average) ( 100ሺ푖ሻሻ. EMA100 được dùng để duy trì càng nhiều các thông tin ẩn chứa trong giá đóng phiên càng tốt, vì việc chuyển đổi giá đóng phiên ban đầu sang giá trị RPD có thể đã loại bỏ một số thông tin hữu ích. Bảng I. Công thức tính toán các thuộc tính lựa chọn. Ký hiệu Thuộc tính Công thức tính ̅̅̅̅̅̅̅̅̅̅̅̅̅ x1 EMA100 Pi − EMA100ሺiሻ x2 RDP-5 (Pሺiሻ − Pሺi − 5ሻ)/Pሺi − 5ሻ ∗ 100 x3 RDP-10 (Pሺiሻ − Pሺi − 10ሻ)/Pሺi − 10ሻ ∗ 100 x4 RDP-15 (Pሺiሻ − Pሺi − 15ሻ)/Pሺi − 15ሻ ∗ 100 x5 RDP-20 (Pሺiሻ − Pሺi − 20ሻ)/Pሺi − 20ሻ ∗ 100 y RDP+5 ሺP̅̅ሺ̅i̅̅+̅̅̅5̅̅ሻ − P̅̅ሺ̅̅i̅ሻሻ/P̅̅ሺ̅̅i̅ሻ ∗ 100 ̅̅̅̅̅ ̅̅̅̅̅̅̅̅̅̅̅ Pሺiሻ = EMA3ሺiሻ Trong đó, Pሺiሻ là chỉ số giá đóng phiên của ngày thứ i, và EMAmሺiሻ là m-day exponential moving average của giá đóng phiên ngày thứ i. Thuộc tính đầu ra của của mô hình dự đoán là RPD+5 bằng cách làm mịn giá đóng phiên với giá trị trung bình trượt của 3 ngày. Về mặt toán học có thể biểu diễn bài toán dự báo giá cô phiếu trong trường hợp này như sau: = fሺx1, x2, x3, x4, x5ሻ ሺ1.13ሻ
11 Chương 2. XÂY DỰNG MÔ HÌNH MỜ TSK TỪ MÁY HỌC VÉC-TƠ HỖ TRỢ 1. Mô hình mờ Mô hình mờ (fuzzy models) hay cụ thể là mô hình dựa treen các luật mờ (fuzzy rule-based models) là cơ cấu tính toán dựa trên các khái niệm của lý thuyết tập mờ, các tập luật “IF-THEN” mờ, cùng với cơ chế suy diễn mờ [9][12]. Lý thuyết tập mờ lần đầu tiên được Lotfi.A.Zadeh, một giáo sư thuộc trường Đại học Caliornia, Berkley, giới thiệu trong một công trình nghiên cứu vào năm 1965. Lý thuyết tâp mờ bao gồm: logic mờ, số học mờ, quy họach toán học mờ, hình học tô-pô mờ, lý thuyết đồ thị mờ, và phân tích dữ liệu mờ, mặc dù thuật ngữ logic mờ thường được dùng chung cho tất cả. Lý thuyết tập mờ chính là công cụ toán học và logic để thiết lập nên các khâu cơ bản trong hoạtt động của một mô hình mờ. Về tổng thể, mỗi mô hình mờ nói chung đều bao gồm các đầu vào (inputs), đầu ra (output) cùng với một bộ xử lý. Bộ xử lý thực chất là một ánh xạ phản ánh sự phụ thuộc của biến đầu ra hệ thống đối với các biến đầu vào. Các biến đầu vào nhận giá trị rõ, đầu ra có thể là một tập mờ hoặc một giá trị rõ. Quan hệ ánh xạ của đầu ra đối với các đầu vào mô hình mờ được mô tả bằng một tập luật mờ, thay vì một hàm số tường minh. Cụ thể hơn, cấu trúc cơ bản của một mô hình mờ bao gồm năm thành phần chủ yếu (Hình 1): Hình 1. Cấu trúc cơ bản của một mô hình mờ
12 - Cơ sở luật (rule base) nơi chứa đựng tập các luật mờ “IF-THEN”, thực chất là tập các quy tắc biểu diễn mối quan hệ giữa các biến đầu vào và đầu ra sử dụng giá trị ngôn ngữ (linguistic terms). - Bộ tham số mô hình quy định hình dạng hàm thuộc của giá trị ngôn ngữ được dùng để biểu diễn biến mờ và các luật mờ. - Cơ chế suy diễn (reasoning mechanism) có nhiệm vụ thực hiện thủ tục suy diễn mờ dựa trên cơ sở tri thức và các giá trị đầu vào để đưa ra một giá trị dự đoán ở đầu ra. - Giao diện mờ hóa (fuzzification interface) thực hiện chuyển đổi các đầu vào rõ thành mức độ trực thuộc các giá trị ngôn ngữ. - Giao diện khử mờ (defuzzification interface) thưc hiện chuyển đổi kết quả suy diễn mờ thành giá trị đầu ra rõ. Nhìn chung cốt lõi cơ bản của một mô hình mờ vẫn là cơ sở tri thức của mô hình đó, mà cụ thể đó là hệ luật mà và lập luận (hay suy diễn). Về cơ bản có hai cách xây dựng cơ sở tri thức của mô hình mờ: Thứ nhất, thu thập tri thức dựa trên kinh nghiệm của các chuyên gia, được phát biểu dưới dạng các luật, các quy tắc, gọi chung là tri thức chuyên gia (Expert knowledge); Thứ hai là tích lũy, tổng hợp và hoàn thiện cơ sở tri thức dựa trên việc khám phá tri thức từ dữ liệu thực tế, gọi là tri thức dữ liệu (Data knowledge). Theo hướng tiếp cận đầu tiên, chất lượng hoạt động của mô hình phụ thuộc vào chất lượng tri thức mà chuyên gia lĩnh vực cung cấp. Nếu người lập mô hình khai thác tri thức từ một chuyên gia có kinh nghiệm, hiểu rõ lĩnh vực thì mô hình thu được sẽ có độ tin cậy cao. Tuy nhiên, tiêu chuẩn thế nào là một chuyên gia vẫn là chủ đề đang bàn cãi, và do đó, giữa những chuyên gia có thể có những đánh giá khác nhau về cùng một vấn đề. Nghĩa là tính thống nhất trong các quy tắc, các luật từ kinh nghiệm con người là hạn chế, chưa kể tới tính đúng sai. Thêm vào đó, bản thân người chuyên gia đôi khi gặp khó khăn khi diễn đạt tường minh tri thức của mình thành các luật, các quy tắc. Những điều trên khiến cho quá trình thu thập tri thức từ kinh nghiệm con người trở nên rất phức tạp mà bản thân người lập mô hình phải gánh vác.
13 Hướng tiếp cận thứ hai có cách nhìn hoàn toàn khác khi xây dựng cơ sở tri thức cho mô hình. Dựa trên những dữ liệu thu thập từ thực nghiệm khách quan, các thuật toán phân cụm, phân lớp, các mô hình máy học thống kê, sẽ được áp dụng để trích rút ra được các tri thức, các quy luật hay khuynh hướng dữ liệu để xây dựng cơ sở tri thức. Rõ ràng, việc thu thập các số liệu thực nghiệm dễ dàng hơn nhiều so với thu thập tri thức của chuyên gia con người. Mà xét đến cùng, kinh nghiệm của chuyên gia cũng được hình thành tích lũy từ chính những quan sát trên thực nghiệm. Thêm vào đó, với một tập dữ liệu thực nghiệm đúng đắn, đầy đủ và toàn diện, tri thức thu được là khách quan và có tính nhất quán cao. Những mô hình mờ được xây dựng theo hướng tiếp cận này gọi là mô hình mờ hướng dữ liệu (data driven model). Nhiều nghiên cứu đã được công bố chứng tỏ rằng những mô hình mờ hướng dữ liệu đã mang lại hiệu quả trong việc giải quyết các bài toán nhận dạng, điều khiển, phân tích dự đoán, dựa vào các kỹ thuật phân cụm, phân lớp, hay hồi quy. Các mô hình mờ dạng luật có thể chia làm 2 dạng cơ bản đó là mô hình mờ dạng Mamdani và mô hình mờ dạng Takagi-Sugeno [12][27]. 1.1. Mô hình mờ Mamdani Mô hình mờ dạng Mamdani [12][27]: được đề xuất với mục tiêu ban đầu là điều khiển tổ hợp nồi hơi và động cơ hơi nước thông qua một tập luật dạng ngôn ngữ thu được từ những thao tác viên con người có kinh nghiệm. Đây là dạng mô hình điển hình nhất, với bộ luật bao gồm các luật mờ mà phần tiền đề và phần kết luận đều là các tập mờ, và biểu diễn bởi một hàm thuộc giải tích. Trong dạng này, có hai phương pháp lập luận được xây dựng: Phương pháp thứ nhất, theo truyền thống, xem mỗi luật là một quan hệ mờvà kết nhập chúng thành một quan hệ mờ chung R, đóng vai trò là một toán tử. Lập luận tức là tìm kiếm đầu ra B′ cho mỗi đầu vào A′, B′= R(A′). Với rất nhiều cách chọn các phép t-norm, t-conorm và kéo theo để tính toán, mỗi cách chọn như vậy sẽ cho kết quả B′ khác nhau. Nhìn chung không thể nói cách chọn các phép toán như thế nào là tốt nhất mà phụ thuộc vào từng bài toán cụ thể và trực quan cảm nhận của người giải bài toán đó. Điều này rất phù hợp với lập luận xấp xỉ và tạo tính mềm dẻo trong ứng dụng của phương pháp. Trong phương pháp lập luận thứ hai,
14 mỗi luật mờ được xem như một điểm trong không gian ngôn ngữ, xây dựng các ánh xạ định lượng ngữ nghĩa cho các giá trị ngôn ngữ để chuyển các điểm đó về không gian thực tạo thành một “siêu lưới”. Thực hiện nội suy trên siêu lưới này để tìm kết quả đầu ra đối với một đầu vào cho trước. Với mô hình mờ Mamdani, các luật mờ ngôn ngữ được biểu diễn như sau: j j j Rj: IF x1 is A1 and x2 is A2 and and xn is An THEN z is Cj , với j = 1, 2, , m Trong đó đój xiሺi = 1,2, nሻ là các biến điều kiện; z là các biến quyết định của j hệ thống; Ai và Cj là những thuật ngữ ngôn ngữ (giá trị ngôn ngữ - linguistic terms) j xác định bởi hàm thành viên (membership functions) tương ứng μ ሺxiሻ và μCjሺzሻ. Ai 1.2. Mô hình mờ Takagi-Sugeno Mô hình mờ dạng TSK [12][13][27]: còn được gọi là mô hình Takagi-Sugeno, được đề xuất bởi Takagi, Sugeno, và Kang trong một nỗ lực nhằm phát triển cách tiếp cận mang tính hệ thống đối với quá trình sinh luật mờ từ tập dữ liệu vào-ra cho trước. Mô hình mờ TSK được cấu thành từ một tập các luật mờ phần kết luận của mỗi luật này là một hàm (không mờ) ánh xạ từ các tham số đầu vào của mô hình tới tham số đầu ra mô hình. Tham số của các hàm ánh xạ này có thể được đánh giá thông qua các giải thuật nhận dạng (identification algorithms) như phương pháp bình phương nhỏ nhất (least-squares methods) hay bộ lọc Kalman (Kalman filter) [12][25]. Các phương pháp lập luận cũng được xây dựng trong dạng này: Thứ nhất, luật có mức “đốt cháy” dữ liệu đầu vào cao nhất sẽ được chọn và kết quả lập luận là phần kết luận của luật đó. Đây gọi là phương pháp lập luận single-winner-rule. Thứ hai, các luật đóng vai trò “bầu cử” (vote) cho mẫu dữ liệu đối với lớp của vế phải luật dựa trên mức đốt cháy của luật đối với dữ liệu đó, lớp nào có tổng mức đốt cháy cao nhất sẽ được dùng để phân lớp cho dữ liệu đầu vào tương ứng. Phương pháp lập luận này gọi là weighted-vote. Hệ luật mờ dạng Tagaki-Sugeno cùng với hai phương pháp lập luận single-winner-rule và weighted-vote khá trực quan, không phải khử mờ kết quả lập luận, rất phù hợp trong việc xây dựng các mô hình ứng dụng của một số bài toán trong khai phá dữ liệu như nhiều tác giả đã nghiên cứu.
15 Với mô hình mờ TSK, các luật mờ (fuzzy rules) được biểu diễn ở dạng “IF – THEN”, là cơ sở của phép suy luận mờ [12][13][22]. Giả sử có m luật mờ được biểu diễn như sau: j j j Rj: IF x1 is A1 and x2 is A2 and and xn is An THEN z = gjሺx1, x2, , xnሻ , với j = 1, 2, , m Trong đó xiሺji = 1,2, nሻ là các biến điều kiện; z là các biến quyết định của hệ j thống mờ được xác định bởi hàm không mờ gjሺ. ሻ; Ai là những thuật ngữ ngôn ngữ xác định bởi hàm thành viên tương ứng μ j ሺxiሻ. Lưu ý, μ j ሺxiሻ được định nghĩa như Ai Ai sau: n μ j ሺx ሻ = ∏ μ j ሺx ሻ ሺ2.1ሻ A i A i i=1 i Quá trình suy luận được thực hiện như sau: 1) Kích hoạt các giá trị thành viên. n ∏ μ j ሺx ሻ ሺ2.2ሻ A i i=1 i 2) Kết quả đầu ra của suy luận được tính như sau: m j n ∑j=1 z ቀ∏i=1 μ j ሺxiሻቁ Ai fሺxሻ = m n ሺ2.3ሻ ∑j=1 ∏i=1 μ j ሺxiሻ Ai j Trong đó, z là giá trị đầu ra của hàm gjሺ. ሻ. 2. Cơ sở lý thuyết Máy học Véc-tơ hỗ trợ 2.1. Máy học Véc-tơ hỗ trợ Máy học véc-tơ tựa SVM được Vapnik giới thiệu năm 1995, đây là mô hình học dựa trên lý thuyết học thống kê (Statistical Learning Theory) [6], và là một kỹ thuật được đề nghị để giải quyết cho các bài toán phân lớp. Lý thuyết cơ bản của máy học véc-tơ tựa cho vấn đề phân lớp có thể tóm tắt như sau: D Cho tập véctơ đầu vào xi ∈ R , ∀i ∈ [1, N] , và tập các giá trị nhãn lớp tuơng ứng yi ∈ {−1; +1} cho bộ phân lớp nhị phân. Hàm tuyến tính phân biệt hai lớp như sau:
16 fሺxሻ = wT. Φሺxሻ + b ሺ2.4ሻ trong đó, w là véctơ chuẩn của siêu phẳng phân cách, b là độ lệch, và Φ(x) là hàm ánh xạ từ không gian đầu vào sang không gian đặc trưng, Φሺxሻ: RD → RM (M > D). Mục tiêu của SVM là tìm một siêu phẳng tối ưu sao cho khoảng cách lề giữa hai lớp đạt giá trị cực đại (Hình 2). Hình 2. Hình ảnh phân lớp với SVM Bên cạnh đó, để đảm bảo tính tổng quát hóa cao, một biến lỏng (slack variable) được đưa vào để nới lỏng điều kiện phân lớp. Bài toán đưa đến việc giải quyết tối ưu có ràng buộc: N (2.5) 1 T min w w + C ∑ ξi w,b,ξ 2 i=1 T sao cho: yiሺw . Φሺxiሻ + bሻ ≥ 1 − ξi ξi ≥ 0, ∀i ∈ [1, N]. trong đó, C > 0 là tham số chuẩn tắc (regularization parameter), ξi là biến lỏng. Bài toán (2.5) có thể đựợc giải bằng phương pháp SMO (Sequential Minimal Optimization) [13]. Phương pháp này đưa đến giải bài toán đối ngẫu quy hoạch toàn phương (Quadratic Programming): (2.6) 1 T max 퐿ሺ훼ሻ ≡ ∑ 훼푖 − ∑ 훼푖훼푗 푖 푗Φሺ 푖ሻ . Φ( 푗) 훼 2 푖=1 푖,푗
17 N Thỏa mãn: 0 ≤ αi ≤ C, ∀i ∈ [1, N] và ∑i=1 αiyi = 0, với αi là các nhân tử Lagrange. Sau khi có được các giá trị αi từ bài toán (6), ta sẽ thu đươc các giá trị tối ưu w* và b* của siêu phẳng. Chỉ có các mẫu có αi ≥ 0 mới tham gia vào các véc tơ hỗ trợ (support vector). Cuối cùng, hàm quyết định phân lớp có dạng: N (2.7) T ∗ fሺxሻ = sgn (∑ αiyi ሺΦሺxiሻ . Φ(xj)ሻ + b ) i=1 T Gọi K(xi, xj) = Φሺxiሻ . Φ(xj) là hàm nhân của không gian đầu vào. Khi đó (2.7) được viết lại như sau: N (2.8) ∗ fሺxሻ = sgn (∑ αiyi 퐾( 푖, 푗) + b ) i=1 Theo đó, tích vô hướng trong không gian đặc trưng tương đương với hàm nhân K ở không gian đầu vào. Như vậy, thay vì tính trực tiếp giá trị tích vô hướng, ta thực hiện gián tiếp thông qua hàm nhân K. 2.2. Máy học Véc-tơ hỗ trợ cho vấn đề tối ưu hóa hồi qui Rất nhiều tác giả đã nghiên cứu phát triển máy học véc-tơ hỗ trợ cho bài toán tối ưu hóa hồi quy [1][2][15][19], đồng thời SVM cũng được sử dụng để khai phá luật mờ từ dữ liệu số [4][7][10][11][22]. Với vai trò giải quyết vấn đề tối ưu hóa hồi quy, lý thuyết cơ bản của SVM có thể được vắn tắt như sau [1][6][11]: Cho một tập dữ liệu huấn luyện {ሺx1, y1ሻ, , ሺxl, ylሻ} ⊂ 풳 × ℝ, trong đó 풳 xác định miền dữ liệu đầu vào.Với ε-Support Vector Regression, bài toán tối ưu hóa ràng buộc cần giải quyết là: l (2.9) 1 T ∗ min w w + C ∑ሺξi + ξi ሻ w,b,ξ,ξ∗ 2 i=1 T sao cho: ሺw . Φሺxiሻ + bሻ − yi ≤ ε − ξi, T yi − ሺw . Φሺxiሻ + bሻ ≤ ε − ξi, ∗ ξi, ξi ≥ 0, và i = 1, 2, , l Và đưa đến bài toán Quadratic Programming:
18 1 ∗ ∗ T (2.10) max − ∑(훼푖 − 훼푖 ሻሺ훼푗 − 훼푗 ) ሺΦሺ 푖ሻ . Φ( 푗)ሻ 훼,훼∗ 2 푖,푗 푙 푙 ∗ ∗ − ε ∑ሺ훼푖 + 훼푖 ሻ − ∑ yiሺ훼푖 + 훼푖 ሻ 푖=1 푖=1 Sao cho: l ∗ ∗ ∑ሺαi − αi ሻ = 0, and C ≥ αi, αi ≥ 0, i = 1, 2, , l ሺ2.11ሻ i=1 ∗ Trong đó, C là tham số chuẩn tắc, ε là sai số cho phép, ξi là biến lỏng, và αi, αi là những nhân tử Lagrange. Véc-tơ w có dạng: l ∗ w = ∑ሺαi − αi ሻ. 푖 ሺ2.12ሻ i=1 Và hàm quyết định là: 푙 ∗ T ሺ ሻ = ∑ሺ훼푖 − 훼푖 ሻ ሺΦሺ 푖ሻ . Φ( 푗)ሻ + ሺ2.13ሻ 푖=1 T Gọi K(xi, xj) = Φሺxiሻ . Φ(xj) là hàm nhân của không gian đầu vào; và hàm quyết định (2.13) được viết lại như sau: 푙 ሺ ሻ = ∑ሺ훼 − 훼∗ሻ퐾( , ) + 푖 푖 푖 푗 (2.14) 푖=1 ∗ Những điểm đầu vào xi với ሺαi − αi ሻ ≠ 0 được gọi là những véc-tơ hỗ trợ (Support Vector). 3. Sự tương tự giữa máy học Véc-tơ hỗ trợ và mô hình mờ Xét hàm đầu ra của mô hình mờ TSK (2.3) và hàm quyết định của mô hình máy học Véc-tơ hồi quy (2.14). Để (2.3) và (2.14) đồng nhất với nhau, trước tiên chúng ta phải đồng nhất giữa hàm nhân trong (2.14) và hàm thành viên trong (2.3). Ở đây, để thỏa mãn điều kiện Mercer [10] hàm thành viên Gauss được chọn làm hàm nhân; đồng thời giá trị của b trong (2.14) phải bằng 0. Hình 3 biểu diễn sự tương đương giữa SVM và mô hình mờ.
19 Hình 3. Sự tương đương giữa SVM và Mô hình mờ Khi hàm Gauss được chọn làm hàm thành viên và hàm nhân, đồng thời số luật mờ bằng với số véc-tơ hỗ trợ (m = l) thì (2.14) và (2.3) trở thành: l 2 ∗ 1 xi − x fሺxሻ = ∑ሺαi − αi ሻexp (− ( ) ) ሺ2.15ሻ 2 σi i=1 và 2 l j 1 xj − x ∑j=1 z exp (− ( ) ) 2 σj ሺ ሻ f x = 2 ሺ2.16ሻ l 1 xj − x ∑j=1 exp (− ( ) ) 2 σj Như cách biến đổi trong [10], hàm suy luận mờ (2.16) có thể viết lại như sau: l 2 1 xj − x fሺxሻ = ∑ zjexp (− ( ) ) ሺ2.17ሻ 2 σj j=1 Và chúng ta chọn: j ∗ z = ሺαi − αi ሻ ሺ2.18ሻ
20 Ngoài ra, có thể tiếp cận một cách khác là thiết lập hàm nhân của SVMs: 1 x − x 2 exp (− ቀ i ቁ ) 2 σi Kሺxi, xሻ = 2 ሺ2.19ሻ l 1 xi − x ∑i=1 exp (− ቀ ቁ ) 2 σi Như vậy quyết định (2.14) của SVMs trở thành 2 l ∗ 1 xi − x ∑i=1ሺαi − αi ሻexp (− ቀ ቁ ) 2 σi fሺxሻ = 2 ሺ2.20ሻ l 1 xi − x ∑i=1 exp (− ቀ ቁ ) 2 σi Khi đó chúng ta chỉ cần thiết lập giá trị zj của hàm suy luận mờ (2.3) bằng với ∗ ሺαi − αi ሻ, và số luật mờ m bằng với số SVs l, thì chắc chắn rằng đầu ra của SVMs (2.20) và đầu ra của hệ thống mờ (2.16) là đồng nhất với nhau. Lưu ý rằng biểu thức (2.19) chỉ có thể có, nếu số lượng véc-tơ hỗ trợ l được biết trước. 4. Trích xuất luật mờ từ dữ liệu dựa trên sự kết hợp máy học SVM và mô hình mờ [30] Trên cơ sở phân tích sự tương tự của SVMs và hệ thống mờ, thuật toán f-SVM đề xuất ở Hình 4 cho phép trích xuất các luật mờ từ SVMs [30]. Những tham số của hàm thành viên có thể được tối ưu hóa dùng những thuật toán gradient decent hoặc thuật toán di truyền (GAs). Trong trường hợp này, để nhận được tập mờ tối ưu, chúng tôi cập nhật giá trị các tham số của hàm thành viên theo các hàm thích nghi sau đây: ሺ − ሻ2 ሺ − ሻ2 휎 ሺ푡 + 1ሻ = 휎 ሺ푡ሻ훿휀 [ 푒 (− )] ሺ2.21ሻ 푖 푖 1,푖 휎3 2휎2 −ሺ − ሻ ሺ − ሻ2 ሺ푡 + 1ሻ = ሺ푡ሻ훿휀 [ 푒 (− )] ሺ2.22ሻ 푖 푖 1,푖 휎2 2휎2
21 Begin Khởi tạo các tham số của SVMs Centers : 푖, 푖 = 1. . Variances : 휎푖, 푖 = 1. . Trích xuất luật mờ từ SVMs IF x is Gaussmf( 푖, 휎푖) THEN y is B Tối ưu hóa ሺ − ሻ2 ሺ − ሻ2 휎 ሺ푡 + 1ሻ = 휎 ሺ푡ሻ + 훿휀 ቂ 푒 ቀ− ቁቃ 푖 푖 1,푖 휎3 2휎2 −ሺ − ሻ ሺ − ሻ2 ሺ푡 + 1ሻ = ሺ푡ሻ + 훿휀 ቂ 푒 ቀ− ቁቃ 푖 푖 1,푖 휎2 2휎2 End Hình. 4. Sơ đồ khối thuật toán f-SVM. Đối với máy học Véc-tơ hỗ trợ hồi quy, khi số lượng SVs tăng lên thì chúng ta có thể nhận được kết quả đường hồi quy có độ chính xác cao hơn. Tuy nhiên, điều này đồng nghĩa với việc số lượng SVs sẽ tăng lên, dẫn đến số luật mờ của mô hình trích xuất được cũng sẽ tăng lên tương ứng, làm cho tính “có thể diễn dịch được” của mô hình giảm đi [28][29][30]. Ở các phần tiếp theo chúng ta sẽ bàn luận rõ ràng hơn về vấn đề “có thể diễn dịch được” của hệ thống mờ và từ đó xác định những tri thức tiên nghiệm có thể tích hợp để có thể trích xuất các luật mờ “có thể diễn dịch được” từ máy học Véc-tơ hỗ trợ.
22 Chương 3. TÍCH HỢP TRI THỨC TIÊN NGHIỆM VÀO QUÁ TRÌNH HỌC MÔ HÌNH MỜ TSK 1. Điều kiện đảm bảo tính “có thể diễn dịch được” của mô hình mờ Tính “có thể diễn dịch được” (interpretability) là một trong những điểm khác biệt cơ bản giữa mô hình máy học thống kê, ví dụ là SVM, và hệ thống mờ [11][20]. Một hệ thống mờ yêu cầu phải cóđặc tính “có thể diễn dịch được”, điều này là khá rõ ràng nếu các luật mờ là được thu thập từ các chuyên gia con người. Tuy nhiên, đối với một hệ thống mờ được xây dựng dựa vào kết quả của việc học từ dữ liệu thông qua các thuật toán học tự động thì không dễ để có thể đảm bảo được đặc tính có thể hiểu được. Với xu hướng hiện nay, các hệ thống luật mờ được xây dựng dựa vào kết quả học từ dữ liệu trở nên tất yếu và khá phổ biến, chẳng hạn như dựa vào kết quả học của máy học Véc-tơ hỗ trợ; vấn đề đặt ra là làm thế nào để đảm bảo tính có thể diễn dịch được của hệ thống mờdựa trên dữ liệu. Trong phạm vi nghiên cứu này, chúng tôi phân tích một vài điều kiện để đảm bảo tính “có thể diễn dịch được” của hệ thống mờ như sau: Đầy đủ và đa dạng (Completeness and Diversity): Các phân hoạch mờ (fuzzy partition) của tất cả các biến trong hệ thống mờ phải đảm bảo tính đầy đủ và tính phân biệt được. Ngoài ra, số tập mờ trong trong một phân hoạch mờ cũng cần phải giới hạn. Điều kiện đảm bảo tính đầy đủ và phân biệt được sẽ cho phép gán một giá trị ngôn ngữ rõ ràng cho mỗi tập mờ trong một phân hoạch mờ. Và thông thường thì điều này sẽ kéo theo số lượng tập mờ trong một phân hoạch mờ sẽ là số nhỏ. Sự phân bố của các tập mờ có thể lượng hóa bằng độ đo sự tương tự (similarity) giữa các tập mờ láng giềng, được định nghĩa như sau [26]: Định nghĩa 5 (Similarity). Độ đo sự tương tự giữa các tập mờ là số đo khoảng cách theo công thức sau: 픐 (Ai ∩ Aj) S(Ai, Aj) = ሺ3.1ሻ 픐 ሺAiሻ + 픐 (Aj) − 픐 (Ai ∩ Aj) ሺ ሻ ሺ ሻ Trong đó 픐 A = ∫x∈X A x dx với X là tập vũ trụ.
23 Như ở phần trước đã đề cập, hàm thành viên Gauss được chọn để chuyển đổi đầu ra của máy học Véc-tơ hỗ trợ thành hệ thống mờ. Như vậy, nếu hàm thành viên là 1 ‖ −휇‖2 hàm Gauss 휇 = 푒 ቀ− ቁ, với 휇 là trung tâm và 휎 là phương sai, thì độ đo ሺ ሻ 2 휎2 sự tương tự giữa các hàm thành viên được xác định: 2 2 푆 ( 푖, 푗) = √( 푖 − 푗) +(휎푖 − 휎푗) ሺ3.2ሻ là tương đương với 픐 (Ai ∩ Aj) S(Ai, Aj) = ሺ3.3ሻ 픐 ሺAiሻ + 픐 (Aj) − 픐 (Ai ∩ Aj) Tức là, 푆1 > 푆1 nếu và chỉ nếu 푆1 > 푆2 Hiệu quả (Efficiency): Cấu trúc của hệ thống mờ càng nhỏ gọn càng tốt. Điều này có nghĩa rằng số lượng các biến ngôn ngữ sử dụng trong các luật mờ càng ít càng tốt. Thông qua các kỹ thuật lựa chọn các thuộc tính đầu vào ta có thể xây dựng một hệ thống mờ đảm bảo tính hiệu quả [21]. Nhất quán (Consistency): Các luật mờ trong một cơ sở luật phải có sự phù hợp với nhau và phù hợp với những tri thức tiên nghiệm sẵn có. Vấn đề không nhất quán của các luật mờ có thể rơi vào các trường hợp như sau: - Tồn tại hai hoặc nhiều hơn hai quy tắc mờ được định nghĩa trên các sự kiện vào tương tự nhau, nhưng kết luận thì khác nhau. Ví dụ có 2 quy tắc mờ được xác định tương ứng trên 1 và 2; kết luận của chúng tương ứng là 1 và 2. Nếu 푆ሺ 1, 2ሻ ≫ 푆ሺ 1, 2ሻ thì 2 luật này có sự kiện vào tương tự nhau, nhưng kết luận thì rất khác nhau. Hình thức không nhất quán này thường xuyên xảy ra đối với mô hình mờ hướng dữ liệu. - Tồn tại các quy tắc mờ với các phần kết luận của chúng trái ngược nhau. Ví dụ các phần kết luận của các luật mờ không thể xảy ra đồng thời. Thông thường đối với các hệ thống mờ trích xuất từ dữ liệu, các điều kiện đảm bảo tính “có thể diễn dịch được” của hệ thống ở trên, sẽ bị suy giảm. Trong phần tiếp
24 theo chúng ta sẽ xem xét những điều kiện nào có thể hổ trợ được trong quá trình học của máy học Véc-tơ hỗ trợ khi trích xuất hệ thống mờ. 2. Tích hợp tri thức tiên nghiệm trong mô hình mờ dựa trên máy học véc- tơ hỗ trợ Vấn đề quan tâm của chúng ta ở đây là làm thế nào để có thể trích xuất được tập luật mờ từ máy học Véc-tơ hỗ trợ, sao cho tập luật mờ trích xuất được vẫn đảm bảo đặc tính “có thể diễn dịch được”. Chúng ta biết rằng, trong quá trình học mô hình mờ từ dữ liệu, máy học SVM đóng 2 vai trò: xác định cấu trúc của mô hình mờ và các tham số tương ứng. Cấu trúc của mô hình bao gồm: số hàm thành viên, trung tâm của các hàm thành viên; các thành phần này được chuyển đổi trực tiếp từ số lượng và vị trí của các SVs. Từ những điều kiện đảm bảo đặc tính “có thể diễn dịch được” cho hệ thống mờ ở trên, khi xét trong trường hợp cụ thể là hệ thống mờ được trích xuất từ máy học Véc-tơ hỗ trợ, các điều kiện sau đây cần phải được thỏa mãn: - Số lượng Support-vector phải được hạn chế. Như đã đề cập ở phần 3, số lượng SVs sẽ quyết định số lượng luật mờ được tạo ra. Chính vì vậy số lượng SVs cần được hạn chế để đảm bảo điều kiện trích xuất được một hệ thống mờ “có thể diễn dịch được”. - Những SVs dư thừa phải được loại bỏ. Điều kiện để xác định được SVs dư thừa là: nếu tồn tại hai hoặc nhiều hơn hai SVs trong cùng một vùng mà có độ đo sự tương tự các tập mờ là cao. Đối với mô hình máy học Véc-tơ hỗ trợ, số lượng và vị trí của các SVs là không thể xác định được trước khi huấn luyện mô hình. Như vậy để điều khiển số lượng và vị trí của các SVs, chúng ta sẽ phải điều chỉnh các tham số liên quan trong mô hình máy học Véc-tơ hỗ trợ. Trên cơ sở làm thỏa mãn hai điều kiện ở trên, chúng tôi đề xuất thuật toán SVM- IF, trong Hình 8, cho phép trích xuất được hệ thống mờ “có thể hiểu được” từ máy học Support-vector.
25 1. Procedure ModelExtraction(ℋ, k, tol) 2. Khởi tạo các giá trị tham số: , 휀, 휎, 푠푡푒 3. while error>tol do l ∗ 4. fሺxሻ = ∑i=1ሺαi − αi ሻ Kሺxi, xሻ + b ∗ ∗ 5. 푆 = {ሺ훼푖 − 훼푖 ሻ: ሺ훼푖 − 훼푖 ሻ ≠ 0, 푖 ∈ {0, , 푙}} 6. InterpretabilityTest(SV, n, σ, k) ′ − ′ 7. Điều chỉnh ma trận kernel: ′ = ቂ ቃ, − ′ ′ 〈 ሺ ሻ 〉 ′ 휑 푖 , 휑( 푗) 푣ớ푖 푖푗 = ∑푗〈휑ሺ 푖ሻ, 휑( 푗)〉 8. 푒 표 = [‖ ሺ ሻ − ℋ‖2] 9. 휀 = 휀 + 푠푡푒 10. end while ሺx−cሻ2 ሺx−cሻ2 11. σ ሺt + 1ሻ = σ ሺtሻ + δε ቂ exp ቀ− ቁቃ i i 1,i σ3 2σ2 −ሺx−cሻ ሺx−cሻ2 12. c ሺt + 1ሻ = c ሺtሻ + δε ቂ exp ቀ− ቁቃ i i 1,i σ2 2σ2 푙 ∗ ∑푖=1(훼푖−훼푖 )퐾ሺ 푖, ሻ 13. return ሺ ሻ = 푙 ∗ ∑푖=1(훼푖−훼푖 ) 14. end procedure 15. Procedure InterpretabilityTest(SV, n, σ, k) 16. repeat 17. Tính độ sự tương tự giữa các cặp tập mờ: 2 2 푆 ( 푖, 푗) = √( 푖 − 푗) +(휎푖 − 휎푗) ∗ ∗ 18. Lựa chọn môt cặp tập mờ 푖 và 푗 sao cho ∗ ∗ 푆 ( 푖 , 푗 ) = 푖,푗{푆 ( 푖, 푗)} ∗ ∗ 19. if 푆 ( 푖 , 푗 ) > then ∗ ∗ 20. Gộp cặp tập mờ 푖 và 푗 thành một tập mờ mới 21. end if 22. until không còn căp tập mờ nào có độ đo sự tương tự 푆 ( 푖, 푗) > 23. end procedure Hình 8. Thuật toán SVM-IF Đầu vào của thuật toán là tập dữ liệu ℋ, số đo sự tương tự k, và số đo độ sai biệt cho phép, tol, giữa giá trị mô hình thu được và dữ liệu đầu vào. Ba tham số liên quan đến thuật toán học của máy học Support-vector cần được xác định trước đó là C, 휀, và σ. Thủ tục ModelExtraction được chia thành hai phần. Phần đầu từ dòng 3 đến dòng 10, sử dụng một vòng lặp While để lặp lại việc sản sinh ra các Support-vectơ
26 cho đến khi thỏa mãn điều kiện “sai lệch giữa giá trị đầu ra của mô hình và dữ liệu vào nhỏ hơn hoặc bằng giá trị sai lệch cho phép, tol, cho trước”. Phần hai từ dòng 1 đến dòng 13, sử dụng hàm Kernel, cụ thể là hàm Gaussian, để sinh ra các tập mờ, đồng thời tối ưu hóa những tham số của các hàm thành viên. Tương tụ như thuật toán f-SVM, những tham số của hàm thành viên có thể được tối ưu hóa bằng cập nhật giá trị theo các hàm thích nghi (2.21), (2.22). Thủ tục ModelExtraction có sử dụng đến thủ tục InterpretabilityTest để kiểm tra G G độ đo độ tương tự, S (Ai, Aj), của hai tập mờ và gộp chúng lại nếu S (Ai, Aj) ≤ k. Dòng 17 và 18 cho phép tính toán độ đo độ tương tự và xác định hai tập mờ có độ tương tự lớn nhất. Dòng 19 đến dòng 21 cho phép kiểm tra để gộp các tập mờ có độ tương tự lớn nhất và lơn hơn giá trị cho trước, đồng thời cập nhật lại tập mờ mới. Việc kiểm tra và gộp các tập mờ sẽ được thực hiện lặp lại, mỗi lần gộp một cặp cho đến khi độ đo sự tương tự giữa tất cả các tập mờ không lớn hơn giá trị cho trước.
27 Chương 4. MÔ HÌNH TÍCH HỢP NHIỀU GIAI ĐOẠN CHO BÀI TOÁN DỰ BÁO GIÁ CỔ PHIẾU 1. Mô hình đề xuất Trong nghiên cứu này, chúng tôi giới thiệu mô hình đề xuất ứng dụng dự báo giá cổ phiếu được xây dựng chủ yếu dựa trên việc kết hợp giữa các thuật toán phân cụm SOM với mô hình mờ TSK trích xuất luật mờ từ máy học Véc-tơ hỗ trợ hồi quy (thuật toán SVM-IF) [23], [24], [25]. Đây là mô hình lai ghép các mô hình máy học nhằm nâng cao hiệu quả dự đoán và ứng dụng mô hình mờ hướng dự liệu vào bài toán dự đoán dữ liệu chuỗi thời gian tài chính. Sơ đồ khối của mô hình được thể hiện trong Hình 5. Huấn luyện Part 1 SVM-IF 1 Part 2 SVM-IF 2 Phân cụm Lựa chọn Dữ liệu dữ liệu Các tập thuộc tính dữ vào bằng liệu vào Part n-1 luật mờ SOM SVM-IF n-1 Part n SVM-IF n Dự đoán Part 1 Phân cụm Suy luận trên Các Giá trị dữ liệu tập luật mờ bằng dự đoán SOM Part n Hình 8. Mô hình dự đoán giá cổ phiếu kết hợp SOM và SVM-IF Trong mô hình này, thuật toán SOM [11][17] được dùng để gom những mẫu dữ liệu có phân bố thống kê gần giống nhau vào cùng một cụm (cluster); sau đó cứ mỗi cụm dữ liệu sẽ được dùng để huấn luyện cho một mô hình SVM-IF để trích xuất ra một tập luật “có thể diễn dịch được” tương ứng. Cuối cùng, các tập luật mờ trích xuất được sẽ được dùng để suy luận dự đoán kết quả.
28 1.1. Phân cụm dữ liệu đầu vào bằng SOM Gần đây, nhiều nghiên cứu của các tác giả khác đã đề xuất sử dụng SOM như là một giải pháp khá hiệu quả để phân cụm dữ liệu, đặc biệt là đối với dữ liệu thị trường chứng khoán [8], [16]. Trong nghiên cứu này, chúng tôi sử dụng SOM để phân dữ liệu đầu vào thành các cụm theo sự tương đương phân bố thống kê của các điểm dữ liệu. Kết quả phân cụm bởi SOM sẽ giúp giải quyết được hai vấn đề [8]: 1) Kích thước dữ liệu trong từng cụm sẽ nhỏ hơn làm tăng tốc độ học của mô hình. 2) Dữ liệu trong các cụm có sự tương đương trong phân bố thống kê, như vậy sẽ hạn chế được các trường hợp nhiễu. 1.2. Trích xuất các tập luật mờ bằng thuật toán SVM-IF Mỗi cụm dữ liệu vào đã được phân tách bằng SOM sẽ được đưa vào huấn luyện cho từng máy SVM-IF tương ứng để trích xuất các luật mờ. Các tập luật mờ trích xuất được từ các máy SVM-IF tương ứng với các cụm dữ liệu huấn luyện có thể được sử dụng để suy luận dự đoán giá cổ phiếu. Những luật mờ khai phá được từ dữ liệu đã được phân thành các cụm riêng biệt và được cải thiện tính “có thể diễn dịch được”, như vậy các chuyên gia con người có thể diễn dịch thành luật ngôn ngữ và từ đó có thể hiểu và đánh giá được các luật này. 1.3. Dự đoán giá cổ phiếu dựa trên các tập luật đã trích xuất được Các tập luật mờ trích xuất được từ các máy SVM-IF tương ứng với các cụm dữ liệu huấn luyện có thể được sử dụng để suy luận dự đoán giá cổ phiếu. Với những tập luật mờ được phân thành nhiều cụm với kích thước nhỏ sẽ làm giảm độ phức tạp của các thuật toán suy luận mờ. Bên cạnh đó, với các tập luật mờ “có thể diễn dịch được”, các chuyên gia con người có thể diễn dịch thành ngôn ngữ cho các tập luật này, và nhờ vậy có thể hiểu hơn và kiểm chứng được các tập luật dùng để suy diễn. 2. Kết quả thực nghiệm Để đánh giá mô hình đề xuất, chúng tôi xây dựng một hệ thống thử nghiệm dựa trên bộ công cụ Matlab. Thuật toán học SVM của thư viện LIBSVM được phát triển bởi nhóm của Chih-Chung Chang [3], được sử dụng để sản sinh ra các SVs từ dữ liệu
29 huấn luyện, làm cơ sở để xây dựng thuật toán trích xuất các luật mờ SVM-IF. Việc phân cụm dữ liệu đầu vào được thực hiện dựa trên bộ công cụ SOM được phát triển bởi Esa Alhoniemi và các đồng sự [11]. Sau cùng, chúng tôi sử dụng hàm AVALFIS trong thư viện công cụ Matlab Fuzzy Logic để suy luận dự báo giá cổ phiểu dựa vào các luật mờ sản xuất được. 2.1. Lựa chọn nguồn dữ liệu Nguồn dữ liệu thực nghiệm được chọn từ bốn mã cố phiếu của các tập đoàn và tổ chức tài chính lớn của Mỹ bao gồm: IBM Corporation stock (IBM), the Apple inc. stock (APPL), the the Standard & Poor’s stock index (S&P500), and the Down Jones Industrial Average index (DJI) (xem bảng II). Tất cả các dữ liệu trên được lấy từ nguồn sàn chứng khoán Yahoo Finance Bảng II. Nguồn dữ liệu thực nghiệm cho mô hình đề xuất Tên cổ phiếu Thời gian Dữ liệu Dữ liệu huấn thử luyện nghiệm 03/01/2000 - IBM Corporation stock (IBM) 2409 200 30/06/2010 03/01/2000 - Apple inc. stock (APPL) 2409 200 30/06/2010 03/01/2000 - Standard & Poor’s stock index (S&P500) 2028 200 23/12/2008 02/01/1991 - Down Jones Industrial Average index (DJI) 2352 200 28/03/2002 Các thuộc tính dữ liệu đầu vào và đầu ra được xác định theo các công thức tính toán được thể hiện trong Bảng I. 2.2. Thông số đánh giá mô hình Hiệu quả của các mô hình được so sánh và đánh giá dựa trên ba thông số, gồm NMSE (Nomalized mean squared error), MAE (mean absolute error), và DS (directional symmetry). Công thức tính toán cụ thể cho các thông số đánh giá được thể hiện trong bảng III. Trong đó NMSE và MAE đo lường độ lệch giữa giá trị thực tế và giá trị dự báo, DS đo lường tỷ lệ dự báo đúng xu hướng của giá trị RDP+5. Giá
30 trị tương ứng của NMSE và MAE là nhỏ và của DS là nhỏ chứng tỏ rằng mô hình dự báo tốt. Bảng III. Các thông số đo lường Metrics Calculation NMSE MAE DS n là tổng số mẫu dữ liệu y và ŷ là giá trị thực sự và giá trị dự đoán được 2.3. Phân tích kết quả thực nghiệm Bảng IV thể hiện tất cả 5 luật của một trong 6 phân cụm trích xuất được từ tập dữ liệu huấn luyện của mã cổ phiểu S&P500. So với số lượng luật trong 1 cụm khi sử dụng thuật toán f-SVM khi chưa tích hợp tri thức tiên nghiệm (>450 luật cho mỗi cụm) thì số luật thu được đã giảm đi rất nhiều. Điều này hoàn toàn phù hợp với mong muốn của chúng ta khi tối ưu hóa tập luật trich xuất được. Bảng IV. 5 luật trong 1 phân cụm trích xuất từ dữ liệu huấn luyện của cổ phiếu S&P500. Thứ tự Luật R1 IF x1=Gaussmf(0.09,-0.11) and x2=Gaussmf(0.09,-0.12) and x3=Gaussmf(0.09,-0.04) and x4=Gaussmf(0.09,-0.10) and x5=Gaussmf(0.09,-0.09) THEN y=0.10
31 R2 IF x1=Gaussmf(0.10,-0.01) and x2=Gaussmf(0.09,-0.06) and x3=Gaussmf(0.10,0.04) and x4=Gaussmf(0.10,-0.10) and x5=Gaussmf(0.10,-0.12) THEN y=0.57 R3 IF x1=Gaussmf(0.09,0.02) and x2=Gaussmf(0.10,0.02) and x3=Gaussmf(0.09,0.08) and x4=Gaussmf(0.10,-0.08) and x5=Gaussmf(0.10,-0.13) THEN y=-0.02 R4 IF x1=Gaussmf(0.10,-0.04) and x2=Gaussmf(0.10,-0.08) and x3=Gaussmf(0.10,0.02) and x4=Gaussmf(0.09,-0.08) and x5=Gaussmf(0.09,-0.11) THEN y=-0.29 R5 IF x1=Gaussmf(0.10,-0.03) and x2=Gaussmf(0.09,-0.06) and x3=Gaussmf(0.10,0.03) and x4=Gaussmf(0.09,-0.10) and x5=Gaussmf(0.09,-0.13) THEN y=-0.38 Bảng Va và Vb thể hiện kết quả so sánh các thông số đánh giá của mô hình đề xuất SOM+SVM-IF với các mô hình tích hợp SOM+AFIS, SOM+SVM (đề xuất trong [8][16]) và mô hình SOM+f-SVM đã đề xuất trong [7] khi dự đoán trên cùng 200 mẫu dữ liệu thử nghiệm của các mã cổ phiếu. Nhìn vào kết quả, chúng ta thấy, với cùng số phân cụm được chọn, các kết quả của mô hình đề xuất có cải thiện nhiều số với mô hình SOM+ANFIS, nhưng so với các mô hình SOM+SVM truyền thống và mô hình SOM+f-SVM thì mức độ cải thiện không đáng kế. Tuy nhiên, điểm khác biệt của mô hình đề xuất ở đây chính là số luật mờ của mô hình đề xuất đã giảm đi dáng kể: với mô hình đề xuất, kết quả huấn luyện dùng dữ liệu của mã cổ phiếu S&P500, số luật mờ cho cả 6 phân cụm là 5*6=30 luật, trong khi số luật mờ của mô hình SOM+f-SVM cùng với số SVs của mô hình SOM+SVM truyền thống là 1157. Điều này chứng tỏ mô hình đề xuất đã có sự cải thiện rất lớn về tốc độ suy diễn vì tập luật đã rút gọn, đồng thời việc đọc hiểu và diễn dịch tập luật này cũng dễ dàng hơn rất nhiều. Bảng Va. Kết quả thử nghiệm trên mô hình SOM+ANFIS và mô hình SOM+SVM. SOM + ANFIS SOM + SVM
32 Mã Số Số luật Số SVs cổ phân NMSE MAE DS NMSE MAE DS phiếu cụm IBM 6 1367 1.2203 0.0617 47.74 1157 1.1054 0.0564 48.05 APPL 55 1898 2.8274 0.0650 49.75 1423 1.0877 0.0474 52.27 SP500 6 # 1.7836 0.1421 48.24 1356 1.1100 0.1200 51.25 DJI 35 # 1.7602 0.1614 49.75 1144 1.0660 0.1104 50.86 Bảng Vb. Kết quả thử nghiệm trên mô hình SOM+f-SVM và mô hình SOM+SVM-IF đề xuất. Mã Số SOM + f-SVM SOM + SVM-IF cổ phân phiếu cụm Số luật NMSE MAE DS Số luật NMSE MAE DS IBM 6 1157 1.1028 0.0577 44.22 5*6 1.0324 0.0554 50.75 APPL 55 1323 1.1100 0.0445 52.76 5*55 1.0467 0.0435 53.27 SP500 6 1356 1.1081 0.1217 52.76 5*6 1.0836 0.1207 53.27 DJI 35 1144 1.0676 0.1186 50.25 5*35 1.0459 0.1181 51.76
33 KẾT LUẬN VÀ KIẾN NGHỊ Máy học Véc-tơ hỗ trợ hồi quy cho phép trích xuất ra các Support-vector làm cơ sở để sản sinh ra các luật mờ cho mô hình dự đoán hồi quy. Tuy nhiên nếu tăng tinh chính xác của mô hình SVM thì số luật mờ trong mô hình trích xuất được cũng tăng lên và tính “có thể diễn dịch được” cũng giảm đi. Mục tiêu của thuật toán đề xuất nhằm giải quyết được các điểm hạn chế của mô hình máy học Véc-tơ hỗ trợ đó là tính phức tạp và tính “có thể diễn dịch được”. Đề tài đã phân tích mối quan hệ tương đương giữa mô hình máy học Véc-tơ hỗ trợ và mô hình mờ. Bên cạnh đó, các điều kiện để cho một hệ thống mờ đảm bảo tính chất “có thể diễn dịch được” cũng được phân tích, từ đó xác định được những tri thức tiên nghiệm thích hợp dùng để tích hợp vào mô hình mờ dựa trên máy học Véc-tơ hỗ trợ nhằm đảm bảo đặc tính “có thể diễn dịch được” của mô hình. Trong nghiên cứu này, chúng tôi đã đề xuất thuật toán SVM- IF; thuật toán này cho phép điều chỉnh số lượng và vị trí các SVs học được từ máy học Véc-tơ hỗ trợ, để từ đó có thế trích xuất được hệ thống mờ đảm bảo đặc tính “có thể diễn dịch được”. Trong nghiên cứu này chúng tôi đã đề xuất một mô hình dự báo giá cổ phiếu dựa trên sự kết hợp của SOM và SVM-IF. Kết quả thực nghiệm trên dữ liệu thử nghiệm cho thấy mô hình đề xuất đã phần nào cải thiện hơn so với các mô hình đã đề xuất trước đó trong [7][8][16], thể hiện qua một số giá trị tốt hơn của các thông số NMSE, MAE và DS. Với số lượng lớn của dữ liệu chuỗi thời gian tài chính thì giải pháp kết hợp phân cụm dữ liệu đầu vào bằng SOM đã giúp cải thiện đáng kể thời gian thực hiện các thuật toán học và suy luận. Cải thiện rõ nhất của mô hình đề xuất là số lượng luật mờ trích xuất của mô hình đã được giảm đi rất nhiều, trong khi hiệu quả dự đoán vẫn đảm bảo. Với tập luật mờ trích xuất được trong mô hình đề xuất đã được phân thành từng cụm nhỏ, số lượng hạn chế, đảm bảo tính “có thể diễn dịch được” thì các chuyên gia con người trong lĩnh vực tương ứng, cụ thể là lĩnh vực chứng khoán, sẽ dễ dàng diễn dịch ngôn ngữ cho các luật này. Trong định hướng nghiên cứu tiếp theo, chúng tôi sẽ
34 phối hợp với những chuyên gia con người để phân tích, đánh giá tập luật mờ hướng dữ liệu này; từ đó sẽ có sự chọn lựa và thậm chí bổ sung thêm các luật chuyên gia để gia tăng giá trị sử dụng của tập luật. Trên cơ sở mô hình đề xuất, chúng tôi mong muốn hợp tác với các sinh viên, các chuyên gia phát triển phần mềm để phát triển những ứng dụng cụ thể và thiết thực giải quyết các bài toán dự đoán, dự báo trong thực tế, cụ thể như: chứng khoán, thời tiết, Chúng tôi xin chân thành cảm ơn.
i TÀI LIỆU THAM KHẢO [1] A.J. Smola and B. Scholkopf. A Tutorial on Support Vector Regression. NEUROCOLT2 echnical Report Series, NC2-TR- 1998-030, 1998. [2] B. Scholkopf, P. Bartlett, A. Smola and R. Williamson. Shrinking the Tube: A New Support Vector Regression Algorithm. NIPS Conference, Denver, Colorado, USA, November 30 - December 5, 1998. [3] Burges, C. J. C A tutorial on support vector machines for pattern recognition. datamining and knowledge discovery, 2(2), 955-974, 1998. [4] C. F. F. Carraro, M. Vellasco, R. Tanscheit. A Fuzzy-Genetic System for Rule Extraction from Support Vector Machines. IEEE, 2013. [5] Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen lin. A practical Guide to Support Vector Classification. (2010) [6] Corinna Cortes and Vladimir Vapnik. Support-Vector Networks. Machine Learning, 20, 273-297, 1995. [7] David Martens, Johan Huysmans, Rudy Setiono, Jan Vanthienen, Bart Baesens. Rule Extraction from Support Vector Machines - An Overview of issues and application in credit scoring. Studies in Computational Intelligence (SCI) 80, 33–63, 2008. [8] Dou, W., Ruan, S., Chen, Y., Bloyet, D., and Constans, J.-M. A framework of fuzzy information fusion for the segmentation of brain tumor tissues on RM images. Image and Vision Computing, vol. 25, no. 2, 164-171, 2007. [9] George Bojadjev, Maria Bojadjev. Fuzzy logic for Business, Finance, and Management. World Scientific Publishing Co. Pte. Ltd, 2007. [10] J.-H Chiang and P.-Y Hao. Support vector learning mechanism for fuzzy rule- based modeling: a new approach. IEEE Trans. On Fuzzy Systems, vol. 12, pp. 1-12, 2004. [11] J.L. Castro, L.D. Flores-Hidalgo, C.J. Mantas and J.M. Puche. Extraction of fuzzy rules from support vector machines. Elsevier. Fuzzy Sets and Systems, 158, 2057
ii – 2077, 2007. [12] John Yen, Reza Langari. Fuzzy logic: Intelligence, Control, and Information. Prentice hall, Uper dadle river, New Jersey, 1999. [13] J.-S. R. Jang and C.-T. Sun. Functional equivalence between radial basis function networks and fuzzy inference systems. IEEE Transactions on Neural Networks, vol. 4, no. 1, pp. 156-159, 1993. [14] Juan C. Figueroa-García, Cynthia M. Ochoa-Rey, José A. Avellaneda-González. Rule generation of fuzzy logic systems using a self-organized fuzzy neural network. Neurocomputing– ELSEVIER, 151, 955–962, 2015. [15] L.J.Cao and Francis E.H.Tay. Support vector machine with adaptive parameters in Financial time series forecasting. IEEE trans. on neural network,vol. 14, no. 6, 2003. [16] Lorenz E. N Deterministic nonperiodic flow. Journal of the Atmospheric Sciences, vol. 20, pp. 130–141, 1963. [17] M Delgado, F Herrera, E Herrera-Viedma, L Martin. Combining Numerical and Linguistic Information in Group Decision making. Journal of Information Sciences, 1996. [18] M.C. MacKey and L. Glass. Oscillation and chaos in physiological control systems. Science, vol. 197, pp. 287–289, 1997. [19] N. Ancona. Classification Properties of Support Vector Machines for Regression. Technical Report, RI-IESVCNR-Nr. 02/99. [20] Nahla Barakat, Andrew P. Bradley. Rule extraction from support vector machines: A review. Neurocomputing – ELSEVIER, 74, 178–190, 2010. [21] R. Sindelar and R. Babuska. Input selection for nonlinear regression models. IEEE Trans. on Fuzzy Systems, vol. 12, no. 5, 688-696, 2004. [22] S. Chen, J. Wang and D. Wang. Extraction of fuzzy rules by using support vector machines. IEEE, Computer society, pp. 438-441, 2008. [23] Serge Guillaume, Luis Magdalena. Expert guided integration of induced knowledge into a fuzzy knowledge base. Soft Comput, Springer-Verlag, 10: 773–
iii 784, 2006. [24] Stuart Rusell, Perter Norvig. Artificial Intelligence: A Modern Approach. Second Editor, Prentice Hall - Series in Artificial Intelligence, 2003. [25] Xianchang Wang, Xiaodong Liu, Witold Pedrycz, Lishi Zhang. Fuzzy rule based decision trees. Pattern Recognition– ELSEVIER, 48, 50–59, 2015. [26] Y. Jin and B. Sendhoff. Extracting interpretable fuzzy rules from RBF networks. Neural Processing Letters, vol. 17, no. 2, pp. 149-164, 2003. [27] Dương Thăng Long. Luận án tiến sĩ Toán học: Phương pháp xây dựng hệ mờ dạng luật với ngữ nghĩa dựa trên đại số gia tử và ứng dụng trong bài toán phân lớp. Viện Công nghệ Thông tin - Viện Khoa học và Công nghệ Việt Nam, 2010. [28] Duc-Hien Nguyen, Manh-Thanh Le. A two-stage architecture for stock price forecasting by combining SOM and fuzzy-SVM. International Journal of Computer Science and Information Security (IJCSIS), USA, ISSN: 1947-5500. No: Vol. 12 No. 8, 20-25, 2014. [29] Duc-Hien Nguyen, Manh-Thanh Le. Improving the Interpretability of Support Vector Machines-based Fuzzy Rules. Advances in Smart Systems Research, Future Technology Publications, ISSN: 2050-8662, No: Vol. 3 No. 1, 7 – 14, 3013. [30] Nguyễn Đức Hiển,: Ứng dụng mô hình máy học véc-tơ tựa (SVM) trong phân tích dữ liệu điểm sinh viên, Tạp chí Khoa và Công nghệ Đại học Đà Nẵng, Số 12(73), 33-37, 2013.
ĐẠI HỌC ĐÀ NẴNG CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập - Tự do - Hạnh phúc THUYẾT MINH ĐỀ TÀI KHOA HỌC & CÔNG NGHỆ CẤP CƠ SỞ (DO TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN QUẢN LÝ) 1. TÊN ĐỀ TÀI: Mô hình dự báo giá cổ phiếu dựa trên việc tích 2. MÃ SỐ hợp mô hình mờ TSK và tri thức tiên nghiệm 3. LĨNH VỰC NGHIÊN CỨU 4. LOẠI HÌNH NGHIÊN CỨU Môi Cơ Ứng Triển Tự nhiên Kỹ thuật x trường bản dụng Khai Kinh tế; Nông Lâm ATLĐ XH-NV x x Sở hữu Giáo dục Y Dược trí tuệ 5. THỜI GIAN THỰC HIỆN 12 tháng Từ tháng 04 năm 2017 đến tháng 12 năm 2017 6. CƠ QUAN CHỦ TRÌ ĐỀ TÀI (đơn vị thành viên ĐHĐN) Tên cơ quan: Trường Cao đẳng Công nghệ Thông tin Điện thoại: 0236.3667117 E-mail: Địa chỉ: Làng Đại học, Đường Nam Kỳ Khởi Nghĩa, Phường Hòa Quý, Q. Ngũ Hành Sơn, TP. Đà Nẵng Họ và tên thủ trưởng cơ quan chủ trì: TS. Trần Tấn Vinh 7. CHỦ NHIỆM ĐỀ TÀI Họ và tên: NGUYỄN ĐỨC HIỂN Học vị: Thạc sĩ Chức danh khoa học: Năm sinh: 1973 Địa chỉ cơ quan: Khoa CNTT, CĐ CNTT Địa chỉ nhà riêng: 47 Đặng Thùy Trâm Điện thoại cơ quan: 0236.3667118 Điện thoại nhà riêng : Di động: 0905734949 Fax: 0236.3667116 E-mail: ndhien@cit.udn.vn 8. NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI Đơn vị công tác và Nội dung nghiên cứu cụ thể TT Họ và tên Chữ ký lĩnh vực chuyên môn được giao 1 2 3 9. ĐƠN VỊ PHỐI HỢP CHÍNH Tên đơn vị Họ và tên người đại Nội dung phối hợp nghiên cứu trong và ngoài nước diện đơn vị
10. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC CỦA ĐỀ TÀI Ở TRONG VÀ NGOÀI NƯỚC 10.1. Trong và Ngoài nước (phân tích, đánh giá tình hình nghiên cứu thuộc lĩnh vực của đề tài trên thế giới, liệt kê danh mục các công trình nghiên cứu, tài liệu có liên quan đến đề tài được trích dẫn khi đánh giá tổng quan) Bài toán dự đoán giá cổ phiếu đã và đang thu hút được nhiều sự quan tâm nghiên cứu của các nhà khoa học. Có nhiều mô hình và giải pháp khác nhau đã được các nhà nghiên cứu đề xuất, với mục tiêu cuối cùng là nâng cao tính chính xác của kết quả dự đoán. Bài toán dự đoán giá cổ phiếu hiện nay chủ yếu được tiếp cận dưới hai dạng, đó là dự đoán giá cổ phiếu hoặc xu hướng của giá cổ phiếu sau n-ngày [6][15]. Một trong những hướng tiếp cận phổ biến hiện nay để giải quyết bài toán dự đoán giá cổ phiếu là trích xuất mô hình mờ dự đoán giá cổ phiếu từ dữ liệu giao dịch lịch sử, gọi là mô hình mờ hướng dữ liệu (data-driven model). Một trong những kỹ thuật trích xuất luật mờ tự động từ dữ liệu khá hiệu quả đó là dựa vào máy học véc-tơ hỗ trợ (Support vector machines - SVM) được nhóm tác giả J.-H Chiang và P.-Y Hao nghiên cứu và công bố lần đầu tiên trong [8]. Theo hướng tiếp cận này, nhiều tác giả đã nghiên cứu đề xuất và ứng dụng các kỹ thuật rút trích các luật mờ từ SVM cho việc phát triển các mô hình mờ hướng dữ liệu cho các bài toán phân lớp [4][9], dự báo hồi quy [12][14]. Một đặc điểm đáng lưu ý của máy học Véc-tơ hỗ trợ là đối với một tập dữ liệu học nhất định, nếu điều chỉnh các tham số để tăng tính chính xác của mô hình dự đoán thì số lượng véc-tơ hỗ trợ (Support Vector - SVs) cũng tăng lên [4][5][12]. Nói cách khác là khi tăng hiệu suất của mô hình thì đồng nghĩa với việc làm giảm tính “có thể diễn dịch được” (intepretability) của mô hình. Như vậy vấn đề đặt ra là làm thế nào có thể trích xuất được hệ thống mờ đảm bảo tính chính xác trong dự đoán, đồng thời đảm bảo được đặc tính “có thể diễn dịch được”. Bên cạnh đó, lý thuyết học dựa trên tri thức cho thấy các kiểu khác nhau của tri thức có thể sử dụng để cải thiện hiệu quả của mô hình máy học nói chung và mô hình mờ nói riêng. Tùy thuộc vào vai trò của tri thức, việc học dựa trên tri thức có thể phân thành các kịch bản như sau: học dựa trên giải thích (explaination-based learning) hay còn gọi là EBL, học dựa trên sự phù hợp (relevance-based learning) hay còn gọi là RBL, và học qui nạp dựa trên tri thức (knowledge-based learning) hay còn gọi là KBIL [17]. Như vậy hướng nghiên cứu tich hợp tri thưc tiên nghiệm với mô hình mờ hướng dữ liệu TSK được chọn như là một trong những giải đề xuất để cải thiện hiệu quả mô hình dự báo giá chứng khoán dự trên mô hình mờ hướng dữ liệu. 1) Alex J. Smola, Bernhard Scholkopf, 2004. A Tutorial on Support Vector Regression, Statistics and Computing 14: 199–222 . 2) Chih-Wei Hsu, Chih-Chung Chang, Chih-Jen lin, 2010. A practical Guide to Support Vector Classification, cjlin/libsvm/ 3) Corinna Cortes and Vladimir Vapnik, 1995. Support-Vector Networks. Machine Learning, 20: 273-297. 4) David Martens, Johan Huysmans, Rudy Setiono, Jan Vanthienen, Bart Baesens, 2008. Rule Extraction from Support Vector Machines - An Overview of issues and application in credit scoring, Studies in Computational Intelligence (SCI) 80: 33–63. 5) Duc-Hien Nguyen, Manh-Thanh Le, 2013. A two-stage architecture for stock price forecasting by combining SOM and fuzzy-SVM, International Journal of Computer Science and Information Security (IJCSIS), USA, ISSN: 1947-5500, Vol. 12 No. 8: 20-25. 6) Francis Eng Hock Tay and Li Yuan Cao, 2001. Improved financial time series forecasting by combining Support Vector Machines with self-organizing feature map, Intelligent Data Analysis 5, IOS press: 339-354. 7) John Yen, Reza Langari,1999. Fuzzy logic: Intelligence, Control, and Information, Prentice hall, Uper dadle river, New Jersey. 8) J.-H Chiang and P.-Y Hao, 2004. Support vector learning mechanism for fuzzy rule-based modeling: a new approach, IEEE Trans. On Fuzzy Systems, vol. 12: 1-12.
9) J.L. Castro, L.D. Flores-Hidalgo, C.J. Mantas and J.M. Puche, 2007. Extraction of fuzzy rules from support vector machines, Elsevier. Fuzzy Sets and Systems, 158: 2057 – 2077. 10) Juha Vesanto, Johan Himberg, Esa Alhoniemi, Jaha Parhankangas, 2000. SOM Toolbox for Matlab 5, 11) L.J.Cao and Francis E.H.Tay, 2003. Support vector machine with adaptive parameters in Financial time series forecasting, IEEE trans. on neural network,vol. 14, no. 6. 12) Nahla Barakat, Andrew P. Bradley, 2010. Rule extraction from support vector machines: A review, Neurocomputing – ELSEVIER, 74: 178–190. 13) R. Courant, D. Hilbert,1953. Methods of Mathematical Physics, Wiley, New York. 14) S. Chen, J. Wang and D. Wang, 2008. Extraction of fuzzy rules by using support vector machines, IEEE, Computer society: 438-441. 15) Sheng-Hsun Hsu, JJ Po-An Hsieh, Ting-Chih CHih, Kuei-Chu Hsu, 2009. A two-stage architecture for stock price forecasting by integrating self-organizing map and support vector regression, Expert system with applications 36: 7947-7951. 16) Wang-Hsin Hsu, Yi-Yuan Chiang, Wen-Yen Lin, Wei-Chen Tai, and Jung-Shyr Wu, 2009. SVM-based Fuzzy Inference System (SVM-FIS) for Frequency Calibration in Wireless Networks, CIT'09 Proceedings of the 3rd international conference on comminications and information technology: 207-213. 17) Stuart Rusell, Perter Norvig, Artificial Intelligence: A Modern Approach, Second Editor, Prentice Hall - Series in Artificial Intelligence, 2003 10.2. Danh mục các công trình đã công bố thuộc lĩnh vực của đề tài của chủ nhiệm và những thành viên tham gia nghiên cứu (họ và tên tác giả; bài báo; ấn phẩm; các yếu tố về xuất bản) 1) Ứng dụng mô hình máy học Véc-tơ tựa (SVM) trong việc phân tích dữ liệu điểm sinh viên. Tạp chí Khoa học & Công nghệ Đại học Đà Nẵng. Số 12(73).2013. Năm 2013 2) Improving the Interpretability of Support Vector Machines-based Fuzzy Rules. Advances in Smart Systems Research, Future Technology Publications, PO Box 2115, United Kingdom. ISSN: 2050- 8662. No: Vol. 3 No. 1. 3013 3) A two-stage architecture for stock price forecasting by combining SOM and fuzzy-SVM. International Journal of Computer Science and Information Security (IJCSIS), USA, ISSN: 1947- 5500. No: Vol. 12 No. 8, 2014 4) Mô hình hai giai đoạn dự báo giá cổ phiếu với K-mean và Fuzzy-SVM. Tạp chí Khoa học Công nghệ Đại học Đà Nẵng. Số 12(84).2014. Năm 2014 5) Mô hình tích hợp f-SVM và tri thức tiên nghiệm cho bài toán dự báo hồi quy, Tạp chí Khoa học Đai học Huế. Số T. 106, S. 7 (2015). Năm 2015 6) Mô hình mờ TSK dự đoán giá cổ phiếu dựa trên máy học véc-tơ hỗ trợ hồi quy. Tạp chí khoa học Trường Đai học Cần Thơ. Số chuyên đề Công nghệ thông tin (2015). Năm 2015 7) Tối ưu hóa mô hình mờ TSK trích xuất từ máy học véc-tơ hỗ trợ hồi qui với tham số epsilon. Tạp chí Khoa học Công nghệ Đại học Đà Nẵng. Số 12(97).2015. Năm 2015
11. TÍNH CẤP THIẾT CỦA ĐỀ TÀI Sự khác biệt chủ yếu giữa hệ thống mờ dựa trên máy học Véc-tơ hỗ trợ và mô hình máy học Véc-tơ hỗ trợ nguyên thủy chính là đặc tính “có thể diễn dịch được” (interpretability); đặc tính này cho phép hệ thống mờ dễ hiểu hơn so với mô hình máy học Véc-tơ hỗ trợ. Tuy nhiên, đối với mô hình máy học Véc-tơ hỗ trợ, tính chính xác của mô hình thu được tỷ lệ thuận với số lượng SVs (Support vectors) sinh ra, và điều đó đồng nghĩa với việc số lượng luật mờ cũng tăng lên. Nói cách khác, khi tăng hiệu suất của mô hình thì đồng nghĩa với việc làm giảm tính “có thể diễn dịch được” của mô hình mờ trích xuất được. Giải pháp tích hợp tri thức tiên nghiệm vào mô hình mờ dựa trên F-SVM sẽ giúp đảm bảo được tính “có thể diễn dịch được” của mô hình mờ trích xuất được. 12. MỤC TIÊU ĐỀ TÀI Nghiên cứu xây dựng mô hình dự báo gia cổ phiếu dựa trên sự tích hợp mô hình mờ TSK hướng dữ liệu (data-driven models) trích xuất từ máy học véc-tơ hỗ trợ với tri thức tiên nghiệm. 13. ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU 13.1. Đối tượng nghiên cứu - Mô hình mờ TSK hướng dữ liệu trích xuất từ máy học Véc-tơ hỗ trợ - Tri thức tiên nghiệm (a priori knowledge) - Mô hình tích hợp Tri thức tiên nghiệm với mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ - Mô hình tích hợp nhiều giai đoạn cho bài toán dự báo giá cổ phiếu 13.2. Phạm vi nghiên cứu: Nâng cao hiệu quả dự báo giá cổ phiếu dựa trên mô hình mờ dự báo hồi quy dựa trên việc tích hợp tri thức tiên nghiệm với mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ. 14. CÁCH TIẾP CẬN, PHƯƠNG PHÁP NGHIÊN CỨU 14.1. Cách tiếp cận: Tiếp cận từ cả thực tiễn và lý thuyết - Tiếp cận thực tiễn: đưa ra vấn đề và đánh giá kết quả - Tiếp cận lý thyết: đưa ra giải pháp 14.2. Phương pháp nghiên cứu: Từ kết quả trích xuất mô hình mờ TSK cho 1 bài toán thực tế và kết quả nghiên cứu lý thuyết về vai trò của tri thức tiên nghiệm để đưa đến giải pháp tích hợp tri thức tiên nghiệm vào mô hình; sau đó dề xuất một mô hình tích hợp nhiều giai đoạn cho bài toán dự báo giá cổ phiếu 15. NỘI DUNG NGHIÊN CỨU VÀ TIẾN ĐỘ THỰC HIỆN 15.1. Nội dung nghiên cứu (trình bày dưới dạng đề cương nghiên cứu chi tiết) 1) Nghiên cứu thuật toán trích xuất mô hình mờ từ máy học Véc-tơ hỗ trợ 2) Nghiên cứu về vai trò Tri thức tiên nghiệm (a priori knowledge) trong mô hình máy học 3) Giải pháp tích hợp Tri thức tiên nghiệm với mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ 4) Nghiên cứu xây dựng một mô hình tích hợp nhiều giai đoạn cho bài toán dự báo giá cổ phiếu dưa trên Giải pháp tích hợp Tri thức tiên nghiệm với mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ 15.2. Tiến độ thực hiện Các nội dung, công việc Sản phẩm Thời gian Người thực STT thực hiện (bắt đầu-kết thúc) hiện 1 Nghiên cứu thuật toán trích xuất Báo cáo 04/17 - 05/17 Nguyễn Đức mô hình mờ từ máy học Véc-tơ Hiển hỗ trợ 2 Nghiên cứu về vai trò Tri thức Báo cáo 05/17 - 06/17 Nguyễn Đức tiên nghiệm (a priori knowledge) Hiển trong mô hình máy học
3 Giải pháp tích hợp Tri thức tiên Thuật toán và số liệu 07/1 - 08/17 Nguyễn Đức nghiệm với mô hình mờ trích thực nghiệm Hiển xuất từ máy học Véc-tơ hỗ trợ 4 Xây dựng một mô hình tích hợp Mô hình đề xuất và 09/17 - 12/17 Nguyễn Đức nhiều giai đoạn cho bài toán dự kết quả thực nghiệm Hiển báo giá cổ phiếu dưa trên Giải pháp tích hợp Tri thức tiên nghiệm với mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ 16. SẢN PHẨM 16.1. Sản phẩm khoa học Bài báo đăng tạp chí nước ngoài Bài báo đăng tạp chí trong nước x Bài đăng kỷ yếu hội nghị, hội thảo quốc tế Sản phẩm khác (giáo trình, tài liệu tham khảo ) 16.2. Sản phẩm đào tạo Cao học NCS 16.3.Sản phẩm ứng dụng Mẫu Vật liệu Thiết bị máy móc Giống cây trồng Giống vật nuôi Qui trình công nghệ Tiêu chuẩn Qui phạm Sơ đồ, bản thiết kế Tài liệu dự báo Đề án Luận chứng kinh tế Phương pháp Chương trình máy tính x Bản kiến nghị Dây chuyền công nghệ Báo cáo phân tích Bản quy hoạch 16.4. Các sản phẩm khác 16.5. Tên sản phẩm, số lượng và yêu cầu khoa học đối với sản phẩm Stt Tên sản phẩm Số lượng Yêu cầu khoa học 1 Bài báo trong nước hoặc quốc tế 01 Chất lượng 2 Thuật toán (chương trình mô 01 Đúng và chính xác phỏng) 3 Báo cáo tổng kết 01 Chất lượng và đầy đủ 17. HIỆU QUẢ (giáo dục và đào tạo, kinh tế - xã hội) - Về mặt giáo dục - đào tạo: Giải pháp, thuật toán và mô hình đề xuất của đề tài có thể cung cấp cho sinh viên nghiên cứu và thực hành trong lĩnh vực thuật toán, khai phá dữ liệu, xây dựng chương trình dự báo giá cổ phiếu - Về mặt khoa học: Kết quả của đề tài là một đóng góp cho hướng nghiên cứu cải tiến, xây dựng và phát triển các mô hình mờ hướng dữ liệu, đặc biệt là ứng dụng trong dự báo giá cổ phiếu 18. PHƯƠNG THỨC CHUYỂN GIAO KẾT QUẢ NGHIÊN CỨU VÀ ĐỊA CHỈ ỨNG DỤNG Thuật toán và mô hình được cung cấp cho mọi đối tượng quan tâm đến việc xây dựng các mô hình mờ hướng dữ liệu dựa trên máy học Véc-tơ hỗ trợ, mô hình dự báo giá cổ phiếu. Tư liệu phục vụ cho việc nghiên cứu cải tiến và phát triển các mô hình mờ hướng dữ liệu.
19. KINH PHÍ THỰC HIỆN ĐỀ TÀI VÀ NGUỒN KINH PHÍ Tổng kinh phí: Trong đó: Ngân sách Nhà nước: 7.000.000 đồng Các nguồn kinh phí khác: Dự trù kinh phí theo các mục chi (phù hợp với nội dung nghiên cứu): Đơn vị tính: 1000 đồng Stt Khoản chi, nội dung chi Thời Tổng Nguồn kinh phí Ghi chú gian kinh Kinh phí Các nguồn thực phí từ NSNN khác hiện I Chi công lao động tham gia trực tiếp thực 12 4530 4530 hiện đề tài tháng Chi công lao động của cán bộ khoa học, nhân 3000 3000 viên kỹ thuật trực tiếp tham gia thực hiện đề tài Chi công lao động khác phục vụ triển khai đề tài 1530 1530 II Chi mua nguyên nhiên vật liệu Chi mua vật tư, nguyên, nhiên, vật liệu, tài liệu, tư liệu, số liệu, sách, tạp chí tham khảo, tài liệu kỹ thuật, bí quyết công nghệ, tài liệu chuyên môn, các xuất bản phẩm, dụng cụ bảo hộ lao động phục vụ công tác nghiên cứu III Chi sửa chữa, mua sắm tài sản cố định IV Chi khác 2470 2470 Công tác phí 0 0 Hội nghị, hội thảo khoa học 0 0 Văn phòng phẩm, in ấn, dịch tài liệu 1000 1000 Quản lý phí của cơ quan quản lý 350 350 Nghiệm thu cấp cơ sở 1120 1120 Phí xác lập quyền sở hữu trí tuệ 0 0 Chi khác liên quan trực tiếp đến đề tài 0 0 Tổng cộng 7000 7000 Ngày 20 tháng 4 năm 2017 Ngày 20 tháng 4 năm 2017 TM. HỘI ĐỒNG KH&ĐT KHOA CNTT Chủ nhiệm đề tài (ký, họ và tên) (ký, họ và tên) Đà Nẵng, ngày tháng năm Cơ quan Chủ trì duyệt HIỆU TRƯỞNG
DỰ TOÁN KINH PHÍ ĐỀ TÀI KH&CN CẤP CƠ SỞ NĂM 2017 Tên đề tài: Mô hình dự báo giá cổ phiếu dựa trên việc tích hợp mô hình mờ TSK và tri thức tiên nghiệm Đơn vị tính: 1000 đồng Tổng số Nguồn kinh phí TT Nội dung các khoản chi % Kinh phí từ Các nguồn Kinh phí NSNN khác I. Chi công lao động tham gia trực 4530 64,7 4530 tiếp thực hiện đề tài II. Chi mua nguyên nhiên vật liệu 000 III. Chi sửa chữa, mua sắm tài sản cố 0 0 0 định IV. Chi khác 2470 35,3 2470 Tổng cộng 7000 7000 Giải trình các khoản chi Khoản I. Chi công lao động tham gia trực tiếp thực hiện đề tài Đơn vị tính: 1000 đồng Nguồn kinh phí Đơn vị Nội dung Chi công lao động tham gia TT Tổng kinh phí tính Kinh phí Các trực tiếp thực hiện đề tài từ nguồn NSNN khác I.1. Xây dựng thuyết minh đề cương chi tiết 140 Đề tài 140 I.2. Nghiên cứu và xây dựng sản phẩm của đề tài 3340 3340 I.3. Chuyên đề nghiên cứu trong lĩnh vực KHXH Chuyên và nhân văn đề - Chuyên đề loại 1 - Chuyên đề loại 2 I.4. Báo cáo tổng thuật tài liệu của đề tài 210 Báo cáo 210 I.5. Lập mẫu phiếu điều tra; Phiếu -Trong nghiên cứu KHCN mẫu được -Trong nghiên cứu KHXH và nhân văn: duyệt + Đến 30 chỉ tiêu + Trên 30 chỉ tiêu I.6. Cung cấp thông tin : Phiếu -Trong nghiên cứu KHCN -Trong nghiên cứu KHXH và nhân văn: + Đến 30 chỉ tiêu + Trên 30 chỉ tiêu I.7. Báo cáo xử lý, phân tích số liệu điều tra 7
I.8. Báo cáo khoa học tổng kết đề tài (bao gồm 840 840 báo cáo toàn văn và báo cáo tóm tắt) I.9. Chuyên gia phân tích, đánh giá, khảo nghiệm Báo cáo kết quả, sản phẩm của đề tài trước khi đánh giá nghiệm thu cấp cơ sở (Số lượng chuyên gia do cấp có thẩm quyền quyết định, nhưng không quá 05 chuyên gia/đề tài). - Họp tổ chuyên gia (nếu có) Buổi họp - Tổ trưởng - Thành viên - Đại biểu được mời tham dự Cộng 4530 4530 Khoản II: Chi nguyên nhiên vật liệu Đơn vị tính: 1000 đồng Nguồn kinh phí Đơn vị Tổng TT Nội dung Số lượng Đơn giá Kinh phí Các đo KP từ nguồn NSNN khác II.1. Nguyên, vật liệu II.2. Dụng cụ, phụ tùng II.3. Năng lượng, nhiên liệu II.4. Thuê thiết bị, dụng cụ Cộng Khoản III: Chi sửa chữa, mua sắm tài sản cố định Đơn vị tính: 1000 đồng Nguồn kinh phí Thành TT Nội dung Số lượng Đơn giá Kinh phí Các tiền từ nguồn NSNN khác III.1. Mua thiết bị công nghệ phục vụ cho nghiên cứu (nếu có) III.2. Ghi danh mục cụ thể từng loại III.3. Mua thiết bị thử nghiệm, đo lường phục vụ cho nghiên cứu (nếu có); Ghi danh mục cụ thể từng loại Cộng 8
Khoản IV: Chi khác Đơn vị tính: 1000 đồng Nguồn kinh phí TT Nội dung Chi khác Tổng kinh phí Đơn vị tính Kinh phí Các từ NSNN nguồn khác IV.1. Công tác phí IV.2. Hội thảo khoa học - Người chủ trì - Thư ký hội thảo - Báo cáo tham luận theo đơn đặt hàng - Đại biểu được mời tham dự IV.3. Văn phòng phẩm, in ấn, dịch tài liệu 1000 1000 IV.4. Quản lý phí của cơ quan quản lý 350 350 IV.5. Họp Hội đồng nghiệm thu chính thức Buổi họp - Chủ tịch Hội đồng 200 200 - Thành viên phản biện(x 2người) 460 460 - Thành viên, thư ký khoa học(x 2người) 360 360 - Thư ký hành chính 50 50 - Đại biểu được mời tham dự 50 50 IV.6. Phí xác lập quyền sở hữu trí tuệ IV.7. Chi khác liên quan trực tiếp đến đề tài (nêu cụ thể) IV.8. Thù lao Chủ nhiệm đề tài IV.9. Thù lao cho thư ký, kế toán đề tài (nếu có) Cộng 2470 2470 Cộng: I + II + III + IV = 4.530.000 + 0 + 0 + 2.470.000 = 7.000.000 (Bảy triệu đồng) Cơ quan Chủ trì Chủ nhiệm đề tài HIỆU TRƯỞNG (ký, họ và tên) 9