Khóa luận Phần mềm nhận dạng ABBYY và việc ứng dụng ABBYY vào hoạt động số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội
Bạn đang xem 20 trang mẫu của tài liệu "Khóa luận Phần mềm nhận dạng ABBYY và việc ứng dụng ABBYY vào hoạt động số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- khoa_luan_phan_mem_nhan_dang_abbyy_va_viec_ung_dung_abbyy_va.pdf
Nội dung text: Khóa luận Phần mềm nhận dạng ABBYY và việc ứng dụng ABBYY vào hoạt động số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ PHẦN MỞ ĐẦU 1. Tính cấp thiết của đề tài Bước vào thế kỷ XXI, Công nghệ thông tin (CNTT) và viễn thông đã chiếm một vị trí cực kỳ quan trọng trong mọi lĩnh vực của đời sống, trở thành thành tố cơ bản cho sự phát triển kinh tế xã hội của các quốc gia. Công nghệ thông tin đã và đang khẳng định vị thế của mình trong mọi lĩnh vực của đời sống xã hội. Cuộc cách mạng khoa học công nghệ đã và đang diễn ra mạnh mẽ và thông tin, tri thức trở nên đặc biệt quan trọng trong sự phát triển kinh tế, xã hội. Trong hoàn cảnh đó, hoạt động thư viện cũng đang dần đổi mình, phát triển theo chiều hướng ứng dụng các thành tựu của công nghệ thông tin để trở thành các thư viện hiện đại. Thư viện muốn làm tốt vai trò của mình trong thời đại bùng nổ thông tin cần phải có sự hỗ trợ của công nghệ, đặc biệt là công nghệ thông tin. Các phần mềm dùng trong hoạt động thư viện nhằm mục đích tự động hóa các hoạt động của thư viện, giúp thư viện nâng cao khả năng và hiệu quả phục vụ người dùng tin, nâng cao chất lượng và giảm giá thành các sản phẩm, dịch vụ thư viện. Hiện nay trên thế giới cũng như ở Việt Nam đang tồn tại khá nhiều phần mềm được dùng trong hoạt động thông tin – thư viện như các hệ quản trị thư viện tích hợp (Library Integrated System, LIS), phần mềm quản trị nội dung số (Content Management System, CMS), phầm mềm nhận dạng ký tự bằng quang học (Optical Character Recognition, OCR), Về hệ quản trị thư viện tích hợp, chúng ta có thể kể ra một số hệ khác nhau như ILIB của Công ty Máy tính truyền thông CMC, Libol của Công ty Công nghệ tin học Tinh Vân, COSLIB của Công ty Trường Thành, CDS/ISIS do UNESCO phát triển. Về phần mềm quản trị nội dung số chúng ta có Greenstone, DSpace, Zope các phần mềm này đã hỗ trợ cho các nhân viên thư viện rất nhiều trong việc tự Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 1
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ động hoá các thao tác trong dây truyền xử lý thông tin. Ngoài ra, để xây dựng thư viện điện tử, các thư viện cũng đang tích cực số hóa các loại tài liệu, trong đó phần mềm nhận dạng ký tự đóng một vai trò quan trọng. Hiện nay trên thế giới cũng như trong nước có nhiều phần mềm nhận dạng ký tự quang học (OCR) như VietDor, ABBYY, VnDocr Mỗi phần mềm đều có những tính năng ưu việt riêng, phù hợp với mỗi điều kiện thực tế của mỗi thư viện. Hiện nay một số trung tâm thông tin thư viện đang sử dụng phần mềm nhận dạng ABBYY, đây là phần mềm đang được sử dụng rộng rãi trên toàn thế giới. Với những tính năng ưu việt của phần mềm này, một số thư viện ở Việt Nam đã lựa chọn và sử dụng để áp dụng cho thư viện mình và Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội là một trong những đơn vị đang áp dụng phần mềm này rất thành công. Để kịp thời phổ biến kinh nghiệm áp dụng phần mềm nhận dạng ABBYY cho các thư viện chưa có điều kiện tiếp cận với phần mềm này, tôi chọn đề tài: “Phần mềm nhận dạng ABBYY và việc ứng dụng ABBYY vào hoạt động số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội” làm đề tài khóa luận tốt nghiệp. 2. Mục đích nghiên cứu - Mục đích của khóa luận là nhằm nghiên cứu tổng quan về phần mềm nhận dạng ABBYY. - Tìm hiểu những tính năng cơ bản của phần mềm - Đánh giá quá trình ứng dụng phần mềm này tới công tác số hóa tài liệu, qua đó có thể phần nào giúp các thư viện đang có ý định sử dụng phần mềm ABBYY để nhận dạng tiếng Việt vào hoạt động số hóa tài liệu có thêm kinh nghiệm để triển khai phần mềm này. 3. Đối tƣợng và phạm vi nghiên cứu. Khóa luận tập trung vào nghiên cứu các tính năng và tiện ích của phần mềm nhận dạng ABBYY cũng như quá trình ứng dụng của phần mềm Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 2
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ ABBYY trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội. Phạm vi nghiên cứu của khóa luận tập trung trong việc nghiên cứu tìm hiểu đánh giá chức năng nhận dạng chữ tiếng Việt của phần mềm ABBYY trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội từ năm 2010 tới năm 2012. 4. Phƣơng pháp nghiên cứu Trong quá trình thực hiện đề tài đã sử dụng các phương pháp: * Phương pháp chung. Dựa trên cơ sở nền tảng là chủ nghĩa duy vật biện chứng, trên hệ thống các quan điểm của chủ nghĩa Mác –Lê nin và Tư tưởng Hồ Chí Minh. * Phương pháp cụ thể: + Phương pháp quan sát, khảo sát thực tế. + Phỏng vấn trực tiếp các cán bộ tại Thư viện. + Tổng hợp, thống kê số liệu. + Phân tích, tổng hợp các tài liệu có liên quan đến đề tài. + Phương pháp nghiên cứu tài liệu. + Phương pháp trao đổi, phỏng vấn chuyên gia. 5. Đóng góp của khóa luận. Khóa luận tuy mới chỉ dừng lại ở việc nghiên cứu tổng quan về phần mềm nhận dạng ABBYY và những ứng dụng của phần mềm trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội, song đề tài cũng đã giải quyết được những nhiệm vụ sau: - Tìm hiểu phần mềm nhận dạng ABBYY. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 3
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ - Tìm hiểu các tính năng, tiện ích của phần mềm ABBYY trong việc nhận dạng chữ tiếng Việt tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội. - Đánh giá quá trình ứng dụng phần mềm trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội - Đưa ra một số kiến nghị và giải pháp nhằm hoàn thiện việc ứng dụng ABBYY tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội. Tác giả khóa luận hy vọng những vấn đề nêu trên có thể giúp ích ít nhiều cho các thư viện đang có ý định sử dụng phần mềm nhận dạng ABBYY vào hoạt động số hóa của thư viện mình. 6. Cấu trúc của khóa luận Khóa luận được tổ chức theo một bố cục chặt chẽ: Phần mở đầu, Phần nội dung, Kết luận, Danh mục tài liệu tham khảo. Trong đó phần nội dung được chia thành ba chương như sau: Chương 1: Số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc Gia Hà Nội. Chương 2: Phần mềm nhận dạng ABBYY trong công tác số hóa tại Trung tâm Thông tin Thư viện Đại học Quốc Gia Hà Nội. Chương 3: Giải pháp nhằm nâng cao hiệu quả ứng dụng phần mềm nhận dạng ABBYY tại Trung tâm Thông tin - Thư viện Đại học Quốc Gia Hà Nội. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 4
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ CHƢƠNG 1 SỐ HÓA TÀI LIỆU TRONG HOẠT ĐỘNG THÔNG TIN - THƢ VIỆN TẠI TRUNG TÂM THÔNG TIN - THƢ VIỆN ĐẠI HỌC QUỐC GIA HÀ NỘI 1.1. Giới thiệu khái quát về Trung tâm Thông tin - Thƣ viện Đại học Quốc Gia Hà Nội 1.1.1 Quá trình hình thành và phát triển của Trung tâm. Đại học Quốc gia Hà Nội (tên giao dịch tiếng Anh là Vietnam National University, Hanoi; viết tắt là VNU) được thành lập theo Nghị định số 97/ CP ngày 10 tháng 12 năm 1993 của Chính phủ trên cơ sở tổ chức, sắp xếp lại 3 trường đại học lớn ở Hà Nội là Đại học Tổng hợp Hà Nội, Đại học Sư phạm Hà Nội I và Đại học Sư phạm Ngoại ngữ Hà Nội. Đại học Quốc gia Hà Nội (ĐHQGHN) chính thức bước vào hoạt động theo Quy chế do Thủ tướng Chính phủ ban hành ngày 5 tháng 9 năm 1994. (Xem phụ lục: Hình 1) Truyền thống của ĐHQGHN gắn với lịch sử hình thành và phát triển của những trường đại học tiêu biểu ở Việt Nam trong suốt bề dày của thế kỷ XX, bắt đầu từ Trường đại học Đông Dương (16/5/1906) có cơ sở tại 19 Lê Thánh Tông, Hà Nội. Đây là trường đại học kiểu hiện đại đầu tiên ở Việt Nam (thời kỳ Pháp thuộc) được tổ chức theo mô hình trường đại học đa ngành, đa lĩnh vực. Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội được thành lập theo nghị quyết số 66/TCCP ngày 14/2/1997 của Giám đốc Đại học Quốc Gia Hà Nội trên cơ sở hợp nhất của 3 thư viện của các trường thành viên nói trên. Ngày 11/11/1999 Giám đốc Đại học Quốc Gia Hà Nội đã quyết định tách bộ phận Thư viện trường Đại học Sư phạm Hà Nội ra khỏi Trung tâm. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 5
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội có tên giao dịch quốc tế bằng tiếng Anh là Library and Information Center (LIC, VNU) Vietnam Nationnal University Hanoi. Trung tâm là đơn vị hạch toán tài chính độc lập có tài khoản và con dấu riêng, trực thuộc ban Giám đốc ĐHQGHN. Trụ sở chính của Trung tâm đặt tại 144 Xuân Thủy – Cầu Giấy – Hà Nội và các chi nhánh bao gồm: - Phòng phục vụ bạn đọc Thượng Đình: + Đại học Khoa học Xã hội và Nhân văn- 336 Nguyễn Trãi - Thanh Xuân- Hà Nội. + Tầng 7 nhà T5 - Đại học Khoa học Tự Nhiên, 334 Nguyễn Trãi - Thanh Xuân - Hà Nội. - Phòng phục vụ bạn đọc Mễ Trì, 182 Lương Thế Vinh - Thanh Xuân - Hà Nội. - Phòng phục vụ bạn đọc Đại học Ngoại ngữ, đường Phạm Văn Đồng - Cầu Giấy - Hà Nội. Sau hơn 10 năm xây dựng và phát triển, tới nay Trung tâm được trang bị tương đối đầy đủ nguồn lực thông tin, có phương tiện hiện đại đáp ứng nhu cầu của người dùng tin ở nhiều lĩnh vực khác nhau và trở thành trung tâm văn hóa, khoa học của toàn Đại Học Quốc Gia Hà Nội. 1.1.2 Chức năng, nhiệm vụ Chức năng: Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội (Trung tâm) có chức năng thông tin và thư viện phục vụ các công tác đào tạo, nghiên cứu khoa học, triển khai ứng dụng khoa học công nghệ phục vụ đào tạo và quản lí của ĐHQGHN, thực hiện sứ mạng mà Đảng và Nhà nước giao phó để góp phần thực hiện chính sách “Giáo dục là quốc sách hàng đầu”. Trung tâm là cơ sở đáp ứng nhu cầu cung cấp tin tri thức cho việc học tập, nghiên cứu khoa Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 6
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ học của đội ngũ giảng viên và sinh viện nói riêng, bồi dưỡng nhân tài cho quốc gia nói chung, phục vụ các công tác đào tạo, nghiên cứu khoa học, triển khai ứng dụng và quản lý của ĐHQGHN. Nhiệm vụ: Trung tâm có nhiệm vụ nghiên cứu thu thập, xử lý, thông báo và cung cấp thông tin, tư liệu về khoa học giáo dục, ngoại ngữ và công nghệ phục vụ cán bộ và sinh viên ĐHQGHN cụ thể là tham mưu quyết định cho các cấp lãnh đạo về phương hướng tổ chức và hoạt động thông tin, tư liệu nhằm phục vụ cho hoạt động nghiên cứu khoa học, công tác nghiên cứu, giảng dạy và học tập của toàn thể cán bộ, giảng viên và sinh viên trong toàn ĐHQGHN. Bổ sung, trao đổi, phân tích, xử lý tài liệu và thông tin, tổ chức sắp xếp, lưu trữ, bảo quản kho tư liệu ĐHQGHN bao gồm tất cả các loại hình ấn phẩm và vật mang tin để đáp ứng nhu cầu khai thác, sử dụng thông tin của bạn đọc. Xây dựng hệ thống tra cứu tìm tin thích hợp, thiết lập mạng lưới truy nhập và tìm kiếm thông tin tự động hóa, tổ chức cho toàn thể cán bộ, giảng viên, sinh viên ĐHQGHN khai thác. Ngoài ra, Trung tâm còn là nơi thu nhận lưu chiểu những xuất bản phẩm do ĐHQGHN xuất bản, các luận án tiến sĩ, luận văn thạc sĩ được bảo vệ tại ĐHQGHN hoặc các công trình nghiên cứu khoa học của cán bộ, giảng viên, sinh viên trong ĐHQGHN, những báo cáo tổng kết của các đề tài nghiên cứu cấp ĐHQGHN và cấp nhà nước được nghiệm thu đánh giá do các đơn vị thuộc ĐHQGHN chủ trì hoặc do cán bộ ĐHQGHN thực hiện. Trung tâm còn xây dựng các cơ sở dữ liệu đặc thù của ĐHQGHN, xuất bản các ấn phẩm thông tin tóm tắt thông tin chuyên đề phục vụ công tác quản lý, nghiên cứu khoa học và đào tạo, nghiên cứu khoa học thông tin tư liệu Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 7
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Phát triển quan hệ trao đổi, hợp tác trực tiếp với các trung tâm thông tin, thư viện, các tổ chức khoa học, các trường đại học trong và ngoài nước; tham gia tổ chức và điều hành Liên hiệp thư viện các trường đại học và Hiệp hội thông tin - thư viện Việt Nam, tham gia các hiệp hội thư viện quốc tế, làm đầu mối nối mạng hệ thống Thông tin - Thư viện ĐHQGHN và ngành đại học vào mạng quốc gia, khu vực và thế giới. Với chức năng, nhiệm vụ trên đã trở thành kim chỉ nam cho mọi hoạt động của TT TT- TV, ĐHQGHN, giúp Trung tâm có những bước đi đúng hướng và hiệu quả, phục vụ sự nghiệp giáo dục của ĐHQGHN. 1.1.3 Cơ cấu tổ chức và đội ngũ cán bộ Cơ cấu tổ chức Cơ cấu tổ chức của Trung tâm gồm có Ban Giám đốc và các phòng ban chức năng. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 8
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ - Các phòng chức năng + Phòng hành chính - Tổng hợp - Tổ chức - Đối ngoại. + Phòng tài vụ. - Các phòng nghiệp vụ + Phòng bổ sung - trao đổi. + Phòng phân loại - biên mục. + Phòng thông tin thư mục nghiệp vụ. + Phòng máy tính và nghiệp vụ mạng. - Các phòng phục vụ bạn đọc + Phòng phục vụ bạn đọc chung : 144 Xuân Thủy – Cầu Giấy – Hà Nội + Phòng phục vụ bạn đọc Thượng Đình ( Gồm cả bộ phận phục vụ ở Mễ Trì và bộ phận phục vụ ở khoa Hóa, 19 Lê Thánh Tông- Hoàn Kiếm- Hà Nội). + Phòng phục vụ bạn đọc ở trường Đại học Ngoại Ngữ - Cầu Giấy - Hà Nội. Trung tâm được tổ chức theo quyết định số 947/TCCB của Giám đốc Đại học Quốc Gia Hà Nội (ĐHQGHN) ngày 21/04/1998. Nói chung cơ cấu tổ chức như trên là khá hợp lý , có sự thống nhất với nhau, tạo điều kiện cho quản lý, điều hành trong công tác quản lý, điều hành công tác nghiệp vụ đảm bảo cho trung tâm hoạt động tốt nhất Đội ngũ cán bộ Trung tâm Thông tin -Thư viện Đại học Quốc gia Hà Nội hiện có 130 cán bộ, trong đó: Về trình độ: - 01 tiến sĩ Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 9
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ - 09 thạc sĩ - 83 cử nhân (chiếm 40%), - 37 cao đẳng và trung cấp. Cán bộ của Trung tâm được phân bố qua các bộ phận phù hợp với trình độ chuyên môn của từng người, trong đó: + Khối các phòng chức năng : 24 người. + Khối các phòng chuyên môn, nghiệp vụ : 28 người. + Khối các phòng phục vụ bạn đọc : 78 người. Hầu hết cán bộ nhân viên trong Trung tâm đều được đào tạo về chuyên môn nghiệp vụ, có lòng yêu ngành, yêu nghề, tâm huyết với công việc. Đội ngũ cán bộ của Trung tâm ngày càng được trẻ hóa nên năng động, sáng tạo, nhanh nhạy trong việc nắm bắt thông tin, có nhiều đóng góp tích cực giúp Trung tâm hoạt động ngày càng hiệu quả hơn. 1.1.4. Đặc điểm người dùng tin Người dùng tin là một trong bốn yếu tố cấu thành nên thư viện. Người dùng tin đóng vai trò quan trọng trong thư viện, họ là mục tiêu mà thư viện hướng tới. ĐHQGHN là đại học lớn với số lượng sinh viên đông đảo. Trình độ ở các cấp khác nhau bao gồm học sinh, sinh viên, học viên cao học, nghiên cứu sinh, giảng viên, cán bộ lãnh đạo quản lý trong ĐHQGHN. Qua quá trình khảo sát tại Trung tâm, tôi nhận thấy có thể chia người dùng tin của Trung tâm thành 3 nhóm chính sau đây: Nhóm 1: Cán bộ quản lý lãnh đạo. Nhóm 2: Giảng viên, cán bộ nghiên cứu. Nhóm 3: Nghiên cứu sinh, học viên cao học, sinh viên và học sinh. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 10
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ - Nhóm cán bộ quản lý lãnh đạo: chiếm số lượng ít song lại là nhóm người dùng tin rất quan trọng. Họ là những người có trí tuệ và quyết định của họ đưa ra có tầm ảnh hưởng, tác động trực tiếp đến nhiều người Trung tâm cần cung cấp thông tin tổng quát, tham mưu cho các cán bộ lãnh đạo để đưa ra những quyết định chính xác, kịp thời. - Nhóm giảng viên, cán bộ nghiên cứu: Nhóm người dùng tin này chiếm tỉ lệ khá cao trong thư viện. Họ là những người có trình độ học vấn cao và nhu cầu sử dụng tài liệu khá cao và đa dạng, họ có khả năng sử dụng mọi loại hình tài liệu cả tài liệu truyền thống và tài liệu số. Nhu cầu dùng tin của giảng viên, cán bộ nghiên cứu thường là các tài liệu xám, tài liệu chuyên sâu về một ngành, lĩnh vực mà họ quan tâm. - Nhóm nghiên cứu sinh, học viên cao học, sinh viên và học sinh: Đây là nhóm người dùng tin chiếm tỉ lệ cao nhất trong thư viện. Nhu cầu tin của họ rất đa dạng, phong phú. Họ cần nhiều nguồn tài liệu như giáo trình, sách tham khảo, luận văn, luận án bên cạnh đó là các tài liệu ngoại văn, tài liệu số 1.1.5. Vốn tài liệu Với số lượng người dùng tin lớn và đa dạng, Trung tâm cần phải xây dựng được nguồn lực thông tin chất lượng và phong phú mới có thể đáp ứng được nhu cầu tin của bạn đọc. Trung tâm rất quan tâm đầu tư phát triển vốn tài liệu cả về số lượng và loại hình, trong đó đẩy mạnh đầu tư cho tài nguồn lực thông tin điện tử (CD – ROM, Video, Casset ). Hiện nay, vốn tài liệu của Trung tâm bao gồm: Tài liệu trên vật mang tin truyền thống: + Sách: 1160 tên sách giáo trình với 180.500 bản Sách tham khảo: 100.768 tên tài liệu (250.345 bản) + Báo, tạp chí: Trung tâm hiện có 415 tên báo, tạp chí các thứ tiếng Việt, tiếng Anh, tiếng Pháp, tiếng Trung, tiếng Nga. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 11
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ + 7020 luận án, luận văn: + 2000 thác bản văn bia. Tài liệu điện tử. Trung tâm hiện có một số lượng khá lớn tài liệu điện tử trên CD – ROM, băng Video, casset , một số giáo trình điện tử, 5 CSDL . Trung tâm đã số hóa một phần trong số tài liệu truyền thống, cụ thể như sau: - Luận văn: 516 cuốn (85077 trang). - Sách giáo trình của các lớp nhiệm vụ chiến lược: 120 cuốn (110000 trang). - Kỷ yếu Đại học Quốc gia: 50 cuốn. - Sách tham khảo: 28 cuốn. - Luận văn thạc sĩ chưa có file mềm: 800 cuốn (12000 trang). Trong năm 2011, đã có 12.000 bản luận án, luận văn, đề tài nghiên cứu khoa học, 3000 kỷ yếu của ĐHQGHN dưới dạng file điện tử. Trung tâm đang làm 10486 file tài liệu tham khảo richfile, 2514 file dạng toàn văn (fulltext) của kỷ yếu hội nghị khoa học ĐHQG HN đưa lên trang web Trung tâm đang thực hiện dự án Ebook đại học, số hóa 50000 tên sách, dự kiến thực hiện trong 3 năm từ 2012 đến 2014. Cơ sở dữ liệu trên CD-ROM (nguồn tin offline) 1.1.6 Cơ sở vật chất: Cơ sở hạ tầng : Trung tâm Thông tin – thư viện ĐHQGHN nằm trong quần thể ĐHQG, với toà nhà 7 tầng được trang bị cơ sở vật chất kỹ thuật khang trang hiện đại. Trung tâm có tổng diện tích sử dụng là : 4.800m2. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 12
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Trụ sở chính tại: 144 Xuân Thủy- Cầu Giấy- Hà Nội: 2400m2. Phòng phục vụ bạn đọc Thượng Đình- trường Đại học Khoa học Xã hội và Nhân văn: 336 Nguyễn Trãi, Thanh Xuân, Hà Nội: 1.300m2 Phòng phục vụ bạn đọc Tầng 7 Nhà T5, 334 Nguyễn Trãi, Thanh Xuân, Hà Nội: 200m2. Phòng phục vụ bạn đọc Ngoại Ngữ: 530m2. Phòng phục vụ bạn đọc Mễ Trì: 460m2. Phòng mượn giáo trình khoa Hóa: 19 Lê Thánh Tông: 60m2 Cơ sở vật chất kĩ thuật : Mạng LAN hoàn chỉnh tại trụ sở chính và khu vực Thượng Đình, Ngoại ngữ, Mễ Trì được kết nối Intranet ĐHQGHN và kết nối Internet. Trung tâm được đầu tư nâng cấp hệ thống trang thiết bị bao gồm : 10 máy chủ, 5 thống mạng cục bộ, 300 máy trạm, 100 máy truy cập Internet và 150 máy phục vụ nhân viên, 20 máy in, máy đọc đĩa laze. Thư viện quang gồm 76 giá đĩa (mỗi đĩa chứa được 9,1GB thông tin). Mạng LAN hoàn chỉnh tại trụ sở chính và các khu vực Thượng Đình, Ngoại Ngữ, Mễ Trì được kết nối Intranet ĐHQGHN. 1.2. Số hóa tài liệu với hoạt động thông tin thƣ viện tại Trung tâm Thông tin Thƣ viện Đại học Quốc gia Hà Nội. 1.2.1. Một số khái niệm. + Tài liệu (Document) trong các thư viện và cơ quan thông tin được hiểu là “Vật mang tin”(Information medium), trên đó ghi cố định thông tin và được xem như một đối tượng xử lý trong quá trình xử lý thông tin và tư liệu. + Số hóa (Digitalize): Theo khái niệm được dùng trong công nghệ thông tin thì số hóa là việc biến đổi các loại hình thông tin sang thông tin số (các bit thông tin dữ liệu). Các loại hình tài liệu trên các vật mang truyền thống (giấy, Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 13
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ ảnh, phim ) sau khi qua công đoạn xử lý bằng các thiết bị chuyên ngành và phần mềm ứng dụng sẽ được chuyển thành các bit mang thông tin hay nói khác đi là chuyển thành dữ liệu điện tử. Dữ liệu này có thể được xử lý, lưu trữ trong máy tính điện tử, truyền trên mạng Intenet, tạo nên những cơ sở dữ liệu, dễ dàng tìm kiếm, trao đổi và chia sẻ kiếm thức một cách thuận tiện nhất. Thông thường, các dữ liệu dạng chữ, hình ảnh, âm thanh, sử dụng trên máy tính và được máy tính nhận biết đúng định dạng, được gọi chung là dữ liệu số. Quá trình chuyển các dạng tài liệu trên vật mang tin truyền thống như các bản viết tay, bản in trên giấy, hình ảnh sang chuẩn dữ liệu trên máy tính và được máy tính nhận biết được gọi là số hoá tài liệu. Như chúng ta đã biết, mục đích của một dây chuyền số hóa là chuyển kho tài liệu giấy thành tài liệu số. Nếu tài liệu số chỉ đơn thuần là các ảnh quét thì dây chuyền số hóa đó mới chỉ thực hiện được việc “file hóa” tài liệu. Việc số hóa chỉ mang lại hiệu quả khi quá trình tự động chuyển đổi kho tài liệu trên giấy thành tài liệu điện tử ở dạng có thể biên tập lại, trích dẫn và tìm kiếm được. Với ý nghĩa của việc số hóa như vậy, phần mềm nhận dạng ký tự đang đóng một vai trò then chốt của dây chuyền số hóa tài liệu. + Nhận dạng ký tự bằng quang học (thuật ngữ tiếng Anh là Optical Character Recognition, viết tắt là OCR). Đây là công nghệ được áp dụng để nhận dạng ký tự trên một định dạng file ảnh và chuyển nó thành định dạng văn bản (file text). Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau. Bởi vì chỉ có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực sự, bởi vậy thuật ngữ nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 14
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Để nhận dạng ký tự, đầu tiên hệ thống nhận dạng được yêu cầu phải làm quen với các mẫu của các ký tự cụ thể, sau đó hệ thống sẽ đọc, nhận dạng và dịch các ký tự sang ký tự trong ngôn ngữ tương ứng. Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến. Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm hình ảnh, các hàng, cột, bảng biểu, các thành phần không phải là văn bản trong tài liệu. Nhận dạng ký tự bằng quang học thường được ứng dụng như một phần mềm cài đặt trên máy tính hoặc tích hợp đi kèm với phần cứng (cụ thể là máy Scanner) hoặc được thiết lập như một ứng dụng trực tuyến. Hiện nay, có nhiều phầm mềm nhận dạng ký tự quang học trong đó một số phần mềm đang được dùng nhiều như OmniPage - một ứng dụng đi kèm với dòng máy Kodak Scan giúp nhận dạng văn bản sau khi quét hay phần mềm ABBYY Recognition Server - là một phần mềm ứng dụng công nghệ nhận dạng ký tự (OCR) nổi tiếng nhất hiện nay. Các chương trình hỗ trợ nhận dạng ký tự quang học có thể nhận dạng ký tự với tỷ lệ chính xác tới trên 99% đối với chất lượng hình ảnh rõ nét và font chữ thông thường. Đối với hình chất lượng kém, font chữ đặc biệt hoặc chữ viết tay thì kết quả cho ra không mấy khả quan. Đối với văn bản tiếng Việt có nhiều dấu nên tỷ lệ phần trăm nhận dạng chính xác không cao so với các văn bản trên các ngôn ngữ khác. Việc nhận dạng văn bản tiếng Việt là một vấn đề khó bởi tiếng Việt có nhiều dấu. Từ lâu, các chuyên gia Việt Nam đã bỏ nhiều công sức đề nghiên cứu xây dựng một phần mềm nhận dạng ký tự văn bản tiếng Việt. Hiện nay, một số chương trình nhận dạng văn bản tiếng Việt đã ra đời như phần mềm có tên là VnDOCR do Phòng Nhận dạng và Công nghệ Tri thức - Viện Công nghệ Thông tin nghiên cứu và phát triển. Phần mềm nhận dạng chữ Việt VnDOCR phiên bản 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian. Các trang Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 15
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang. Kết quả nhận dạng có thể được lưu trữ sang định dạng của Microsoft Word, Excel phục vụ rất tốt nhu cầu số hóa dữ liệu. Bên cạnh đó, còn có một phần mềm nhận dạng ký tự tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ. Đây là một chương trình nguồn mở, hỗ trợ nhận dạng cho các dạng ảnh TIFF, JPEG, GIF, PNG, và BMP. Ngoài những phần mềm nhận dạng do các công ty trong nước phát triển và đã được thương mại hóa còn có một số phần mềm nhận dạng của nước ngoài, có thể dùng miễn phí như sau: - TopOCR: Phần mềm TopOCR sử dụng những công nghệ mới nhất, mạnh nhất trong nhận dạng kí tự quang học và xử lý chữ kí điện tử để cho kết quả tốt nhất khi nhận dạng kí tự quang học từ ảnh chụp bằng các thiết bị như máy ảnh số hay điện thoại di động. Công nghệ này là kết quả sau nhiều năm nghiên cứu và phát triển tại Mỹ và châu Âu. Không giống như các phần mềm khác được thiết kế cho máy quét, TopOCR được phát triển cho việc nhận dạng kí tự trong các bức ảnh chụp. Cũng có một phiên bản chạy trên Windows Mobile và cũng cung cấp khả năng xử lí ảnh chụp rất tuyệt vời. SimpleOCR: Đây là phần mềm nhận dạng khá mạnh dùng cho máy quét. Phần mềm này khá phổ biến trên thế giới với hàng trăm ngàn người dùng. Khi dùng phần mềm này ta có thể tùy chọn những vùng trong ảnh quét để chương trình bỏ qua không xử lí cùng với nhiều tùy chọn hữu ích khác. Chương trình cũng có khả năng nhận dạng chữ viết tay và học từ mới. Có thể nói SimpleOCR là một công cụ rất mạnh để nhận dạng kí tự quang học thay cho việc đánh máy nhàm chán. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 16
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Tuy nhiên các chương trình nói trên vẫn còn trong giai đoạn khởi đầu, tính năng và chất lượng nhận dạng chỉ ở mức trung bình, đối với các văn bản viết tay thì hầu như các phần mềm hiện tại không thể nhận dạng được. Gần đây, ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh vực nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng tiếng Việt và vào tháng 4 năm 2009, công ty này đã cho ra đời phần mềm ABBYY Recognition Server, có độ chính xác trong việc nhận dạng tài liệu chữ in tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai). Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu. Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới. Chất lượng nhận dạng của các phần mềm một phần phụ thuộc vào công nghệ mà phần mềm đó được xây dựng nhưng không phải một phần mềm tốt là đủ để thực hiện công việc này mà chất lượng nhận dạng còn phụ thuộc vào chất lượng ảnh cần nhận dạng. Điều quan trọng nhất là tài liệu cần nhận dạng hay ảnh quét phải có chất lượng đủ tốt, khoảng 200dpi trở lên thì việc nhận dạng mới chính xác được. Việc nhận dạng chữ Việt thường xảy ra lỗi do các chữ tương tự nhau, thiếu dấu hay lầm giữa chữ hoa và chữ thường. Vì vậy đòi hỏi phải chỉnh sửa tài liệu sau khi nhận dạng để có kết quả tốt nhất. 1.2.2. Vai trò của số hóa tài liệu trong hoạt động của Trung tâm Thông tin thư viện Đại học Quốc Gia Hà Nội Chúng ta đang sống trong một thời đại mà tri thức không của riêng ai. Những kiến thức mà các học giả mất hàng trăm năm để nghiên cứu nay được Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 17
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ đúc kết lại thành vài kilobytes, và dễ dàng tìm thấy thông qua các công cụ như Google. Dù vậy, trên thực tế các tài liệu giấy vẫn giữ nguyên vai trò quan trọng của nó trong quá trình giáo dục và tìm hiểu của nhân loại, nhất là những văn bản giấy có giá trị lịch sử lâu đời hoặc mang tính chuyên ngành cao. Điều này dẫn đến một hệ quả tất yếu: số hóa nền tri thức “giấy in”. Nhu cầu khai thác thông tin trên văn bản giấy bằng các hệ thống phần mềm là một thực tế, đòi hỏi phải có giải pháp lưu trữ hiệu quả. Người ta gọi các hệ thống chuyển đổi thông tin từ dạng giấy sang dạng số là các hệ thống số hóa. Sau khi được số hóa, các thông tin trên tài liệu trở nên hiện hữu bởi các hệ thống khai thác thông tin và sẵn sàng để phục vụ các nhân viên của tổ chức. Hãy tưởng tường rằng phải mất bao nhiêu giấy tờ và không gian để lưu trữ kho kiến thức khổng lồ của nhân loại ngày một nhiều; hơn nữa việc bảo quản và phạm vi sử dụng bị hạn chế, do vậy bắt buộc chúng ta phải nghĩ đến giải pháp số hóa dữ liệu. Việc lưu trữ nguồn tài liệu theo phương pháp thủ công truyền thống ngày nay đã nảy sinh nhiều bất cập như khó khai thác, tìm kiếm thông tin, thêm vào đó các yếu tố như cơ sở vật chất không gian có hạn và sự tác động của các nhân tố môi trường làm cho tài liệu dễ bị hư hỏng, mất mát. Do vậy, công tác số hóa là vô cùng cần thiết để lưu trữ, bảo quản lâu dài cũng như thuận tiện cho việc khai thác và truy nhập thông tin. Số hóa tài liệu giúp cho việc lưu trữ, truy xuất, chia sẻ, tìm kiếm thông tin một cách dễ dàng hơn cũng như linh hoạt trong việc chuyển đổi sang các loại dữ liệu số khác nhau và giảm được không gian lưu trữ cũng như công tác quản lý. Trung tâm có vốn tài liệu lớn, đa dạng, số lượng tài liệu ngày càng được bổ sung nhiều từ nguồn bổ sung định kỳ và nguồn tài liệu nội sinh. Trong khi đó diện tích kho để tài liệu không tăng thêm, do vậy không thể đáp ứng được sự gia tăng của vốn tài liệu. Điều này thực sự đặt ra rất nhiều khó khăn cho công tác bảo quản trong một tương lai không xa. Vì vậy số hóa tài liệu là việc Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 18
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ làm cần thiết để giúp Trung tâm bảo quản nguồn tài liệu của mình, tiết kiệm diện tích kho, tiết kiệm chi phí đầu tư cơ sở vật chất, giúp bảo quản tài liệu tốt hơn tránh được sự hủy hoại của môi trường và sự tác động của con người. ĐHQGHN với vai trò là một trong hai trường đại học đào tạo chất lượng cao hàng đầu của cả nước, với nhu cầu phát triển đào tạo và nghiên cứu khoa học đẳng cấp quốc tế, đào tạo tín chỉ, e-learning (đào tạo điện tử); đòi hỏi Trung tâm phải có kho tài nguyên tri thức khổng lồ, có khả năng đáp ứng tất cả các ngành, chuyên ngành đào tạo với chất lượng cao. Theo GS.TS. Nguyễn Hữu Đức, Phó Giám đốc ĐHQGHN cho biết , trườ ng đang th ực hiện Đề án 16+23 nhằm xây d ựng 16 ngành đào tạo ĐH và 23 chuyên ngành đào tạo SĐH đạt trình độ quốc tế vào năm 2012. Theo học các chương trình này, sinh viên được hỗ trợ để học tiếng Anh nâng cao; từ năm thứ 2, bài giảng do các giáo viên nước ngoài và trong nước dạy bằng tiếng Anh được thực hành, tham gia nghiên cứu tại các phòng thí nghiệm hiện đại. Mục tiêu của nhà trườ ng là tập trung đào tạo đáp ứng theo nhu cầu xã hội với nguồn nhân lực chất lượng cao, có thể làm việc tại bất kỳ đâu trên thế giới với 77 ngành đào tạo, trong đó có 105 chuyên ngành đào tạo đại học khác nhau, có 5 chương trình đào tạo tài năng, 3 chương trình đào tạo tiên tiến, 20 chương trình chất lượng và nhiều chương trình đào tạo đặc biệt khác. Từ thực tế đó, Trung tâm xác định việc đầu tư xây dựng và phát triển kho tài nguyên tri thức một mặt phải khởi tạo nguồn tài nguyên tri thức bằng cách xây dựng các CSDL điện tử chuyên ngành, xây dựng thư viện các bài giảng điện tử, đầu tư xây dựng và phát triển các nguồn tài nguyên số hóa (số hóa các luận án, luận văn, các giáo trình, sách giáo khoa của ĐHQGHN, các đề tài nghiên cứu khoa học của ĐHQGHN); mặt khác từng bước kết nối với các Trung tâm Thông tin-thư viện lớn trong nước và quốc tế, các trung tâm học liệu của cả nước để khai thác tối đa các nguồn lực thông tin đã được đầu tư, Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 19
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ tránh tình trạng lãng phí, đồng thời làm giàu thêm kho tài nguyên tri thức của ĐHQGHN. Công tác số hóa tài liệu càng trở nên cấp thiết hơn nữa khi ĐHQGHN chuyển từ đào tạo niên chế sang đào tạo tín chỉ. Phương thức đào tạo tín chỉ lấy sinh viên làm trung tâm, theo phương thức này, người học phải có khả năng tự học, tự tìm kiếm nguồn tài liệu dưới hướng dẫn của giảng viên để phục vụ cho việc học tập. Với một đội ngũ cán bộ giảng viên hàng nghìn người, số sinh viên, nghiên cứu sinh đông tới hàng chục nghìn người, trong khi nguồn thông tin, tài liệu của Trung tâm còn khá hạn chế thì việc số hóa tài liệu là con đường tất yếu giúp Trung tâm có thể nhanh chóng thỏa mãn nhu cầu tin của người dùng. Trong khi đó ĐHQGHN là cơ quan có nhiều đơn vị, trường thành viên nằm phân tán. Vì vậy nguồn tài liệu phân tán ở nhiều địa điểm khác nhau. Số hóa tài liệu sẽ làm giảm công sức, chi phí của sinh viên trong trường tìm tài liệu học tập và giúp sinh viên có thể sử dụng thông tin nhanh chóng, đầy đủ. Hiện tại tất cả các nguồn tài liệu của các thư viện nói chung và tại Trung tâm nói riêng đang hàng ngày, hàng giờ phải đối mặt với sự đe dọa của khí hậu, môi trường, của con người tác động vào. Vì vậy, việc số hóa tài liệu không những giúp kéo dài tuổi thọ của tài liệu mà con tiết kiệm được diện tích kho mà còn giúp cho bạn đọc truy cập nhanh vào thông tin tài liệu bất cứ ở nơi đâu, thời điểm nào mà chỉ cần một máy tính nối mạng là được. Nhận thấy tầm quan trọng của công tác số hóa tài liệu, Trung tâm đã thử nghiệm việc số hóa từ năm 2005 với 5 tài liệu và bắt đầu triển khai công tác số hóa tài liệu từ năm 2009. Trung tâm là một trong những thư viện đi đầu trong công tác số hóa tài liệu tại Việt Nam hiện nay. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 20
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ CHƢƠNG 2 PHẦN MỀM NHẬN DẠNG ABBYY TRONG CÔNG TÁC SỐ HÓA TÀI LIỆU TẠI TRUNG TÂM THÔNG TIN – THƢ VIỆN ĐẠI HỌC QUỐC GIA HÀ NỘI 2.1. Giới thiệu tổng quan về phần mềm nhận dạng ABBYY. 2.1.1. Lịch sử hình thành và phát triển. ABBYY là tên phần mềm nhận dạng đồng thời cũng là tên công ty ABBYY do David Yang – một cựu sinh viên của Viện Vật lý Công nghệ Mátxcơva sáng lập và hiện là Tổng Giám đốc của công ty này. Ý tưởng tạo ra một phần mềm nhận dạng nảy sinh ra khi David Yang phải dùng những cuốn từ điển to lớn cồng kềnh để tra nghĩa của các từ và David Yang đã tính tới việc làm ra một từ điển điện tử có thể cho phép mọi người dịch lời nói chỉ trong một vài giây. Ứng dụng từ điển này sau này trở thành sản phẩm đầu tiên của ABBYY và được đặt tên là Lingvo. ABBYY mở rộng phạm vi nghiên cứu sang lĩnh vực nhận dạng ký tự và năm 1993 ABBYY Recognition Server được chính thức ra mắt. Ban đầu, phần mềm này chỉ nhận dạng được các văn bản tiếng Nga và tiếng Anh, sau nhiều năm phát triển không ngừng tới nay, ABBYY Recognition Server đã trở thành một phầm mềm nhận dạng ký tự hàng đầu thế giới và có thể nhận dạng được văn bản của gần 200 ngôn ngữ trên thế giới, trong đó có văn bản tiếng Việt. Một vài năm sau khi ra mắt công ty nhận ra rằng chất lượng và tính chính xác của sản phẩm này đã vượt quá yêu cầu ban đầu và là lựa chọn thay thế của người dùng không chỉ ở nước Nga mà còn ở nước ngoài. Vì thế, năm 1997 ABBYY bắt đầu mở rộng kinh doanh của mình trên toàn cầu và xây dựng một mạng lưới phân phối quốc tế và thiết lập quan hệ đối tác với các nhà sản xuất thiết bị tin học hàng đầu thế giới. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 21
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Hiện nay, ABBYY là một công ty đa quốc gia với 9 văn phòng ở các quốc gia khác nhau như Nga, Đức, Hoa Kỳ, Ukraina, Anh, Síp, Nhật Bản và Đài Loan Sản phẩm ABBYY đang được bán tại hơn 130 quốc gia trên thế giới thông qua một mạng lưới các đối tác trong khu vực và quốc tế. ABBYY là nhà cung cấp hàng đầu thế giới về phần mềm và dịch vụ chuyển đổi tài liệu, dữ liệu, và nhận dạng ký tự. ABBYY có 2 dòng sản phẩm chính: ABBYY Recognition Server và ABBYY FlexiCapture. 2.1.2. Các tính năng cơ bản của phần mềm nhận dạng ABBYY Công nghệ nhận dạng của hãng ABBYY là công nghệ nhận dạng hàng đầu thế giới, cho phép chuyển đổi tài liệu với nhiều tính năng và tiện ích: Nhận dạng chính xác: Phần mềm này cho phép nhận dạng chính xác 198 ngôn ngữ, bao gồm cả chữ in tiếng Việt với mức độ chính xác tới 99%, có thể chuyển đổi tài liệu giấy, ảnh số và các tập tin PDF sang văn bản điện tử ở định dạng có thể soạn thảo và tìm kiếm được. ABBYY còn có khả năng giữ nguyên định dạng và dàn trang của tài liệu gốc tốt hơn bao giờ hết. Chỉ trong chốc lát ta có thể chuyển đổi văn bản dạng ảnh thành văn bản số ở định dạng có thể soạn thảo được. Quản lý tập trung: ABBYY có giao diện quản lý từ xa, giữ vai trò quản lý tập trung, cho phép người quản trị đặt cấu hình hệ thống theo các yêu cầu xử lý, các tham số nhận dạng, lịch trình thực hiện, khuôn dạng kết quả nhận dạng. Công cụ tích hợp mềm dẻo: ABBYY có thể xử lý công việc với khối lượng lớn tùy ý: Việc quản trị hệ thống cũng rất mềm dẻo làm cho máy hoạt động liên tục hoặc chỉ trong những khoảng thời gian nhất định. Được trang bị công nghệ nhân dạng chữ in hàng đầu. ABBYY nhận dạng tài liệu với tốc độ chính xác rất cao (với tiếng Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 22
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Việt là trên 99%). Nó cũng bao gồm chức năng quản lý chất lượng tự động như khả năng tự động xác định các trang có kết quả thấp và cung cấp giao diện soát lỗi thân thiện với người dùng. Đối với văn bản thuần text thì khá đơn giản, nhưng nếu trong văn bản có bảng biểu, cách dàn trang và trình bày theo cột hoặc theo các cấu trúc khác nhau thì đây là vấn đề lớn đối với các phần mềm nhận dạng khác chứ chưa nói gì đến đặc thù chữ viết của chúng ta có nhiều dấu đi kèm. Nhưng với phần mềm nhận dạng ABBYY tài liệu được chuyển đổi từ dạng ảnh sang dạng có thể biên tập được những vẫn giữ nguyên cấu trúc so với bản gốc từ chữ viết tiếng Việt cho đến bảng biểu, cột, dòng, kí hiệu riêng Tài liệu sau nhận dạng chính xác gần như tuyệt đối so với bản gốc,tiết kiệm thời gian và công sức soạn thảo tài liệu: Chính xác cấu trúc và dàn trang tài liệu, cung cấp cho người dùng các tài liệu điện tử soạn thảo được. Công nghệ ADRT độc đáo của ABBYY phân tích tài liệu theo cách con người đọc tài liệu nhằm phát hiện và thiết lập các yếu tố định dạng của văn bản như styles, đầu trang và chân trang, số trang, Chuyển đổi tập tin PDF thành các văn bản điện tử có thể soạn thảo và tìm kiếm được: Chỉ với một thao tác đơn giản, tất cả các tập tin PDF bao gồm cả các tập tin PDF chỉ có ảnh nhận được từ máy quét, được chuyển đổi chính xác thành các định dạng văn bản điện tử có thể soạn thảo và tìm kiếm được Dễ dàng tạo ra sách điện tử: ABBYY có thể chuyển đổi sách dưới dạng giấy truyền thống sang mọi định dạng sách điện tử phổ biến, là những định dạng được hỗ trợ bởi các loại thiết bị đọc sách điện tử, máy tính bảng hay điện thoại thông minh. Định dạng kết quả đầu ra rất đa dạng: + PDF, PDF/A – 1a, PDF/A – 1b Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 23
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ + RTF, DOC, DOCX, Word XML + XLS, XLSX, HTML Tốc độ xử lý nhanh, tiết kiệm thời gian và chi phí.Hệ thống cho phép xử lý nhiều định dạng ảnh đầu vào khác nhau: + BMP: đen trắng, xám, màu + PNG: đen trắng, xám, màu + PCX, DCX: đen trắng, xám, màu Với nhiều tính năng hiện đại như trên, phần mềm nhận dạng của ABBYY đang được nhiều trung tâm thông tin - thư viện và các cơ quan đơn vị đưa vào ứng dụng trong quá trình xây dựng thư viện số, quản lý và kinh doanh. Đây là giải pháp hoàn chỉnh giải quyết vấn đề số hóa nhận dạng, một chủ đề không mới nhưng vẫn còn rất nóng hiện nay. Để dùng được phần mềm nhận dạng ABBYY, yêu cầu máy tính phải có tốc độ tối thiểu 1 GHz Máy tính có thể chạy trên các hệ điều hành Microsoft Windows 7 hoặc Windows Vista, Microsoft Windows XP/ Microsoft Windows Server 2008/ Microsoft Windows Server 2003. Yêu cầu 1024 MB bộ nhớ để làm việc với giao diện ngôn ngữ tùy chọn và cần thêm 512 MB RAM cho mỗi lõi của bộ vi xử lý. Yêu cầu phải có tối thiểu 700 MB ổ cứng để cài đặt ứng dụng và 700 MB trống để chương trình hoạt động. Máy quét tương thích chuẩn TWAIN hoặc WIA, máy ảnh số hoặc fax- modem (tùy chọn) màn hình có độ phân giải tối thiểu 1024x76. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 24
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ 2.1.3. Các ứng dụng chính của phần mềm nhận dạng ABBYY tại Trung tâm + Khả năng lưu trữ: Chuyển đổi một khối lượng lớn tài liệu giấy sang tài liệu số dưới các định dạng có thể tìm kiếm và biên tập được như là MSWord, MS Excel, PDF, PDF/A. (Xem phụ lục: Hình 2) + Tích hợp hệ thống: Chi phí thấp nhất và tiết kiệm nguồn lực là những ưu điểm nổi bật của ABBYY Recognition Server. Xét về khả năng tích hợp, so với các bộ phần mềm nhận dạng truyền thống, ABBYY tiết kiệm nguồn lực và chi phí rất nhiều. ABBYY không chỉ cung cấp giao diện tích hợp dễ sử dụng mà còn là các hàm được đóng gói ở mức độ cao, sẵn sàng cho các chức năng nhận dạng tài liệu hay chuyển đối sang PDF. Thêm vào đó các hệ thống quản lý thông tin được bổ sung một khối chức năng chuyển đổi tài liệu hoàn chỉnh Hãy tưởng tượng bạn đang có trong tay một số tài liệu giấy như sách, báo, tờ rơi quảng cáo, hợp đồng. Máy quét chỉ có thể biến những tài liệu giấy này thành tài liệu dạng ảnh. Với các tài liệu dạng ảnh chỉ có thể đọc mà không thể biên tập lại chúng trên các hệ soạn thảo điện tử hiện nay; các hệ thống tìm kiếm cũng không thể tìm được các đoạn văn bản trên những tài liệu này. Với việc sử dụng phần mềm nhận dạng chữ in biên soạn lại các tài liệu dạng ảnh cũng như việc số hóa tài liệu sẽ được thực hiện rất đơn giản. Nhờ các tính năng vượt trội trên nên mặc dù mới được du nhập vào Việt Nam nhưng phần mềm nhận dạng ABBYY đã được nhiều cơ quan tổ chức đánh giá cao và đưa vào sử dụng như: Bộ Khoa học và Công nghệ (Cục Sở hữu trí tuệ), Trung tâm Thông tin Thư viện ĐHQG Hà Nội, Văn phòng TW Đoàn Thanh niên Cộng sản Hồ Chí Minh, Công ty Cổ phần Chứng Khoán Vndirect Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 25
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Hiện nay Trung tâm thông tin thư viện Đại học Quốc gia Hà Nội đang sử dụng dòng sản phẩm ABBYY Recognition Server Phần mềm ABBYY Recognition Server có thể nhận dạng các tài liệu in của hơn 198 ngôn ngữ Mức độ chính xác/ Tốc độ chuyển đổi Độ tăng (*) Nhận dạng ngôn ngữ Châu Á (ví dụ Nhật Bản, Tới 30 % Trung Quốc) Nhận dạng ngôn ngữ Châu Âu (ví dụ Anh, Đức, Pháp ) Tới 20% Độ chính xác đối với hình ảnh kỹ thuật số Tới 30% Chuyển đổi định dạng PDF nhanh hơn Tới 50% (*) Kết quả đánh giá dựa trên thử nghiệm của ABBYY. ABBYY Recognition Server có tính năng vượt trội hơn các phần mềm nhận dạng hiện nay. Với khả năng làm việc tự động, chất lượng nhận dạng cao, chấp nhận nhiều định dạng đầu vào và cho phép kết xuất kết quả nhận dạng ra nhiều định dạng lưu trữ khác nhau ( Xem phụ lục: Hình 3) + Nhận dạng chính xác: Công nghệ nhận dạng chữ in đã đoạt nhiều giải thưởng của ABBYY có khả năng nhận dạng 198 ngôn ngữ, trong đó có cả tiếng Việt, với độ chính xác gần như tuyện đối. + Nhanh chóng triển khai và dễ sử dụng: ABBYY Recognition Server có giao diện trực quan và có thể được thiết lập và hoạt động mà không có đào tạo trước. + Được thiết kế xử lý khối lượng lớn tài liệu: ABBYY Recognition Server được biết đến với khả năng mở rộng chưa từng có của nó. Giải pháp là một cách dễ dàng cầu đa lõi CPU hoặc nhiều máy chủ, và do đó có thể đối phó với bất kỳ khối lượng của các tài liệu. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 26
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ + Sẵn sàng làm kết nối đến hệ thống Microsoft và Google doanh nghiệp tìm kiếm: ABBYY Recognition Server kết nối như một máy chủ OCR nền cho hệ thống doanh nghiệp như Microsoft ® Office SharePoint ® Server, Windows ® Search và Google Search Appliance ™, nâng cao khả năng của mình để tìm kiếm lên nội dung của tài liệu hình ảnh. ABBYY Recognition Server bao gồm một số thành phần, có thể được cài đặt vào cùng một hoặc trên máy tính khác nhau trong một mạng LAN. 2.1.4. Các thành phần chính của phần mềm nhận dạng ABBYY. (Xem phụ lục: Hình 4) Máy chủ quản lý - một thành phần trung tâm dịch vụ điều khiển hàng đợi xử lý tài liệu, và phân phối các tác vụ trong số các trạm Trạm xử lý tài liệu (Processing Station) Trạm quét (Scaner Station) - một trạm khách hàng thực thi chức năng quét và xử lý hình ảnh. Trạm chỉ mục (Indexing Station) - một trạm khách hàng đối với chỉ mục tài liệu và phân loại Đầu nối vào Google Search Appliance ™ (GSA) - một thành phần cho phép Google Search Appliance để sử dụng ABBYY Recognition Server cho giải nén nội dung từ các tài liệu hình ảnh Kết nối đến Microsoft ® tìm kiếm hệ thống (IFilter)-một thành phần cho phép Microsoft Office SharePoint Server và Windows tìm kiếm sử dụng ABBYY Recognition Server để trích xuất nội dung từ các tài liệu hình ảnh Giao diện điều khiển từ xa - bàn điều khiển máy khách được dùng để cấu hình và giám sát Server Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 27
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ 2.2. Qúa trình triển khai phần mềm nhận dạng tiếng Việt ABBYY trong công tác số hóa tài liệu ở Trung tâm Thông tin Thƣ viện Đại học Quốc gia Hà Nội. Trong thời đại công nghệ thông tin phát triển mạnh mẽ như hiện nay, việc số hóa các loại sách, tài liệu nhằm chia sẻ, cung cấp thông tin tư liệu tới bạn đọc nhanh chóng đang trở nên bức thiết. Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội là nơi cung cấp thông tin, tạo điều kiện cho người đọc phát triển toàn diện, đặc biệt là tư duy sáng tạo, góp phần giúp ĐHQGHN hoàn thành sự nghiệp đào tạo nguồn tài liệu số. Để Trung tâm thật sự là nơi đảm bảo chất lượng và hiệu quả giáo dục, đòi hỏi phải tăng cường vốn tài liệu, đảm bảo về nội dung, bao gồm đầy đủ giáo trình, sách tham khảo chuyên ngành phù hợp với ngành nghề đào tạo của nhà trường. Bên cạnh những vốn tài liệu truyền thống đó, chúng ta cần không ít một lượng vốn tài liệu số để người dùng tin dễ dàng truy cập thông tin mọi lúc mọi nơi, dễ dàng thuận tiện và nhanh chóng. Từ tháng 10 năm 2009, Trung tâm bắt đầu làm công tác số hóa tài liệu, chủ yếu số hóa nguồn tài liệu nội sinh như luận án, luận văn, đề tài nghiên cứu khoa học, kỷ yếu hội nghị hội thảo không có bản mềm. Số hoá nguồn tài liệu - đây là công đoạn đòi hỏi đầu tư nhiều công sức và thời gian. Nếu như trước đây, khi ta muốn số hóa một cuốn sách khoảng 2000 trang thì phải mất hàng mấy ngày để quét từng trang sách qua máy Scan. Nhưng hiện nay cũng với cuốn sách đó chỉ mất vài giờ đồng hồ là cho ra một sản phẩm tài liệu số đảm bảo chất lượng tốt, sắc nét, hình ảnh đẹp, giống 100% bản gốc và đặc biệt còn cho phép tự động tạo các siêu dữ liệu mô tả và siêu dữ liệu cấu trúc của tài liệu ở định dạng XML. Năm 2009 Trung tâm đã có các thiết bị số hóa tài liệu của công nghệ KIRTAS APT 1600, công nghệ này cùng với thiết bị BookScan APT 1600 có thể giúp thư viện có thể số hóa nguồn tài liệu với số lượng lớn, giá cả hợp lý và đảm bảo chất lượng, phần Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 28
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ mềm nhận dạng quang học ABBYY Recognition Server. Đặc biệt là công nghệ KIRTAS APT 1600 có một phần mềm biên tập BookScan Editor cho phép tự động biên tập, tạo siêu dữ liệu theo yêu cầu; BookScan APT 1600 không làm hư hỏng tài liệu gốc do không phải tháo gáy tài liệu đối với tài liệu có độ dày trang khi thực hiện Scan. 2.2.1. Qúa trình ứng dụng phần mềm nhận dạng ABBYY Tổ chức và triển khai: Địa điểm: Công tác số hóa tài liệu được tiến hành tại phòng Phát triển Tài nguyên số của TTTT-TV ĐHQGHN Cơ sở vật chất trang thiết bị để số hóa tài liệu: Phòng Phát triển Tài nguyên số của Trung tâm được trang bị hệ thống máy móc hiện đại: Bằng nguồn kinh phí của dự án thư viện điện tử, Trung tâm đầu tư hệ thống thiết bị số hóa Kirtas APT BookScan của Hoa Kỳ. Các sản phẩm sau khi số hoá bằng kỹ thuật và phần mềm Kirtas có chất lượng hình ảnh đẹp nhất, thậm chí đẹp hơn cả bản gốc. Kirtas mang đến một phương pháp sinh lợi và dễ dàng có thể số hoá các tài liệu trên giấy như bản viết tay, các tài liệu tham khảo, luận văn, sách sử và đưa nội dung lên mạng qua một giao diện hoàn hảo để phổ biến rộng khắp trên Internet và đồng thời đảm bảo được tính bảo mật. Hệ thống thiết bị số hóa được trang bị bao gồm: Máy số hóa với tốc độ tối đa là 1600 trang/giờ với tính năng lật giở trang tự động bằng cánh tay robot; 01 bộ máy tính Dell và phần mềm biên tập book scan editor (BSE) phục vụ công tác biên tập dữ liệu số hóa. + 8 máy vi tính cấu hình cao. + 1 bộ lưu trữ 8TB SAN/STORAGE. Các máy tính được cài phần mềm nhận dạng ký tự quang học OCR (Optical Character Recognition) Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 29
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Trung tâm có hệ quản trị mã nguồn mở Dspace. Nguồn nhân lực số hóa tài liệu: Ngày nay, vai trò của cán bộ thư viện càng trở nên quan trọng, yêu cầu đặt ra đối với họ ngày càng cao. Cán bộ thư viện không chỉ nắm vững chuyên môn nghiệp vụ mà còn phải luôn biết tìm tòi, học hỏi, nâng cao trình độ ngoại ngữ và kỹ năng tin học. Những ứng dụng công nghệ thông tin vào thư viện đã làm thay đổi rất lớn đến phương thức phục vụ cũng như xử lý nghiệp vụ. Đặc biệt đối với cán bộ số hóa tài liệu, chuyển dữ liệu sang dạng số hóa thì yêu cầu về trình độ tin học càng cao hơn. Cán bộ thư viện làm công tác số hóa phải có trình độ chuyên môn nghiệp vụ thư viện, nghiệp vụ tin học và biết vận hành máy móc, trang thiết bị để số hóa tài liệu. Tại Trung tâm công tác số hóa được thực hiện tại Phòng Phát triển Tài nguyên số. Phòng Phát triển Tài nguyên số có 8 cán bộ trình độ đại học trở lên gồm các chuyên ngành Thông tin - Thư viện và tốt nghiệp chuyên ngành Công nghệ Thông tin. Chức năng nhiệm vụ chính của Phòng Phát triển Tài nguyên số là: thu thập tài liệu, xử lý tài liệu, số hóa tài liệu, biên mục và đưa file tài nguyên số lên phần mềm để tạo cơ sở dữ liệu điện tử đáp ứng nhu cầu thông tin để hỗ trợ giảng viên, cán bộ viên chức và sinh viên của trường hoàn thành nhiệm vụ giảng dạy, học tập và nghiên cứu khoa học. Đồng thời phục vụ nhu cầu tra cứu, nghiên cứu tài liệu tham khảo chuyên ngành của sinh viên trong trường và sinh viên các trường đại học khác. Nhiệm vụ 1: Thu thập tài liệu luận án, luận văn, khóa luận tốt nghiệp, đề tài nghiên cứu khoa học, giáo trình để số hóa tài liệu. Nhiệm vụ 2: Nhận và lưu đĩa luận án, luận văn. Nhiệm vụ 3: Tạo bộ sưu tập, xử lý, biên mục tài liệu và đưa dữ liệu điện tử lên mạng Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 30
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Nhiệm vụ 4: Download tài liệu đã đặt mSua phục vụ nhu cầu học tâp của sinh viên, giáo viên và cán bộ nghiên cứu khoa học của trường. 2.2.2. Quy trình xử lý của phần mềm Quá trình chuyển đổi tài liệu có thể chia làm 11 bước: Lưu trữ File và trả tài Lựa chon tài liệu số hóa liệu in Kiểm tra chất lượng Phân loại, vệ sinh, tiền xử lý tổng thể tài liệu số hóa Nhập siêu dữ liệu Metadata cho tài liệu Quét tài liệu Kết xuất File Xử lý ảnh, tài liệu vừa được quét Soát lỗi nhận dạng và kiểm tra chất lượng Kiểm tra chất lượng Nhận dạng ký tự ảnh Bước 1: Lựa chọn tài liệu số hóa. Trước hết Trung tâm lựa chọn để dần tạo lập thư viện số là số hóa tài liệu nội sinh in trên giấy hiện có, ưu tiên số hóa luận án, luận văn, giáo trình, kết quả nghiên cứu khoa học. Công việc số hóa tài liệu nội sinh là nhiệm vụ trọng Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 31
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ tâm, cần được triển khai trước khi bắt tay vào xây dựng thư viện điện tử. Bởi lẽ, sau khi xây dựng xong hạ tầng mạng và có các phần mềm Hệ thống, phần mềm đầy đủ nhưng cơ quan vẫn không có hoặc có rất ít tài liệu số hoá nội sinh chắc chắn không thể phát huy được hiệu quả Trong việc lựa chọn tài liệu để số hoá, ta phải ưu tiên các tài liệu đặc thù của thư viện, các tài liệu duy nhất và có giá trị lâu dài để trao đổi, ví dụ: các tài liệu quý hiếm, các sưu tập có giá trị. Ưu tiên số hoá trước hết đối với tài liệu chưa ở đâu số hoá, tài liệu tiếng hiếm, tiếng Việt, sưu tập đặc biệt và tài liệu một bản, chẳng hạn sách quý hiếm và bản viết tay; tài liệu được sử dụng cao, thường xuyên được yêu cầu cho giảng dạy và nghiên cứu. Cụ thể Trung tâm đã và đang triển khai kế hoạch số hóa sách, tài liệu luận án, luận văn, đề tài nghiên cứu khoa học, kỷ yếu hội nghị hội thảo Song song với việc số hoá là việc xây dựng các siêu dữ liệu đối với từng tài liệu và cập nhật tài liệu đã được số hoá này vào CSDL tương ứng để phục vụ kịp thời cũng như làm cơ sở cho việc xây dựng thư viện số Bước 2: Phân loại, vệ sinh, tiền xử lý tài liệu số hóa Tiến hành phân loại tài liệu theo các tiêu chuẩn sau: Độ ưu tiên của tài liệu Chất lượng của tài liệu(Tài liệu cũ,tài liệu mới, chất lượng giấy) Khổ tài liệu(Chiều dài, chiều rộng của tài liệu) Kiểm tra toàn bộ tài liệu trước khi quét, xử lý các trang bị gấp mép, rọc các trang tài liệu bị dính Vệ sinh từng loại tài liệu đã được phân loại bao gồm: Làm sạch bìa, phần bao bọc bên ngoài tài liệu Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 32
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Làm sạch các trang sách bên trong một cách nhẹ nhàng và sạch nhất trước khi đưa vào máy APT để không ảnh hưởng đến chất lượng ảnh khi quét tài liệu Trong quá trình vệ sinh cần kiểm tra chất lượng của tài liệu và xử lý tiếp những tài liệu bị lỗi (dính 2 trang, gấp mép trang ) Sau khi vệ sinh xong sắp xếp tài liệu lên giá vào vị trí chờ nhất định đưa vào hệ thống chờ quét ảnh Bước 3: Quét tài liệu (scaning) Thực hiện quét tài liệu bằng máy APT (Auto-Page Turning Scanner). Để đạt hiệu xuất cao trong quy trình quét tài liệu ta cần thiết lập các profile (khuôn mẫu) cho từng loại tài liệu (tài lieeuj cũ, mới, chất lượng các trang tài liệu tốt, xấu), phân loại tài liệu theo kích cỡ trước khi đưa vào máy để không phải thay đổi cánh tay liên tục. Chọn cánh tay giở trang phù hợp với độ rộng của cuốn tài liệu cần quét. Trước khi đưa tài liệu và máy APT, cán bộ số hóa phải kiểm tra hình ảnh hiển thị có vấn đề gì không, thường là kiểm tra xem ảnh có nét không, có quá sáng hoặc quá tối không. Nếu ảnh không rõ nét thì cần tập trung lại ống hình camera, chuyển sang chế độ auto để ống kính tự điều chỉnh để tiêu cự chụp rơi theo chuyển về chế độ Manual để định vị ống kính (định dạng ảnh thường dùng là TIFF, JPEG). Độ phân giải thông thường đặt khi quét tài liệu là 300 dpi, tuy nhiên có thể tăng giảm độ phân giải tùy thuộc vào loại tài liệu và yêu cầu của vịêc số hóa. Kiểm soát, cài đặt, điều chỉnh lại hệ thống quét sao cho các ảnh sau khi quét đạt chất lượng tốt nhất. Kiểm soát số trang trang tài liệu, tránh bị thiếu trong quá trình quét. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 33
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Phân loại xếp các tài liệu đã quét ảnh lên vị trí giá để tài liệu đã quét ảnh Ghi nhật ký số hóa tài liệu (tài liệu đã quét, tài liệu đang chờ quét). Bước 4: Xử lý ảnh (Image processing) tài liệu vừa được quét Nhằm nâng chất lượng ảnh của tài liệu phục vụ cho bạn đọc, bên cạnh phục vụ quá trình nhận dạng được tốt hơn, cần có các thao tác xử lý ảnh bao gồm: Cắt xén ảnh (cropping) Dựng thẳng hình ảnh (deskewing) Thay đổi nền (làm đồng loạt, hoặc loại bỏ nền) Thay đổi kích thước ảnh Thực hiện xử lý ảnh và nâng cao chất lượng hình ảnh (image processing). Chia số ảnh thành nhiều batch, mỗi batch khoảng 300 trang (đối với sách dày hơn 300 trang). Sau đó mở cửa sổ Run batch chọn quality là 85, độ phân giải 300 dpi. Toàn bộ ảnh sau khi được quét sẽ được lưu ở dạng TIFF hoặc JPEG và được lưu trữ trên Storage. Trong quá trình xử lý ảnh, cán bộ số hóa phải lưu ý các thông số kỹ thuật sao cho đúng với yêu cầu. Một vài chú ý khi quét ảnh: Đối với sách có nhiều ảnh màu, ảnh màu mờ gần với màu nền, nền sách lại hơi đen cần làm cho nền sách trắng hơn. Nếu chỉnh ánh sáng để nền sách đen trở thành trắng thì sẽ làm mất màu những ảnh có màu mờ. Do đó phải dùng chương trình xử lý ảnh chuyên dụng để lại bỏ nền. Có thể dùng phần mềm Photoshop để lựa chọn màu gần với màu nền để loại bỏ. Phần mềm Snagit cho phép lưu file JPG có kích thước nhỏ nhưng chất lượng ảnh không mấy thay đổi và giữ nguyên độ phân giải. Do đó khi cần giảm kích thước file hàng loạt thì nên dùng chức năng Batch resize của Snagit. Thực hiện kiểm tra quản lý chất lượng. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 34
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Thực hiện kiểm tra chất lượng (Quality check) bằng cách kiểm tra sản phẩm theo danh sách (check list) và chỉnh sửa lại sản phẩm nếu chưa đạt chất lượng bằng Image Correction. Đôi khi không có một nhu cầu để xử lý tài liệu quan trọng đã được công nhận với độ chính xác đặc biệt. Đồng thời, chất lượng của các quét không thể là hoàn hảo, bị độ phân giải thấp và tiếng ồn không mong muốn. Trong trường hợp này là rất quan trọng để có một cơ chế bảo đảm chất lượng đáng tin cậy. Tự động kiểm soát chất lượng cho phép các quản trị viên để thiết lập một ngưỡng cho sự công nhận chính xác: tài liệu với văn bản chất lượng nghèo sẽ không được chuyển đổi, nhưng thay vào đó được lưu trữ trong thư mục riêng biệt Bước 5: Kiểm tra chất lượng hình ảnh vừa xử lý: Để tránh sai sót trong quá trình scan cũng như xử lý ảnh, cần có một bước kiểm tra chất lượng, tại bước này được tiến hành độc lập bằng một ngườ khác. Nếu vẫn còn sai sót, kết quả sẽ được gửi về các bước trước để làm lại. Một số điểm cần kiểm tra đối với file JPEG: Đảm bảo tài liệu không thiếu trang. Có đủ 2 trang bìa. Đảm bảo hình ảnh có nét mờ không bị mất. Thực hiện kiểm tra một lượt các hình ảnh trong tài liệu và so sánh với tài liệu gốc. Đảm bảo hình ảnh không quá mờ, cũng không quá tối, đối với tài liệu mới nền sách phải là màu trắng hoàn toàn. Đảm bảo chữ rõ nét, không bị đứt nét so với tài liệu gốc (vì đứt nét sẽ ảnh hưởng đến chất lượng nhận dạng. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 35
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Đảm bảo không có hiện tượng gì bất thường đối với từng trang tài liệu (chẳng hạn trang sách bị xoay, kẹp chưa được loại bỏ hết, có viền đen bao trang tài liệu). Việc này đòi hỏi phải kiểm tra lại một lượt tất cả các trang tài liệu. Bước 6: Thực hiện nhận dạng nhận dạng bằng phần mềm ABBYY Phần mềm nhận dạng ABBYY Recognition Server cung cấp khả năng nhận dạng gần 200 ngôn ngữ trên thế giới, với đặc điểm có thể giữ nguyên cấu trúc của văn bản, cùng với khả năng xử lý theo mô hình tập trung. Các file ảnh sau khi đã được xử lý được đưa vào “Input folder” của phần mềm. Phần mềm sẽ tự động xử lý nhận dạng và trả kết quả đầu ra tại “Output folder” Kết quả nhận dạng có thể đạt đọ chính xác tới 99% với tài liệu mới, có chất lượng tôt. Tuy nhiên với các tài liệu cũ, mực in mờ, ảnh có nhiều, nhiễu thì độ chính xác cũng bị giảm đáng kể Bước 7: Soát lỗi phần mền nhận dạng ABBYY và kiểm tra chất lượng Sau khi hoàn thành nhận dạng ký tự, kết quả sẽ được chuyển xang trạm soát lỗi và kiểm tra chất lượng. Tùy tho yêu cầu của việc số hóa mà chúng ta tiến hành mức độ chính xác của việc nhận dạng ký tự. Có thể nói đây là công việc đòi hỏi công phu, và tốn thời gian nhất trong quy trình số hóa. Quy trình được thực hiện chủ yếu do cán bộ số hóa, với sự hỗ trợ của công cụ soát lỗi chính tả trên phần mềm. Bước 8: Kết xuất file: Tùy theo nhu cầu sử dụng và quản lý có thể thiết lập trân phần mềm đưa ra file định dạng PDF/A(2 lớp bao gồm cả lớp ảnh và lớp text), Word, HTML Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 36
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Tạo file PDF: PDF là 1 sản phẩm của hãng Adobe, định dạng nén này đòi hỏi người dùng phải có chương trình Acrobat Reader. Đây là phần mềm miễn phí, có khả năng duyệt và in ấn dễ dàng. Tạo file PDF bằng chương trình Acrobat Professional. Nó có nhược điểm là trong 1 thời điểm chỉ tạo được một quyển, không xử lý được hàng loạt. Yêu cầu đối với file PDF: Đảm bảo kích cỡ chuẩn, giống nhau giữa các trang không quá to hay quá nhỏ, khác nhau về độ rộng, cao. Sau khi nhận dạng kí tự quang học và tạo file PDF phải chỉnh sửa tài liệu nếu cần (đặc biệt khi làm dịch vụ số hóa bên ngoài mà khách hàng yêu cầu). Bước 9: Thực hiện biên mục (tạo siêu dữ liệu) cho tài liệu. Dùng chuẩn Dublin core để biên mục tài liệu số hoặc có thể dùng chuẩn MARC 21. Hiện tại Trung tâm đang dùng chuẩn Dublin Core để biên mục cho dữ liệu số. Siêu dữ liệu (Metadata) dùng để mô tả một tài nguyên thông tin trên Internet. Một bản ghi metadata bao gồm một tập các thuộc tính hoặc tập các phần tử cần thiết để mô tả các tài nguyên theo yêu cầu. Dublin Core Metadata là chuẩn dùng mô tả nội dung biểu ghi và dữ liệu gồm 15 phần tử. Chuẩn này được dùng tương đối phổ biến trong mô tả dữ liệu. 1. Nhan đề (Title): Nhan đề của tài liệu 2. Tác giả (Creator): Tác giả của tài liệu, bao gồm cả tác giả cá nhân và tác giả tập thể. 3. Chủ đề (Subject): Chủ đề tài liệu đề cập dùng để phân loại tài liệu. Có thể thể hiện bằng từ, cụm từ/(Khung chủ đề), hoặc chỉ số phân loại/ (Khung phân loại). Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 37
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ 4. Tóm tắt (Description): Tóm tắt, mô tả nội dung tài liệu. Có thể bao gồm tóm tắt, chú thích, mục lục, đoạn văn bản để làm rõ nội dung 5. Nhà xuất bản (Publisher): Nhà xuất bản, nơi ban hành tài liệu có thể là tên cá nhân, tên cơ quan, tổ chức, dịch vụ 6. Tác giả phụ (Contributor): Tên những người cùng tham gia cộng tác đóng góp vào nội dung tài liệu, có thể là cá nhân, tổ chức 7. Ngày tháng (Date): Ngày, tháng ban hành tài liệu. 8. Loại (kiểu) (Type): Mô tả bản chất của tài liệu. Dùng các thuật ngữ mô tả phạm trù kiểu: trang chủ, bài báo, báo cáo, từ điển 9. Khổ mẫu (Format): Mô tả sự trình bày vật lý của tài liệu, có thể bao gồm; vật mang tin, kích cỡ độ dài, kiểu dữ liệu (.doc, .html, .jpg, xls, phần mềm ) 10. Định danh (Identifier): Các thông tin về định danh tài liệu, các nguồn tham chiếu đến, hoặc chuỗi ký tự để định vị tài nguyên: URL (Uniform Resource Locators) (bắt đầu bằng http://), URN (Uniform Resource Name), ISBN (International Standard Book Number), ISSN (International Standard Serial Number), SICI (Serial Item & Contribution Identifier), 11. Nguồn (Resource): Các thông tin về xuất xứ của tài liệu, tham chiếu đến nguồn mà tài liệu hiện mô tả được trích ra/tạo ra, nguồn cũng có thể là: đường dẫn (URL), URN, ISBN, ISSN 12. Ngôn ngữ (Language): Các thông tin về ngôn ngữ, mô tả ngôn ngữ chính của tài liệu: 13. Liên kết (Relation): Mô tả các thông tin liên quan đến tài liệu khác. có thể dùng đường dẫn (URL), URN, ISBN, ISSN Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 38
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ 14. Diện bao quát (Coverage): Các thông tin liên quan đến phạm vi, quy mô hoặc mức độ bao quát của tài liệu. Phạm vi đó có thể là địa điểm, không gian hoặc thời gian, tọa độ 15. Bản quyền (Right): Các thông tin liên quan đến bản quyền của tài liệu Yêu cầu đối với siêu dữ liệu: Đảm bảo siêu dữ liệu không sai chính tả, dùng tool check ngữ pháp trong Microsoft Word để chỉnh sửa nếu sai. Đảm bảo siêu sữ liệu đúng với tài liệu gốc. Bước 10: Kiểm tra chất lượng tổng thể. Đảm bảo quy trình kiểm tra chất lượng được tuân thủ: Cần kiểm tra xem bằng chứng của quá trình Quality Check đã đầy đủ hay chưa (các file check list phải đầy đủ). Kiểm tra lại bằng quan điểm của khách hàng: Đối chiếu với yêu cầu trong đơn hàng để kiểm tra xem liệu trong file check list có điểm nào cần kiểm tra mà bị thiếu hay không (có thể có nhưng yêu cầu đặc biệt), hoặc có sản phẩm nào bị thừa hay không. Kiểm tra số file JPG làm ra thực tế có lớn hơn hoặc bằng so với số trang của quyển sách hay không. Nếu ít hơn thì là thiếu trang. Thông thường sẽ lớn hơn khoảng từ 1 đến 20 trang, nếu quá số này thì phải xem lại. Việc kiểm tra này rất quan trọng, để đảm bảo rằng việc số hóa không bị thiếu trang ở công đoạn cuối cùng (do có thể copy thiếu các batch cho khách hàng, mặc dù sau khi BSE đã kiểm tra thiếu trang hay không tuy nhiên việc kiểm tra tại đó chủ yếu để phòng tránh việc scan không bị thiếu trang do dính trang khi lật dở). Việc kiểm tra này được thực hiện bằng cách fill vào file "Project data.xls" (là file quản lý việc số hóa), trường "Actualpages" của từng quyển sách và so sánh với số trang được đếm từ sách là trường "Noof pages" ngay bên cạnh. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 39
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Kiểm tra ngẫu nhiên tất cả sản phẩm xem có vấn đề gì không? Xem sản phẩm có đặt chất lượng như check list đã kiểm tra hay không. Đây có thể được coi như bước nghiệm thu cuối cùng cho các công việc đã hoàn thành. Nếu trong quá trình kiểm tra có phát hiện sai sót, kết quả sẽ được trả về các bước xử lý trước đó. Bước 11: Lưu trữ file và đưa dữ liệu lên mạng để phục vụ Cách đơn giản nhất là tạo các trang web dưới dạng HTML và đưa sữ liệu đã được số hóa lên internet. Hoặc cũng có thể tạo một cơ sở dữ liệu nếu có khả năng. Hiện tại trung tâm sử dụng phần mềm nguồn mở miến phí Koha để đưa tài liệu số hóa lên mạng phục vụ. Cách đặt tên file: Để đảm bảo tính nhất quán và thuận tiện cho việc xử lý tự động các file sau khi scan, một số quy định chung về cách đặt tên file đã được đề ra như một tiêu chuẩn của quy trình số hóa: - Sử dụng chữ thường khi đặt tên. - Sử dụng chữ số tượng trưng cho số tập của tài liệu. - Độ dài tên file phải nhất quán. Đối với sách và bản thảo , tên file gồm 10 ký tự: 4 chữ cái đầu tiên (tên viết tắt của 4 từ đầu của nhan đề) + 2 ký tự tiếp theo (số tập) + 4 ký tự tiếp theo (số trang). Ví dụ 1: Scan trang 1, quyển “An Nam Chí Lược”, tên file được đặt như sau: ancl000001.tif. Ví dụ 2: Scan trang 1, quyển “Quốc Triều Chính Biên”, tập 1, tên file được đặt như sau: qtcb010001.tif Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 40
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Đối với hình ảnh và các dạng tài liệu đơn giản, tên file gồm 6 ký tự: 2 ký tự đầu (tên viết tắt 2 từ đầu của tên bộ sưu tập) + 4 ký tự tiếp theo (số thứ tự của tấm ảnh trong bộ sưu tập). Ví dụ: Ảnh thứ nhất trong bộ sưu tập ảnh về triều Nguyễn, tên file được đặt như sau: tn0001.jpg. 2.2.3. Kết quả số hóa tài liệu Tốc độ nhận dạng: rất nhanh, chỉ 2 giây cho 1 trang khổ A4. Sau khi nhận dạng, ABBYY Recognition Server cho phép kết xuất kết quả nhận dạng ra nhiều định dạng file có thể tìm kiếm và biên tập được như MS Word, MS Excel, PDF, PDF/A, HTML, XML. “Nâng cấp, đổi mới nội dung số của website nhằm tăng cường chỉ số ảnh hưởng của ĐHQGHN đối với cộng đồng, xã hội và trên các hệ thống xếp hạng đại học thế giới”, đó là chỉ đạo của lãnh đạo ĐHQGHN đối với các đơn vị bởi việc nâng cấp này cũng sẽ góp phần làm tăng chất lượng quản trị đại học, tăng chất lượng đào tạo và nghiên cứu khoa học. Trước mắt Trung tâm sẽ số hoá toàn bộ vốn tài liệu nội sinh của ĐHQGHN do Trung tâm quản lý, đó là luận án tiến sĩ, luận văn thạc sĩ và Đề tài nghiên cứu khoa học. Hơn 3.000 biểu ghi Luận án Tiến sĩ, Luận văn Thạc sĩ được Trung tâm đưa lên website của đơn vị, theo đó khoảng 6.000 file dạng doc và pdf cũng đã được đính kèm. Cho đến nay, Trung tâm đã tiến hành số hóa các tài liệu quý hiếm, các luận án tiến sĩ, luận văn thạc sĩ với trên 200.000 trang tài liệu giấy xuất ra tài liệu số dưới các định dạng file DOC, PDF, PDF/A để lưu trữ và hướng tới xây dựng cơ sở dữ liệu số. Tính đến tháng 1.2012 Trung tâm đã số hóa được 28.258 file pdf và doc; với 798 cuốn luận văn, luận án tương đương 95.760 trang Sách tham khảo: 28 cuốn tương đương 5.629 trang Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 41
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Kỷ yếu : 60 cuốn tương đương với 17.581 trang Với 144 cuốn phục vụ cho sách chương trình 16/23 tương đương với 79.217 trang. Trong năm 2011, Trung tâm đang làm 10.486 file tài liệu than khảo richfile, 2514 file dạng toàn văn (fulltext) của kỷ yếu hội nghị khoa học ĐHQGHN đưa lên trang web. Trung tâm đang triển khai dự án Ebook đại học, số hóa 50000 tên sách, dự kiến thực hiện trong 3 năm từ 2012 đến 2014. Những con số này phần nào đã đóng góp tích cực cho việc nâng hạng Đại học Quốc gia Hà Nội bứt phá từ thứ hạng 1125 trên 12.000 trường vào tháng 7.2011 lên thứ 743 trên 20.300 trường tháng 1.2012 và đứng trong top 200 của Châu Á. Song song với nguồn tài liệu dạng in, phát triển nguồn tài liệu số với phương thức phục vụ mà bạn đọc có thể khai thác bất kỳ lúc nào và ở bất cứ đâu là nhiệm vụ quan trọng được Trung tâm ưu tiên hàng đầu. Trong đó các bộ sưu tập về giáo trình, và sách tham khảo, luận án, luận văn kết quả NCCN được định hướng tăng trưởng ổn định nhất. Bởi vì đây là bộ sưu tập số có nguồn nguyên liệu dồi dào nhất, nội dung đáp ứng trực tiếp cho các lĩnh vực nghiên cứu của nhà trường 2.3. Nhận xét và đánh giá quá trình ứng dụng phần mềm nhận dạng ABBYY đến công tác số hóa tài liệu tại Trung tâm Thông tin Thƣ viện Đại học Quốc Gia Hà Nội 2.3.1. Nhận xét: Ƣu điểm: TTTT-TV ĐHQGHN là một trong những cơ quan TT-TV lớn, cơ sở vật chất, trang thiết bị tốt, hiện đại là điều kiện để công tác số hóa tài liệu được tiến hành thuận lợi, đáp ứng yêu cầu của quá trình số hóa. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 42
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Trung tâm có đội ngũ cán bộ trẻ, nhiệt tình, có kỹ năng tin học, ngoại ngữ, có khả năng vận hành tốt máy móc và trang thiết bị số hóa tài liệu. Từ khi áp dụng phần mềm nhận dạng chữ ABBYY trong hoạt động thông tin thư viện đã giúp cho quá trình số hóa tài liệu tại Trung tâm TT-TV ngày càng đạt hiệu quả và chất lượng Phần mềm ABBYY đã giúp nhận dạng các tài liệu được quét trên máy Kritas với chất lượng nhận dạng chính xác tới trên 98%, điều này giúp Trung tâm tăng cường khả năng phục vụ và nâng cao chất lượng phục vụ của thư viện tới người dùng tin. Giao diện trực quan, thao tác đơn gian và dễ dàng sử dụng. Khi sử dụng phần mềm bố cục của văn bản vẫn được giữ nguyên, giảm thiểu thời gian chỉnh sửa lại văn bản. Tốc độ nhận dạng cao, với các bài toán tìm kiếm toàn văn, trích dẫn, biên soạn lại các tài liệu tài liệu dạng ảnh sẽ được thực hiện vô cùng đơn giản. So sánh thư viện số và thư viện truyền thống, Gary Cleveland chỉ ra rằng, thư viện số là hình thức số hóa của thư viện truyền thống bao gồm cả tài liệu số hóa và tài liệu truyền thống cũng như tài liệu ở dạng truyền thông đa phương tiện. Vì thế kho tài liệu của thư viện số bao gồm tất cả các loại tài liệu điện tử và các loại ấn phẩm. Bộ sưu tập số tạo ra một môi trường và cơ hội bình đẳng rộng mở cho tất cả mọi người đều có cơ hội sử dụng nguồn tài liệu học tập không bị giới hạn về không gian và thời gian. Vì vậy vấn đề xây dựng thư viện số là yêu cầu thiết yếu đối với mỗi thư viện đặc biệt là thư viện các trường đại học. Hiện nay, mọi thứ đều được số hóa. Khi sách bắt đầu được số hóa, một câu hỏi được đặt ra: “Liệu chúng ta nên chấm dứt việc xuất bản sách in và thay vào đó là số hóa sách để đọc trên máy?”. Các nhà nghiên cứu cho rằng vào thời điểm hiện nay, nên duy trì cả hai cách trên. Thật vậy, dù có rất nhiều người hài lòng với việc đọc sách ở dạng PDF trên trang web, mỗi năm, số Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 43
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ lượng sách in được xuất bản vẫn ngày một tăng. Tuy nhiên, tiện ích của sách điện tử là điều không thể phủ nhận. Ngoài việc có thể đọc và lưu trữ tài liệu trên máy, số hóa sách mang lại nhiều lợi ích rất lớn. Trong thư viện truyền thống, mỗi quyển sách là một bản hoàn chỉnh và độc lập; giờ đây, tất cả tài liệu sẽ được liên kết với nhau trong thư viện số. Bên cạnh việc dùng “link” (đường dẫn liên kết) để liên kết câu, từ hoặc các quyển sách với nhau, người đọc có thể sử dụng “tag” (gắn thẻ) để chú thích chung cho tất cả mọi người về một dữ liệu, tranh ảnh hay bài hát nào đó nhằm thuận tiện cho việc tìm kiếm khi cần. Ví dụ, chúng ta chỉ cần nhấp chuột vào “link” về các chủ đề liên quan hoặc chú thích ở cuối trang để tìm kiếm những điều cần biết thêm. Chính việc số hóa sách đã cho phép thực hiện điều này mà sách truyền thống không bao giờ đạt được. Sách được số hóa đồng nghĩa với việc nó có thể được chia nhỏ thành từng trang, từng đoạn nhỏ, sau đó được sắp xếp lại tạo thành một quyển sách mới hoặc chứa trong một “giá sách ảo” – nơi tập hợp những đoạn văn ngắn hoặc cả nội dung của một quyển sách hoàn chỉnh. Xây dựng nguồn tài nguyên số chính là một xu thế tất yếu vì mục đích sao lưu, bảo quản tài liệu, mở rộng đối tượng phục vụ và chia sẻ tài nguyên, tận dụng tối đa và có hiệu quả hệ thống cơ sở vật chất và trang thiết bị hiện đại. Giúp việc lưu trữ, truy xuất, chia sẻ, tìm kiếm thông tin một cách dễ dàng. Linh hoạt trong việc chuyển đổi sang các loại dữ liệu số khác nhau. Giảm chi phí tối đa cho việc quản lý, không gian lưu trữ. Số hóa tài liệu là lựa chọn tối ưu để bảo tồn được lâu dài các tài liệu quý hiếm, ngăn chặn những rủi ro hủy hoại do thời gian, thiên tai, khí hậu và tần suất sử dụng.Công tác số hóa tài liệu tại Trung tâm đã và đang nhận được sự quan tâm chỉ đạo sát sao của Ban lãnh đạo ĐHQGHN. Đây là nguồn động viên khích lệ lớn đối với Trung tâm trong qua trình triển khai số hóa tài liệu. Thúc đẩy công tác số hóa tài liệu phát triển hơn nữa. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 44
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Trung tâm đã bước đầu thành công với công tác số hóa tài liệu. Là một trong những thư viện đi đầu triển khai công tác này. Trung tâm đã đầu tư nguồn kinh phí lớn để triển khai số hóa. Trung tâm đã tiến hành số hóa được một phần kho tài liệu bao gồm luận văn, luận án và số lượng lớn kỷ yếu ĐHQGHN. Nhƣợc điểm: Số hóa tài liệu trên thế giới đã được thực hiện từ lâu nhưng tại Việt Nam thì mới được triển khai trong những năm gần đây. Do vậy, ở Trung tâm là một trong những nơi thực hiện sớm, chưa có nhiều kinh nghiệm trong xử lý số hóa tài liệu. Vì vậy công tác số hóa tài liệu tại Trung tâm còn một số hạn chế sau: Diện tích Phòng Phát triển Tài nguyên số chưa đảm bảo. Cán bộ phải làm việc trong phòng nhỏ, chật hẹp. Trong khi đó trong quá trình số hóa sinh nhiệt rất lớn nên cán bộ phải làm việc trong điều kiện nóng bức. Máy Kirtas phát ra ánh sáng gây hại cho mắt người tiếp xúc. Nguồn kinh phí yếu tố quan trọng đảm bảo cho hoạt động của các Thư viện nói chung và công tác số hóa tài liệu nói riêng còn hạn hẹp. Nguồn kinh phí cho công tác số hóa tài liệu là rất lớn đòi hỏi phải có nhiều kinh phí để đầu tư cơ sở vật chất, trang thiết bị số hóa và công tác bảo quản tài nguyên số sau này. Vấn đề bản quyền là một rào cản lớn đối với những người làm công tác số hóa tài liệu. Để tiến hành số hóa tài liệu, Trung tâm cần phải mua bản quyền của tài liệu đó. Trong khi số lượng vốn tài liệu là không nhỏ, vì vậy đây là một thách thức đối với Trung tâm nói riêng và các cơ quan TT-TV nói chung. Để giải quyết vấn đề này cần phải có nguồn kinh phí lớn để mua bản quyền tài liệu, đòi hỏi phải có sự quan tâm hỗ trợ từ ĐHQGHN và giữa các cơ quan TT-TV với nhau. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 45
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Vì đây là phần mềm nước ngoài nên trong quá trình sử dụng khó khăn trong việc bảo trì, giá thành cũng tương đối cao.Với các tài liệu cũ, mực in mờ, ảnh có nhiều thì độ chính xác cũng bị giảm đáng kể 2.3.2. Đánh giá tính chức năng của phần mềm ABBYY trong quá trình triển khai ABBYY là một phần mềm có khả năng cung cấp nhiều chức năng, đáp ứng được nhu cầu nhận dạng tài liệu số hóa khi phần mềm làm việc trong điều kiện cụ thể. Tính phù hợp: Phần mềm có thể cung cấp một tập các chức năng thích hợp cho công việc cụ thể phục vụ mục đích của người sử dụng. Một trong những nét độc đáo của dịch vụ hỗ trợ kết xuất kết quả nhận dạng ra định dạng PDF/A 2 lớp – được coi là định dạng lý tưởng trong công tác lưu trữ hiện nay. Như tên gọi của nó, file PDF ở định dạng này gồm 2 lớp: lớp trên là ảnh gốc, bên dưới là lớp text (kết quả của việc nhận dạng); và như vậy 2 lớp thông tin này đáp ứng được đồng thời cả 2 yêu cầu then chốt của việc lưu trữ và khai thác tài liệu: Tính chính xác: Phần mềm có thể cung cấp các kết quả nhận dạng với độ chính xác cao, đáp ứng nhu cầu cần thiết của hoạt động số hóa. Được trang bị công nghệ nhân dạng chữ in hàng đầu. ABBYY Recognition Server nhận dạng tài liệu với tốc dộ chính xác rất cao, với tiếng Việt là trên 99%. Nó cũng bao gồm chức năng quản lý chất lượng tự động như khả năng tự động xác định các trang có kết quả thấp và cung cấp giao diện soát lỗi thân thiện với người dùng. (Xem phụ lục: Hình 5) Tính an toàn: Khả năng bảo vệ thông tin và dữ liệu của sản phẩm phần mềm, sao cho người sử dụng hệ thống không được phép thì không thể truy cập, đọc hay chỉnh sửa chúng. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 46
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Trong đó, định dạng PDF/A – một loại định dạng PDF – là định dạng giữ nguyên ảnh quét gốc nên đảm bảo tuyệt đối tính tin cậy của thông tin cho người đọc, đồng thời vẫn cho phép người dùng biên tập và tìm kiếm toàn văn. Chính vì các lý do trên, PDF/A được coi là định dạng phù hợp nhất hiện nay cho công tác lưu trữ nói chung và ngành thư viện nói riêng. (Xem phụ lục: Hình 6) Tính năng phù hợp: Các phần mềm theo các chuẩn, quy ước, quy định. ABBYY Recognition Server tự động phát hiện văn bản được đặt trên một hình ảnh, nhận dạng hình ảnh, khu vực văn bản và xử lý chính xác như tài liệu gốc ban đầu. Đây là một ứng dụng chuyên nghiệp thực sự, ABBYY Recognition Server mang đến cho bạn nhiều lựa chọn trong việc chuyển đổi tài liệu, bao gồm cả khả năng để thay đổi kết quả xử lý bằng phương pháp thủ công. Số hóa chính xác tất cả các thuộc tính định dạng phức tạp nhất trong Microsoft ® Office, ví dụ như mục lục, các phân mục, đánh số trang, tiêu đề đầu-cuối, chú thích, cấu trúc và chú thích hình ảnh – trong khi vẫn giữ văn bản nhất quán xuyên suốt các trang. Có thể nhanh chóng thay đổi hoặc loại bỏ các tiêu đề trên tất cả các trang cùng một lúc hoặc thêm một chương mới cho các tài liệu đó mà nội dung sẽ được thêm vào mục lục hiện có. (Xem phụ lục: Hình 7) Tính tin cậy: Là khả năng của phần mềm có thể hoạt động ổn định trong những điều kiện cụ thể và đọc trung thực ảnh gốc. Lớp ảnh quét là hình ảnh trung thực của tài liệu gốc nên mang đến cho người đọc tính chính xác của thông tin cũng như hình thức thể hiện. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 47
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Lớp dưới là text nhận dạng được, là cơ sở để các máy tìm kiếm có thể lập chỉ mục nội dung của tài liệu và qua đó người dùng có thể tìm kiếm nội dung trong tài liệu số. + Nhận dạng trang sách: (Xem phụ lục: Hình 8) + Định dạng PDF hai lớp (Xem phụ lục: Hình 9) Khả năng chịu lỗi: Phần mềm hoạt động ổn định tại một mức độ cả trong trường hợp có lỗi xảy ra ở phần mềm hoặc có những vi phạm trong giao diện. ABBYY Recognition Server được thiết kế làm việc hoàn toàn tự động, nó có tính năng đặc biệt để đảm bảo khả năng chịu lỗi và đem đến sự bền bỉ cho hệ thống: Hai thành phần chính của hệ thống là Server Manager và trạm xử lý Windows service nên chúng sẽ tự động khởi động ngay sau khi Windown bắt đầu hoạt động. Tính khả dụng của tài liệu: Các công cụ tìm kiếm có thể đánh chỉ mục và tìm kiếm toàn văn trên nội dung tài liệu; người đọc cũng có thể sao chép, trích dẫn thông tin từ tài liệu. Ngoài ra định dạng PDF hỗ trợ các chuẩn chữ ký số tiêu chuẩn hiện nay nên các tài liệu được số hóa về định dạng PDF/A 2 lớp không chỉ là lý tưởng về mặt khai thác mà còn sẵn sàng cho việc ký số (để đảm bảo tính pháp lý) sau này. (Xem phụ lục: Hình 10) Định dạng PDF hai lớp cho phép người dùng đọc thông tin trên ảnh gốc đồng thời vẫn có thể thực hiện việc trích chọn thông tin hay tìm kiếm toàn văn. Với tốc độ chuyển đổi tài liệu cao (2 giây/trang), sohoa tiết kiệm thời gian cho người dùng khỏi việc tái bản thủ công các tài liệu. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 48
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Là khả năng của phần mềm có thể hiểu được, học được, sử dụng được và hấp dẫn người sử dụng trong từng trường hợp sử dụng cụ thể. Có thể hiểu được: người dùng có thể hiểu được xem phần mềm có hợp với họ không và và sử dụng chúng thế nào cho những công việc cụ thể. Có thể học được: người sử dụng có thể học các ứng dụng của phần mềm. Tính khả dụng phù hợp: phần mềm thoả mãn các chuẩn, quy ước, quy định. Tính hiệu quả: Khả năng của phần mềm có thể hoạt động một cách hợp lý, tương ứng với lượng tài nguyên nó sử dụng, trong điều kiện cụ thể. Đáp ứng thời gian: khả năng của phần mềm có một thời gian xử lý và một tốc độ thông lượng hợp lý khi nó thực hiện công việc của mình, dưới một điều kiện làm việc xác định. Tốc độ nhận dạng chỉ 2 giây cho 1 trang khổ A4. Sau khi nhận dạng, ABBYY Recognition Server cho phép kết xuất kết quả nhận dạng ra nhiều định dạng file có thể tìm kiếm và biên tập được như MS Word, MS Excel, PDF, PDF/A, HTML, XML. (Xem phụ lục: Hình 11) Khả năng bảo hành, bảo trì: Khả năng của phần mềm có thể chỉnh sửa. Việc chỉnh sửa bao gồm: sửa lại cho đúng, cải tiến và làm phần mềm thích nghi được với những thay đổi của môi trường, của yêu cầu và của chức năng xác định. Có thể phân tích được: Phần mềm nhận dạng ABBYY có thể phát hiện những thiếu sót hay những nguyên nhân gây lỗi hoặc để xác định những phần cần sửa. Tính ổn định: khả năng tránh những tác động không mong muốn khi chỉnh sửa phần mềm. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 49
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Kiểm soát lỗi: Các tài liệu có độ nhận dạng tin cậy thấp sẽ được lọc ra và lưu vào một thư mục khác. Với tài liệu này ta có thể quét lại tài liệu hay nhận dạng lại. Nhật ký: Mọi sự kiện xảy ra đều được hệ thống ghi lại => biết được hiện trạng xử lý của một tài liệu hay ước lượng công việc tiến đọ hoàn thành công việc đang thực hiện. Tính khả chuyển: Khả năng thích nghi: khả năng của phần mềm có thể thích nghi với nhiều môi trường khác nhau mà không cần phải thay đổi. ABBYY tương thích hoàn toàn với hệ điều hành Microsoft Windows 7 và Microsoft Office mới nhất năm 2010. Có thể cài đặt được: Phần mềm có thể cài đặt được trên những môi trường cụ thể, phần mềm có thể cùng tồn tại với những phần mềm độc lập khác trong một môi trường chung, cùng chia sẻ những tài nguyên chung. Với những ưu điểm như trên đã nêu, ABBYY đúng là một phần mềm nhận dạng lý tưởng cho các thư viện, giúp các thư viện đẩy nhanh tốc độ số hóa tài liệu và nâng cao chất lượng số hóa, trên cơ sở đó, các thư viện có thể cải thiện chất lượng sản phẩm và dịch vụ, phục vụ tốt hơn nhu cầu thông tin của người dùng tin, đúng như TS. Nguyễn Huy Chương, Giám đốc Trung tâm Thông tin- Thư viện ĐHQG Hà Nội đã nhận xét: “Sau khi kiểm nghiệm các sản phẩm cùng loại, chúng tôi đánh giá ABBYY Recognition Server vượt trội hơn cả. Với khả năng làm việc tự động, chất lượng nhận dạng cao, chấp nhận nhiều định dạng ra nhiều dạng lưu trữ khác nhau, phần mềm nhận dạng của ABBYY là giải pháp tốt nhất để giải quyết bài toán số hoa tại các thư viện hiện nay” (http:/Thuvien.net. ngày 23/11/2011) Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 50
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ CHƢƠNG 3: GIẢI PHÁP NÂNG CAO HIỆU QUẢ ỨNG DỤNG PHẦN MỀM NHẬN DẠNG TIẾNG VIỆT ABBYY TẠI TRUNG TÂM TT-TV ĐHQGHN Qua quá trình tìm hiểu, nghiên cứu và đánh giá thực trạng ứng dụng phần mềm nhận dạng chữ in tiếng Việt ABBYY trong công tác số hóa tại Trung tâm, tác giả khóa luận mạnh dạn đưa ra một số giải pháp nhằm hoàn thiện hơn nữa quá trình số hóa tài liệu tại Trung tâm Thông tin Thư viện ĐHQG HN. 3.1. Tăng cƣờng cơ sở vật chất phục vụ công tác số hóa tài liệu Công tác tiến hành số hóa tài liệu đòi hỏi đầu lớn về trang thiết bị cũng như cơ sở vật chất hiện đại như máy quét , máy sao chụp dữ liệu, máy vi tính, các thiết bị phần cứng và phần mềm hỗ trợ. Hiện tại, cơ sở vật chất, trang thiết bị của Trung tâm cũng khá hiện đại, tuy nhiên để nâng cao chất lượng và tốc độ số hóa tài liệu thì vấn đề đầu tư trang thiết bị cần phải được coi trọng. Hệ thống mạng: Bao gồm hệ thống cáp, các thiết bị kết nối, hệ thống truyền thông phục vụ kết nối truy cập Internet. Cơ sở hạ tầng mạng máy tính là thành phần cơ bản của mạng được thực hiện chức năng kết nối thiết bị như: máy chủ, máy trạm, các thiết bị ngoại vi, các thiết bị mạng thông qua đường kết nối vật lý Hệ thống máy chủ và máy trạm phục vụ cho công tác nghiệp vụ tra cứu thông tin như việc lưu trữ dữ liệu số, cung cấp dịch vụ trao đổi dữ liệu số Hệ thống máy chủ bao gồm: Máy chủ CSDL: Thực hiện chức năng quản trị hệ thống dữ liệu của thư viện. Hệ thống dữ liệu trong đó có dữ liệu thư mục và dữ liệu số hóa là nền tảng của hệ thống mạng của thư viện. Máy chủ được cài đặt hệ quản trị thư Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 51
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ viện với đầy đủ các chức năng, quản trị mọi thao tác nghiệp vụ của mọi hệ thống thông tin thư viện điện tử hiện đại. Máy chủ CSDL thực hiện các chức năng cơ bản sau: Chạy trên hệ quản trị CSDL với các chức năng cơ bản của tác nghiệp CSDL chương trình ứng dụng cung cấp các ứng dụng phục vụ công tác tự động hoá nghiệp vụ TV Máy chủ dữ liệu số: Do hệ thống TT-TV cần lưu trữ rất nhiều đặc biệt trong trường hợp sử dụng các module dữ liệu số. Không chỉ lưu trữ nội dung tóm tắt của các tài liệu và tư liệu mà còn lưu trữ các thông tin đầy đủ của bản thân tài liệu đó. Ngoài các dữ liệu dạng văn bản được số hoá còn có các file ảnh và dữ liệu audio/vidio được số hoá. Do vậy dữ liệu cần được lưu trữ sẽ rất lớn Máy chủ dữ liệu số có chức năng: Lưu trữ dữ liệu số, cung cấp dịch vụ trao đổi dữ liệu số Hệ thống máy trạm: Bao gồm máy trạm nghiệp vụ, máy trạm phòng đọc, Mutimedia, máy trạm quản trị, máy trạm tra cứu Để đảm bảo cơ sở vật chất, trang thiết bị và nguồn tài liệu đã được số hóa cần có một môi trường làm việc thoáng, thuận lợi sẽ tạo điều kiện cho cán bộ làm việc hiệu quả hơn 3.2. Khai thác triệt để các tính năng của phần mềm nhân dạng chữ tiếng Việt ABBYY có bản quyền. Phần mềm nhận dạng ABBYY được thiết kế để xử lý một khối lượng tài liệu lớn, trong một khoảng thời gian ngắn nhất. Hiện tại, ngoài bản ABBYY được giới công nghệ thông tin “bẻ khóa” và được tải tự do trên mạng còn có một bản ABBYY thương mại với đầy đủ các tính năng ưu việt, đang được bán với giá khoảng 300 USD, phiên bản chính thức này giúp người sử dụng thao tác một cách thuận tiện dễ dàng và thường xuyên được nâng cấp lên các phiên bản mới, với độ nhận dạng chính xác cao Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 52
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ hơn, và tốc độ nhận dạng cũng cao hơn. Để khai thác triệt để các tính năng nổi trội của phần mềm nhận dạng ABBYY, thiết nghĩ Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội cũng như người dùng Việt nam nên chọn dùng bản ABBYY thương mại với đầy đủ bản quyền. Điều này trước hết vì lợi ích của chính Trung tâm và cũng là góp phần thực thi các văn bản pháp luật về bảo vệ bản quyền mà nhà nước đã ban hành. 3.3. Đào tạo, nâng cao trình độ đội ngũ cán bộ thông tin – thƣ viện Sự xuất hiện của tài liệu điện tử, cùng với nó là thư viện điện tử, thư viện số đang đặt ra những yêu cầu rất cao về cơ cấu, tổ chức, chức năng, nhiệm vụ của ngành thông tin thư viện hiện nay. Việc phát triển thư viện theo hướng hiện đại không chỉ đòi hỏi về hạ tầng cơ sở vật chất, trang thiết bị, phương thức phục vụ mà điều quan trọng có tính quyết định là làm sao có được đội ngũ cán bộ thư viện có đủ năng lực, trình độ đáp ứng được yêu cầu nhiệm vụ của thư viện hiện đại. Việc đưa vào khai thác phần mềm nhận dạng ABBYY càng đòi hỏi công tác đào tạo cán bộ phải được chú trọng. Cán bộ đảm nhận công tác số hóa, nhận dang tài liệu cần phải được đào tạo thành thạo về phần mềm ABBYY để có thể xử lý được các trục trặc phát sinh trong quá trình số hóa và nhận dạng. Ngoài ra, cán bộ thư viện còn cần có kỹ năng sau: Có kiến thức chuyên môn về nguồn thông tin, bao gồm khả năng đánh giá và chọn lọc các phần mềm và thiết bị thông tin phù hợp, hiệu quả. Các kỹ năng sử dụng công nghệ thông tin, khai thác thông tin, đặc biệt là biết quản lý , bảo trì dữ liệu khai thác và cung cấp các tài liệu qua mạng. Trình độ ngoại ngữ tốt để sử dụng phần mềm có hiệu quả và có khả năng thu thập thông tin, số hóa tài liệu.Vì hiện nay hầu hết các tài liệu , sản phẩm thông tin khai thác trên mạng đòi hỏi phải biết sử dụng ngoại ngữ, đặc biệt là tiếng Anh. Có kiến thức chuyên ngành phù hợp với lĩnh vực hoạt động của người dùng tin, là yếu tố then chốt đối với cán bộ thư viện. Điều này sẽ giúp Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 53
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ cho cán bộ có khả năng tìm kiếm thông tin phù hợp với nhu cầu của người dùng tin 3.4. Tận dụng tối đa các nguồn dữ liệu điện tử sẵn có Quy định khi nộp luận văn, luận án, các đề tài nghiên cứu khoa hoc sau khi nghiệm thu thư viện: ngoài bản in phải đính kèm theo file điện tử dưới dạng word (trên đĩa CD-ROM). Do vậy với bộ sưu tập số, luận án, luận văn và bộ sưu tập kết quả KHCN thư viện đã có nguồn dữ liệu ổn định hàng năm để số hóa mà không mất chi phí cho dịch vụ thuê số hóa từ bản giấy Công tác biên soạn giáo trình, bài giảng trong các trường đại học thành viên cũng là yếu tố thuận lợi cho thư viện khi bản thảo của các giáo trình, bài giảng này bắt buộc phải đăng ký tại trường, đây là nguồn tài liệu điện tử tương đối ổn định làm “nguyên liệu” khi xây dựng bộ sưu tập giáo trình. 3.5. Mở rộng mối quan hệ hợp tác, trao đổi kinh nghiệm và chia sẻ nguồn lực thông tin Vấn đề hợp tác, trao đổi chia sẻ nguồn lực thông tin đã trở nên rất quan trọng trong xu thế toàn cầu hóa. Muốn nâng cao chất lượng sản phẩm dịch vụ Trung tâm Thông tin- Thư viện cần mở rộng quan hệ với các thư viện và trung tâm thông tin trong và ngoài nước nhằm trao đổi và học tập kinh nghiệm trong quá trình ứng dụng công nghệ thông tin, đặc biệt là trong quá trình triển khai ứng dụng phần mềm ABBYY Xây dựng các liên kết (tạo khả năng truy cập) đến các nguồn tài liệu trên INTERNET, nhất là nguồn của các cơ quan có cùng diện chuyên đề bao quát.Trung tâm đã có quan hệ hợp tác và trao đổi với gần 60 thư viện và cơ quan thông tin của các trường đại học, viện nghiên cứu và các tổ chức quốc tế khác ở hầu hết các châu lục, tiêu biểu như: Đại học Cornell, Đại học Hawaii, Thư viện Quốc hội Mỹ, Quỹ Châu Á (Mỹ), Đại học Cambridge, Hội Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 54
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ đồng Anh (Anh), Thư viện Quốc gia Australia, Ngân hàng Thế giới, các trường đại học và cơ quan thông tin của Pháp, Nhật, Đức Trong điều kiện nguồn ngân sách được cấp còn hạn chế trong khi kinh phí để bổ sung tài liệu nước ngoài lại khá cao thì hoạt động trao đổi tài liệu là một hoạt động mang lại nhiều ý nghĩa thiết thực. Gần 30.000 cuốn sách và chục ngàn tờ báo/ tạp chí nhận tặng biếu trong thời gian qua đã giúp Trung tâm giải quyết phần nào khó khăn này để đáp ứng nhu cầu đa dạng của bạn đọc. Trong việc lựa chọn tài liệu để số hoá, ta phải ưu tiên các tài liệu đặc thù của thư viện, các tài liệu duy nhất và có giá trị lâu dài để trao đổi, ví dụ: các tài liệu quý hiếm, các sưu tập có giá trị, không ở đâu có ưu tiên số hoá trước hết đối với tài liệu chưa ở đâu số hoá, tài liệu tiếng hiếm, tiếng Việt, Song song với việc số hoá là việc xây dựng các Siêu dữ liệu đối với từng tài liệu và cập nhật tài liệu đã được số hoá này vào CSDL tương ứng để phục vụ kịp thời cũng như làm cơ sở cho việc xây dựng TVĐT sau này. Ngoài ra, ta cũng cần quan tâm đến chất lượng của việc số hoá tài liệu cũng như cần sao lưu đầy đủ, kịp thời các tài liệu số hoá đó để tránh rủi ro cũng như tránh phải làm đi làm lại (lãng phí công sức, tiền của) điều này phụ thuộc nhiều vào công tác tổ chức, phụ thuộc vào cán bộ thực hiện cũng như thiết bị và quy trình số hoá 3.6 Xây dựng chính sách lựa chọn và số hóa tài liệu + Nghiên cứu, lựa chọn và xác lập những chuẩn, những quy định chung trongviệc số hoá tài liệu + Về lĩnh vực: ưu tiên số hoá tài liệu KHCN những ngành mũi nhọn, có nhu cầu thông tin cao. + Về loại hình tài liệu, ưu tiên số hóa các loại tài liệu quý hiếm hay có nguy cơ bị hư hỏng. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 55
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Xác lập và hình thành một mạng lưới các tổ chức số hoá tài liệu: Trong mạng lưới các cơ quan thông tin, thư viện cần có sự phân công, phối hợp giữa các cơ quan trong việc số hoá tài liệu. Nguyên tắc đầu tiên trong phân công là cơ quan nào có kho tư liệu chuyên môn hoá với số lượng tài liệu nhiều nhất về lĩnh vực nào thì sẽ đảm nhận số hoá nguồn tư liệu về lĩnh vực đó và cơ quan này sẽ được Nhà nước hỗ trợ trong việc số hoá. Trên cơ sở phân công như vậy, ta xác lập được một mạng lưới các tổ chức số hoá tài liệu trên quy mô lớn, hiện đại, bao quát hầu hết những dạng tài liệu, những nguồn tin quan trọng nhất, những tài liệu có giá trị lâu dài ở tầm quốc gia. Từ đó hình thành mạng trao đổi thông tin toàn quốc và tạo điều kiện thuận lợi cho các cơ quan TT-TV trọng điểm trong xây dựng và phát triển TVĐT của mình. Trong mạng lưới các cơ quan TT-TV tiến hành số hoá cần có những chuẩn cũng như các quy định thống nhất đối với việc số hoá tài liệu. Những chuẩn này được xác định trên cơ sở nghiên cứu áp dụng chuẩn của nước ngoài vào điều kiện cụ thể của Việt Nam. Mỗi cơ quan tham gia mạng lưới số hoá đều phải tuân thủ nghiêm ngặt những chuẩn này sao cho các tài liệu số hoá luôn đảm bảo về mặt chất lượng cũng như về tiến độ thời gian; đồng thời chúng được tổ chức trong các CSDL có cấu trúc tương hợp hoặc dễ dàng trong chuyển đổi. Có như vậy, các tài liệu số hoá đó mới có thể phục vụ rộng rãi trong toàn mạng lưới và mang lại hiệu quả cao. Trong việc lựa chọn tài liệu để số hoá, ta phải ưu tiên các tài liệu đặc thù của thư viện, các tài liệu duy nhất và có giá trị lâu dài để trao đổi, ví dụ: các tài liệu quý hiếm, các sưu tập có giá trị, không ở đâu có ; ưu tiên số hoá trước hết đối với tài liệu chưa ở đâu số hoá, tài liệu tiếng hiếm, tiếng Việt, Song song với việc số hoá là việc xây dựng các Siêu dữ liệu đối với từng tài liệu và cập nhật tài liệu đã được số hoá này vào CSDL tương ứng để phục vụ kịp thời cũng như làm cơ sở cho việc xây dựng TVĐT sau này. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 56
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Ngoài ra, ta cũng cần quan tâm đến chất lượng của việc số hoá tài liệu cũng như cần sao lưu đầy đủ, kịp thời các tài liệu số hoá đó để tránh rủi ro cũng như tránh phải làm đi làm lại (lãng phí công sức, tiền của). điều này phụ thuộc nhiều vào công tác tổ chức, phụ thuộc vào cán bộ thực hiện cũng như thiết bị và quy trình số hoá. Đồng thời 3.7. Đảm bảo duy trì nguồn kinh phí Ngân sách chỉ mới đáp ứng được các hoạt động thường xuyên, chưa đảm bảo việc bổ sung, tăng cường nguồn tài nguyên thông tin và nâng cấp trang thiết bị tin học, truyền thông cũng như việc tổ chức sắp xếp lại kho tài liệu Bởi vậy việc hiện đại hóa, tăng cường nguồn lực thông tin thư viện cũng như quá trình đổi mới và nâng cao chất lượng các sản phẩm và dịch vụ thông tin gặp nhiều khó khăn (tổng kết trong 5 năm, từ 2005-2009, bổ sung được 76.568 cuốn tài liệu mới từ nguồn ngân sách. Hiện nay, giáo trình chỉ đáp ứng khoảng 80% nhu cầu sử dụng). Bên cạnh đó còn phục vụ cho nhiệm vụ chiến lược của ĐHQGHN,như tài liệu chất lượng cao phục vụ chương trình 16 + 23, chương trình đào tạo tiên tiến, chất lượng cao đều đòi hỏi nguồn kinh phí để bổ sung tài liệu phù hợp và sát thực với yêu cầu của các chương trình đào tạo Đẻ đảm bảo và duy trì nguồn kinh phí để công tác số hóa tài liệu không bị gián đoạn, ảnh hưởng tới chất lượng của quá trình số hóa. Trung tâm cần phải có những biện pháp như thu hút nguồn tài trợ từ ĐHQGHN tăng cường hợp tác trao đổi với các cơ quan Thông tin-Thư viện trong và ngoài nước để nhận được sự hỗ trợ. Đồng thời tiếp tục làm dịch vụ cho các khách hàng bên ngoài để có thêm nguồn kinh phí. Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 57
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ Sự phát triển mạnh mẽ của khoa học và công nghệ cùng với xu thế hội nhập là những đòi hỏi và thách thức cho ngành Thông tin – Thư viện nói chung và cho thư viện đại học nói riêng cần phải có những đổi mới hoạt động, bắt kịp những tiến bộ của thời đại phục vụ đắc lực cho sự nghiệp CNH, HĐH đất nước cũng như những đổi mới chiến lược về phương pháp giáo dục, dạy và học tại Việt nam. Tôi thiết nghĩ giải pháp xây dựng các Bộ sưu tập tài liệu số hóa tại là một việc làm cần thiết, một động thái tích cực để đổi mới phương pháp phục vụ nhằm góp phần nâng cao chất lượng đào tạo và nghiên cứu trong trường. Để làm được điều này, ngoài những nỗ lực của cán bộ thư viện tại các thư viện đại học, cũng cần phải có sự quan tâm chỉ đạo và có định hướng từ các cấp lãnh đạo của nhà trường, của Bộ GD & ĐT, Bộ Văn hoá & Thông tin và các ngành liên quan Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 58
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ KẾT LUẬN Trung tâm thông tin thư viện Đại học Quốc gia Hà Nội đang ngày càng phát triển và hoàn thiện hơn, đã và đang hướng tới một thư viện có tầm cỡ trong khu vực Đông Nam Á, qua đó góp một phần tích cực vào nhiệm vụ nghiên cứu đào tạo của Đại học Quốc Gia. Nhìn lại chặng đường 15 năm qua, tập thể cán bộ, nhân viên Trung tâm Thông tin Thư viện hoàn toàn tự hào đã có những đóng góp vô cùng quan trọng trong công cuộc xây dựng Đại học Quốc gia Hà Nội thành một đại học mang tầm cơ quốc tế, và theo như xếp hạng webometrics thì ĐHQGHN giữ vị trí số 1 ở Việt Nam với thứ hạng 22 trong khối Đông Nam Á và lần đầu tiên Việt Nam có mặt trong top 1000 thế giới. Nhận thấy tầm quan trọng của công tác số hóa tài liệu Trung tâm đã tiến hành số hóa tài liệu và đạt được những thành công nhất định, tuy nhiên mới chỉ ở bước đầu, vì vậy cần đẩy mạnh công tác số hóa hơn nữa và nhận được sự quan tâm hỗ trợ từ ĐHQGHN cũng như các cơ quan Thông tin Thư viện bên ngoài để công tác số hóa được hoàn thiện hơn. Nguồn tài nguyên số sớm được đưa ra phục vụ bạn đọc, đáp ứng tốt nhất nhu cầu của người dùng tin và bảo quản nguồn tri thức đa dạng phong phú của Trung tâm . Như chúng ta đã biết, mục đích của một dây chuyền số hóa là chuyển kho tài liệu giấy thành tài liệu số. Nếu tài liệu số chỉ đơn thuần là các ảnh quét thì dây chuyền số hóa đó mới chỉ thực hiện được việc “file hóa” tài liệu. Việc số hóa được hiểu là một quá trình tự động chuyển đổi kho tài liệu giấy thành tài liệu điện tử ở dạng có thể biên tập lại, trích dẫn và tìm kiếm được. Với ý nghĩa của việc số hóa như vậy, phần mềm nhận dạng rõ ràng đóng một vai trò then chốt của dây chuyền số hóa. Xây dựng và phát triển nguồn tài nguyên số là xu thế tất yếu trong giai đoạn hiện nay. Khi mà người dùng tin có xu hướng Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 59
- Khóa luận tốt nghiệp Nguyễn Thị Thuỷ sử dụng tài liệu số ngày càng nhiều vì những ưu điểm của nó, số hóa tài liệu giúp công tác bảo quản nguồn tài liệu hiệu quả, đáp ứng yêu cầu của người dùng tin khai thác dữ liệu số hiệu quả. Ngoài ra công tác số hóa làm cho việc bảo quản tài liệu tốt hơn ít bị hư hỏng, tiết kiệm diện tích cho thư viện. Tạo điều kiện chia sẻ nguồn tài nguyên thông tin giữa các cơ quan Thông tin-Thư viện, để giúp người dùng tin có thể khai thác thông tin của nhiều thư viện, cơ quan thông tin khác nhau. Tạo sự liên kết giữ các Thư viện Việt Nam và các Thư viện trên thế giới. Hiện nay, trên thị trường Việt Nam có một số phần mềm nhận dạng chữ in (OCR) tiếng Việt và giải pháp số hóa. Tuy nhiên, thực tế sử dụng các phần mềm này cho thấy chúng bộc lộ nhiều hạn chế như không đọc được ảnh màu (chỉ làm việc với ảnh đen trắng), dàn trang của tài liệu sau nhận dạng hay bị vỡ, công suất xử lý thấp, thao tác thủ công, chỉ làm việc với rất ít ngôn ngữ Xuất hiện sau các sản phẩm trên và dù mới chỉ là thế hệ sản phẩm đầu tiên hỗ trợ tiếng Việt nhưng do được thừa hưởng không chỉ những bí quyết công nghệ mà còn cả những tính năng phần mềm chuyên nghiệp của các phiên bản trước, phần mềm nhận dạng phiên bản mới của ABBYY đang được đánh giá là giải pháp nhận dạng tiếng Việt chính xác và toàn diện nhất hiện nay. Các phần mềm nhận dạng của ABBYY có thể được dùng như là một giải pháp số hóa tài liệu hoàn chỉnh hoặc tích hợp vào các hệ thống quản lý tài liệu Với những lỗ lực không ngừng của Ban Giám đốc và toàn thể cán bộ của Trung tâm thì vài trò của trung tâm thông tin-thư viện trong ĐHQGHN đã được nâng cao vị thế của mình, đông thời góp phần đắc lực cho công tác đào tạo, nghiên cứu khoa học, đặc biệt là với một trung tâm đào tạo đa ngành, đa lĩnh vực, chất lượng cao như ĐHQGHN. Bước đầu xây dựng thành công thư viện điện tử nhằm hướng tới mục tiêu đưa Trung tâm trở thành Thư viện hiện đại, ngang tầm với các Thư viện Đại học lớn ở khu vực và trên thế giới, đóng góp quan trọng vào sự nghiệp giáo dục đa ngành, đa lĩnh vực, chất lượng cao Lớp: K53 Thông tin – Thư viện Trường: ĐHKHXH&NV 60