Khóa luận Tìm hiểu phần mềm thư viện số và ứng dụng xây dựng thư viện số ở thư viện Tạ Quang Bửu

pdf 72 trang thiennha21 4740
Bạn đang xem 20 trang mẫu của tài liệu "Khóa luận Tìm hiểu phần mềm thư viện số và ứng dụng xây dựng thư viện số ở thư viện Tạ Quang Bửu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfkhoa_luan_tim_hieu_phan_mem_thu_vien_so_va_ung_dung_xay_dung.pdf

Nội dung text: Khóa luận Tìm hiểu phần mềm thư viện số và ứng dụng xây dựng thư viện số ở thư viện Tạ Quang Bửu

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI & NHÂN VĂN KHOA THÔNG TIN – THƯ VIỆN o0o ĐỖ THỊ THANH HUYỀN TÌM HIỂU PHẦN MỀM THƯ VIỆN SỐ VÀ ỨNG DỤNG XÂY DỰNG THƯ VIỆN SỐ Ở THƯ VIỆN TẠ QUANG BỬU KHÓA LUẬN TỐT NGHIỆP NGÀNH: THÔNG TIN – THƯ VIỆN Hệ đào tạo: Chính quy Khóa: QH-2007-X Giảng viên hướng dẫn: Th.S. Nguyễn Thị Thúy Hạnh Hà Nội - 05/2011 Bàn Thị Năm K52 Thông tin – Thƣ viện 1
  2. LỜI NÓI ĐẦU 4 1. Tính cấp thiết của đề tài 5 2. Mục đích nghiên cứu 6 3. Đối tƣợng nghiên cứu 6 4. Phạm vi nghiên cứu 7 CHƯƠNG I. THƯ VIỆN SỐ VÀ NHỮNG VẤN ĐỀ VỀ THƯ VIỆN SỐ7 1.1 Thƣ viện và các mô hình thƣ viện 7 1.1.1 Khái niệm thƣ viện 7 1.1.2 Chức năng của thƣ viện 8 1.1.3 Các mô hình thƣ viện ngày nay. 9 1.2 Công nghệ thƣ viện số và các vấn đề liên quan 12 1.2.1 Đặc điểm của thƣ viện số 12 1.2.2 Lợi ích của thƣ viện số 13 1.2.3 Kiến trúc và Kiến trúc thông tin của thƣ viện số. 14 1.2.4 Nền tảng thƣ viện số 18 1.2.5 Các dịch vụ Thƣ viện số. 27 1.2.6 Web Services 29 1.2.7 Bài toán tích hợp thƣ viện số. 30 CHƯƠNG II: PHẦN MỀM THƯ VIỆN SỐ 32 2.1 Các yêu cầu về quản lý thƣ viện số 32 2.1.1 Yêu cầu chung 32 2.1.2 Yêu cầu về công nghệ nền tảng 33 2.1.3 Yêu cầu về chuẩn thƣ viện 35 2.1.4 Yêu cầu về chuẩn nghiệp vụ thƣ viện 35 2.2 Các phần mềm thƣ viện số 39 2.2.1 Giới thiệu chung 39 2.2.2 Phần mềm Greenstone 40 2.2.3 Phần mềm Dspace 41 2.2.4 Phần mềm Feroda 43 Bàn Thị Năm K52 Thông tin – Thƣ viện 2
  3. 2.2.5. So sánh các phần mềm và phản hồi của ngƣời dùng 44 2.3 Đặc điểm của Dspace 47 2.3.1 Mô hình đối tƣợng trong Dspace 47 2.3.2 Kiến trúc của Dspace 48 2.3.3 Tiến trình của Dspace 48 2.3.4 Dspace Workflow 49 2.3.5 Quản lí ngƣời dùng trong DSpace 51 2.3.6 Quản lí tài liệu trong DSpace 52 2.3.7 Manakin cho Dspace 52 CHƯƠNG III: ỨNG DỤNG XÂY DỰNG THƯ VIỆN SỐ Ở THƯ VIỆN ĐẠI HỌC BÁCH KHOA HÀ NỘI 55 3.1 Vài nét về thƣ viện Tạ Quang Bửu 55 3.1.1 Lịch sử hình thành và phát triển 55 3.1.2. Chứ c năng, nhiêṃ vu ̣củ a Thư viêṇ Ta ̣Quang Bử u 57 3.1.3 Khảo sát trực trạng thƣ viện Tạ Quang Bửu 60 3.2 Mục tiêu xây dựng thƣ viện số ở thƣ viện Tạ Quang Bửu 62 3.3 Tiến hành xây dựng thƣ viện số ở thƣ viện Tạ Quang Bửu 63 KẾT LUẬN 65 DANH MỤC HÌNH VẼ 66 DANH MỤC TÀI LIỆU THAM KHẢO 71 Bàn Thị Năm K52 Thông tin – Thƣ viện 3
  4. LỜI NÓI ĐẦU Thƣ viện là kho tri thức của xã hội; có ngƣời còn cho rằng thƣ viện là đền đài của văn hoá và sự uyên thâm. Đƣợc hình thành trong thời kỳ nông nghiệp thống trị trong tƣ duy của nhân loại, thƣ viện đã trải nghiệm qua một cuộc hồi sinh với việc phát minh ngành in trong thời kỳ Phục hƣng, và thực sự bắt đầu khởi sắc khi cuộc cách mạng công nghiệp bùng phát với hàng loạt những phát minh cơ giới hoá quy trình in ấn. Lịch sử thƣ viện đã trãi qua hơn 25 thế kỷ. Hình ảnh thƣ viện của thời xa xƣa đƣợc hình dung nhƣ là một cơ sở vững chắc trong đó chứa hàng ngàn phiến Bàn Thị Năm K52 Thông tin – Thƣ viện 4
  5. đá khổng lồ đƣợc khắc chữ - thƣờng đƣợc gọi là "rừng bia". Qua nhiều năm cùng với sự tiến hoá của nhân loại, con ngƣời càng tiến bộ trong nhận thức và thƣ viện ngày càng đƣợc phát triển. Giai đoạn Quản lý tƣ liệu đã trải qua một thời gian dài theo sự phát triển đó. Cho đến một lúc, cũng xuất phát từ ý định ban đầu là làm tốt công việc lƣu trữ và bảo quản, thƣ viện đã chú trọng đến việc xem ngƣời sử dụng là trung tâm, với sự nhấn mạnh đến việc trao đổi thông tin. Điều này cũng đồng thời để đáp ứng yêu cầu thông tin ngày càng gia tăng. Giai đoạn Quản lý thông tin đƣợc xem nhƣ bắt đầu. Và chúng ta sẽ nhận thức đƣợc rằng để xây dựng thƣ viện số là ta đã bắt đầu bƣớc qua một giai đoạn phát triển mới của thƣ viện: Giai đoạn Quản lý tri thức. Cùng với sự phát triển của mạng lƣới truyền thông và công nghệ thông tin (CNTT), hiện nay trên thế giới nhiều thƣ viện số (TVS) đã ra đời và ngày càng phát triển mạnh mẽ. Sự ra đời của TVS là một tất yếu của cuộc cách mạng khoa học kỹ thuật trong giai đoạn bùng nổ thông tin hiện nay. 1. Tính cấp thiết của đề tài Thƣ viện số đã hình thành và phát triển hơn mƣời năm nay trên thế giới. Đó là một hình thức phục vụ tài liệu điện tử và liên thông trên phạm vi toàn cầu mang đến hiệu quả cao nhất trong việc đáp ứng nhu cầu thông tin cho ngƣời sử dụng khắp nơi trên thế giới. Tại hội nghị quốc tế lần thứ năm về Thƣ viện số Châu Á (ICADL 2002) tại Singapore từ 11-14/12/2002 cho thấy rằng thƣ viện số Châu Á đã đạt đến một mức độ phát triển cao trong đó có nhiều nƣớc trong khu vực Đông Nam Á. Hiện nay các thƣ viện trên thế giới và trong khu vực đã đạt đến một mức độ hiện đại cao về hạ tầng cơ sở và công nghệ để phát triển và khai thác thƣ viện số. Giá trị thƣ viện ngày nay là chỗ thƣ viện sử dụng công nghệ nhƣ thế nào để Bàn Thị Năm K52 Thông tin – Thƣ viện 5
  6. đáp ứng mọi nhu cầu của độc giả từ mọi nguồn thông tin khắp nơi trên thế giới thông qua thƣ viện số. Thƣ viện Việt Nam có đủ khả năng về hiện đại hóa hạ tầng cơ sở nhƣng hiện nay do thiếu trình độ quản lý, thiếu nhận thức và thông tin về hiện đại hóa, lúng túng và không biết sử dụng công nghệ nên khắp nơi đang lãng phí thời gian và ngân sách từ nhiều nguồn kể cả nguồn vay nƣớc ngoài trong hoạt động thƣ viện một cách nghiêm trọng. Trong khi hoàn toàn có thể đi tắt đón đầu, sử dụng công nghệ mới để hội nhập với hệ thống thƣ viện trên thế giới. Trong đó việc ứng dụng phần mềm các phần mềm thƣ viện số để xây dựng thƣ viện số ở các thƣ viện nƣớc ta hiện nay là một điển hình. Xây dựng thành công thƣ viện số mang ý nghĩa đặc biệt nhƣ một bƣớc ngoặt trên con đƣờng hiện đại hóa ngành thông tin thƣ viện – con đƣờng của sự phối hợp giữa công nghệ thông tin và thƣ viện. Từ đấy, mọi nghiên cứu khoa học thông tin thƣ viện chính là nghiên cứu công nghệ thông tin. Xuất phát từ thực tế trên, em đã đi đến lựa chọn tìm hiểu và nghiên cứu đề tài: “Tìm hiểu phần mềm thƣ viện số và ứng dụng xây dựng thƣ viện số ở Thƣ viện Tạ Quang Bửu”, nhằm lựa chọn những phần mềm thƣ viện số ƣu việt, và hình mẫu ứng dụng xây dựng thƣ viện số ở thƣ viện Tạ Quang Bửu – một trong những thƣ viện Đại học đi đầu trong ứng dụng CNTT, để từ có đó đƣợc những định hƣớng tốt nhất trong việc xây dựng thƣ viện số ở nƣớc ta. 2. Mục đích nghiên cứu Mục đích nghiên cứu của khóa luận là nhằm nghiên cứu các phần mềm thƣ viện số đang đƣợc sử dụng rộng rãi hiện nay, có nhiều ƣu điểm và phù hợp với đặc điểm của các thƣ viện nƣớc ta. Bên cạnh đó, khóa luận đi vào tìm hiểu việc ứng dụng xậy dựng thƣ viện số ở Thƣ viện Tạ Quang Bửu để có đƣợc cái nhìn khái quát hơn trong việc việc định hƣớng xây dựng thƣ viện số ở nƣớc ta. 3. Đối tượng nghiên cứu Bàn Thị Năm K52 Thông tin – Thƣ viện 6
  7. Nghiên cứu các phần mềm thƣ viện số và việc ứng dụng xây dựng thƣ viện số ở thƣ viện Tạ Quang Bửu. 4. Phạm vi nghiên cứu Nghiên cứu các phần mềm thƣ viện số đang đƣợc ứng dụng rộng rãi và xây dựng thƣ viện số tại Thƣ viện Tạ Quang Bửu trong thời gian hiện nay. CHƢƠNG I. THƢ VIỆN SỐ VÀ NHỮNG VẤN ĐỀ VỀ THƢ VIỆN SỐ 1.1 Thư viện và các mô hình thư viện 1.1.1 Khái niệm thư viện Thuật ngữ “thƣ viện” xuất phát từ chũ Hy Lạp bibliotheca. “Biblio” nghĩa là sách, “theca” là nơi bảo quản. Hiểu theo nghĩa đen, thƣ viện là nơi bảo quản sách, nơi tàng trữ sách báo. Ngày nay, thƣ viện đƣợc định nghĩa nhƣ sau: “TV là cơ quan TT, văn hoá giáo dục có VTL nhân bản đƣợc tổ chức và đƣa ra cho các pháp nhân, cá nhân ngƣời sử dụng có thời hạn” (Liên Bang Nga) “TV- một sƣu tập những TL đã đƣợc tổ chức để đáp ứng nhu cầu của một nhóm ngƣời mà TV có bổn phận phục vụ, để cho họ có thể sử dụng cơ sở của TV, truy dụng thƣ tịch cũng nhƣ trau dồi kiến thức của họ”. (Các nhà Thƣ viện học Mỹ) “TV là một bộ sƣu tập sách nhằm mục đích để đọc, để nghiên cứu hoặc tra cứu” (Bách khoa toàn thƣ Anh) “TV không phục thuộc vào tên gọi, là bất cứ bộ sƣu tập có tổ chức nào của sách, ấn phẩm định kỳ hoặc các TL khác nhau, kể cả đồ họa, nghe nhìn và nhân Bàn Thị Năm K52 Thông tin – Thƣ viện 7
  8. viên phục vụ có trách nhiệm tổ chức cho bạn đọc sử dụng các TL đó nhằm mục đích TT, NCKH, GD hoặc giải trí” (Tuyên ngôn 1994 của UNESCO về thƣ viện công cộng) Nhƣ vậy trên thế giới tồn tại rất nhiều quan điểm khác nhau về thƣ viện. Tuy nhiên trong các định nghĩa trên, định nghĩa của UNESCO đƣợc các nhà thƣ viện học trên thế giới đánh giá là định nghĩa đầy đủ nhất về thƣ viện vì định nghĩa này nêu lên đƣợc những thành phần cấu tạo nên thƣ viện và các chức năng nhiệm vụ chủ yếu của nó. Thƣ viện đƣợc cấu thành từ 4 yếu tố: vốn tài liệu, cán bộ thƣ viện, ngƣời sử dụng, cơ sở vật chất kỹ thuật. Các yếu tố này có mối quan hệ qua lại, tác động chặt chẽ với nhau. 1.1.2 Chức năng của thư viện Thƣ viện có vai trò quan trọng trong công tác phục vụ nhu cầu đọc, tìm hiểu thông tin, nâng cao tri thức cho con ngƣời. Thƣ viện có một số chức năng chính nhƣ sau: Chức năng văn hóa: Thƣ viện thu thập, tàng trữ, bảo quản và truyền bá di sản văn hóa của nhân loại cũng nhƣ của đất nƣớc đƣợc lƣu giữ trong các tài liệu. Thƣ viện là trung tâm sinh hoạt văn hóa, trung tâm mở mang dân trí, tuyên truyền, phổ biến kiến thức về các loại hình nghệ thuật và lôi cuốn quảng đại quần chúng tham gia và hoạt động sáng tạo. Chức năng giáo dục: Ngay từ thời cổ đại, thƣ viện đã là một tổ chức giáo dục quan trọng. Chức năng giáo dục của thƣ viện đƣợc các thƣ viện công cộng thực hiện từ thế kỷ XVI, thể hiện ở các điểm chính sau: - Tham gia vào việc xóa mù chữ cho nhân dân Bàn Thị Năm K52 Thông tin – Thƣ viện 8
  9. - Nâng cao trình độ dân trí, chuyên môn cho các tầng lớp dân cƣ trong vùng. Cho đến nay, các thƣ viện hiện đại vẫn thực hiện chức năng giáo dục của mình. Chức năng thông tin: Thƣ viện với tƣ cách là cơ quan cung cấp thông tin thực hiện chức năng thông tin bằng cách: - Phục vụ thông tin – thƣ mục theo phƣơng thức cổ truyền cũng nhƣ hiện đại ngay tại thƣ viện: hệ thống mục lục, thƣ mục, cơ sở dữ liệu, phổ biến thông tin chọn lọc, bản tin điện tử - Tiếp cận qua mạng để với tới nguồn lực của các thƣ viện khác và đảm bảo sự tiếp cận đó tới các nguồn thông tin điện tử cho bạn đọc không có điều kiện nhận đƣợc ngay từ nhà hoặc nơi làm việc của họ. Chức năng giải trí: Ngoài các kiến thức chuyên ngành, thƣ viện còn tham gia vào việc tổ chức sử dụng thời gian nhàn rỗi cho nhân dân bằng cách cung cấp sách báo và các phƣơng tiện nghe – nhìn khác để đáp ứng nhu cầu giải trí, góp phần giảm bớt mệt nhọc trong quá trình học tập và làm việc. 1.1.3 Các mô hình thư viện ngày nay. Cùng với sự phát triển của CNTT và khoa học công nghệ, thƣ viện không đơn thuần là nơi lƣu giữ sách, báo, tạp chí, nơi yêu tĩnh cho độc giả đến nghiên cứu, học tập mà thƣ viện còn trở thành một trung tâm thông tin đƣợc ứng dụng công nghệ cao. Từ đó, nhiều mô hình thƣ viện hiện đại cũng ra đời. Theo Barker (1997), có 4 dạng thƣ viện khả dĩ: - Thƣ viện đa phƣơng tiện; - Thƣ viện điện tử; - Thƣ viện số; Bàn Thị Năm K52 Thông tin – Thƣ viện 9
  10. - Thƣ viện ảo 1.1.3.1 Thư viện đa phương tiện. Là thƣ viện sử dụng hỗn hợp sách báo và nhiều phƣơng tiện lƣu trữ thông tin và tri thức khác nhau nhƣ băng đĩa video, vi phim, CD - ROM, phần mềm máy tính, vv. Quy trình và quá trình tổ chức và quản lí TVĐPT giống nhƣ thƣ viện truyền thống: việc tìm tài liệu cũng bằng tay, sử dụng bộ máy tra cứu bằng phiếu hoặc vi phim, vi phiếu Cán bộ thƣ viện vẫn đóng vai trò quan trọng trong TVĐPT, mặc dù sử dụng máy tính nhƣng chƣa thể tự động hoá hoàn toàn các thao tác. Tại Việt Nam, một số cơ quan thông tin tƣ liệu và thƣ viện lớn đã và đang tổ chức một số phòng đọc đa phƣơng tiện phục vụ ngƣời sử dụng. 1.1.3.2 Thư viện điện tử Là thƣ viện mà các quá trình cơ bản về nghiệp vụ dựa trên cơ sở máy tính và các phƣơng tiện hỗ trợ khác. Dấu hiệu đặc trƣng của TVĐT là sử dụng phổ biến các phƣơng tiện điện tử trong lƣu giữ, tìm kiếm và cung cấp thông tin. Tuy nhiên, trong TVĐT, sách truyền thống vẫn tiếp tục tồn tại cùng với các ấn phẩm điện tử nên vẫn cần sự trợ giúp của cán bộ thƣ viện trong mọi hoạt động chuyên môn.  Đặc điểm của thƣ viện điện tử: - Thƣ viện phải có vốn tài liệu điện tử (là những tƣ liệu đƣợc lƣu giữ dƣới dạng số sao cho có thể truy nhập đƣợc bằng các thiết bị xử lý dữ liệu) - Phải đƣợc tin học hóa, phải có một hệ quản trị thƣ viện điện tử tích hợp, phải nối mạng. - Phải cung cấp và tạo điều kiện cho ngƣời sử dụng các dịch vụ điện tử (timg tin trong các cơ sở dữ liệu, yêu cầu và gia hạn mƣợn qua mạng ) Tóm tại, TVĐT phải sử dụng các phƣơng tiện điện tử trong việc thu thập, xử lý, tìm kiếm và phổ biến thông tin. Bàn Thị Năm K52 Thông tin – Thƣ viện 10
  11. 1.1.3.3 Thư viện số Nhiều định nghĩa đã đƣợc công bố trong giới học giả toàn cầu về thƣ viện nhằm định nghĩa rõ ràng một thƣ viện số. Dƣới đây là một số định nghĩa tiêu biểu về thƣ viện số: Một số thành viên Hiệp hội Thƣ Viện Số Hoa kỳ (Digital Library Federation) đã đƣa ra một định nghĩa, “Thƣ viện số là các tổ chức cung cấp tài nguyên, gồm các nhân viên chuyên biệt giúp lựa chọn, tổ chức, cung cấp khả năng truy cập thông minh, chỉ dẫn, phân phối, bảo quản tính toàn vẹn và sự thống nhất của các bộ sƣu tập số theo thời gian để đảm bảo làm sao chúng luôn sẵn có để truy xuất một cách dễ dàng và kinh tế nhất đối với một cộng đồng ngƣời dùng hoặc một nhóm cộng đồng ngƣời dùng” (Raitt, 1999). Hai học giả ngƣời Nga là Sokolova và Liyabev cho rằng thƣ viện số là một hệ thống phân tán có khả năng lƣu trữ và tận dụng hiệu quả các loại tài liệu điện tử khác nhau, mà giúp ngƣời dùng có thể truy cập và đƣợc chuyển giao thông tin dễ dàng qua mạng máy tính (Xiao, 2003). Nhiều học giả Trung Quốc lại có cùng quan điểm rằng “Một thƣ viện số trên thực tế không phải là một thƣ viện ở góc độ mở rộng không gian của nó; thay vào đó nó là trung tâm tài nguyên thông tin số chứa đựng tài nguyên thông tin đa phƣơng tiện. Một thƣ viện số tồn tại bằng việc số hóa thông tin, chẳng hạn nhƣ văn bản, ký tự, chữ viết, hình ảnh, video và âm thanh, đồng thời cung cấp cho ngƣời dùng các dịch vụ thông tin nhanh chóng và thuận tiện thông qua Internet, nhằm chuyển giao một hệ thống thông tin số mà trong đó việc chia sẻ nguồn tài nguyên luôn sẵn sàng” (Wang, 2003). Bàn Thị Năm K52 Thông tin – Thƣ viện 11
  12. Nhƣ vậy thƣ viện số đƣợc hiểu là: “một thƣ viện điện tử cao cấp, trong đó toàn bộ các tài liệu của thƣ viện đó đƣợc số hoá và đƣợc quản lý bằng một phần mềm chuyên nghiệp có tổ chức để ngƣời dùng tin dễ dàng truy cập, tìm kiếm và xem đƣợc nội dung toàn văn của chúng từ xa thông qua hệ thống mạng thông tin và các phƣơng tiện truyền thông” 1.1.3.4 Thư viện ảo Một loại thƣ viện số khác cung cấp một cổng thông tin nhằm vào thông tin điện tử ở nơi khác ngoài thƣ viện. Loại này đôi khi đƣợc gọi là thƣ viện ảo để nhấn mạnh rằng đây là thƣ viện mà bản thân không chứa nội dung. Những quản thủ thƣ viện đã dùng thuật ngữ này cách đây hơn mƣời năm để chỉ một loại thƣ viện chuyên cung cấp việc truy cập thông tin điện tử thông qua những chỉ điểm – pointers. Thƣ viện ảo đƣợc xác định theo kho tin của nó. Thƣ viện không có kho riêng, mà phụ thuộc vào kho của các thƣ viện khác. Thƣ viện ảo còn gọi là thƣ viện không tƣờng. Thƣ viện ảo cũng đƣợc định nghĩa theo dịch vụ của nó. Thƣ viện ảo không phải quản trị kho tin, mà tiến hành lựa chọn, thu thập, tổ chức thông tin cho yêu cầu của ngƣời dùng riêng biệt. Thƣ viện là một trung tâm tra cứu tới các tài liệu hƣớng dẫn, bảng tra, tài liệu tóm tắt và các công cụ khác để nâng cao việc truy cập các nguồn tin. 1.2 Công nghệ thư viện số và các vấn đề liên quan 1.2.1 Đặc điểm của thư viện số Mặc dù có sự khác nhau về lý giải trong nhiều định nghĩa về thƣ viện số, nhƣng những đĩnh nghĩa này lại tƣơng tự nhau về mặt bản chất cốt yếu. Vì vậy, từ những định nghĩa trên chúng ta có thể rút ra những đặc điểm khác biệt của thƣ viện số bao gồm: Bàn Thị Năm K52 Thông tin – Thƣ viện 12
  13. - Khả năng lƣu trữ khối lƣợng lớn tài nguyên thông tin khác nhau; - Khả năng lƣu trữ và chuyển giao tài nguyên thông tin bằng nhiều phƣơng tiện khác nhau; - Khả năng chuyển giao tài nguyên thông tin qua mạng; - Khả năng quản lý tài nguyên thông tin phân tán; - Khả năng chia sẻ thông tin ở cấp độ chuyên biệt cao; - Có công nghệ tìm kiếm và truy xuất thông minh; - Cung cấp dịch vụ thông tin không giới hạn thời gian và không gian. 1.2.2 Lợi ích của thư viện số - Mang lại thông tin cho NDT: TVS có thể sử dụng ở khắp mọi nơi, NDT có thể truy cập và tìm kiếm thông tin mọi lúc, mọi nơi theo cơ chế quản trị quyền truy cập. - Tăng cƣờng khả năng tìm kiếm thông tin: Thông qua các tiện ích phức tạp và đa dạng, đặc biệt là các dịch vụ tìm kiếm CSDL và các trang Web, máy tìm - Tăng cƣờng việc chia sẻ thông tin: Các tổ chức, công ty, trƣờng đại học, viện nghiên cứu đã và đang sử dụng và chia sẻ các nguồn tài nguyên thông tin trên Internet và TVS. - Giúp NDT truy cập thông tin kịp thời: Khoảng cách giữa việc sáng tạo thông tin và truy cập tới thông tin này là rất lớn trong thƣ viện truyền thống. TVS giảm thiểu tối đa khoảng cách này bằng cách xuất bản số và nhanh chóng tích hợp bổ sung thông tin vào các bộ sƣu tập và dịch vụ của TVS. Thông qua các tiện ích tìm kiếm cũng giúp NDT cập nhật thông tin nhanh chóng với khoảng thời gian nhanh nhất. Bàn Thị Năm K52 Thông tin – Thƣ viện 13
  14. - Giúp tăng cƣờng việc sử dụng thông tin: TVS phá vỡ hàng rào thời gian, không gian, ngôn ngữ và văn hóa. Thông tin đƣợc tạo ra từ nhiều nơi trên thế giới, nhiều nền văn hóa và các ngôn ngữ khác nhau đều có thể đƣợc NDT truy cập dễ dàng. Thông tin đƣợc đóng gói, chế biến để phục vụ mọi đối tƣợng. - Tăng cƣờng khả năng cộng tác: Chu trình giao lƣu, sử dụng và truyền bá thông tin của các học giả và nhà nghiên cứu đƣợc tăng cƣờng. - Giảm khoảng cách số: Ngày nay, CNTT và truyền thông, đặc biệt là Internet đã làm giảm khoảng cách giữa mọi ngƣời trên thế giới nhƣng giữa các quốc gia vẫn còn :khoảng cách số”, đó là khoảng cách về hạ tầng công nghệ, các tiện ích và các tài nguyên thông tin Đó cũng là khoảng cách giữa các cá nhân, tổ chức ở các mức độ kinh tế - xã hội khác nhau, (cơ hội tiếp cận CNTT & Internet, khả năng sử dụng trong các hoạt động khác nhau). 1.2.3 Kiến trúc và Kiến trúc thông tin của thư viện số. 1.2.3.1 Kiến trúc của thư viện số Một thƣ viện số thƣờng là một tập tích hợp các dịch vụ khác nhau nhƣ thu thập, phân loại, biên mục, lƣu trữ, tìm kiếm, bảo vệ và duy trì thông tin, hệ thống này tạo thành một tổ chức chặt chẽ, thuận tiện, cho việc truy cập và xử lý một số lƣợng lớn tài nguyên số. Các thƣ viện số là các việc thực thi kiến trúc của hạ tầng mạng, hệ thống máy tính, các phần mềm, phần cứng nhất định để tăng cƣờng tổ chức, thu thập, bảo trì và tận dụng thông tin. Thƣ viện số là một hệ thống phức tạp. Một thƣ viện số có thể là một hệ thống có kiến trúc đa tầng với nhiều chức năng khác nhau và các thƣ viện số có khác nhau thƣờng có mô hình và kiến trúc khác nhau. Tuy nhiên, kiến trúc chung Bàn Thị Năm K52 Thông tin – Thƣ viện 14
  15. cho một thƣ viện thƣờng gồm 4 thành phần cơ bản: giao diện ngƣời dùng, kho thông tin, hệ thống định danh và hệ thống tìm kiếm. Giao diện ngƣời dùng (User Interface): Thƣờng có 2 giao diện ngƣời dùng: - Giao diện dành cho ngƣời dùng tin thƣ viện - Giao diện cho cán bộ thƣ viện và ngƣời quản trị hệ thống Giao diện ngƣời dùng tin có hai phần: một là trình duyệt Internet tiêu chuẩn cho ngƣời sử dụng tƣơng tác thực với máy tính. Trình duyệt này nối với dịch vụ máy khách, đóng vai trò trung gian giữa trình duyệt và các thành phần khác của hệ thống. Dịch vụ máy khách cho phép ngƣời dùng xác định vị trí cũng nhƣ nội dung tìm kiếm, chúng diễn giải thông tin đƣợc cấu trúc từ những đối tƣợng số. Chúng thƣơng lƣợng các điều khoản và điều kiện, quản lý các điều kiện giữa các đối tƣợng số, ghi nhớ lại tình trạng của quá trình giao tiếp của các hệ thống khác nhau. Kho thông tin: Các kho thông tin lƣu trữ và quản lý các đối tƣợng số và các loại thông tin khác. Một thƣ viện số quy mô lớn có rất nhiều kho thông tin với nhiều loại hình, bao gồm các kho thông tin hiện có và các cơ sở dữ liệu hồi cố, tƣơng tác với kho này phải thông qua giao thức truy cập kho. Giao thức này nhận diện quyền và sự cho phép một khách hàng có thể truy cập vào kho, hỗ trợ trên quy mô lớn sự phân phối thông tin và tao ra một kiến trúc mờ đối với các giao diện đã đƣợc xác định rõ ràng. Hệ thống định danh: Bàn Thị Năm K52 Thông tin – Thƣ viện 15
  16. Đây là những yếu tố định danh có mục đích tổng quát đƣợc dùng để xác định các nguồn tin trên Internet trong một thời gian dài và để quản lý các tài liệu có trong kho hay trong cơ sở dữ liệu. Hệ thống định danh là một hệ thống máy tính nhằm cung cấp dịch vụ chỉ dẫn phân tán cho các định danh cho các nguồn tin trên Internet. Khi tƣơng tác với kho thông tin, hệ thống định danh tiếp nhận thông tin định danh của đối tƣợng số và gửi nó về kho thông tin nơi mà đối tƣợng số đƣợc lƣu trữ. Hệ thống tìm kiếm: Hệ thống tìm kiếm phải thiết kế để có những chỉ mục (Index) và mục lục (Catalog) để phát hiện ra thông tin cần tìm trƣớc khi truy xuất nó từ kho thông tin. Các Index này phải đƣợc quản lý độc lập và có rất nhiều giao thức. 1.2.3.2 Kiến trúc thông tin của thư viện số Trong thƣ viện số, thông tin đƣợc lƣu trữ dƣới dạng những đơn vị thông tin số cơ bản nhƣ bản đồ số hóa, một đoạn văn bản, một trang web hay một bức ảnh quét Các tài liệu số thƣờng liên hệ với các tài liệu khác theo quan hệ bộ phận – toàn thể hay theo quan hệ trật tự. Chẳng hạn, một văn bản đƣợc số hóa có thể bao gồm các trang, chƣơng, bảng mục lục, ví dụ minh họa, Trong hệ thống mạng toàn cầu (www), một văn bản tƣơng tự có thể bao gồm nhiều trang văn bản với hình đi kèm và đƣờng dẫn tới các thông tin khác. Theo phƣơng thức này, tài liệu đƣợc chia thành những tập hợp. Đó có thể là những tập hợp thông tin theo nghĩa đen, những nhóm thông tin do các nhà xuất bản cung cấp hay có thể là những trang tin đƣợc ngƣời chủ trang web đƣa lên. Những thông tin cùng loại đƣợc lƣu dƣới nhiều dạng khác nhau. Đôi lúc những định dạng này hoàn toàn tƣơng thích và có thể chuyển đổi dễ dàng từ Bàn Thị Năm K52 Thông tin – Thƣ viện 16
  17. dạng này sang dạng khác, nhƣng cũng có khi một loại thông tin lại đƣợc chứa trong những định dạng khác hẳn nhau. Do tính năng dễ thay đổi nên các sản phẩm số thƣờng xuyên phải thay phiên bản (chúng ta có thể thấy rõ điều này qua các trang web của một số tổ chức - họ thay đổi trang chủ của mình nhiều lần trong một tháng). Khi một tài liệu đƣợc chuyển đổi sang dạng số thì các định dạng của nó cũng đƣợc chuyển đổi nhiều lần. Ví dụ nhƣ một bức ảnh quét có thể có 3 phiên bản: bản lƣu trữ có độ phân giải cao, một phiên bản chất lƣợng trung bình, và một hình ảnh dạng phác thảo (thumbnail). Mỗi một yếu tố của thông tin số có chức năng và quyền truy cập khác nhau, phụ thuộc vào kích cỡ tài liệu và đặc điểm của hệ thống máy tính và mạng. Kiến trúc thông tin đƣợc mô tả ở đây cung cấp cách tiếp cận chung để tổ chức thông tin trong thƣ viện số theo cách hiệu quả, giúp cho các chƣơng trình máy tính có thể hiểu đƣợc cấu trúc của tài liệu và tiến hành các tƣơng tác theo mong muốn của ngƣời sử dụng. * Các nguyên tắc cơ bản: Kiến trúc thông tin đƣợc tổ chức theo các nguyên tắc cơ bản sau: Ngƣời sử dụng và các chƣơng trình ứng dụng của họ cần phải linh hoạt. Do ngƣời sử dụng có thể khai thác thông tin theo những cách thức khác nhau nên thông tin cần đƣợc tổ chức linh hoạt, không lệ thuộc quá nhiều vào cách thức truy cập, trình độ chuyên môn hay trình tự truy cập của họ. Bộ sƣu tập tài liệu cần đƣợc quản lý theo cách đơn giản. Cũng giống nhƣ các thƣ viện khác, một số cán bộ làm việc trong thƣ viện số mặc dù có chuyên môn tƣơng đối thấp vẫn phải quản lý một bộ sƣu tập tài liệu rất lớn. Do vậy, Bàn Thị Năm K52 Thông tin – Thƣ viện 17
  18. thông tin cần phải đƣợc kiến trúc theo cách thức đơn giản, cho phép các cán bộ thƣ viện tập trung vào những lĩnh vực họ cần phụ trách chứ không ôm đồm quá nhiều việc cùng lúc. Kiến trúc thông tin phải phản ánh đƣợc cơ cấu kinh tế xã hội và pháp lý của sự phát triển hạ tầng thông tin. Cụ thể những đặc tính đó là: có giá trị, phụ thuộc vào thời gian và các điều kiện khách quan, đƣợc truyền đạt thông qua các hệ thống mạng không bảo mật của các quốc gia. * Loại dữ liệu, siêu dữ liệu cấu trúc và siêu đối tƣợng Thông tin đƣợc cấu trúc dựa trên ba khái niệm cơ bản: Loại dữ liệu, siêu dữ liệu có cấu trúc và siêu đối tƣợng. - Loại dữ liệu mô tả những đặc tính của thông tin nhƣ loại định dạng hay phƣơng thức xử lý thông tin. - Siêu dữ liệu có cấu trúc là loại siêu dữ liệu mô tả phiên bản, các mối quan hệ và các đặc tính khác của tài liệu số. - Siêu đối tượng là đối tƣợng cho phép tham chiếu đến một tập hợp các đối tƣợng số. Theo cách hiểu đơn giản thì siêu đối tƣợng là danh mục liệt kê các nhóm đối tƣợng khác. Chẳng hạn nhƣ trong một tuyển tập thơ, mỗi một bài thơ là một đối tƣợng số và tuyển tập thơ đó đƣợc gọi là một siêu đối tƣợng. Cũng có lúc một siêu đối tƣợng chính là đối tƣợng số liệt kê các phiên bản đã đƣợc chuyển đổi của cùng một dữ kiện cụ thể. 1.2.4 Nền tảng thư viện số 1.2.4.1 Metadata Bàn Thị Năm K52 Thông tin – Thƣ viện 18
  19. Siêu dữ liệu (metadata) dùng để mô tả tài nguyên thông tin. Thuật ngữ “meta” xuất xứ là một từ Hy Lạp đùng để chỉ một cái gì đó có bản chất cơ bản hơn hoặc cao hơn. Vì vậy metadata là dữ liệu về dữ liệu. Theo tiến sĩ Warwick Cathro (Thƣ viện Quốc gia Úc) thì “siêu dữ liệu là những thành phần mô tả tài nguyên thông tin hoặc hỗ trợ thông tin truy cập đến tài nguyên thông tin”. Cụ thể trong tài liệu thì siêu dữ liệu đƣợc xác định là “dữ liệu mô tả các thuộc tính của đối tƣợng thông tin và trao cho các thuộc tính này ý nghĩa, khung cảnh và tổ chức. Siêu dữ liệu còn có thể đƣợc định nghĩa là dữ liệu có cấu trúc về dữ liệu”. Theo Gail Hodge siêu dữ liệu là “thông tin có cấu trúc mà nó mô tả, giải thích, định vị, hoặc làm cho nguồn tin trở nên dễ tìm kiếm, sử dụng và quản lý hơn. Siêu dữ liệu đƣợc hiểu là dữ liệu về dữ liệu hoặc thông tin về thông tin”Nói tóm lại thì siêu dữ liệu là thông tin mô tả tài nguyên thông tin. Mục đích đầu tiên và yêu cầu cốt lỗi nhất của siêu dữ liệu (metadata) là góp phần mô tả và tìm lại các tài liệu điện tử trên mạng Internet. Sự phát triển mạnh mẽ của Internet đã tạo ra sự bùng nổ của các loại dữ liệu đa dạng ở dạng số, văn bản, âm thanh, hình ảnh, tài liệu đa phƣơng tiện. Những tài liệu này có thể truy cập đƣợc trên mạng Internet song việc tìm kiếm chúng một cách hiệu quả và khoa học nhƣ với các hệ thống thông tin trực tuyến là hết sức khó khăn. Để góp phần tăng cƣờng chất lƣợng tìm kiếm các tài liệu số trên mạng Internet, ngƣời ta đã đƣa ra giải pháp sử dụng siêu dữ liệu. Thực ra trong hoạt động thông tin – thƣ viện truyền thống, từ lâu đã có những khái niệm liên quan đến siêu dữ liệu. Các bản thƣ mục chứa các dữ liệu mô tả đối tƣợng nhƣ cho sách , cho tạp chí thì chúng cũng đƣợc coi nhƣ là một dạng siêu dữ liệu. Với việc tự động hóa công tác biên mục, phiếu thƣ mục đƣợc thay thế bằng biểu ghi thƣ mục. Nhƣ vậy thành phần siêu dữ liệu còn có thể Bàn Thị Năm K52 Thông tin – Thƣ viện 19
  20. đƣợc trình bày trong biểu ghi, vì vậy biểu ghi này đƣợc coi là biểu ghi siêu dữ liệu (metadata record) của đối tƣợng đƣợc cơ sở dữ liệu quản lý. Với tài nguyên truyền thống trên giấy, thông tin mô tả đƣợc bố trí nằm ngoài đối tƣợng mà nó mô tả (Ví dụ, trên phiếu thƣ mục của mục lục thƣ viện, trong biểu ghi của CSDL). Nhờ những yếu tố mô tả nhƣ vậy, ngƣời ta có thể xác định và tìm kiếm lại đƣợc tài liệu một cách chính xác theo một vài yếu tố. Ngày nay, nguồn tài liệu điện tử phát triển nhanh chóng và sự phân tán trên mạng nhiều đến mức không thể xử lý đƣợc một cách thủ công nhƣ đã và đang áp dụng đối với tài liệu xuất bản trên giấy. Để xử lý đƣợc hết tài liệu điện tử phân tán, ngƣời ta phải áp dụng các phƣơng pháp tự động – sử dụng các chƣơng trình đặc biệt (đƣợc gọi theo nhiều cách khác nhau nhƣ: robots, crawlers, spiders, ). Do tài liệu điện tử đƣợc tạo ra, thông thƣờng không tuân thủ những quy định xuất bản truyền thống, không có những quy tắc nhất định giúp cho phép nhận dạng tự động đƣợc các yếu tố mô tả thông thƣờng nhƣ tác giả, địa chỉ về xuất bản, thông tin về khối lƣợng nên cần thiết phải có những quy định thống nhất để các chƣơng trình tự động nhận dạng và xử lý chúng theo các yêu cầu nghiệp vụ. Những quy định nhƣ vậy đƣợc gọi là những quy định về siêu dữ liệu. Có thể thấy hiện nay, do nhiều chƣơng trình máy tính chỉ định chỉ số dựa vào một số thành phần hạn chế nhƣ nhan đề hoặc toàn văn nên không hỗ trợ những tìm kiếm đặc thù (ví dụ theo tác giả, theo chủ đề, theo lĩnh vực ). Vì thế để tạo điều kiện cho các chƣơng trình có thể đinh chỉ số tự động theo một số yếu tố xác định, ngƣời ta phải đƣa thêm vào tài liệu điện tử những thuộc tính bổ sung để tăng cƣờng mô tả tài nguyên thông tin. Các công cụ định chỉ số tự động sẽ đƣợc lập trình để nhận dạng các thuộc tính này và định chỉ số chúng, từ đó hỗ trợ tìm kiếm những thuộc tính đặc thù. Nhƣ vậy một bản ghi metadata bao gồm một tập hợp những thuộc tính hoặc tập hợp những phần tử cần thiết để mô tả các tài nguyên thông tin theo yêu Bàn Thị Năm K52 Thông tin – Thƣ viện 20
  21. cầu nghiệp vụ. Thông thƣờng trong hoạt động nghiệp vụ thông tin – thƣ viện bao gồm các yếu tố nhƣ: Nhan đề tài liệu, tác giả, thông tin về xuất bản, nơi/vị trí lƣu giữ, kiểu/dạng tài liệu Mối liên hệ giữa siêu dữ liệu và tài nguyên thông tin mà nó mô tả có thể đƣợc thể hiện ở một trong hai cách sau: + Các phần tử metadata đƣợc chứa trong một biểu ghi tách biệt bên ngoài đối tƣợng mô tả. + Các phần tử metadata có thể đƣợc nhúng (gắn) vào bên trong tài nguyên mà nó mô tả. Trƣớc đây với tài liệu truyền thống, các mô tả dữ liệu nằm ngoài đối tƣợng mô tả (đƣợc đƣa vào phiếu thƣ viện hoặc biểu ghi CSDL), nhƣ vậy siêu dữ liệu đƣợc lƣu trữ một cách tách biệt bên ngoài đối tƣơng mô tả. Với tài liệu điện tử, siêu dữ liệu của chúng đƣợc nhúng (gắn) trong bản thân tài nguyên hoặc liên kết với tài nguyên mà nó mô tả nhƣ trong trƣờng hợp các thẻ meta của tài liệu HTML hoặc các tiêu đề TEI (Text Encoding Initiative) Trong thực tế có nhiều chuẩn mô tả biên mục mang tính chất metadata khá thông dụng đang đƣợc áp dụng nhƣ: MARC21/UNIMARC, ISO-2709, Dublin Core Metadata các dữ liệu metadata này thƣờng đƣợc gắn vào phần đầu cho mỗi tài liệu điện tử đƣợc đƣa vào máy chủ hoặc trên mạng internet nhằm hỗ trợ các công cụ tìm kiếm lọc ra các thông tin metadata để tổ chức thành các kho dữ liệu mà không cần dùng đến hệ quản trị cơ sở dữ liệu truyền thống. Thực tế thì ngay bản thân ngôn ngữ XML tự nó đã hỗ trợ việc hình thành một cơ sở dữ liệu toàn văn, phi cấu trúc và rất thuận lợi cho việc tìm kiếm và trao đổi thông tin. Các loại metadata chính: Bàn Thị Năm K52 Thông tin – Thƣ viện 21
  22. Metadata mô tả: (Descriptive metadata): Mô tả nguồn tài nguyên cho các mục đích khám phá và định nghĩa. Dạng thức này có thể mô tả và xác định tài nguyên ở các mức khác nhau nhƣ: - Ở mức cực bộ, cho phép tìm và tìm lại đối tƣợng - Ở cấp mạng Web, cho phép phát hiện tài nguyên - Các định danh tài nguyên (URL, URN, PURL, ) - Các thuộc tính vật lý: vật mang, kích cỡ, điều kiện truy cập, ) - Các thuộc tính thƣ mục; nhan đề, tác giả, ngôn ngữ, từ khóa - MARC - Dublin Core Metadata cấu trúc (Structural metadata): xác định cách các đối tƣợng kết hợp với nhau nhƣ thế nào, nhƣ cách thức các trang đƣợc sắp xếp theo các chƣơng. Hỗ trợ tin và trình bày tài nguyên điện tử. Cung cấp thông tin về cấu trúc bên trong của tài nguyên nhƣ định trang, chƣơng, mục, Mô tả quan hệ giữa các tài liệu: ảnh B đƣợc nhúng vào tài liệu A, liên kết các tập Metadata quản trị (Administrative metadata): Quản lý thông tin về nguồn tài nguyên, nhƣ các thông tin đó đƣợc tạo ra khi nào, nhƣ thế nào, các dạng file, thông tin kỹ thuật và cho biết ai có quyền truy cập. Metadata có khả năng mô tả dữ liệu của các nguồn tài nguyên ở các mức khác nhau. Nó có thể mô tả một bộ sƣu tập, một nguồn tài nguyên đơn lẻ hoặc một phần của một tài nguyên lớn. Chỉ khi ngƣời biên mục tạo ra các quyết định về một bản ghi biên mục đƣợc tạo ra cho cả tập tài nguyên hay cho mỗi tài nguyên đặc trƣng cho cả tập hợp ngƣời tạo metadat mới đƣợc tạo các quyết định tƣơng tự nhƣ vậy. Bàn Thị Năm K52 Thông tin – Thƣ viện 22
  23. Các ứng dụng của metadata: Khai phá tài nguyên: Metadata cung cấp các chức năng trong khai phá tài nguyên hiệu quả nhƣ việc biên mục (catologing) bằng cách: - Cho phép các nuồn tài nguyên có thể đƣợc tìm kiếm thông qua các điều kiện liên quan; - Xác định các nguồn tài nguyên - Đƣa ra các nguồn tài nguyên tƣơng tự nhau - Phân loại các nguồn tài nguyên không tƣơng xứng. - Trả về vị trí thông tin Tổ chức các tài nguyên điện tử: Khi các nguồn tài nguyên điện tử dựa trên web phát triển một cách nhanh chóng, các website tích hợp và các cổng thông tin cần tổ chức thông tin các nguồn tài nguyên dựa trên chủ đề và đối tƣợng ngƣời dùng một cách hiệu quả. Các cổng thông tin này có thể đƣợc xây dựng nhƣ hệ thống các trang tĩnh. Tuy nhiên sẽ hiệu quả hơn và tăng cƣờng tính phổ dụng hơn là xây dựng các trang web động bằng cách metadata đƣợc lƣu trong SCDL. Các công cụ phần mềm khác nhau có thể tự động trích chọn và định dạng lại thông tin cho các ứng dụng web. Xử lý tương tác: Việc mô tả tài nguyên bằng metadata cho phép con ngƣời và máy tính có thế hiểu đƣợc về tài nguyên đó, thông qua đó có thể trao đổi tƣơng tác với nhau. Tƣơng tác là khả năng các hệ thống với các nền phần mềm và phần cứng cấu Bàn Thị Năm K52 Thông tin – Thƣ viện 23
  24. trúc dữ liệu và các giao diện khác nhau có thể chuyển đổi dữ liệu cho nhau một cách tối ƣu nhất mà không mất thông tin. Việc sử dụng các lƣợc đồ metadata đƣợc định nghĩa, các giao thức chuyển đổi chia sẻ và các mối liên hệ giữa các lƣợc đồ làm cho việc tìm kiếm các nguồn tài nguyên qua mạng thông suốt, liền mạch hơn. Có 2 hƣớng để xử lý kết hợp và tìm kiếm xuyên suốt hệ thống và thu hoạch metadata. Giao thức Z29.50 là giao thức phổ dụng cho việc tìm kiếm xuyên suốt hệ thống. Các bộ thực thi Z39.50 không chia se metadata nhƣng ánh xạ khả năng tìm kiếm của nó tới tập các thuộc tính tìm kiếm thông thƣờng. Sáng kiến lƣu trữ mở đƣa ra một hƣớng trái ngƣợc là cho phép tất cả nhà cung cấp dữ liệu dịch metadata nguyên gốc của họ sang một tập các thành phần cốt lõi chung và phát tán chúng cho các bộ thu hoạch. Sau đó, một nhà cung cấp dịch vụ tìm kiếm gom nhóm metadata trong một số chỉ số trung tâm thích hợp để cho phép tìm kiếm thông qua các kho lƣu trữ mà không cần quan tâm đến các định dạng metadata đƣợc sử dụng trên các kho lƣu trữ đó. Định nghĩa số: Hầu hết các lƣợc đồ metadata bao gồm nhiều yếu tố mô tả nhƣ là các nhân tố tiêu chuẩn để xác định duy nhất đối tƣợng hoặc công việc mà metadata mô tả. Việc xác định một đối tƣợng có thể thông qua tên file, URL, PURL, DOI Các bộ xác định liên tục đƣợc ƣa chuộng hơn vì vị trí các đối tƣợng thƣờng xuyên đƣợc thay đổi, việc tạo ra tiêu chuẩn URL không hợp lệ. Ngoài các yếu tố thực sự xác định cho đối tƣợng ra, metadata đƣợc đóng vai trò nhƣ một tập dữ liệu định nghĩa để phân biệt đối tƣợng này với đối tƣợng kia trong các mục đích khác nhau. Lưu trữ và bảo trì: Hầu hết các tác động metadata hiện thời là xoay quanh việc khai phá tài nguyên đƣợc tạo ra. Tuy nhiên định dạng của các tài nguyên số thƣợng bị thay Bàn Thị Năm K52 Thông tin – Thƣ viện 24
  25. đổi theo thời gian. Thông tin số có thể bị thay đổi, chỉnh sửa, chuyển từ định dạng này sang định dạng khác. Nó cũng có thể trở nên vô dụng nhƣ khi các công nghệ phƣơng tiện lƣu trữ, phần cứng, phần mềm thay đổi. Vì vậy việc đánh giá phần cứng, phần mềm, chuyển đổi định dạng là các chiến lƣợc nhằm khắc phục các thay đổi đó. Metadata là nhân tố quan trọng đảm bảo sự tồn tại và tiếp tục có khả năng truy cập trong tƣơng lai của tài nguyên. Việc lƣu trữ và bảo trì nhằm lƣu các vết đối tƣợng số (nó từ đâu đến, nó đƣợc thay đổi theo thời gian nhƣ thế nào), để chi tiết hóa các đặc điểm vật lý và để mô tả các hoạt động của nó với mục đích đánh giá vai trò của nó trong công nghệ tƣơng lai. 1.2.4.2 XML XML (eXtensible Markup Language): là ngôn ngữ tạo cấu trúc dữ liệu văn bản đƣợc phát triển từ đầu năm 1996 dựa theo và tận dụng những điểm mạnh của chuẩn SGML (Standard Generalized Markup Language: đƣợc coi nhƣ là siêu ngôn ngữ có khả năng sinh ngôn ngữ khác), cùng những kinh nghiệm có đƣợc từ ngôn ngữ HTML (HyperText Markup Language). SGML phát triển cho việc định cấu trúc và nội dung tài liệu điện tử do tổ chức ISO (International Organization for Standardization) chuẩn hóa năm 1986. SGML là do IBM đƣa ra nhƣng đƣợc phát triển bởi W3C (World Wide Web Consortium: tổ chức độc lập định ra tiêu chuẩn cho định dạng Web, máy chủ và ngôn ngữ), nhƣng đặc tả XML lại do Netscape, Microsoft và các thành viên dự án Text Encoding Intiative (TEI) xây dựng. Tổ chức W3C XML Special Interest Group có đại diện từ hơn 100 công ty cùng nhiều chuyên gia đƣợc mời khác. W3C chính thức thông qua chuẩn XML vào tháng 2/1998. XML là một hệ thống có luật dùng cho việc thiết kế các khổ mẫu (format) cho văn bản giúp tạo cấu trúc cho dữ liệu. Trong thực tế XML không phải là một Bàn Thị Năm K52 Thông tin – Thƣ viện 25
  26. ngôn ngữ lập trình, XML giúp máy tính dễ dàng tạo dữ liệu, đọc dữ liệu, trao đổi dữ liệu và làm cho cấu trúc dữ liệu trở nên rõ ràng và dễ hiểu hơn, ngoài ra XML còn có thể mở rộng, có nền tảng hoàn toàn độc lập và hỗ trợ tính quốc tế hóa, nội địa hóa. XML hỗ trợ hoàn toàn unicode. XML đƣợc xem nhƣ là ngôn ngữ mạnh hơn HTML do nó mang lại thông tin đầy đủ về dữ liệu. XML cung cấp “siêu dữ liệu” metadata hay còn đƣợc gọi là “dữ liệu về dữ liệu” (data about data). XML cho phép các nhà phát triển và quản trị công nghệ thông tin mô tả thông tin có liên quan tới các nguồn thông tin khác. Đây là phƣơng pháp khai thác thông tin lý tƣởng trong môi trƣờng trao đổi thông tin từ các máy chủ ứng dụng cũng nhƣ từ các ứng dụng với nhau. Cấu trúc chặt chẽ của XML (nội dung đƣợc đặt giữa các thẻ metadata) cho phép các ứng dụng dễ dàng tìm kiếm và sử dụng nội dung đã tạo. Môi trƣờng tài liệu XML trở thành một kho dữ liệu hỏi-đáp (query data repository) tƣơng tự nhƣ cơ sở dữ liệu. Ngôn ngữ XML là giải pháp tích hợp cho vấn đề trao đổi dữ liệu tự động giữa các kho thông tin trên mạng Internet. Một biểu ghi XML đơn giản có dạng nhƣ sau: encoding="utf-8" standalone="yes"?> Kinh tế học vi mô Ngô Đình Giao Kinh tế vĩ mô Thống kê Bàn Thị Năm K52 Thông tin – Thƣ viện 26
  27. 2006 Hiện nay các thƣ viện và trung tâm thông tin lớn trên thế giới đang có xu hƣớng sử dụng chuẩn XML thay thế cho chuẩn Marc 21 đã không còn phù hợp cho công tác biên mục và trao đổi dữ liệu nhƣ (Thƣ viện Y học Quốc gia Mỹ, các thƣ viện của Pháp, Anh, Nhật Bản ) 1.2.4.3 Lược đồ XML Lƣợc đồ XML là một tập hợp những luật đƣợc định nghĩa lại để mô tả nội dung dữ liệu của một tài liệu XML. Nó tƣơng tự nhƣ định nghĩa cấu trúc bảng trong CSDL quan hệ. Trong lƣợc đồ XML, chúng ta định nghĩa một tài liệu XML, một phần tử của nó, những kiểu dữ liệu của phần tử và những thuộc tính liên quan và quan trọng là mối quan hệ “cha-con” giữa các phần tử. XML và lƣợc đồ XML rất quan trọng trong việc mô tả thông tin, đặc biệt trong vô số các đặc tính của Internet, web services, và các công nghệ dựa trên nền tảng web khác. XML hỗ trợ đắc lực cho việc trao đổi dữ liệu, tƣơng tác hoạt động, cung cấp phƣơng thức truyền dữ liệu từ dạng mô tả này sang dạng mô tả khác. Việc tạo ra tài liệu XML thì các tài liệu đó hầu hết có khả năng đọc đƣợc trên bất kỳ hệ thống nào. 1.2.5 Các dịch vụ Thư viện số. Đặc tính quan trọng nhất của thƣ viện số là lƣu trữ các tài liệu số. Thƣ viện số cung cấp các dịch vụ nhằm hiển thị, khôi phục và đƣa dữ liệu đƣợc lƣu trữ ra các ứng dụng thực tế. Các dịch vụ thông tin cơ bản nhất của Thƣ viện số là tìm kiếm và duyệt thông tin. Các dịch vụ này đều có các đặc tính khác nhau và đa dạng từ các chức năng đơn giản nhất đến các chức năng phức tạp. Các dịch vụ Bàn Thị Năm K52 Thông tin – Thƣ viện 27
  28. khác thƣờng hƣớng vào chức năng tƣơng tác ngƣời dùng và các chức năng phụ nhƣ hản hồi, giới thiệu thông tin dựa trên các nội dung hiển thị. Cũng vậy, các dịch vụ ghi chú cũng khá phổ biến, thông báo cho ngƣời dùng các thông tin mới nhất liên quan đến nội dung hay chủ đề ngƣời dùng lựa chọn cũng nhƣ cho phép ngƣời dùng “lƣu” lại thông tin ƣa thích nhất. Thƣ viện số là tổng hợp các thành phần tạo nên hệ thống hoàn chỉnh bao gồm rất nhiều các dịch vụ khác nhau có khả năng tƣơng tác với nhau. Nhìn tổng thể, một thƣ viện số đơn giản là một hệ thống trực tuyến cung cấp khả năng truy cập tới các dịch vụ và nội dung da dạng. Nội dung có thể bao gồm bất kỳ các loại tài liệu điện tử nhƣ các dạng media điện tử khác nhau (images, video, etc .), các dạng CSDL có bản quyền của các bài báo, tiêu đề, bản tóm tắt và các mô tả về các bộ sƣu tập vật lý. Các dịch vụ thƣ viện số cũng rất đa dạng, nhƣng điển hình vẫn phục vụ nhƣ vài trò của phát triển các bộ sƣu tập truyền thống và truy cập các dịch vụ có trong các thƣ viện mang tính chất vật lý: lựa chọn, chuyên môn hóa và quản lý. Trong một thƣ viện số, việc lựa chọn bộ sƣu tập có nghĩa là tìm kiếm, mô tả, lƣu trữ và truyền các tài nguyên điện tử. Metadata không dùng để mô tả các thuộc tính kỹ thuật và sở hữu trí tuệ của các đối tƣợng tài nguyên. Việc lƣu trữ khôn chỉ đƣợc phân bổ cho một đơn vị mà còn có thể đƣợc phân phát trên toàn thế giới thông qua hiệp hội các thành viên hoặc qua sự hợp tác với các đối tác từ xa. Nhiều đối tƣợng số có thể đƣợc truyền trực tiếp trên Web, hoặc một số tái nguyên khi muốn hiển thị thì phải có các ứng dụng đặc biệt. Việc chuyên môn hóa là động cơ tạo ra tính đa dạng trong truy cập dịch vụ thông qua việc tìm kiếm, hiển thị và phát hiện tài nguyên. Các đối tƣợng số cần đƣợc tổ chức, đánh chỉ mục cho các mục đích khác nhau. Cấu trúc cho việc tổ chức và đánh chỉ mục các đối tƣợng số bo gồm catalog của các bộ sƣu tập, trợ giúp tìm kiếm và cơ sở dữ liệu, với các bộ sƣu tập ảo có thể xây dựng từ nhiều Bàn Thị Năm K52 Thông tin – Thƣ viện 28
  29. nguồn tài nguyên. Ví dụ, một ngƣời trợ giảng muốn kết hợp cá tham chiếu của các đối tƣợng trong catalog thƣ viện các bài báo điện tử, và các vật lƣu trữ điện tử trong các trang bài giảng trực tuyến. Cơ chế tìm và truy cập các đối tƣợng này bị phụ thuộc vào các ngữ cảnh trực tuyến khác nhau. Ngoài ra, bạn đọc có khả năng thực hiện việc đồng bộ hóa các nội dung trực tuyến thông qua việc truy cập nội dung và dịch vụ thƣ viện số qua các cổng thông tin cá nhân. Các dịch vụ chính trong thƣ viện thƣờng tƣơng tác với các dịch vụ thƣ viện số khác nhau nhiều hơn là tƣơng tác trực tiếp với bạn đọc. Các dịch vụ này thƣờng xuyên phải đƣợc tái tạo lại ho mỗi môi trƣờng mới và hệ thống thƣ viện số mới. Cách phát triển và duy trì các dịch vụ này nhƣ thế nào để cho thành công lâu dài của dự án thƣ việ số, đặc biệt khi nguồn tài nguyên kỹ thuật bị giới hạn. Ví dụ, một dịch vụ định danh có thể cung cấp công nghệ và cơ chế độc lập về vị trí cho việc xác định và lấy về các đối tƣợng số; nếu không có công nghệ đó thì việc truy cập các dịch vụ phải đƣợc điều chỉnh khi các tài nguyên di chuyển hoặc đƣợc chuyển tới một hệ nền khác. Việc điều khiển truy cập đƣa ra một thách thức đối với các thƣ viện số có các tài nguyên điện tử đa dạng từ các nguồn khác nhau. Các cơ chế khác nhau (nhƣ proxy, tên truy cập và mật khẩu, chức thực hoặc các hình thức biên nhận khác) phải đƣợc thực hiện để công nhận truy cập tùy thuộc vào bạn đọc là ai, ở đâu và vừa truy cập cái gì. 1.2.6 Web Services Cùng với sự phát triển của Internet và các tổ chức kinh doanh trong lĩnh vực công nghệ thông tin và truyền thông, dịch vụ web trở thành một chuẩn trong truyền thông dựa trên nền tảng web. Web services đƣợc xây dựng dựa trên XML – Nhân tố chính trong mô tả thông tin. Các dịch vụ web từ đơn giản, mở rộng đến tiên tiến đƣợc phát triển cho phép nhiều hệ thống và các website trở nên mở hơn và có khả năng tƣơng tác với các ứng dụng với đối tác thứ 3. Trong các dịch vụ web, một phần nhỏ thông tin đƣợc mã hóa theo các cách thức xác định, đặc Bàn Thị Năm K52 Thông tin – Thƣ viện 29
  30. biệt, đƣợc truyền qua web nhƣ một dạng thông tin chuyển đổi. Với phƣơng thứ nhƣ vậy, các máy tính sẽ gửi các dữ liệu và các máy tính khá sẽ lắng nghe các yêu cầu và cung cấp các thông tin có ý nghĩa. Các phƣơng thức thông thƣờng của web service là giao thức truy cập đối tƣợng đơn giản – SOAP (Simple Object Access Protocol) và các dịch vụ truyền trạng thái mô tả - and REST (Representational State Transfer services). Mặc dù các nền tảng dịch vụ web hƣớng nghiên cứu phổ biến nhất là Apache Axis, các dịch vụ này cũng đƣợc chạy trên Apache Tomcat Java servlet container. Với các đặc tính của thƣ viện số, các dịch vụ web đóng vai trò quan trọng trong việc truyền thông của các hệ thống thƣ viện số phân tán và có nhiều thành phần. 1.2.7 Bài toán tích hợp thư viện số. Công nghệ cung cấp các dịch vụ thƣ viện số tiếp tục phát triển và thay đổi nhanh chóng cùng với việc phát triển các sản phẩm thƣơng mại mở rộng các loại hình quản lý nội dung và truy cập dịch vụ của các nhà nghiên cứu, các nhà cung cấp. Khi công nghệ thay đổi và phát triển, tâm fnhinf của ccs tổ chức và yêu cầu cho một thƣ viện số cũng phát triển cho phù hợp. Phần mềm hỗ trợ các dịch vụ này cũng phức tạp và linh hoạt hơn. Cách thức để các thƣ viện trung bình thuộc các trƣờng đại học, với nguồn tài nguyên kỹ thuật hạn chế, sẽ quản lý sự phát triển và lớn mạnh của các yêu cầu về các sản phẩm thƣ viện số nhƣ thế nào? Có một nhân tố làm hạn chế khả năng của các đơn vị khi xây dựng một thƣ viện số là giá thành và các yếu tố quan trọng liên quan đến việc thực hiện (nhƣ việc số hóa và bản quyền) để tạo ra nội dung. Tuy nhiên nhân tố quan trọng cần lƣu tâm ở đây là sự phát triển và bảo trì phần mềm hỗ trợ chuyển tải các dịch vụ và nội dung của thƣ viện số. Các thƣ viện lớn thuộc các trƣờng dại học có khả năng tự viết phần mềm cho riêng họ. Nhiều trƣơng không có nhân lực dể xây dựng một giải pháp toàn dieenj và giải pháp thƣơng mại hóa toàn diện vì thƣờng là quá đắt. Hơn nữa, do Bàn Thị Năm K52 Thông tin – Thƣ viện 30
  31. các dịch vụ và nội dung là rất đa dạng và phong phú nên không có một sản phẩm đơn thuần nào có thể đáp ứng đƣợc hết tất cả các yêu cầu dù chỉ là các chức năng cơ bản của một thƣ viện số. Trong thực tiễn, các hệ thống thƣ viện số thế giới thực là các bộ sƣu tập với ác dịch vụ đi kèm với nhau thể hiện khả năng tích hợp ít hay nhiều khi truy cập thông qua trang web của thƣ viện. Các hệ thống khác nhau để xây dựng thƣ viện số bao gồm các sản phẩm thƣơng mại, các thành phần đƣợc xây dựng với các công cụ chuyên biệt hóa, các ứng dụng nội bộ và một số khác đƣợc phát tán thông qua internet và đƣợc cung cấp bởi phần lớn các nguồn độc lập. Việc xây dựng một thƣ viện số có tính toàn diện trở thành một công việc tích hợp các hệ thống phức tạp. Nếu thực hiện trong một cách thức đặc biệt, thì việc giải quyết mỗi bài toán tích hợp riêng lẻ và khả năng tìm kiếm tài nguyên là ngoài khả năng của nhiền đơn vị. Đa giao tiế với các thành phần trong thƣ viện số sẽ tạo nên một ứng dụng phân tán yếu và khó để bảo trì. Các dịch vụ quản lý chính giống nhƣ việc định danh và điều khiển truy cập có thể làm đơn giản hóa khả năng tích hợp bằng cách làm giảm và tiêu chuẩn hóa các giao tiếp giữa các thành phần, nhƣng tự chúng khó có thể xây dựng khả năng linh hoạt và tƣơng thích tối đa. Bàn Thị Năm K52 Thông tin – Thƣ viện 31
  32. CHƯƠNG II: PHẦN MỀM THƯ VIỆN SỐ 2.1 Các yêu cầu về quản lý thư viện số 2.1.1 Yêu cầu chung Phân hệ chức năng Bộ Phần mềm Quản lý Thƣ viện và Quản trị Nội dung số tích hợp phải đƣợc xây dựng theo mô hình phân rã thành các phân hệ, gồm có ít nhất các phân hệ sau đây: 1. Phân hệ Biên mục. 2. Phân hệ Tra cứu OPAC (Online Public Access Catalog). 3. Phân hệ Quản lý Bạn đọc. 4. Phân hệ Lƣu thông tài liệu (quản lý mƣợn - trả). 5. Phân hệ Bổ sung. 6. Phân hệ Quản lý Ấn phẩm nhiều kỳ. 7. Phân hệ Quản trị hệ thống. 8. Phân hệ Xuất/Nhập dữ liệu. 9. Phân hệ Mƣợn liên thƣ viện. 10. Phân hệ Tìm kiếm toàn văn (Fulltext Search Engine). 11. Phân hệ Quản trị nội dung Tích hợp. Bàn Thị Năm K52 Thông tin – Thƣ viện 32
  33. Tính tích hợp Các phân hệ của Bộ Phần mềm phải đƣợc tích hợp trong một hệ thống với cơ sở dữ liệu chung, với giao diện nhất quán và đặc biệt là có các mối liên kết theo chu trình phản ánh đúng logic của những chu trình diễn ra trong thực tế hoạt động của thƣ viện. Tính mở và tuỳ biến Bộ Phần mềm Quản lý Thƣ viện và Quản trị Nội dung số tích hợp phải là một giải pháp mở cho phép thay đổi dễ dàng các tính năng có sẵn và bổ sung các tính năng mới vào chƣơng trình. Khả năng tuỳ biến cao cũng giúp thƣ viện ít phải lệ thuộc vào nhà phát triển trong một số nghiệp vụ đặc thù nhƣ tạo sản phẩm thƣ mục, định khung biên mục, tạo các báo cáo, khuôn dạng văn bản, Dữ liệu số Bộ Phần mềm Quản lý Thƣ viện và Quản trị Nội dung số tích hợp phải là một giải pháp tích hợp cho việc xây dựng và phát triển thƣ viện số, trong đó tƣ liệu không chỉ là các ấn phẩm hoặc các vật phẩm nằm trên các vật mang tin riêng biệt mà là một kho dữ liệu đa phƣơng tiện bao gồm văn bản, hình ảnh, đồ hoạ, âm thanh, video, tệp máy tính có thể đƣợc lƣu trữ và khai thác trực tuyến qua mạng máy tính. 2.1.2 Yêu cầu về công nghệ nền tảng Hệ quản trị CSDL Phần mềm phải hoạt động đƣợc trên cả hai hệ quản trị CSDL Oracle 8/9i và MS SQL Server, là một phiên bản duy nhất với mọi tính năng tƣơng đƣơng cho cả hai hệ quản trị cơ sở dữ liệu này. CSDL lớn Quản lý đƣợc cơ sở dữ liệu lớn (hơn 1 triệu bản ghi) với tốc độ tra cứu nhanh. Hệ điều hành Bàn Thị Năm K52 Thông tin – Thƣ viện 33
  34. Chạy trên các hệ điều hành khác nhau: Windows NT, Windows 2000 cho máy chủ nghiệp vụ; Windows NT, Windows 2000, Unix cho máy chủ CSDL; mọi hệ điều hành hỗ trợ Web cho các trạm làm việc. Hỗ trợ đa ngữ và đa mã tiếng Việt Quản lý dữ liệu đa ngữ bằng mã UNICODE và cung cấp giao diện làm việc theo nhiều bảng mã tiếng Việt (Unicode, ABC, VNI, ),và ngôn ngữ khác nhau (Anh, Pháp, Nga). 100% giao diện trên Web Toàn bộ giao diện của tất cả các phân hệ phần mềm đƣợc xây dựng trên Web, sẵn sàng cho kết nối diện rộng với Internet, tuân thủ chặt chẽ các chuẩn của giao thức TCP/IP. Bảo mật - Mã hoá: Tuân thủ chặt chẽ các yêu cầu về bảo mật, với khả năng hoạt động trên giao thức mã hoá đƣờng truyền SSL (Secure Socket Layer), sử dụng các thuật toán mã hoá mạnh. - Xác thực: Sử dụng khả năng xác thực máy chủ và máy trạm (client & server certificate), cho phép quản lý các hoạt động của ngƣời dùng trong hệ thống từ nhiều mức: trạm làm việc, ngƣời sử dụng, tính năng đƣợc sử dụng. Tra cứu toàn văn Tích hợp với mọi dạng dữ liệu số hóa với khả năng đánh chỉ mục và tìm kiếm toàn văn tiếng Việt mạnh. Hỗ trợ Việt ngữ triệt để Hỗ trợ tiếng Việt đầy đủ với khả năng sắp xếp, tìm kiếm phân biệt hoặc không phân biệt hoa thƣờng. Mã vạch Tƣơng thích với các thiết bị đọc/in mã vạch của nhiều nhà sản xuất khác nhau. Bàn Thị Năm K52 Thông tin – Thƣ viện 34
  35. 2.1.3 Yêu cầu về chuẩn thư viện  Chuẩn MARC Hỗ trợ khung biên mục MARC 21 và MARC21 Việt Nam.  Chuẩn ISO 2709 Hỗ trợ khuôn dạng trao đổi dữ liệu theo ISO 2709.  Chuẩn Z39.50 Hỗ trợ chuẩn tra cứu liên thƣ viện theo giao thức Z39.50 (cả client và server).  Chuẩn biên mục Hỗ trợ các chuẩn biên mục ISBD, AACR-2, TCVN 4743/89  Khung phân loại Hỗ trợ các khung phân loại: BBK, UDC, DDC, LC, khung đề mục quốc gia, subject headings.  Chuẩn OCLC Hỗ trợ chuẩn OCLC 4 figure cutter table,OCLC sanborn 4 figurecutter table, chuẩn cutter của TVQG cho nhan đề/tác giả tiếng Việt.  Chuẩn ISO 10161 Chuẩn ISO 10161 cho nghiệp vụ mƣợn liên thƣ viện. 2.1.4 Yêu cầu về chuẩn nghiệp vụ thư viện 2.1.4.1 Yêu cầu chung.  Tuỳ biến theo template Khả năng tuỳ biến mềm dẻo trong việc tạo các sản phẩm thƣ mục theo định dạng HTML/XML qua các template (mẫu) do ngƣời dùng tự xây dựng.  Tuỳ biến khung biên mục Khả năng tuỳ biến mềm dẻo trong việc mở rộng khung biên mục.  Mã vạch Bàn Thị Năm K52 Thông tin – Thƣ viện 35
  36. Áp dụng mã vạch trong các khâu in thẻ, in nhãn, đăng ký cá biệt cho ấn phẩm, trong hoạt động mƣợn - trả và quản lý kho.  Xuất/Nhập dữ liệu Khả năng xuất/nhập dữ liệu với các phần mềm thƣ viện khác và với CDS/ISIS.  Lưu thông đa điểm Khả năng quản lý lƣu thông tài liệu theo nhiều điểm cho mƣợn.  Kiến trúc kho Thích hợp với cả kiến trúc kho đóng và kho mở.  Đặc thù Việt nam Các nghiệp vụ đã đƣợc trải qua sử dụng trong nhiều thƣ viện và đã đƣợc chỉnh lý để phù hợp với đặc thù thực tế của thƣ viện trong nƣớc. 2.1.4.2 Yêu cầu về các chuẩn nghiệp vụ  Khung biên mục MARC 21 và MARC 21 VN Hỗ trợ đầy đủ khung biên mục chuẩn quốc tế phổ dụng nhất là MARC 21 và phiên bản tiếng Việt của khung biên mục này là MARC 21 VN. Phần mềm cần đảm bảo: - Hỗ trợ các mọi trƣờng chuẩn (các trƣờng con và indicators) của khung MARC 21. - Hỗ trợ trƣờng 856 cho liên kết dữ liệu đa phƣơng tiện (multimedia). - Tự động hợp lệ bản ghi theo chuẩn MARC 21. - Hỗ trợ khả năng bổ sung thêm các trƣờng sử dụng cục bộ (mức quốc gia hoặc từng thƣ viện cụ thể). - Hỗ trợ quá trình biên mục các trƣờng dữ liệu mã có độ dài cố định (Fixed Length Data) 00X trong chuẩn MARC 21. - Hỗ trợ quá trình xác định Leader của biểu ghi theo khung MARC 21. - Hỗ trợ khung biên mục dữ liệu căn cứ (Authority Data) theo chuẩn MARC 21. Bàn Thị Năm K52 Thông tin – Thƣ viện 36
  37. - Hỗ trợ các quy tắc của MARC 21 về ánh xạ trƣờng từ khung biên mục dữ liệu thƣ mục MARC 21 sang bản ghi MARC XML và Dublin Core XML.  Cấu trúc bản ghi trao đổi theo ISO 2709 Phần mềm phải hỗ trợ khả năng nhập/xuất dữ liệu dƣới dạng các biểu ghi có cấu trúc định nghĩa theo chuẩn ISO 2709. Phải có khả năng chia sẻ thông tin không những với các phần mềm thƣ viện hỗ trợ MARC 21 hoặc UNIMARC mà còn với những khung biên mục MARC khác hoặc với cơ sở dữ liệu xây dựng trên nền CDS/ISIS.  Giao thức tra cứu liên thư viện Z39.50 Phần mềm phải hỗ trợ giao thức chuẩn Z39.50 (cả phiên bản 2 và 3), cho phép thƣ viện có thể chia sẻ nguồn tài nguyên dữ liệu thƣ mục với các thƣ viện trực tuyến trên thế giới. Đây cũng là giao thức cho phép các thƣ viện có thể xuất/nhập dữ liệu trực tuyến. . Hỗ trợ Z39.50 dưới vai trò là client - Danh sách các cơ sở dữ liệu Z39.50: có thể nhập sẵn một danh sách các thƣ viện trực tuyến trên Internet có hỗ trợ Z39.50. Bạn đọc có thể sử dụng lại danh sách này. - Hỗ trợ bảng mã tiếng Việt theo chuẩn USMARC: Dữ liệu thƣ mục ấn phẩm tiếng Việt trên các cơ sở dữ liệu của thƣ viện nƣớc ngoài đƣợc mã hóa riêng của chuẩn USMARC. Phần mềm phải có khả năng chuyển đổi tức thời kết quả sang hệ mã tiếng Việt của ngƣời dùng (VNI, TCVN3, Unicode). - Tìm kiếm kết hợp nhiều điều kiện bằng các toán tử logic: Cho phép kết hợp các tiêu chí tìm kiếm bằng các toán tử “AND”, “OR”, “NOT”. - Tích hợp với nghiệp vụ mƣợn liên thƣ viện (ILL): có thể đặt yêu cầu mƣợn liên thƣ viện trực tiếp từ trang kết quả nếu thƣ viện có chính sách mƣợn liên thƣ viện với thƣ viện cục bộ. . Hỗ trợ Z39.50 dưói vai trò là server: Bàn Thị Năm K52 Thông tin – Thƣ viện 37
  38. - Chạy nhƣ một dịch vụ hệ thống (system service) hoặc trên dòng lệnh: có thể khởi tạo Z39.50 từ dòng lệnh hoặc cài đặt nhƣ một dịch vụ hệ thống tại cổng tuỳ ý. - Hỗ trợ nhiều bảng mã tiếng Việt khác nhau: Kết quả trả lại từ Z39.50 server có thể đƣợc chuyển đổi thành bảng mã tiếng Việt thích hợp với đầu tra cứu (TCVN 5712, VNI, TCVN 6909 Unicode). - Làm việc với mọi Z39.50 client có sẵn  Các quy tắc mô tả thư mục ISBD, AACR-2, TCVN 4743/89 Phần mềm phải hỗ trợ: - Các quy tắc mô tả thƣ mục ISBD (International Standard Bibliographic Description) (G, M, S, ER, ) - Các quy tắc biên mục Anh - Mỹ AACR-2 (Anglo-American Cataloguing Rule – Edition 2).  Chuẩn mượn liên thư viện ISO 10161 - Hỗ trợ đầy đủ giao thức ISO 10161 - Mọi trạng thái, mã số, tiền trình trao đổi và cấu trúc định dạng của các thông điệp mƣợn liên thƣ viện đều tuân thủ theo mô tả của ISO 10161. - Đảm bảo tính liên thông trong nghiệp vụ giữa phần mềm thƣ viện và các phần mềm thƣ viện khác trên thế giới. - Thông điệp trao đổi có thể đƣợc đƣợc mã hóa theo chuẩn quốc tế nhƣ BER, EDIFACT hoặc XML. - Các giao dịch mƣợn liên thƣ viện đƣợc gửi/nhận qua dịch vụ thƣ điện tử.  Khung phân loại BBK, DDC, UDC, LCC , khung đề mục quốc gia - Hỗ trợ đồng thời nhiều khung phân loại khác nhau và cho phép các tiến trình biên mục, tra cứu có thể sử dụng bất cứ một hoặc một nhóm khung phân loại nào trong số này. Bàn Thị Năm K52 Thông tin – Thƣ viện 38
  39. - Cho phép cán bộ thƣ viện và bạn đọc tra cứu dễ dàng tra cứu đƣợc chỉ số phân loại thích hợp không chỉ theo con số (number) mà còn theo mô tả (caption) tiếng Anh và tiếng Việt.  Tiêu đề đề mục (subject headings), từ khóa: Phần mềm phải hỗ trợ Subject Headings (đề mục chủ đề hoặc tiêu đề đề mục) và từ khóa không kiểm soát. Hỗ trợ việc kiểm soát các từ điển chuẩn (từ khóa), từ điển các giá trị của MARC21 (mã địa lý, mã ngôn ngữ, mã nƣớc ), danh mục nhãn trƣờng MARC21.  OCLC cutter và TVQG cutter: Phần mềm phải cung cấp khả năng tự động tính toán con số cutter (cutter number) theo một số chuẩn khác nhau. - Với sách tiếng nƣớc ngoài: Sử dụng các chuẩn cutter do OCLC quy định, là các chuẩn OCLC Four Figure Cutter Table hoặc OCLC Sanborn Four Figure Cutter Table. - Với sách tiếng Việt: Sử dụng quy tắc tính số cutter của TVQG. 2.2 Các phần mềm thư viện số 2.2.1 Giới thiệu chung Các định nghĩa và mô tả về thƣ viện số góp phần mô tả bản chất của các hệ thống phần mềm này là cung cấp khả năng lƣu trữ và truy cập đến các tài nguyên số. Cũng nhƣ các dạng phần mềm khác, có rất nhiều cách thức, khía cạnh và mục đích khác nhau để xây dựng hệ thống. Ví dụ, một phần mềm chỉnh sửa ảnh cũng giống nhƣ các chƣơng trình khác, cho phép ngƣời dùng tạo ứng dụng cho ảnh, tuy nhiên nó có sự khác biệt về độ mờ, sáng và các đặc tính khác so với các phần mềm khác; một số gói phần mềm còn cung cấp chức năng đặc biệt mà các phần mềm khác không có. Các phần mềm tính năng tƣơng tự cũng đƣợc lập trình và phát triển theo các cách khác nhau. Bàn Thị Năm K52 Thông tin – Thƣ viện 39
  40. Trong lĩnh vực thƣ viện số và phần mềm thƣ viện số có hai phƣơng pháp thƣờng thấy là hệ thống các thành phần tập trung và phân tán. Một hệ thống tập trung là hệ thống bao hàm tất cả các thành phần trong nó, và thƣờng đƣợc lƣu trên một máy chủ nơi các chức năng hệ thống và mã nguồn đƣợc thiết lập một cách chặt chẽ và đan xen với nhau. Trong hệ thống phân tán, thay vì 1 ứng dụng lớn chạy tại một vị trí thì phần mềm đƣợc phân tách thành nhiều thành phần con có thể đặt tại nhiều máy chủ khác nhau. Hƣớng này cho phép xử lý các thành phần truy vấn khác nhau của hệ thống tới nhiều máy chủ. Sự phân chia này làm tăng cƣờng xử lý song song, tăng hiệu năng của hệ thống. Trong mục này, tôi sẽ đề cập đến một số gói phần mềm thƣ viện số mã nguồn mở khá phổ biến có thể phát triển cho các hệ thống thƣ viện số. 2.2.2 Phần mềm Greenstone Greenstone là một bộ phần mềm dùng để xây dựng và phân phối các bộ sƣu tập tài liệu số. Nó cung cấp một phƣơng pháp mới để tổ chức và xuất bản thông tin trên Internet hoặc trên CD-ROM. Greenstone là sản phẩm của dự án Thƣ viện số New Zealand của trƣờng đại học Waikato, đƣợc phát triển và phân phối với sự tham gia của UNESCO và Human Info NGO. Đây là phần mềm mã nguồn mở đƣợc cung cấp trên theo thoả thuận của GNU General Public License. Greenstone tƣơng thích với hệ điều hành Windows, Unix và Mac OS X. Việc phân phối bao gồm các bản cài đặt cho tất cả các phiên bản của Windows, Linux và Mac OS X. Nó cũng cung cấp toàn bộ source code của hệ thống để ngƣời sử dụng có thể biên dịch lại bằng Microsoft C++ Phần mềm đi kèm với Greenstone cũng đều miễn phí, ví dụ nhƣ Apache Webserver và PERL. Ngƣời sử dụng có thể dùng các trình duyệt Web điển hình là Netscape Navigator hoặc Internet Explorer. Bàn Thị Năm K52 Thông tin – Thƣ viện 40
  41. Mục tiêu của phần mềm là cung cấp cho ngƣời sử dụng, đặc biệt là các trƣờng đại học, các thƣ viện hoặc trong các trụ sở công cộng xây dựng các thƣ viện số riêng của họ. Các thƣ viện số làm thay đổi nhanh chóng cách thức thông tin đƣợc thu thập và phổ biến trong các thành viên của UNESCO và các trụ sở giáo dục, khoa học và văn hóa trên toàn thế giới, đặc biệt là ở các quốc gia đang phát triển. Hƣớng xa hơn nữa là các phần mềm của họ đƣợc phân tán trên các CD-ROM thông qua các kênh và các tổ chức UNESCO có thể tạo ra CD-ROM dựa trên các thƣ viện số đƣợc xây dựng trên các web server. Phần mềm này có khả năng tƣơng hợp cao, hỗ trợ khả năng xuất và nhập với các bộ sƣu tập Dspace. Greenstone đƣợc thiết kế để dễ nâng cấp và chỉnh sửa. Các định dạng mới của một tài liệu và metadata đƣợc cung cấp bằng cách viết “plugins” (trong Perl). Tƣơng tự, việc duyệt cấu trúc của metadata có thể thực hiện bằng cách viết “classifiers”. Giao diện ngƣời sử dụng có thể đƣợc thay thế bằng cách viết các “macros”. Giao thức Corba cho phép các chƣơng trình thông minh (ví dụ trong Java) sử dụng tất cả các tiện ích đi kèm với bộ sƣu tập. Cuối cùng, source code bằng C++ và Perl đƣợc cung cấp miễn phí và cho phép sửa đổi. Greenstone 3 là một phiên bản đƣợc thiết kế và cài đặt lại, chứa tất cả các tính năng tiên tiến của Greenstone 2 (phiên bản hiện tại). Nó kết hợp tất cả các đặc điểm của hệ thống đã tồn tại và tƣơng thích với tất cả các hệ thống trƣớc: có thể xây dựng và chạy trên các bộ sƣu tập đã có mà không phải chỉnh sửa. Greenstone 3 đƣợc viết bằng Java và đƣợc xây dựng nhƣ một thành phần mạng độc lập sử dụng XML để truyền thông. Những tính năng này giúp Greenstone phát triển tính khả chuyển và mở rộng. 2.2.3 Phần mềm Dspace DSpace là một bộ phần mềm mã nguồn mở hỗ trợ giải pháp xây dựng và phân phối các bộ sƣu tập số hóa trên internet, cho phép các thƣ viện, các cơ quan Bàn Thị Năm K52 Thông tin – Thƣ viện 41
  42. nghiên cứu phát triển và mở rộng. Nó cung cấp một phƣơng thức mới trong việc tổ chức và xuất bản thông tin trên internet. DSpace do HP và The MIT Libraries phát triển vào năm 2002, hiện nay có hơn 1000 trƣờng đại học và các tổ chức văn hoá sử dụng phần mềm số DSpace để quản lý và chia sẻ nguồn tài nguyên: sách, tạp chí, luận văn và các sƣu tập hình ảnh, âm thanh và phim DSpace đƣợc sử dụng cơ bản nhƣ một phần mềm lƣu trữ và phân phối tài liệu số với ba vai trò chính: Giúp cho việc thu nhận và quản lý tài liệu đƣợc dễ dàng, bao gồm siêu dữ liệu của tài liệu Giúp cho việc truy cập tài liệu đƣợc dễ dàng, bằng cả việc liệt kê và tìm kiếm Giúp cho việc bảo quản tài liệu lâu dài. Ƣu điểm của Dspace: Có một cộng đồng lớn ngƣời sử dụng và phát triển trên toàn thế giới; Phần mềm mã nguồn mở, miễn phí; Dễ dàng tùy chỉnh để phù hợp với nhu cầu của bạn;Giao diện dạng web nên dễ dàng trong việc truy cập Đƣợc sử dụng trong các tổ chức giáo dục, chính phủ, tƣ nhân và thƣơng mại; Có thể đƣợc cài đặt dễ dàng; sử dụng đƣợc trên nhiều hệ điều hành nhƣ Windows, Linux, Unix Sử dụng hệ quản trị cơ sở dữ liệu Postgres SQL hoặc Oracle Có thể quản lý và lƣu giữ tất cả các loại tài liệu kỹ thuật số. Tài liệu đƣợc biên mục theo chuẩn Dublin Core Metadata rất phổ biến và thông dụng. Khả năng tìm kiếm tài liệu toàn văn. Bàn Thị Năm K52 Thông tin – Thƣ viện 42
  43. Phân quyền và bảo mật mạnh. Có thể phân quyền đến từng tài khoản ngƣời dùng, đến từng Bộ sƣu tập hoặc thậm chí đến từng tài liệu. Các quyền đƣợc cấu hình khá chi tiết nhƣ: Quyền xem biểu ghi thƣ mục, Quyền xem toàn văn Hỗ trợ đa ngôn ngữ. Trong đó có tiếng Việt (Phiên bản do Trƣờng Đại học Đà Lạt việt hóa). Những tính năng vượt trội: Khả năng tùy chỉnh giao diện cao. Giao diện thống nhất chung cho tất cả các bộ sƣu tập. Phần mềm Dspace nhƣ một website. Tất cả các thao tác đều thông qua web: Biên mục, truy cập thông tin Khi cần bổ sung tài liệu vào các bộ sƣu tập không cần phải xây dựng lại từ đầu nhƣ Greenstone Cấu trúc Bộ sƣu tập trong Dspace khoa học hơn Greenstone. Dspace có cấu trúc các Bộ sƣu tập theo nhiều cấp Sử dụng hệ quản trị CSDL độc lập nên đáp ứng tốt với Thƣ viện có số lƣợng tài liệu lớn Khả năng phân quyền mạnh. Có thể phân quyền đến từng tài khoản ngƣời dùng, đến từng Bộ sƣu tập hoặc thậm chí đến từng tài liệu. Các quyền đƣợc cấu hình khá chi tiết nhƣ: Quyền xem biểu ghi thƣ mục, Quyền xem toàn văn Phần mềm Greenstone không làm đƣợc điều này Có nhiều kiểu báo cáo: Lƣợt truy cập, lƣợt xem biểu ghi thƣ mục, lƣợt download 2.2.4 Phần mềm Feroda Dự án Fedora – Kiến trúc lƣu trữ đối tƣợng số có khả năng mở rộng linh hoạt – Flexible Extensible Digital Object Repository Architecture) có lẽ là một trong những nỗ lực phát triển Thƣ viện số lớn nhất ngày nay. Dự án này tập Bàn Thị Năm K52 Thông tin – Thƣ viện 43
  44. trung vào framework theo hƣớng thành phần hóa cho phép tạo ra các thƣ viện số phân tán. Fedora phát triển trên ngôn ngữ Java, hệ CSDL MySQL/Oracle và web server là Apache. Đƣợc ra đời từ dự án DARPA từ năm 1990, dự án đầu tiên có ý niệm về quản lý các đối tƣợng số, Fedora đang tiếp tục đƣợc nghiên cứu, phát triển framework mạnh cho phép tạo lập, quản lý và bảo tồn nội dụng số. Fedora có rất nhiều khác biệt với Dspace và Greenstone là các phần mềm cung cấp hệ thống Thƣ viện số có khả năng cài đặt và chức năng lớn, còn Fedora cung cấp một framework để có thể dễ dàng xây dựng các hệ thống thƣ viện số. Ngoài ra, Fedora còn cung cấp kho lƣu trữ phổ biến tài nguyên, đồng thời cung cấp một loạt dịch vụ web để dễ dàng trợ giúp cho các công việc đó. Tất cả các API của Fedora sử dụng ngôn ngữ mô tả dịch vụ web đƣợc thiết lập cho việc mở rộng và tƣơng hợp. Fedora cho phép tăng khả năng ứng dụng dịch vụ web trong kinh doanh và nghiên cứu giống nhƣ trong việc khả năng linh hoạt hơn phù hợp với cấu trúc mạng và điều liện địa lý. Không giống một dự án Thƣ viện số, mô hình dự án Fedora đủ linh hoạt để hỗ trợ một khối lƣợng lớn cấu trúc, phân cấp, sự phức tạp và các mối quan hệ phức tạp giữa các đối tƣợng số. Mô hình đối tƣợng của Fedora có thể đƣợc hiểu hoặc đánh giá theo hai hƣớng là tính biểu trƣng và tính chức năng. Theo hƣớng biểu trƣng bản thân đối tƣợng là một hộp đen, làm tách biệt phần cấu trúc và nội dung bên trong đối tƣợng. Trọng tâm của hƣớng này là sự phổ biến, các danh thức một đối tƣợng có thể tự mô tả hoặc các phƣơng tiện mô tả dữ liệu đƣợc lƣu trong một đối tƣợng số phức tạp Fedora cũng có thể đƣợc xem xét trong nhiều mức thấp hơn, phải đầu tƣ nhiều hơn cho các chức năng, các yếu tố dữ liệu khác nhau. 2.2.5. So sánh các phần mềm và phản hồi của người dùng 2.2.5.1 Phản hồi về Greenstone Bàn Thị Năm K52 Thông tin – Thƣ viện 44
  45. Greenstone không đƣợc đánh giá cao mặc dù đây là một phần mềm đƣợc ứng dụng rộng rãi. Ngƣời dùng cho rằng một trong những điểm mạnh của Greenstone là các tài liệu và hƣớng dẫn của nó, đây là các dạng hỗ trợ đƣợc sử dụng thông thƣờng nhất và các tài liệu học tập về phần mềm, ngoài ra còn có email và website hỗ trợ. Một con số đáng ngạc nhiên là các bộ sƣu tập của Greenstone đƣợc xuất bản cho CD-ROM, theo thống kê này gần 1/3 các tổ chức đều sử dụng phƣơng pháp xuất bản này. Phần mềm này đƣợc sử dụng rộng rãi và nhiều bộ sƣu tập đƣợc tạo mạng tính quốc tế thể hiện khả năngg hữu ích và dễ dử dụng của nó. 2.2.5.2 Phản hồi về Dspace Với các hệ thống thƣ viện số lớn, mức độ xử lý có thể lên đến hàng ngàn hoặc hàng triệu đối tƣợng số. Những yêu cầu cao về công nghệ và quy mô của hệ thống nhƣ số lƣợng các đối tƣợng số có thể đƣa vào hệ thống, thì hiệu năng của hệ thống trở thành một nhân tố quan trọng tăng cƣờng hoặc giảm bớt khả năng thu hút của hệ thống. Với hệ thống Dspace, có những phản hồi thƣờng xuyên về hiệu năng hệ thống khi thực hiện một số lƣợng lớn các đối tƣợng số. Mối quan hệ trong dự án Dspace với hãng HP đã góp phần tăng khả năng lƣu trữ của Dspace theo nhiều yêu cầu mức độ yêu cầu khác nhau dựa trên các hệ thống mang thƣơng hiệu HP. Hiệu quả hoạt động là một vẫn đề trong các hệ thống tập trung muốn chia sẻ kiến trúc chung cho nhiều các dịch vụ liên quan để xây dựng hệ thống thƣ viện số. Những vấn đè này cho thấy hiệu quả hơn hẳn của các hệ thống phân tán nhƣ Fedora, nơi mà hệ thống các máy chủ có khả năng xử lý phân tán trên nhiều cơ chế khác nhau. Trong các đánh giá khác, hầu hết các ƣu thế của phần mềm là khả năng bảo mật, khả năng có tính toàn cầu, và đặc biệt cộng đồng ngƣời dùng cung cấp trợ giúp và những vấn đề kỹ thuật khác. Điểm bất lợi lớn nhất thông thƣờng đƣợc thảo luận là khả năng dễ dàng phát triển, dễ dàng để làm việc với mã nguồn Bàn Thị Năm K52 Thông tin – Thƣ viện 45
  46. mở và dễ dàng để quản trị. Nhƣng điểm khác là khả năng thiếu các bộ sƣu tập mang tính cá nhân hóa và tích hợp quản lý bản quyền của Dspace mặc dù những đặc tính này không phải là những đặc tính đƣợc yêu cầu ở các hệ thống thƣơng mại. Dspace đƣợc đánh giá tốt trên các chỉ số đánh giá và có cộng đồng phát triển mở rộng nhất. Trong một tài liệu về tiến trình của Dspace hiện thời, nhóm phát triển Dspace cho rằng đó chƣa phải là giải pháp hoàn hảo cho tất cả các yêu cầu của ngƣời dùng. Dspace sẽ phát triển thêm các chức năng mới, tăng cƣờng khả năng lƣu trữ các đối tƣợng số và sẽ trở thành một trong những phần mềm nguồn mở chính trong việc xây dựng các kho số. 2.2.5.3 Phản hồi về Fedora Theo đánh giá từ phía ngƣời dùng, Fedora đƣợc coi là mọt trong những giải pháp hàng đầu cho việc tạo ra các hệ thống thƣ viện số. Mặc dù nó mang tính tất yếu của một framework có khả năng mở rộng để tạo ra các hệ thống thƣ viện số thay thế cho một hệ thống phần mềm trƣớc đó, Fedora đƣợc coi nhƣ hệ thống hội tụ các yêu cầu của ngƣời dùng. Các đặc điểm tốt nhất của phần mềm hƣớng tới khả năng tƣơng hợp, hỗ trợ phong cách làm việc với mã nguồn và dễ dàng phát triển. Điểm yếu nhất của phần mềm và là điểm hạn chế của Fedora đó chính là tính tƣơng tác với cộng đồng và không tạo khả năng mạnh mẽ cho cộng đồng. Bên cạnh đó, Fedora không có giao diện ngƣời dùng nên không thể cung cấp các dịch vụ lƣu trữ đầy đủ và đối với ngƣời dùng nó là một hệ thống phức tạp. Nhƣ vậy, theo đánh giá chung của cộng đồng phát triển thƣ viện số thì phần mềm Dspace đƣợc đánh giá là phần mềm có nhiều ƣu điểm về tính năng sử dụng, thân thiện ngƣời dùng, cộng đồng phát triển lớn và khả năng tùy biến dễ dàng, phù hợp với việc phát triển thƣ viện số ở các trung tâm, viện nghiên cứu và các trƣờng đại học. Bàn Thị Năm K52 Thông tin – Thƣ viện 46
  47. 2.3 Đặc điểm của Dspace 2.3.1 Mô hình đối tượng trong Dspace Hầu hết các phần mềm đều thực hiện các chức năng quan trọng là khả năng sử dụng của nó, để hiểu toàn bộ phần mềm thì cần thiết phải xem xét các chức năng của phần mềm đó và kiểm nghiệm sơ qua hoạt động của nó. Dspace cũng vậy, từ khâu duyệt tính năng lƣu trữ của Dspace, ngƣời dùng cũng có thể cảm nhận đƣợc cấu trúc của một thƣ viện số, trong khi thực chất tổ chức và tính năng của nó bị ẩn đi đối với ngƣời dùng. Nói cách khác, những ngƣời quản trị Dspace có thể thấy đƣợc cấu trúc của cơ bản của Dspace mà không cần quan tâm có bao nhiêu giao diện quản trị dựa trên web đƣợc thiếp lập Dspace lƣu trữ nội dung số, thƣờng là các đối tƣợng số, vì thế mà phần quan trọng nhất toàn bộ mô hình đối tƣợng của hệ thống Dspace chính là bản thân các đối tƣợng, thƣờng đƣợc gọi là các “Items”. Các Items đƣợc tổ chức phân cấp trong đó các Items tƣơng đồng đƣợc nhóm lại và đƣợc đặt trong các bộ sƣu tập với nội dung tƣơng ứng. Tổ chức nội dung ở mức cao nhất đó là các Communities. Mỗi Items đƣợc lƣu trong các kho trữ của Dspace đƣợc tạo bởi một bundle do đó một đối tƣợng số có thể lƣu trữ nhiều file khi cần. Các Bitstreams tuân theo các định dạng bitstreams để hệ thống có thể hiểu và Dspace thực thi theo nhiều cách khác nhau với nhiều dạng đối tƣợng nhƣ: ảnh có thể hiển thị khi duyệt hệ thống nhƣng file .exe thì không. Mô hình đối tƣợng trong Dspace đƣợc mô tả nhƣ hình 3. Mô hình dữ liệu của Dspace là đa lớp với cấu trúc dựa trên mô hình thƣ viện: - Mô hình Dspace đƣợc chia thành nhiều communities: phòng thí nghiệm, trung tâm nghiên cứu hoặc phòng ban. - Communities bao gồm các bộ sƣu tập, một bộ sƣu tập có thể có ở một hoặc nhiều community. - Collection bao gồm các items. Collection là tập hợp các items. Bàn Thị Năm K52 Thông tin – Thƣ viện 47
  48. - Một items có thể trong một hoặc nhiều collection. - Items lại đƣợc phân nhỏ thành các bundles, một bundles đƣợc tạo thành từ một hoặc nhiều các bitstreams. - Bitstreams là phần nội dung dạng các HTML files và images đăng trên web và đƣợc tổ chức thành các bundles. Handles đƣợc chỉ định cho các communities, collections, và items. Bundles và bitstreams không đƣợc chỉ định một Handles. 2.3.2 Kiến trúc của Dspace DSpace đƣợc xây dựng theo mô hình 3 tầng khá giống với mô hình MVC cụ thể gồm: Application Layer: Tầng ứng dụng gồm các giao diện tƣơng tác với ngƣời dùng: giao diện web, nhập và xuất tài liệu Bussiness Logic Layer: Tầng xử lý gồm các gói xử lý theo từng chức năng: tìm kiếm, quản lý ngƣời dùng, quản lý dòng công việc, xác thực ngƣời dùng Storage Layer: Tầng lƣu trữ gồm kết nối và cơ sở dữ liệu để lƣu trữ tập tin. 2.3.3 Tiến trình của Dspace Dspace là một phần mềm nhằm lƣu trữ các nội dung số, trong hệ thống đặc tính quan trọng nhất là cách thức đƣa dữ liệu vào hệ thống nhƣ thế nào. Có hai cách thức để thực hiện điều đó. Giao diện ngƣời dùng dựa trên web có thể cho phép ngƣời dùng cập nhật các item cho các bộ sƣu tập miễn là họ có quyền đăng nhập vào hệ thống. Khi ngƣời dùng đã thực hiện công việc này, họ tiến hành một loạt các công việc có khả năng cấu hình, tại đó họ có thể cập nhật nội dung và mô tả cho các item đó. Luồng công việc đƣợc mô tả nhƣ hình 5. Nhƣ một sự lựa chọn, những ngƣời quản trị Dspace có thể thực hiện các chức năng xuất/nhập một số lƣợng lớn nội dung cho hệ thống. Items Importer là công cụ dòng lệnh dữ liệu hình thành bundled của hệ thống và cho phép ngƣời dùng nhập các bộ sƣu tập vào trong hệ thống. Bàn Thị Năm K52 Thông tin – Thƣ viện 48
  49. Công cụ Item Importer sử dụng các định dạng lƣu trữ đơn giản của Dspace, là cấu trúc thƣ mục đơn giản có thể lƣu trữ các item cho việc nhập vào trong hệ thống. Một thƣ mục lƣu trữ các mức đỉnh bao gồm các thƣ mục đƣợc đặt tên duy nhất, mỗi thƣ mục bao gồm tất cả những gì cần thiết cho việc nhập một item đơn. Mỗi thƣ mục con chứa 2 file ngoài nội dung thực đƣợc xuất. Một file không thể thiếu là “dubin_core.xml” là một file dạng XML chứa các yếu tố Dublin Core tối thiểu và nội dung văn bản có chứa các bản ghi metadata, tên tác giả, tiêu đề, Một file nội dung có chứa tên file của mỗi file có trong đối tƣợng số. Khi cấu trúc này đƣợc đặt vào đúng vị trí, công cụ Item Importer có thể chạy đơn giản và tất cả nội dung sẽ đƣợc cập nhật vào trong kho lƣu trữ. Công cụ cung cấp một file ánh xạ sau khi chạy, file này bao gồm chi tiết tất cả các item đã đƣợc xuất vào và vị trí mới của chúng trong hệ thống. Về lâu dài, flie này sẽ có ích trong việc xuất hoặc di chuyển nhóm các nội dung đã đƣợc nhập vào. 2.3.4 Dspace Workflow Dspace là một trong những hệ thống lƣu trữ nội dung mở đầu tiên thực sự thành công trong việc giải quyết các yêu cầu khác nhau khi phải lƣu trữ các dạng, đối tƣợng sƣu tập khác nhau. Hệ thống workflow của Dspace là một phần quan trọng trong kiến trúc cuả Dspace, nó cho phép cập nhật, xử lý và thêm nội dung để duy trì sự tồn tại của bộ sƣu tập. Mô hình Dspace là mô hình Epeople trong đó ngƣời sử dụng đƣợc đăng ký vào hệ thống để thực hiện các tác vụ riêng với hệ thống Dspace. Đệ trình điển hình đầu tiên mà hệ thống hỏi ngƣời dùng là 2 câu hỏi về lịch sử cập nhật của item và số lƣợng các file trong việc đệ trình đó. Dspace workflow đƣợc thiết kế để đơn giản hóa tiến trình xử lý và tập hợp các thông tin liên quan đến dữ liệu đƣợc đƣa lên. Dữ liệu theo một các form trực tuyến gồm: title, author, Khi hoàn thành metadata đƣợc ghi trong Dspace Workflow Manager ghi các thông tin cho các bảng dữ liệu liên quan và copy các bitstream vào các file Bàn Thị Năm K52 Thông tin – Thƣ viện 49
  50. hệ thống. Một bộ xử lý duy nhất Handle đƣợc xác định cho mỗi tiến trình để duy trì mối liên hệ giữa bitstream(s) và metadata. Workflow của bộ sƣu tập có thế tóm gọn trong 3 bƣớc. Với mỗi bộ sƣu tập có một nhóm ngƣời thực (e-person) hiện từng bƣớc liên quan tƣơng ứng; nếu không có nhóm nào cho một bƣớc xác định thì bƣớc đó sẽ bị bỏ qua. Nếu bộ sƣu tập không có các nhóm e-person liên quan tới bất kỳ một bƣớc nào thì việc đệ trình bộ sƣu tập đó sẽ đƣợc cập nhật thẳng vào kho lƣu trữ chính. Nói cách khác, chuỗi công việc đó là: Bộ sƣu tập nhận một đệ trình. Nếu bộ sƣu tập có một nhóm đƣợc chỉ định cho bƣớc 1, bƣớc này sẽ đƣợc gọi và thông báo cho nhóm biết. Trái lại, bƣớc 1 sẽ bị bỏ qua. Tƣơng tự, các bƣớc 2, 3 đƣợc thực hiện nếu bộ sƣu tập có các nhóm đƣợc chỉ định trực tiếp với các bƣớc đó. Khi một bƣớc đƣợc gọi, tác vụ thực hiện bƣớc này trong workflow sẽ đƣợc đặt trong „khối tác vụ‟-‟task pool‟ của nhóm tƣơng ứng. Một thành viên của nhóm sẽ nhận tác vụ đó trong khối và nó sẽ bị xóa trong task pool, để tránh việc các thành viên khác trong nhóm có thể thực hiện cùnn một tác vụ. Thành viên trong nhóm có thể nhận tác vụ và thực hiện một trong các bƣớc sau: B1: Có thể chấp nhận hoặc từ chối việc đệ trình B2: Có thể chỉnh sửa metadata đƣợc ngƣời dùng cung cấp khi đệ trình nhƣng không thể thay đổi file đệ trình. Có thể chấp nhận hoặc từ chối việc đệ trình. B3: Có thể chỉnh sửa metadata đƣợc ngƣời dùng cung cấp khi đệ trình nhƣng không thể thay đổi file đệ trình. Có thể chấp nhận hoặc từ chối việc đệ trình, Sau đó phải cam kết lƣu trữ và có thể không thể từ chối việc đệ trình. Bàn Thị Năm K52 Thông tin – Thƣ viện 50
  51. Khi đệ trình bị từ chối, nguyên nhân sẽ đƣợc gửi qua mail cho ngƣời đệ trình và đƣợc thông báo trên trang My Dspace ngƣời đệ trình. Nếu đệ trình đƣợc chấp nhận thì nó sẽ thực hiện các bƣớc tiếp theo trong worrkflow. 2.3.5 Quản lí người dùng trong DSpace Nhóm ngƣời dùng (Group) đại diện cho các ngƣời dùng có cùng quyền hạn. Trong DSpace ngƣời dùng đƣợc chia ra thành 3 nhóm chính: Anonymous: (ngƣời dùng vô danh) nếu chƣa đăng nhập thì tất cả những ngƣời dùng của Dspace đƣợc xem là ngƣời dùng vô danh. Nhóm này đƣợc phép xem những tài liệu công khai cho tất cả mọi ngƣời. Normal users: (ngƣời dùng bình thƣờng) là những ngƣời sau khi đăng đăng nhập đƣợc phép đăng tải tài liệu lên bộ sƣu tập, đƣợc quyền xem những tài liệu công khai cho tất cả mọi ngƣời, ngoài ra còn đƣợc quyền quản lí một số bộ sƣu tập hoặc xem một số bộ sƣu tập bị giới hạn. Administrators: những ngƣời dùng có quyền truy cập vào tất cả các chức năng trên tất cả các bộ sƣu tập, các mục trong DSpace. Lƣu ý: - Một ngƣời dùng có thể là thành viên của nhiều nhóm. - Một nhóm – A - có thể là thành viên của một nhóm khác - B, khi đó quyền hạn của nhóm A sẽ là quyền hạn của nhóm A và kế thừa quyền của nhóm B. - Ngoài ra khi tạo một bộ sƣu tập hệ thống sẽ tự động tạo nhóm quản lí trên bộ sƣu tập đó. - Ngƣời dùng (User) trong DSpace đƣợc gọi là E-Person, trở thành thành viên của Dspace theo 2 cách: + Ngƣời quản trị tạo tài khoản đăng nhập cho thành viên. + Ngƣời dùng tự đăng ký và xác nhận thông tin qua tài khoản email đã đăng ký. Quyền hạn của ngƣời dùng trong Dspace: Trên tập tin (Bitstream) Bàn Thị Năm K52 Thông tin – Thƣ viện 51
  52. - READ: có thể đọc file. - WRITE: có thể thay đổi file. Trên bó (Bundle) - ADD: có thể thêm nhiều tập tin vào bó. - REMOVE: xoá tập tin ra khỏi bó. Trên mục (Item) - READ: có thể xem mục. - WRITE: có thể thay đổi mục. - ADD/REMOVE: có thể thêm hoặc xóa các tập tin. Trên bộ sƣu tập (Collection) - ADD/REMOVE: có thể thêm hoặc xóa các tập tin khỏi bộ sƣu tập DEFAULT_ITEM_READ: các mục có thuộc tính đọc. - DEFAULT_BITSTREAM_READ: các tập tin đƣợc phép đọc. - COLLECTION_ADMIN: có thể thay đổi, rút trích hoặc ánh xạ các mục vào bộ sƣu tập. 2.3.6 Quản lí tài liệu trong DSpace Trong Dspace tài liệu đƣợc quản lí theo từng bộ sƣu tập (Collecttion) hoặc cộng đồng (Communication) Cộng đồng (Communities): Có thể là trƣờng học, phòng ban, hoặc các trung tâm. Mỗi Cộng đồng cóthể bao gồm: - Cộng đồng con (Sub-communities) - Không giới hạn các Bộ sƣu tập (Collection) Bộ sƣu tập – BST (Collections): Có thể là một chủ đề, một thƣ mục chứa nhiều tài liệu. Mỗi Bộ sƣu tập có thể có các quyền truy cập và dòng xử lý công việc khác nhau. 2.3.7 Manakin cho Dspace Bàn Thị Năm K52 Thông tin – Thƣ viện 52
  53. Với đại đa số ngƣời dùng, phƣơng tiện chính để tƣơng tác với các bộ sƣu tập số là thông qua giao diện ngƣời dùng, ngày nay thƣờng là ứng dụng giao diện web. Với mỗi loại bộ sƣu tập thƣờng có những yêu cầu riêng với việc hiển thị nội dung của nó. Một kho lƣu trữ phải có khả năng tƣơng thích với giao diện ngƣời dùng của nó phù hợp với các yêu cầu riêng. Manakin đƣợc thiết kế để giải quyết những vấn đề này bằng cách tạo một framenetwork cơ bản hỗ trợ thiết lập các giao diện cho các bộ sƣu tập riêng. Manakin đóng vai trò lớn trong việc thiết lập giao diện đẹp cho thƣ viện số. Giao diện ngƣời dùng hiện thời đƣợc xây dựng dựa treen công nghệ JSP, nó đắt và khó có thể chính sửa thêm theo hƣớng ngƣời dùng. Manakin là một thành phần bổ sung cho Dspace, tạo thay đổi cơ bản trong hƣớng thể hiện nội dung các bộ sƣu tập. Manakin đƣợc xây dựng trên một framenetwork phát triển web sử dụng kiến trúc đƣờng ống dựa trên XML. Kiến trúc đƣờng ống ở đây có nghĩa là một trang riêng lẻ đƣợc sinh ra thông qua việc gom nhiều thành phần với nhau theo một đƣờng ống, việc kết hợp với các thành phần khác diễn ra cho đến khi một trang đƣợc hình thành, các thành phần kiến trúc chính của Manakin là : Aspets, Themes, và DRI Schema. Giao diện lƣu trữ số - Digital Repository Interface (DRI) là một lƣợc đồ XML mô tả cách biểu diễn một trang lƣu trữ. Khi các kho lƣu trữ với nội dung và metadata của nó, lƣợc đồ DRI có thể gồm cả các khái niệm cấu trúc mã và metadata mô tả theo các định dạnhg khác nhau. Các phần cấu trúc của lƣợc đồ dựa trên lƣợc đồ TEI cho cả sự đơn giản và phức tạp của nó và các phần metadata sử dụng lƣợc đồ METS cho việc mã hóa và đóng gói giữa các thành phần của item. Aspect là các phần mở rộng của manakin, giúp điều chỉnh các đặc tính đang tồn tại hoặc tạo các đặc tính mới cho việc lƣu trữ số. Aspect cung cấp các Bàn Thị Năm K52 Thông tin – Thƣ viện 53
  54. chức năng cho các hoạt động thƣ viện số trên giao diện nhƣ cơ chế đăng nhập, tìm kiếm nâng cao, hoặc mua bán trực tuyến. Manakin Themes là khả năng cách điệu hóa hình ảnh các Aspect trên tạo nên giao diện của trang web Dspace. Các Themes có thể đƣợc thiết lập cho các kho lƣu trữ hoặc cho các community, các bộ sƣu tập hoặc các item bên trong các kho lƣu trữ. Khi một themes đƣợc sử dụng cho một community thì giao diện của tất cả các bộ sƣu tập và item sẽ đƣợc thiết lập theo themes mặc định đó. Ta có thể điều chỉnh themes cho các bộ sƣu tập và item cho riêng chúng. Hai giai đoạn cơ bản của quá trình hiển thị kho lƣu trữ là phần sinh nội dung đƣợc thực hiền bởi một vòng aspect và phần hiển thị đƣợc thực hiện bởi một themes. Mỗi Aspect đƣợc thực hiện trên một tài liệu DRI, nó bổ sung một tập các đặc tính mới cho kho lƣu trữ, sau đó kết quả này đƣợc hiển thị trên một theme. Cả 3 thành phần này của Manakin đƣợc gộp trong một kiến trúc đƣờng ống để sinh ra một giao diện module hóa hoàn chỉnh cho kho lƣu trữ. Khi kết hợp các thành phần này với nhau, chúng tăng cƣờng khả năng tƣơng tác và tùy biến cho giao diện của Dspace. Bàn Thị Năm K52 Thông tin – Thƣ viện 54
  55. CHƯƠNG III: ỨNG DỤNG XÂY DỰNG THƯ VIỆN SỐ Ở THƯ VIỆN ĐẠI HỌC BÁCH KHOA HÀ NỘI 3.1 Vài nét về thư viện Tạ Quang Bửu 3.1.1 Lịch sử hình thành và phát triển Thƣ viện Trƣờng Đại học Bách Khoa Hà Nội đƣợc thành lập từ năm 1956 (ngay sau ngày thành lập trƣờng). Trải qua quá trình xây dựng và phát triển, Thƣ viện đã có nhiều đóng góp quan trọng vào việc đào tạo đội ngũ cán bộ khoa học kỹ thuật đông đảo, đóng góp tích cực vào sự nghiệp phát triển kinh tế - khoa học - kỹ thuật của đất nƣớc. Thời gian đầu mới thành lập, điều kiện hoạt động của Thƣ viện lúc bấy giờ còn gặp rất nhiều khó khăn. Vốn tài liệu ban đầu chỉ có 5000 cuốn sách, cơ sở vật chất nghèo nàn và 2 cán bộ phụ trách không có nghiệp vụ thƣ viện, hơn nữa Thƣ viện là một bộ phận trực thuộc Phòng Giáo vụ. Tuy nhiên, Thƣ viện vẫn Bàn Thị Năm K52 Thông tin – Thƣ viện 55
  56. không ngừng phấn đấu để đảm bảo phục vụ tốt cho cán bộ và sinh viên trong trƣờng, kể cả trong thời gian sơ tán. Thƣ viện đã từng đi sơ tán ở: Lạng Sơn, Hà Bắc, Hải Hƣng, Hà Tây cùng khối lƣợng lớn sách đem theo để phục vụ đào tạo cán bộ khoa học kỹ thuật cho đất nƣớc. Cũng trong giai đoạn này, từ Trƣờng ĐHBK Hà Nội đã hình thành những trƣờng đại học mới nhƣ: Đại học Xây dựng, Đại học Mỏ-Địa chất, Đại học Công nghiệp nhẹ và Phân hiệu II về Quân sự (nay là học viện Kỹ thuật Quân sự). Thƣ viện Trƣờng cũng chia sẻ nhiều tài liệu và đã cử cán bộ sang làm việc công tác tại Thƣ viện ở trƣờng Đại học Mỏ - địa chất và trƣờng Đại học Xây dựng. Từ năm 1973, Thƣ viện tách ra thành đơn vị độc lập. Ban Thƣ viện đã liên tục đƣợc đầu tƣ và phát triển không ngừng. Khi miền Nam đƣợc giải phóng, một số cán bộ Thƣ viện đã vào công tác tại miền Trung và miền Nam để xây dựng Thƣ viện trong đó. Trong thời kỳ đổi mới, Trƣờng Đại học Bách Khoa Hà Nội đã tiến hành hiện đại hóa công tác đào tạo, nâng cao chất lƣợng dạy và học. Trƣờng cũng đã đầu tƣ đáng kể cho Thƣ viện nhƣ tăng thêm kinh phí bổ sung, nâng cấp cơ sở vật chất cho xứng đáng với tầm vóc 50 năm phát triển và trƣởng thành của Trƣờng cũng nhƣ Thƣ viện, nhất là đầu tƣ xây dựng Thƣ viện điện tử rất quy mô và hiện đại. Tháng 11/2003, Thƣ viện và Trung tâm thông tin và mạng đã sáp nhập thành đơn vị mới là Thƣ viện và Mạng thông tin với hai nhiệm vụ chính: vận hành và khai thác Thƣ viện điện tử mới và quản lý điều hành Mạng thông tin của Trƣờng Đại học Bách Khoa Hà Nội. Bàn Thị Năm K52 Thông tin – Thƣ viện 56
  57. Từ năm học 2006 - 2007, Thƣ viện điện tử Trƣờng Đại học Bách Khoa Hà Nội mở cửa phục vụ bạn đọc với hệ thống các phòng đọc tự chọn, cùng 2000 chỗ ngồi và tăng cƣờng khả năng truy cập vào các học liệu điện tử trực tuyến. Đầu tháng 9/2008, theo sự chỉ đạo của Ban Giám hiệu để phù hợp với tình hình mới, Bộ phận Thƣ viện tách ra và trở thành đơn vị Thƣ viện Tạ Quang Bửu độc lập, bƣớc vào một giai đoạn phát triển mới cùng với sự phát triển mạnh mẽ của trƣờng ĐHBK Hà Nội. 3.1.2. Chứ c năng, nhiêṃ vu ̣ của Thư viêṇ Ta ̣ Quang Bử u Trên cơ sở điṇ h hƣớ ng chiến lƣơc̣ phát toàn diêṇ và lâu dài của đất nƣớ c sau Đaị hôị Đảng toàn quốc lần thƣ́ IX, X và nghi ̣quyết 14 của chính phủ về đổi mớ i cơ bản và toàn diêṇ Giáo Duc̣ Đaị hoc̣ Viêṭ nam giai đoaṇ 2006-2020, Trƣờ ng Đaị hoc̣ Bách Khoa Hà Nôị đa ̃ xây dƣṇ g đề án “Hiêṇ đaị hoá Trƣờ ng Bách Khoa Hà Nội giai đoạn 2006-2030”vớ i muc̣ tiêu “Xây dựng trƣờng Đại học Bách Khoa Hà Nội thành trƣờng đại học đào tạo trình độ cao, đa ngành, đa lĩnh vực; một trung tâm nghiên cứu khoa học công nghệ hàng đầu của đất nƣớc, với một số lĩnh vực đạt trình độ tiên tiến trong khu vực và trên thế giới; một địa chỉ tin cậy, hấp dẫn đối với các nhà đầu tƣ phát triển công nghệ , giới doanh nghiệp trong và ngoài nƣớc . Đóng góp vào quá trình công nghiêp̣ hoá hiêṇ đaị hoá đất nƣớc,phát triển nền kinh tế vững mạnh ổn định về chính trị, an ninh quốc phòng sánh ngang với các nƣớc trên thế giới” .Từ đó định hƣớng mục tiêu phát triển Thƣ viện Tạ Quang Bửu với chức năng nhiệm vụ sau: 3.1.2.1 Chức năng. Bám sát các mục tiêu đã đề ra trên Thƣ viên Tạ Quang Bửu Trƣờng Đại học Bách Khoa Hà Nội đã xây dựng và b ƣớc vào hoạt động vào tháng 10 năm 2006, Thƣ viện Tạ Quang Bửu trực thuộc trƣờng Đại học Bách khoa Hà Nội, có chức năng “tham mưu tư vấn cho Hiệu trưởng quản lý, nghiên cứu phát triển, Bàn Thị Năm K52 Thông tin – Thƣ viện 57
  58. tổ chức khai thác các nguồn thông tin thư viện phục vụ công tác đào tạo, nghiên cứu khoa học, triển khai ứng dụng tiến bộ khoa học công nghệ và quản lý của nhà trường”. Hiện nay, Thƣ viện Tạ Quang Bửu đang phục vụ một đội ngũ bạn đọc đông đảo, đó là cán bộ công chức nhà trƣờng gồm cán bộ giảng viên, cán bộ phục vụ giảng dạy, nghiên cƣ́ u khoa hoc̣ và số lƣợng lớn sinh viên trong trƣờng cũng nhƣ ngoài trƣờng. 3.1.2.2. Nhiêṃ vu ̣ Quản lý, phát triển nguồn thông tin thư viện Quản lý, phát triển nguồn lực thông tin của Thƣ viện thông qua việc khai thác, sử dụng các loại tài liệu từ nhiều nguồn trong nƣớc, nƣớc ngoài, có trong thƣ viện và từ các thƣ viện khác ( Tài liệu truyền thống, tài liệu điện tử, mạng Internet .) Thu nhận lƣu chiểu các tài liệu do nhà trƣờng xuất bản, các công trình nghiên cứu khoa học đã đƣợc nghiệm thu, tài liệu hội nghị, hội thảo, luận văn thạc sỹ, luận án tiến sỹ, chƣơng trình đào tạo, giáo trình, tập bài giảng, các dạng tài liệu khác của cán bộ, giảng viên, học viên, sinh viên trong nhà trƣờng. Phối hợp chặt chẽ với các thƣ viện, các nhà xuất bản, các trung tâm thông tin trong và ngoài nƣớc trong công tác bổ sung nguồn thông tin cho Thƣ viện. Tổ chức bổ sung, điều phối toàn bộ hệ thống thông tin tƣ liệu thƣ viện trong nhà trƣờng. Tổ chức khai thác nguồn thông tin thư viện phục vụ đào tạo, nghiên cứu khoa học và quản lý của trường +Tổ chức khai thác nguồn thông tin Thư viện truyền thống Bàn Thị Năm K52 Thông tin – Thƣ viện 58
  59. Tổ chức khai thác và sử dụng hiệu quả nguồn tài liệu truyền thống đáp ứng nhu cầu của bạn đọc thông qua các nhiệm vụ: Tổ chức quản lý hệ thống lƣu trữ thông tin và tổ chức bộ máy tra cứu thông tin truyền thống: hệ thống mục lục, kho tài liệu tra cứu Tổ chức hệ thống phòng đọc mở ứng dụng công nghệ hiện đại. Tổ chức phòng mƣợn áp dụng các công nghệ mới, tự động hoá. Tổ chức các phòng đa phƣơng tiện. Tổ chức hoạt động tham khảo, tƣ vấn chỉ dẫn cung cấp thông tin, đào tạo ngƣời dùng tin Tổ chức triển lãm, trƣng bày, điều tra nhu cầu của bạn đọc. Phục vụ liên thƣ viện. Tổ chức và quản lý các dịch vụ: sao lƣu tài liệu gốc, phục vụ thông tin hỏi đáp Tổ chức các hệ thống kho lƣu trữ và bảo quản tài liệu. +Tổ chức hệ thống thông tin Thư viện số Thiết lập cổng tra cứu thông tin tạo lập đầu mối truy nhập, tìm kiếm, khai thác và chia sẻ thông tin tự động hóa, đáp ứng nhu cầu của bạn đọc trong và ngoài trƣờng. Xây dựng hệ thống tra cứu thông tin hiện đại: Tổ chức mục lục trực tuyến, các cơ sở dữ liệu thƣ mục, tóm tắt, toàn văn và biên soạn hệ thống thƣ mục điện tử về các tài liệu theo lĩnh vực đào tạo của trƣờng. Xây dựng bộ sƣu tập số, các cơ sở dữ liệu toàn văn từ các nguồn lực thông tin khác nhau. Bàn Thị Năm K52 Thông tin – Thƣ viện 59
  60. Nghiên cứu, ứng dụng thành tựu khoa học công nghệ tiên tiến, các tiêu chuẩn về xử lý thông tin và các ứng dụng của công nghệ thông tin vào công tác thông tin thƣ viện: LCC, MARC 21, AACR 2, Dublin Core Phát triển nguồn nhân lực thƣ viện chất lƣợng cao đáp ứng đƣợc yêu cầu nghiệp vụ thƣ viện hiện đại, thông qua các hoạt động đào tạo, liên kết đào tạo bồi dƣỡng chuyên môn nghiệp vụ. 3.1.3 Khảo sát trực trạng thư viện Tạ Quang Bửu Cùng với sự ra đời và phát triển của trƣờng Đại học Bách Khoa Hà Nội, thƣ viện Tạ Quang Bửu đang ngày một lớn mạnh, thể hiện là một trong những thƣ viện đi đầu trong các thƣ viện trƣờng Đại học, phục vụ đắc lực trong công cuộc đào tạo nhân lực chất lƣợng cao của nhà trƣờng. Từ một thƣ viện truyền thống với nguồn tài liệu chủ yếu là sách báo tạp chí dƣới dạng in, thƣ viện đang dần từng bƣớc tiến hành hiện đại hóa công tác nghiệp vụ thƣ viện, công tác phục vụ bạn đọc và tiến hành xây dựng hệ thống thƣ viện số hiện đại. Đội ngũ cán bộ của thƣ viện đƣợc đào tạo cơ bản các ngành Thƣ viện, Công nghệ thông tin, ngoại ngữ và một số ngành khoa học khác, luôn đáp ứng đƣợc yêu cầu của thƣ viện hiện đại. Về công tác nghiệp vụ thƣ viện, trƣớc kia thƣ viện hoạt động theo hình thức thƣ viện truyền thống. Công tác biên mục đƣợc thực hiện theo hình thức thủ công, ghi chép thông qua sổ sách, giấy tờ; hệ thống mục lục là các phích lƣu trữ. Khi công nghệ thông tin bắt đầu phát triển thì việc tin học hóa công tác thƣ viện là vô cùng cần thiết giúp cho việc quản lý và tra cứu dễ dàng hơn. Từ năm 1997, thƣ viện đã đƣa phần mềm CDS/ISIS vào sử dụng. Đây là phần mềm quản trị dữ liệu do tổ chức UNESCO cung cấp cho các nƣớc đang phát triển, là hệ thống lƣu trữ và tìm kiếm thông tin tổng hợp đƣợc thiết kế để quản trị CSDL dạng văn bản có cấu trúc, quy tắc mô tả tài liệu theo chuẩn quốc tế ISBD. Phần mềm này chạy trên hệ điều hành DOS. Bàn Thị Năm K52 Thông tin – Thƣ viện 60
  61. Từ năm 2002, dự án xây dựng Thƣ viện điện tử đƣợc thực hiện. Thƣ viện điện tử đã đi vào hoạt động với diện tích sử dụng 17500 m2 gồm 8 phòng tự chọn xếp theo chuyên ngành, 2 phòng đa phƣơng tiện, 2 phòng mƣợn, 5 phòng tự học, 8 phòng học nhóm, với 2500 chỗ ngồi và hệ thống kho tàng rộng rãi, hiện đại có sức chứa 2 triệu bản sách. Phƣơng thức phục vụ đã đƣợc thay đổi từ kho đóng sang phƣơng thức tự chọn, từ thủ công sang tự động hóa hoàn toàn bằng máy đọc và in mã vạch. Các thiết bị cũng đƣợc cung cấp đầy đủ với tổng số 120 máy tính, photocoppy, máy scane, hệ thống an ninh đƣợc trang bị cổng từ, camera quan sát. Ngoài thƣ viện trung tâm của trƣờng, còn có 16 thƣ viện và tủ sách các khoa. Từ năm 2006, thƣ viện bắt đầu mua tạp chí điện tử ScienDirect về chuyên ngành Computer Science với số lƣợng 117 tên tạp chí và nhiều nguồn dữ liệu miễn phí khác. Hiện nay, thƣ viện đã ứng dụng các công nghệ hiện đại: toàn bộ hệ thống thƣ viện đƣợc quản lý bằng máy tính, mƣợn trả bằng công nghệ mã vạch, quản lý an ninh bằng cổng từ, chỉ từ và công nghệ RFID, hệ thống nối mạng toàn thƣ viện và có hệ thống Wireless, bạn đọc có thể tra cứu tài liệu bằng máy tính tại thƣ viện và từ xa thông qua mạng Internet. Năm 2006, nắm đƣợc xu thế phát triển của hệ thống thƣ viện là liên kết, kết nối, hội nhập, thƣ viện đã đầu tƣ cài đặt phần mềm tích hợp VTLS nhằm nâng cao hiệu quả trong việc quản lý tài liệu, quản lý bạn đọc, quản lý mƣợn trả, bổ sung, lƣu hành các dữ liệu biên mục cho sách mới và tạo khả năng tra cứu một cách thuận tiện cho ngƣời dùng. Phần mềm này hỗ trợ các chuẩn biên mục quốc tế: AACR2, MARC 21, LCC, Subject Headings, là điều kiện thuận lợi cho công tác biên mục của thƣ viện cũng nhƣ trao đổi thƣ mục quốc tế. Toàn bộ 42.000 biểu ghi trên phần mềm CDS/ISIS đƣợc MARC hóa và chuyển sang phần mềm mới. Với việc xây dựng CSDL trên phần mềm này đã giúp bạn đọc không chỉ trong trƣờng mà cả các bạn đọc của các trƣờng, các thƣ viện khác có thể tra Bàn Thị Năm K52 Thông tin – Thƣ viện 61
  62. cứu và tiếp cận đến nguồn tài nguyên thông tin của thƣ viện. Hiện tại, với phần mềm VTLS Thƣ viện đã tăng cƣờng đƣợc khả năng xử lý thông tin về chất lƣợng và thời gian. Cán bộ phòng nghiệp vụ có thể sử dụng tới 70% là biểu ghi trên mạng về. Việc xử lý liên thông giữa các khâu công việc tạo hiệu quả cao, tiết kiệm thời gian. Tuy nhiên với nhu cầu ngày càng lớn tìm kiếm dữ liệu toàn văn thì VTLS chƣa thực hiện đƣợc. Trên hệ thống VTLS chỉ có dữ liệu về thƣ mục, giúp bạn đọc tra cứu đầu sách và vấn đề nâng cấp và tùy biến có nhiều hạn chế do đây là một phần mềm thƣơng mại. Do vậy việc lựa chọn phần mềm mã nguồn mở để xây dựng hệ thống thƣ viện số nhằm lƣu trữ các tài liệu số trong thƣ viện, khắc phục những điểm hạn chế trên của hệ thống VTLS và tuân theo các chuẩn quốc tế về biên mục và trao đổi tài liệu liên thƣ viện phục vụ nhu cầu bạn đọc là hết sức cần thiết. Với cơ sở vật chất đƣợc Nhà nƣớc trang bị, Thƣ viện Tạ Quang Bửu đủ điều kiện để phát triển một thƣ viện hiện đại. Yêu cầu cấp bách đối với thƣ viện là xây dựng một hệ thống thƣ viện số, quản lý nguồn tài liệu số nhƣ luận văn, luận án, ebooks phục vụ cho công tác bạn đọc. Đồng thời hệ thống này cũng phải có chức năng đồng bộ hóa dữ liệu, có thể mở rộng tƣơng tác với cơ sở dữ liệu hiện có, đặc biệt phải tuân theo chuẩn quốc tế về mô tả, biên mục dữ liệu số và chuẩn liên thƣ viện tăng cƣờng khả năng tìm kiếm lẫn nhau của liên thƣ viện các trƣờng đại học trong và ngoài nƣớc. 3.2 Mục tiêu xây dựng thư viện số ở thư viện Tạ Quang Bửu Xây dựng một phần mềm thƣ viện số hiện đại, mềm dẻo, linh hoạt, đa nền, thân thiện với ngƣời dùng và có khả năng mở rộng để các khoa, viện, cán bộ, học viên và sinh viên trong trƣờng có thể truy nhập và tìm kiếm tài nguyên số của thƣ viện phục vụ cho quá trình học tập và nghiên cứu. Bàn Thị Năm K52 Thông tin – Thƣ viện 62
  63. Từng bƣớc số hóa kho luận văn, luận án, đƣa các tài liệu ebooks và nguồn bài giảng audio, video vào quản lý và tạo thành một nguồn tài nguyên số mạnh cho ngƣời cán bộ và sinh viên. Nguồn tài nguyên số đƣợc tuân theo các chuẩn biên mục nhƣ ISBD, AACR2, các chuẩn biên mục khổ mẫu Dublin Core và mô tả dữ liệu và truyền dữ liệu METS. Đƣa các hoạt động nghiệp vụ thƣ viện theo các chuẩn quốc tế. Trở thành một trong những hệ thống thƣ viện số đầu mối trong hội liên hiệp thƣ viện các trƣờng đại học trong nƣớc, có khả năng kết nối và trao đổi thông tin với các hệ thống thƣ viện số trên thế giới. 3.3 Tiến hành xây dựng thư viện số ở thư viện Tạ Quang Bửu Sau khi tìm hiểu các chuẩn thƣ viện số và phần mềm thƣ viện số hiện nay, thƣ viện đã quyết định chọn phần mềm nguồn mở Dspace làm công cụ phát triển thƣ viện số. Bên cạnh đó, việc phát triển đã khai thác các nguồn tƣ liệu và tiềm lực vốn có của thƣ viện nhƣ hệ thống biên mục, mục lục đã đƣợc sử dụng trên hệ thống VTLS, nguồn tài liệu về luận văn luận án là các dạng file .doc, .pdf, trên các CD-ROM. Để tái sử dụng nguồn dữ liệu vốn có của hệ thống VTLS cho hệ thống thƣ viện, thƣ viện đã xây dựng một module đồng bộ dữ liệu giữa 2 hệ thống. Hệ thống mục lục trên VTLS đƣợc biên mục theo khổ mẫu MARC, trong khi đó phần mêm Dspace tuân theo chuẩn biên mục Dublin Core, do vậy để tận dụng nguồn mục lục này, phải dựa vào bảng chuyển đổi MARC sàn Dublin Core và đẩy lại vào CSDL của hệ thống thông qua định dạng XML. Việc chuyển đổi dữ liệu từ VTLS sang Dspace đƣợc tiến hành theo các bƣớc sau: Xuất file *.mrc từ VTLS Hệ thống biên mục trên VTLS tuân theo khổ mẫu MARC. Phần mềm VTLS là phần mềm đóng, có 2 khả năng để lấy các bản ghi MARC thông qua Bàn Thị Năm K52 Thông tin – Thƣ viện 63
  64. việc sử dụng câu truy vấn SQL, trực tiếp vào CSDL hoặc xuất ra file theo định dạng chuẩn *.MRC chứa các bản ghi MARC. Việc truy cập trực tiếp vào CSDL này khó khăn là do VTLS là phần mềm đóng nên cấu trúc CSDL của nó không hề đƣợc biết. Cán bộ thƣ viện hiện nay có thể sử dụng SQL để truy cập vào VTLS để lấy đƣợc một số trƣờng của MARC nhƣng không lấy đƣợc đầy đủ do hệ CSDL là phức tạp và số lƣợng các bảng, cách đặt tên bảng, tên trƣờng và cách liên kết giữa các bảng cũng khó nhận biết. Cách thứ hai để lấy đƣợc các bản ghi MARC từ VTLS là xuất ra file theo định dạng chuẩn *.mrc. Cách này thì dễ thực hiện và đúng mục đích hơn, chỉ cẩn một số điều kiện về các tài liệu cần xuất ra là có thể có đƣợc file *.mrc chứa đầy đủ các bản ghi MARC của các tài liệu đó với đầy đủ các chƣơng trình. Định dạng file *.mrc là định dạng file chuẩn nên cũng có nhiều công cụ có sẵn để ta có thể làm việc với định dạng file này. Chuyển file từ định dạng MARC sang file Marc.xml. Sau khi có đƣợc file *.mrc, sử dụng công cụ Marc2XML để lấy đƣợc các bản ghi MARC theo định dạng file .xml với nội dung một bản ghi MARC nhƣ trên. Công cụ Marc2XML là một phần mềm mã nguồn mở hoàn toàn bằng ngôn ngữ Java. Cấu trúc nội dung của file xml xuất ra đƣợc định nghĩa trong một map file. Map file định nghĩa việc chuyển đổi các trƣờng trong bản ghi marc với các tag trong file xml. Chuyển từ file Marc.xml sang DublinCore.Xml Sau khi có đƣợc file Marc.xml, sử dụng công cụ tự phát triển để có đƣợc file Dublin Core.xml với nội dung là các trƣờng Dublin Core sử dụng trong Dspace nhƣ trên. Mục đích của file Dublin Core.xml này là dùng để Import vào trong Dspace, vì thế nội dung của nó đƣợc yêu cầu bởi chức năng Import của Dspace. Bàn Thị Năm K52 Thông tin – Thƣ viện 64