Tóm tắt luận văn Nghiên cứu các hệ thống file phân tán và ứng dụng

20 trang yendo 10600

Download

Bạn đang xem tài liệu "Tóm tắt luận văn Nghiên cứu các hệ thống file phân tán và ứng dụng", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

tom_tat_luan_nghien_cuu_cac_he_thong_file_phan_tan_va_ung_du.pdf

Nội dung text: Tóm tắt luận văn Nghiên cứu các hệ thống file phân tán và ứng dụng

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG LẠI XUÂN PHONG NGHIÊN CỨU CÁC HỆ THỐNG FILE PHÂN TÁN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - NĂM 2014
Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS. HOÀNG XUÂN DẬU Phản biện 1: TS. Hà Hải Nam Phản biện 2: TS. Trần Đăng Hưng Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông
1 MỞ ĐẦU 1. Lý do chọn đề tài Cùng với sự phát triển của các mạng máy tính, việc quản lý, lưu trữ và xử lý thông tin ngày nay không chỉ được thực hiện trong từng máy tính đơn lẻ như trước. Các hệ thống thông tin cần được xây dựng từ các máy tính kết nối với nhau qua mạng tốc độ cao. Hệ thống file phân tán (Distributed File System) là hệ thống quản lý và lưu trữ các file được xây dựng trên cơ sở mạng máy tính, trong đó các file được quản lý và lưu trữ trên nhiều máy tính trên mạng. Hệ thống file phân tán có những ưu điểm vượt trội so với hệ thống file tập trung (hệ thống file trên 1 máy tính), như dung lượng lưu trữ lớn, độ tin cậy cao, khả năng chịu lỗi cao, hỗ trợ tốc độ truy cập cao cho nhiều người dùng đồng thời. Tuy có nhiều ưu điểm vượt trội, nhưng do chi phí lắp đặt và vận hành còn tương đối cao, nên các thống file phân tán chưa được sử dụng rộng rãi trong các doanh nghiệp và tổ chức có quy mô vừa và nhỏ. Trong điều kiện hạ tầng công nghệ thông tin còn yếu ở Việt Nam, hầu hết các doanh nghiệp và tổ chức có quy mô vừa và nhỏ đều sử dụng một hoặc một số máy chủ riêng rẽ để quản lý và lưu trữ thông tin. Phương pháp này có ưu điểm là chi phí thấp, nhưng không đảm bảo dung lượng, tính tin cậy và tốc độ truy nhập cho nhiều người dùng. Do vậy, việc nghiên cứu sâu về hệ thống file phân tán và ứng dụng hiệu quả vào các doanh nghiệp và tổ chức có quy mô vừa và nhỏ là yêu cầu thực tế cấp thiết. Đây cũng là lý do tôi chọn đề tài này. 2. Mục đích nghiên cứu : - Nghiên cứu tổng quan về hệ thống file phân tán, các kỹ thuật xây dựng hệ thống file phân tán. - Xây dựng mô hình ứng dụng và thử nghiệm hệ thống file phân tán cho doanh nghiệp vừa và nhỏ. - Cài đặt thử nghiệm hệ thống file phân tán dựa trên DFS của MS Windows 2008 Server - Ứng dụng hệ thống file phân tán và cân bằng tải trên Windows 2008 Server cho ứng dụng web
2 3. Đối tượng và phạm vi nghiên cứu: - Đối tượng nghiên cứu: Một số hệ thống file phân tán điển hình. - Phạm vi nghiên cứu: Nghiên cứu hệ thống file phân tán và ứng dụng thực tế. 4. Phương pháp nghiên cứu: - Phương pháp nghiên cứu lý thuyết với thực nghiệm và phân tích, đánh giá kết quả.
3 Chương 1 - TỔNG QUAN VỀ HỆ THỐNG FILE PHÂN TÁN 1.1 Khái niệm về hệ thống file và hệ thống file phân tán 1.1.1 Khái niệm về hệ thống file Hệ thống file (File System) là một phương pháp tổ chức lưu trữ các file và dữ liệu của chúng, thường được thực hiện bởi hệ điều hành. Hệ thống file cho phép người sử dụng dễ dàng tìm kiếm và truy nhập các file. 1.1.2 Khái niệm về hệ thống file phân tán Hệ thống file phân tán (Distributed File System - DFS) là một hệ thống file hỗ trợ chia sẻ files và các tài nguyên trên mạng. 1.2 Lịch sử phát triển Một số mốc phát triển của các hệ thống file phân tán: - 1980s: Chia sẻ file dùng đĩa mềm (copy – vận chuyển – copy). -1980s: Chia sẻ file dùng giao thức FTP, vẫn cần 2 lần copy và user phải biết địa chỉ vật lý của ftp server. - SPRITE Network OS: được phát triển vào giữa những năm 1980 tại ĐH University of California at Berkerly, Mỹ. - Năm 1983: Andrew File System (AFS) được phát triển tại ĐH Carnegie Mellon với sự hỗ trợ của hãng IBM, Mỹ. - Năm 1985: Sun NFS được hãng Sun Microsystems phát triển. -Đầu năm 1990s: Hệ thống file CODE được phát triển. Đây là bản kế tiếp của AFS. - ZEBRA: Được phát triển vào đầu những năm 1990 tại ĐH University of California at Berkerly, Mỹ. - HARP: Được phát triển vào đầu những năm 1990 tại ĐH MIT, Mỹ.
4 - Lustre: Là một DFS mã mở, có khả năng kết hợp hàng chục ngàn nút và cung cấp dung lượng lưu trữ đến petabytes. Phiên bản 1.80 được phát hành vào tháng 5 năm 2009. 1.3 Các yêu cầu đối với hệ thống file phân tán Các yêu cầu chính đối với hệ thống file phân tán bao gồm: tính trong suốt, hiệu năng, khả năng chịu lỗi và khả năng mở rộng. 1.4 Các kỹ thuật đặt tên file trong hệ thống file phân tán Các kỹ thuật thực hiện việc đặt tên file trong hệ thống file phân tán bao gồm: Dịch tên đường dẫn, Tên nhận dạng có cấu trúc, Thông tin gợi ý hint và Các cơ chế mount. 1.4.1 Dịch tên đường dẫn (Pathname translation) Dịch tên đường dẫn là ánh xạ từ trên file sang tên nhận dạng mức thấp và thường được thực hiện bằng một thủ tục tìm kiếm đệ quy. 1.4.2 Tên nhận dạng có cấu trúc (Structured Identifiers) Mỗi tên nhận dạng có cấu trúc là một chuỗi bit, thường gồm 2 thành phần: - Phần đầu dùng để nhận dạng đơn vị thành phần chứa file. - Phần còn lại nhận dạng file cụ thể trong đơn vị thành phần. 1.4.3 Thông tin gợi ý (Hint) Hint là một kỹ thuật thường được sử dụng trong ánh xạ vị trí (location mapping) của các DFS. 1.4.4 Các cơ chế mount (Mount mechanism) Cơ chế mount là việc kết hợp các hệ thống file từ xa vào hệ thống file cục bộ để tạo thành một cấu trúc tên toàn cục. 1.5 Kết chương Chương 1 trình bày các khái niệm chung về hệ thống file phân tán: khái niệm và các yêu cầu đối với hệ thống file phân tán. Ngoài ra, sơ lược lịch sử phát
5 triển và các kỹ thuật thực hiện việc đặt tên trong hệ thống file phân tán cũng được trình bày.
6 Chương 2 - MỘT SỐ HỆ THỐNG FILE PHÂN TÁN 2.1 Hệ thống file phân tán NFS (Network File System) Hệ thống file mạng phát triển bởi hãng Sun Microsystem (Mỹ) - thường được gọi tắt là NFS. NFS ban đầu được phát triển chủ yếu dành cho các máy trạm UNIX, tuy nhiên sau đó nó cũng có thể chạy tốt trên các hệ điều hành khác 2.1.1 Tổng quan về NFS Trong mô hình dịch vụ file từ xa (Remote file service), các client truy cập một cách trong suốt đến hệ thống file được quản lý bởi một server ở xa. Vì thế, thông thường các client không biết vị trí lưu trữ thực sự của các file. Thay vào đó, chúng được cung cấp một giao diện truy nhập đến hệ thống file, tương tự như giao diện của các hệ thống file cục bộ thông thường. Trong trường hợp riêng, client chỉ được cung cấpmột giao diện chứa nhiều các thao tác file khác nhau, server chỉ có nhiệm vụ thực thi các thao tác file đó. Mô hình hệ thống file được đưa ra bởi NFS cũng giống như mô hình được đưa ra bởi hệ thống dựa trên UNIX. Các file sẽ được xem như dãy tuần tự các byte. Chúng được tổ chức phân cấp trong một đồ thị định danh, trong đó các nút biểu diễn các thư mục và các file. Để truy cập một file, client phải tìm tên của nó trong một dịch vụ định danh (naming service) và sẽ nhận được điều khiển file kết hợp (associated file handle). Ngoài ra mỗi file có một số các thuộc tính mà giá trị của chúng có thể được tìm và thay đổi. 2.1.2 Truyền thông Một điều quan trọng trong NFS đó là sự độc lập với hệ điều hành, kiến trúc mạng và các giao thức vận chuyển. Ví dụ như, các client chạy trên hệ thống Windows vẫn có thể giao tiếp với một máy chủ file (file server) UNIX. 2.1.3 Đồng bộ hóa
7 Các file trong một hệ thống file phân tán được chia sẻ bởi nhiều client. Nếu việc chia sẻ không bao giờ xảy ra thì quả thật như thế chẳng còn ý nghĩa của hệ thống file phân tán. Việc chia sẻ các file đòi hỏi cần phải có sự đồng bộ hóa. Sự đồng bộ hóa sẽ là khá đơn giản nếu các file được giữ trên một server trung tâm. Tuy nhiên khi ấy hiệu năng sẽ là một vấn đề. Bởi thế, các client thường được phép giữ một bản sao cục bộ của file trong khi chúng đang đọc và ghi nội dung file. 2.1.4 Lưu đệm (caching) và bản sao (replication) Cũng như các hệ thống file phân tán khác, NFS sử dụng bộ đệm cho client để tăng hiệu năng. Thêm vào đó, nó cũng hỗ trợ việc tạo các bản sao của file. 2.1.5 Vấn đề chịu lỗi Vấn đề với cơ chế RPC khi được dùng bởi NFS đó là nó không đảm bảo tính tin cậy. Trên thực tế, các client và server RPC stub có thể được sinh ra dựa trên giao thức vận chuyển hướng kết nối tin cậy như TCP, hoặc giao thức vận chuyển phi kết nối không tin cậy như UDP. Một trong những vấn đề lớn khác của RPC là thiếu cơ chế phát hiện các yêu cầu trùng lặp (duplicate request). Như vậy sẽ xảy ra trường hợp, khi một hồi đáp RPC bị mất và client truyền lại (retransmit) thành công yêu cầu gốc đến server và kết quả là server sẽ phải thực hiện lại yêu cầu đó thêm một lần nữa. 2.1.6 An toàn – an ninh Ý tưởng chính của NFS đó là một hệ thống file từ xa sẽ được hiện diện tại client như thể nó là một phần trong hệ thống file cục bộ của client. Cũng chính vì vậy mà vấn đề an toàn, an ninh trong NFS luôn được tập trung chính vào truyền thông giữa client và server. Truyền thông an toàn có nghĩa là có một kênh an toàn được thiết lập ở giữa server và client. 2.2 Hệ thống file phân tán GFS (Google File System)
8 2.2.1 Giới thiệu về GFS Hệ thống file Google (Google File System - GFS) được phát triển nhằm đáp ứng nhu cầu xử lý thông tin ngày càng tăng của Google. GFS cũng hướng tới những mục tiêu chính tương tựnhư những hệ thống file phân tán đã có, như hiệu năng, tính mở rộng và tính sẵn sàng. Tuy nhiên, GFS được xây dựng dựa trên một số giả định đầu vào xuất phát từ việc khảo sát khối lượng dữ liệu cần xử lý của các ứng dụng và môi trường công nghệ hiện tại. 2.2.2 Kiến trúc của GFS GFS bao gồm một master (máy chủ) đơn và nhiều chunkservers (bộ chứa dữ liệu) và được truy cập bởi nhiều clients (máy khách). Mỗi một chunkserver là một máy tính chạy Linux phổ thông điển hình thực hiện thao tác của máy chủ ở cấp người dùng. Một chunkserver cũng có thể được sử dụng như một máy khách với điều kiện đảm bảo hiệu năng. Các tập tin được chia thành nhiều chunks có kích thước cố định. Mỗi một chunk (đoạn dữ liệu) được xác định bằng một chunk handle 64 bit duy nhất không thể biến đổi mà mang tính toàn cục, được gán bởi máy chủ (master) vào thời điểm tạo chunk. Các chunkserver lưu trữ các chunk ở đĩa cục bộ như là các file Linux đồng thời đọc hoặc ghi dữ liệu chunk được xác định bởi chunk handle và dải byte. Để tăng độ tin cậy, mỗi một chunk được sao chép trên nhiều chunkserver vật lý. 2.2.3 Chịu lỗi và chuẩn đoán lỗi Một trong những thử thách lớn nhất trong quá trình thiết kế hệ thống là việc xử lý những thành phần bị lỗi xảy ra thường xuyên. Chất lượng và số lượng của những thành phần này làm cho vấn đề này trở nên phức tạp hơn. Không thể hoàn toàn tin tưởng vào máy móc và cũng không thể hoàn toàn tin tưởng vào các ổ đĩa cứng. Những lỗi thành phần có thể gây ra kết quả là hệ thống không sẵn sàng hoặc xấu hơn là gây mất dữ liệu.
9 2.3 Hệ thống file phân tán CIFS (Common Internet File System) 2.3.1 Khái niệm về hệ thống file phân tán CIFS The Common Internet File System (CIFS) còn được biết tới với cái tên Server Message Block (SMB), là một giao thức được sử dụng chủ yếu để chia sẻ files trên mạng LAN. Giao thức này cho phép một máy khách (client) thực hiện các thao tác với các file như là chúng nằm trên máy tính đó. Các thao tác như đọc, ghi, tạo, xóa và đổi tên đều được hỗ trợ - chỉ có sự khác biệt duy nhất là: các tập tin đó đều không nằm trên máy tính cá nhân mà thực tế là nằm trên một máy chủ từ xa. 2.3.2 Ứng dụng Giao thức CIFS chủ yếu được sử dụng trong các hệ điều hành của Microsoft. Windows For Workgroups là hệ điều hành đầu tiên của Microsoft sử dụng CIFS, và các hệ điều hành sau đó của Microsoft đều có thể có chức năng như máy chủ CIFS và máy khách. Các hệ điều hành của Microsoft sử dụng CIFS để thao tác file từ xa, duyệt (thông qua biểu tượng Network Neighborhood), xác thực (WindowsNT và Windows 2000), vàcác dịch vụ máy in từ xa. Có thể nói rằng cốt lõi của chức năng mạng của Microsoft được xây dựng trên các dịch vụ CIFS. 2.3.3 Lịch sử phát triển Năm 1984, IBM phát triển một giao thức lập trình ứng dụng (API) cho phép các trao đổi mạng cơ bản giữa các máy trong một mạng nhỏ.Tuy nhiên, API yêu cầu một giao thức tầng giao vận để có thể gửi và nhận dữ liệu. Một năm sau đó, IBM đã phát triển một giao thức tầng giao vận có thể đưa NetBIOS API vào đời
10 sống. API và giao thức giao vận được gộp vào một đối tượng thực thể và gọi là NetBIOS Enhanced User Interface, hay là NetBEUI. Vào thời gian đó, các giao thức giao vận khác đang được sử dụng phổ biến và NetBIOS API đã nhanh chóng được triển khai sử dụng trên nhiều giao thức giao vận như DECnet, IPX/SPX và TCP/IP. Đồng thời, API cũng đã trở nên khá phổ biến. Sau đó Microsoft và Intel đã lần đầu tiên giới thiệu giao thức chia sẻ file SMB/CIFS, với tiêu đề là “Giao thức cốt lõi” (Core Protocol). Microsoft và Intel chọn sử dụng NetBIOS API để giao chuyển các gói tin CIFS ở tầng trên. Kể từ đó, CIFS sử dụng NetBIOS trên TCP đã trở thành cơ chế chia sẻ file trên mạng chuẩn mực cho các hệ điều hành của Microsoft. 2.3.4 Sự thay đổi trong tương lai Nhiều nhà cung cấp đang tìm kiếm cách thức để có thể hoàn toàn thực hiện từng giai đoạn của NetBIOS và chạy CIFS trực tiếp trên TCP và UDP. Trong CIFS1.0 đã cho rằng CIFS không phụ thuộc vào giao thức giao vận cụ thể nào và có chỉ ra cách CIFS chạy trên TCP. 2.4 Hệ thống file phân tán Lustre 2.4.1Tổng quan về Lustre Hệ thống file phân tán Lustre đem đến hiệu năng đáng kể và khả năng mở rộng dựa trên các hệ thống file phân tán hiện có. Lustre tận dụng sức mạnh và tính linh hoạt của hệ điều hành nguồn mở Linux để cung cấp một hệ thống file tuân thủ POSIX thực sự hiện đại, đáp ứng các yêu cầu của các cụm (cluster) lớn ngày nay, trong khi cung cấp một thiết kế và hướng mở rộng cho các môi trường thậm chí còn lớn hơn sau này. Cái tên "Lustre" là sự kết hợp của hai thuật ngữ "Linux" và "Clusters". 2.4.2 Hệ thống file siêu dữ liệu và máy chủ siêu dữ liệu
11 Hệ thống file siêu dữ liệu là "thông tin về thông tin", có nghĩa là siêu dữ liệu là thông tin về các file và thư mục tạo nên một hệ thống file. Thông tin này có thể chỉ đơn giản là thông tin về các file, thư mục cục bộ và thông tin trạng thái liên quan, nhưng cũng có thể là thông tin về các điểm gắn (mount) cho các hệ thống file khác trong hệ thống file hiện tại, thông tin về các liên kết biểu tượng v.v 2.4.3 Định hướng tương lai cho Lustre Thiết kế và sử dụng các máy chủ siêu dữ liệu phân tán của Lustre và OST giúp xây dựng một hệ thống file rất dễ mở rộng. Các phần tiếp theo nhấn mạnh một số vấn đề về lộ trình phát triển của Lustre giúp nâng cao hơn nữa hiệu suất, khả năng mở rộng và an ninh. 2.5 Kết chương Chương 2 đã đi sâu nghiên cứu nghiên kiến trúc, các đặc điểm, hoạt động và các ưu nhược điểm của một số hệ thống file phân tán điển hình, bao gồm NFS, GFS, CIFS và Lustre. Hầu hết các hệ thống file phân tán kể trên đều được thiết kế nhằm cung cấp hiệu năng, tính tin cậy và tính khả dụng cao, đồng thời đảm bảo các yêu cầu an toàn bảo mật dữ liệu quản lý hệ thống file và các khối dữ liệu file. Chương 3 - XÂY DỰNG VÀ THỬ NGHIỆM MÔ HÌNH ỨNG DỤNG HỆ THỐNG FILE PHÂN TÁN 3.1 Xây dựng mô hình ứng dụng hệ thống file phân tán cho doanh nghiệp vừa và nhỏ 3.1.1 Hiện trạng Hiện tại, hệ thống mạng máy tính và các thiết bị công nghệ thông tin của Công ty Cổ phần Cung cấp Thiết bị Thăng Long phục vụ cho công tác quản lý và hoạt động kinh doanh gồm có: 01 Server, 27 máy tính bàn dùng cho cán bộ nhân
12 viên các phòng, 10 máy tính xách tay cho ban giám đốc và các trưởng phòng trong công ty; 01 modem đường truyền cáp quang 1Gbps; 4 Switch; 3 bộ phát Wireless, hệ thống camera IP giám sát có 10 chiếc và các thiết bị khác. 3.1.2 Nhu cầu Nhằm khắc phục các nhược điểm hiện tại trong cơ sở hạ tầng công nghệ thông tin của Công ty Cổ phần Cung cấp Thiết bị Thăng Long, đòi hỏi phải xây dựng một hệ thống quản lý và lưu trữ dữ liệu hiện đại có khả năng mở rộng, dung lượng lưu trữ lớn, độ tin cậy cao, khả năng chịu lỗi cao và hỗ trợ tốc độ truy cập cao cho nhiều người dùng đồng thời. Một hệ thống file phân tán (DFS) có quy mô vừa là lựa chọn khả thi và phù hợp với quy mô của Công ty và nhu cầu phát triển cho tương lai. Trong hệ thống file phân tán sẽ được xây dựng thì máy chủ hiện có cũng như các máy chủ sẽ được trang bị bổ sung có nhu cầu về quản lý, lưu trữ và xử lý thông tin sẽ được kết nối vào hệ thống. 3.1.2 Mô hình ứng dụng DFS cho doanh nghiệp vừa và nhỏ Mô hình ứng dụng DFS cho doanh nghiệp vừa và nhỏ có thể được xây dựng theo mô hình tham khảo một DFS cỡ nhỏ dựa trên MS Windows Server. Trong mô hình này, DC server là máy chủ quản lý miền và xác thực người dùng, đồng thời là máy chủ lưu thông tin quản lý các file và quyền truy nhập file của người dùng trong DFS. Các File Server là các máy chủ lưu dữ liệu thực sự của file. Các máy chủ được kết nối trong một mạng LAN tốc độ cao. Để đảm bảo an toàn cho thông tin quản lý hệ thống file, ta sử dụng thêm 1 máy chủ DC thứ 2 (Secondary DC server) lưu bản sao của thông tin quản lý hệ thống file. Tùy theo yêu cầu về độ an toàn, tính tin cậy và dung lượng DFS, có thể triển khai số lượng File Server tương ứng.
13 Hình 3.2 Mô hình một DFS cỡ nhỏ dựa trên MS Windows Server 3.2 Cài đặt thử nghiệm hệ thống file phân tán dựa trên DFS của MS Windows Server 2008 và Ứng dụng hệ thống file phân tán và cân bằng tải trên Windows Server 2008 cho ứng dụng web 3.2.1 Cài đặt thử nghiệm hệ thống file phân tán dựa trên DFS của MS Windows Server 2008 Trong phần này, luận văn trình bày quá trình cài đặt thử nghiệm hệ thống file phân tán dựa trên DFS của MS Windows Server 2008. Hệ thống sẽ dựa trên các máy chủ chạy hệ điều hành Windows Server 2008 được kết nối mạng LAN. Windows Server 2008 hỗ trợ hệ thống file phân tán như là một dịch vụ cơ bản của hệ điều hành, với hai thành phần chính: - Thành phần quản lý không gian tên DFS hỗ trợ các thao tác tạo mới không gian tên toàn cục cho DFS, kết nối các máy chủ vào DFS; - Thành phần phụ trách việc tạo các bản sao các file dữ liệu trên các máy chủ lưu dữ liệu. Quá trình cài đặt thử nghiệm hệ thống file phân tán dựa trên DFS của MS Windows Server 2008 được thực hiện theo các bước sau: Bước 1:
14 - Cài đặt dịch vụ DFS trên từng máy chủ. Hệ thống DFS là gói dịch vụ đi kèm với Windows Server 2008, cho phép tạo hệ thống file phân tán trên nhiều máy. Bước 2: - Tạo một DFS Namespace trên máy chủ PC01. Kết nối các Folder trên các máy vào DFS Namespace. Thiết lập cấu hình DFS Replication cho phép tự động sao các file từ máy này sang máy khác khi có thêm mới hoặc sửa đổi. Cấu hình DFS Replication được chọn theo kiểu lưới (Mesh), có nghĩa là một thay đổi trên folder trong một nhóm của một máy sẽ được sao sang folder tương ứng của nhóm đó trên các máy khác. Bước 3: Sau khi hoàn thiện việc cấu hình hệ thống DFS, thử nghiệm tạo mới hoặc copy file vào từng máy và quan sát quá trình sao sang các máy khác. Khi hệ thống DFS đã hoạt động tốt, các file thêm mới sẽ được copy tức thời sang máy khác, đảm bảo tính an toàn dữ liệu trong hệ thống file phân tán. Ngoài 2 máy chủ đã cài đặt, hệ thống có thể bổ sung thêm các máy chủ lưu dữ liệu nhằm tăng tốc độ truy nhập và tính tin cậy của hệ thống. 3.2.2 Ứng dụng hệ thống file phân tán và cân bằng tải trên Windows Server 2008 cho ứng dụng web Ngoài việc tích hợp dịch vụ hệ thống file phân tán, Windows Server 2008 cũng hỗ trợ tính năng cân bằng tải ở mức mạng, cho phép tạo thành một hệ thốngcung cấp dịch vụ có tính an toàn, tin cậy cao, khả năng sẵn sàng cao với chi phí thấp. Trong phần này, luận văn trình bày việc triển khai ứng dựng hệ thống file phân tán và cân bằng tải trên hệ thống máy chủ đã được cài đặt thử nghiệm hệ thống file phân tán trong mục 3.2.1 cho ứng dụng web đảm bảo tính sẵn sáng cao. Các bước triển khai bao gồm:
15 Bước 1: Cài đặt tính năng Network Load Balancing trong từng máy chủ. Tính năng Network Load Balancing được hỗ trợ trong Windows Server 2008, cho phép tạo hệ thống cân bằng tải ở mức mạng. Tính năng này cho phép nhóm nhiều máy chủ vào một chuỗi (Cluster) hoạt động thống nhất và các câu truy vấn của người dùng được tự động phân phối vào từng máy cho phù hợp. Nếu một máy không hoạt động, các yêu cầu sẽ được định tuyến vào các máy còn lại. Bước 2: Cấu hình Network Load Balancing Cluster. Các phần việc cụ thể gồm: Tạo mới một cluster và các tham số của cluster; Thêm các máy chủ và cluster và thêm địa chỉ IP chung cho cluster. Đặt chế độ phân phối truy vấn cho từng máy chủ. Giao diện Network Load Balancing Cluster sau khi đã cấu hình xong: Bước 3: Cài đặt máy chủ web sử dụng tính năng cân bằng tải. Các phần việc cụ thể như sau: Cài đặt máy chủ web IIS trên từng máy chủ.
16 Tạo 01 Website trên từng máy chủ. Website này sử dụng một tên miền nội bộ được ánh xạ đến địa chỉ IP của cluster, là địa chỉ chung của các máy chủ trong cluster. Thư mục cung cấp nội dung cho Website là các thư mục nằm trong nhóm Replicate của hệ thống DFS đã triển khai. Bước 4: Thử nghiệm hệ thống Thử nghiệm phân phối tải: sử dụng công cụ test hiệu năng Website để tạo một lượng truy vấn đến website. Kiểm tra logs của các website trên các máy chủ thấy các máy đều hoạt động đồng thời. Thử nghiệm khả năng sẵn sàng: lần lượt tắt từng máy chủ và kiểm tra khả năng sẵn sàng của website. Kiểm tra cho thấy website vẫn hoạt động khi có ít nhất một máy trong cluster hoạt động. Thử nghiệm khả năng sao lưu, cập nhật thay đổi: thực hiện đưa một trang web mới lên một máy chủ và kiểm tra khả năng truy nhập truy này ở các máy còn lại. Kết quả, các máy còn lại cũng cung cấp trang này gần như đồng thời với máy gốc. 3.3 Kết chương Do nhu cầu phát triển của Công ty Cổ phần Cung cấp Thiết bị Thăng Long nên cần phải có hệ thống quản lý, lưu trữ và xử lý thông tin mới nhằm đảm bảo về dung lượng lưu trữ, độ tin cậy, khả năng chịu lỗi, hỗ trợ tốc độ truy cập cho nhiều người dùng đồng thời. Hệ thống file phân tán là một sự lựa chọn phù hợp cho giai đoạn trước mắt và cả lâu dài. Chương 3 đã trình bày việc cài đặt thử nghiệm hệ thống file phân tán dựa trên DFS của MS Windows 2008. Hệ thống file phân tán có nhiều ưu điểm vượt trội so với hệ thống file tập trung như dung lượng lưu trữ lớn, độ tin cậy cao, khả năng chịu lỗi cao, hỗ trợ tốc độ truy cập cao cho nhiều người dùng đồng thời. Hơn nữa, luận văn cũng cài đặt thử nghiệm ứng dụng hệ thống file phân tán và cân bằng tải trên Windows 2008 cho ứng dụng web có khả năng sẵn sàng cao.
17 KẾT LUẬN Luận văn tập trung nghiên cứu hệ thống file phân tán, các kỹ thuật xây dựng hệ thống file phân tán và xây dựng mô hình triển khai thử nghiệm hệ thống file phân tán. So với hệ thống file tập trung, hệ thống file phân tán cho phép xây dựng một hệ thống file đáp ứng các yêu cầu cao về dung lượng lưu trữ, độ tin cậy, khả năng chịu lỗi và hỗ trợ tốc độ truy cập cao cho nhiều người dùng đồng thời. Cụ thể, luận văn đã đạt được các kết quả sau: - Nghiên cứu tổng quan về hệ thống file phân tán, các kỹ thuật xây dựng hệ thống file phân tán. - Nghiên cứu sâu về kiến trúc và các đặc điểm kỹ thuật của 4 hệ thống file phân tán điển hình là NFS, GFS, CIFS và Lustre. - Xây dựng mô hình ứng dụng hệ thống file phân tán cho doanh nghiệp vừa và nhỏ. - Cài đặt thử nghiệm hệ thống file phân tán dựa trên DFS của MS Windows Server 2008. - Ứng dụng hệ thống file phân tán và cân bằng tải trên Windows Server 2008 để nâng cao tính sẵn sàng cho ứng dụng web. Trong tương lai, luận văn có thể được phát triển theo các hướng sau: - Triển khai hệ thống DFS trên hệ thống mạng thực tế của công ty và có đánh giá kết quả. - Nghiên cứu triển khai ứng dụng các hệ thống DFS có hiệu năng và độ tin cậy cao.
18 TÀI LIỆU THAM KHẢO. [1] George Coulouris, Jean Dollimore and Tim Kindberg, “Distributed Systems: Concepts and Design”, Addison-Wesley, ©Pearson Education, 2001. [2] Andrew S. Tanenbaum and Maarten van Steen, “Distributed Systems: Principles and Paradigms”, Prentice-Hall, Inc., 2002. [3] Sukumar Ghosh, "Distributed Systems-An Algorithmic Approach", Chapman & Hall/CRC, Taylor & Francis Group, 2007. [4] Eliezer Levy and Abraham Silberschatz, “Distributed File Systems: Concepts and Examples”, Department of Computer Sciences, University of Texas at Austin, Austin, Texas 78712-1188, 1989. [5] Microsoft, truy nhập tháng 10.2013. [6] Microsoft, truy nhập tháng 10.2013. [7] Microsoft , truy nhập tháng 11.2013. [8] Microsoft, truy nhập tháng 11.2013. [9] Lustre, truy nhập tháng 11.2013. [10] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung, The Google File System, SOSP’03, 2003.