Khóa luận Công cụ tìm kiếm google và một số dịch vụ tìm kiếm tiêu biểu của google

pdf 61 trang thiennha21 15/04/2022 6560
Bạn đang xem 20 trang mẫu của tài liệu "Khóa luận Công cụ tìm kiếm google và một số dịch vụ tìm kiếm tiêu biểu của google", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfkhoa_luan_cong_cu_tim_kiem_google_va_mot_so_dich_vu_tim_kiem.pdf

Nội dung text: Khóa luận Công cụ tìm kiếm google và một số dịch vụ tìm kiếm tiêu biểu của google

  1. TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN, ĐHQGHN KHOA THÔNG TIN – THƢ VIỆN === ĐỖ THỊ MẾN CÔNG CỤ TÌM KIẾM GOOGLE VÀ MỘT SỐ DỊCH VỤ TÌM KIẾM TIÊU BIỂU CỦA GOOGLE TÓM TẮT KHÓA LUẬN TỐT NGHIỆP NGÀNH : THÔNG TIN - THƢ VIỆN HỆ ĐÀO TẠO : CHÍNH QUY KHÓA HỌC : QH - 2006 – X HÀ NỘI, 2010
  2. MỤC LỤC PHẦN I: MỞ ĐẦU 4 1 Tính cấp thiết của đề tài 4 2 Mục đích nghiên cứu 4 3 Tình hình nghiên cứu theo hướng của đề tài 5 4 Đối tượng nghiên cứu 5 5 Phạm vi nghiên cứu 5 6 Phương pháp nghiên cứ u 6 PHẦN II: NỘI DUNG 7 CHƢƠNG 1 : TỔNG QUAN VỀ CÔNG CỤ TÌM KIẾM GOOGLE 7 1.1 Khái quát chung về công cụ tìm kiếm 7 1.1.1 Khái niệm công cụ tìm kiếm 7 1.1.2 Phân loại công cụ tìm kiếm 7 1.1.2.1 Căn cứ theo phương thức hoạt động 7 1.1.2.2 Căn cứ theo đối tượng tìm kiếm 9 1.1.2.3 Căn cứ heot chức năng 9 1.1.3 Một số công cụ tìm kiếm thông dụng trên thế giới và Việt Nam 9 1.1.3.1 Các công cụ tìm kiếm thông dụng trên thế giới 9 1.1.3.2 Các công cụ tìm kiếm thông dụng tại Việt Nam 10 1.2 Giới thiệu công cụ tìm kiếm Google 10 1.2.1 Lịch sử hình thành và phát triển của Google 10 1.2.1.1 Thờ i kỳ đầu 10 1.2.1.2 Thờ i kỳ phát triển 11 1.2.1.3 Lượt truy cập 15 1.2.1.4 Mục tiêu hướng tới 15 1.2.2 Các bộ phận hợp thành của công cụ tìm kiếm Google 16 1.2.2.1 Nhện Web 16
  3. 1.2.2.2 Hệ thống chỉ mục 16 1.2.2.3 Hệ thống chỉ mục chạy thực 17 1.2.3 Cách thức hoạt động của công cụ tìm kiếm 17 1.2.4 Hê ̣thống xếp haṇ g Pagerank 19 CHƢƠNG 2: TRANG CHỦ GOOGLE VÀ MỘT SỐ DỊCH VỤ TÌM KIẾM TIÊU BIẾU 21 2.1 Trang chủ tìm kiếm Google 21 2.1.1 Giao diện tìm kiếm 21 2.1.2 Nguyên tắc tìm kiếm 21 2.1.3 Các tính năng tìm kiếm 22 2.1.4 Các chức năng chính 22 2.1.4.1 Chức năng gợi ý từ khóa 22 2.1.4.2 Chức năng tùy chọn hiển thị 23 2.1.4.3 Chức năng lịch sử web 24 2.2 Môṭ số dic̣ h vu ̣tim̀ kiếm tiêu biểu 25 2.2.1 Dịch vụ Google Web Search 25 2.2.1.1 Tìm kiếm đơn giản 29 2.2.1.2 Tìm kiếm nâng cao 31 2.2.2 Dịch vụ Google Images 35 2.2.2.1 Tìm kiếm đơn giản 35 2.2.2.2 Tìm kiếm nâng cao 37 2.2.3 Dịch vụ Google Videos 38 2.2.3.1 Tìm kiếm đơn giản 38 2.2.3.2 Tìm kiếm nâng cao 41 2.2.4 Dịch vụ Google Maps 41 2.2.4.1 Giao diêṇ 42 2.2.4.2 Chế đô ̣hiển thi ̣của bản đồ 43 2.2.4.3 Môṭ số tính năng khác của Google Maps 44 2.2.5 Dịch vụ Google Books 44
  4. 2.2.5.1 Mục tiêu tìm kiếm sách của Google 44 2.2.5.2 Cơ sở dữ liệu sách của Google 44 2.2.5.3 Nguồn gốc sách 45 2.2.5.4 Giao diện hiển thị 46 2.2.5.5 Tìm kiếm đơn giản 46 2.2.5.6 Tìm kiếm nâng cao 47 2.2.5.7 Tính năng chính 47 2.2.6 Dịch vụ Google News 50 2.2.6.1 Tìm kiếm đơn giản 51 2.2.6.2 Tìm kiếm nâng cao 51 CHƢƠNG 3: NHẬN XÉT, ĐÁNH GIÁ VÀ TRIỂN VỌNG CỦA CÔNG CỤ TÌM KIẾM GOOGLE TRONG TƢƠNG LAI 53 3.1 Nhận xét, đánh giá 53 3.1.1 Ưu điểm 53 3.1.2 Hạn chế 53 3.2 Triển vọng của công cụ tìm kiếm Google trong tương lai 55 PHẦN III: KẾT LUẬN 57 TÀI LIỆU THAM KHẢO 58
  5. PHẦN I: MỞ ĐẦU 1 Tính cấp thiết của đề tài Ngày nay các công cụ tìm kiếm đã trở thành nhu cầu tất yếu cho những người muốn tìm kiếm thông tin trên Internet. Công cụ tìm kiếm là các chương trình phần mềm hoạt động trên Internet giúp định vị những tài nguyên thông tin chung. Phần lớn các công cụ tìm kiếm tìm các trang web và nhiều công cụ tìm kiếm khác còn có thể dùng để tra cứu các phần mềm, hình ảnh, tài liệu đa phương tiện và thông điệp nhóm thông tin. Những thông tin liên quan trong kết quả tìm kiếm vẫn là yếu tố quan trọng hàng đầu đối với người dùng tin. Ngày càng có nhiều người dành thời gian trên các công cụ tìm kiếm với một loạt các câu lệnh tìm kiếm phức tạp kết hợp nhiều từ khóa. Việc sắp xếp thông tin hợp lý có thể giúp tăng gấp đôi hiệu quả tìm kiếm. Trên thế giới hiện nay có rất nhiều công cụ tìm kiếm thông tin, trong đó Google là một trong những công cụ tìm kiếm nổi tiếng, thông dụng và hiệu quả nhất. Theo khảo sát, Google thâu tóm hơn 60% thị phần tìm kiếm. “Nếu như thư viện Alecxandria trước đây được công nhận là nỗ lực đầu tiên của loài người nhằm tập hợp toàn bộ tri thức của nhân loại vào một nơi, thì nỗ lực của chúng ta trong thời đại? Đó chính là Google” (Brewster Kahle - sáng lập viên kiêm chủ tịch tổ chức Internet Archive). Vậy tại sao Google lại là công cụ tìm kiếm được sử dụng phổ biến như vậy? Đề tài khóa luận hướng tới việc tìm hiểu cách thức Google tập hợp, sắp xếp thông tin trên Internet và các dịch vụ chủ yếu của Google hiện nay. 2 Mục đích nghiên cứu Tìm hiểu về Google và các dịch vụ của công cụ tìm kiếm này. Từ đó có cái nhìn sâu sắc hơn về Google, đồng thời đánh giá được những mặt tích
  6. cực cũng như đưa ra một vài nhận xét về ưu điểm, hạn chế và triển vọng phát triển của Google trong tương lai. 3 Tình hình nghiên cứu theo hƣớng của đề tài Trong những năm gần đây, khi Internet bùng nổ và phát triển mạnh mẽ đã có những đề tài nghiên cứu khoa học, khóa luận tốt nghiệp của sinh viên nói chung và sinh viên ngành Thông tin – Thư viện nói riêng tìm hiểu về công cụ tra cứu tìm tin, so sánh giữa các công cụ tìm kiếm trên mạng. Tuy nhiên, vẫn chưa có đề tài nào tìm hiểu chuyên sâu về công cụ tìm kiếm rất nổi tiếng và hiệu quả Google. Chính vì lý do đó, tác giả đã quyết định lựa chọn đề tài “Công cụ tìm kiếm Google và các dịch vụ tìm kiếm tiêu biểu của Google”. Nội dung đề tài vừa thể hiện được tính mới vừa có tính ứng dụng cao để tìm kiếm thông tin ngày càng hiệu quả hơn đồng thời cũng đóng góp một phần vào lý luận chung về công cụ tìm kiếm. 4 Đối tƣợng nghiên cứu - Công cụ tìm kiếm Google. - Một số dịch vụ tìm kiếm chủ yếu của Google bao gồm:  Dịch vụ Google Web  Dịch vụ Google Images  Dịch vụ Google Videos  Dịch vụ Google Maps  Dịch vụ Google News  Dịch vụ Google Books 5 Phạm vi nghiên cứu - Phạm vi không gian: + Trang chủ tìm kiếm Google:
  7. + Trang chủ tìm kiếm Google tại Việt Nam: - Phạm vi thời gian: Công cụ tìm kiếm Google từ khi thành lập đến nay. (Năm 1996 – Tháng 04/2010). 6 Phƣơng pháp nghiên cứu - Phương pháp nghiên cứu, phân tích, tổng hợp tài liệu. - Phương pháp so sánh, đối chiếu. - Phương pháp phỏng vấn sâu.
  8. PHẦN II: NỘI DUNG CHƢƠNG 1 : TỔNG QUAN VỀ CÔNG CỤ TÌM KIẾM GOOGLE 1.1 Khái quát chung về công cụ tìm kiếm 1.1.1 Khái niệm công cụ tìm kiếm Máy truy tìm hay còn gọi là máy tìm tin, máy tìm kiếm (search engine), nghĩa rộng hơn được gọi là công cụ tìm kiếm khởi đầu là một phần mềm nhằm tìm ra các trang trên Internet có nội dung theo yêu cầu của người dùng dựa vào các thông tin hiện có [7]. Như vậy, trữ lượng thông tin của công cụ tìm kiếm thực chất là một cơ sở dữ liệu rất lớn. Để xây dựng được cơ sở dữ liệu, công cụ tìm kiếm sẽ thu thập dữ liệu từ nhiều nguồn khác nhau, bằng nhiều phương pháp để đưa vào cơ sở dữ liệu, mỗi khi người sử dụng đưa ra lệnh tìm kiếm được thể hiện bằng từ khóa, công cụ tìm kiếm sẽ lục tìm trong cơ sở dữ liệu và hiển thị kết quả đáp ứng yêu cầu của người sử dụng. Từ khóa được hiểu là một tổ hợp các từ của một ngôn ngữ nhất định được sắp xếp hay quan hệ với nhau thông qua các biểu thức logic mà công cụ tìm kiếm hỗ trợ. Tập hợp một từ khóa gồm nhiều hơn một chữ (hay một từ) có thể gọi tập hợp các chữ đó là bộ từ khóa. 1.1.2 Phân loại công cụ tìm kiếm 1.1.2.1 Căn cứ theo phương thức hoạt động - Kiểu máy nhện (spider): Cơ sở dữ liệu của các máy truy tìm được cập nhật hoá bởi các phần mềm đặc biệt thường gọi là "robot", "spider" hay "Webcrawler". Các phần mềm này sẽ tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu để kiếm ra các liên kết (link) từ các trang và trở lại bổ sung dữ liệu cho chính nó sau khi phân tích. Phần mềm này cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá được bỏ vào là để cho máy truy tìm lục kiếm trong bảng chỉ số của nó. Kết quả tốt nhất sau
  9. khi phân hạng sẽ được xếp ở thứ tự đầu tiên. Trang thông dụng nhất dùng nguyên tắc này là - Kiểu máy truy tìm ảo (meta-search engine): Ngày nay, người ta có thể tận dụng các máy truy tìm sẵn có để thiết kế thành một loại máy truy tìm mới gọi là máy truy tìm ảo. Nguyên tắc của loại máy truy tìm này khá đơn giản, nó không có cơ sở dữ liệu. Khi hoạt động, máy truy tìm ảo sẽ gửi từ khoá đến các máy truy tìm khác một cách đồng loạt và nhận về tất cả các kết quả tìm được. Nhiệm vụ tiếp theo chỉ là phân tích và phân hạng lại các tài liệu tìm được cho thân chủ. Ưu điểm của loại máy truy tìm này là tận dụng cơ sở dữ liệu của các máy truy tìm khác để tìm ra nhiều kết quả hơn và nhanh hơn. Nhưng vì loại này chỉ tồn tại nếu có các máy truy tìm nguyên thuỷ nên gọi là meta- (tiền tố meta có nghĩa là "siêu hình" hay "ảo"). Điển hình loại này là MetaCrawler. - Kiểu thư mục đối tượng (máy truy tìm theo phân lớp) (subject directory): Còn gọi là máy truy tìm theo phân lớp (hierarchical search engine) - máy truy tìm này phân lớp sẵn các đối tượng vào các thư mục và người dùng sẽ lựa theo kiểu rẽ nhánh từ từ cho đến khi tìm ra các trang Web mà mình muốn. Kiểu này dễ cho người truy cập nhưng có điểm yếu là nó không thể bao gồm hết mọi chủ đề mà họ muốn kiếm ra. Hơn nữa, sự phân loại đôi khi không được đầy đủ và chính xác. Điển hình của loại này là - Kiểu cơ sở dữ liệu đặc biệt hay còn gọi là bất khả kiến Web (invisible Web): Đặc điểm của loại này là dữ liệu kiếm ra không thực sự có từ địa chỉ trang Web cụ thể qua các máy truy tìm; dữ liệu này tồn tại trong các cơ sở dữ liệu của một máy tính hay mạng ở đâu đó trên Internet mà các trang Web được phép sử dụng. Đặc biệt, các trang Web nghiên cứu của các đại học hay học viện như và thuộc kiểu này.
  10. Sau này nhiều máy truy tìm hỗ trợ người dùng qua nhiều cách thức khác nhau nên người ta ít thấy ranh giới phân chia của các máy truy tìm nữa mà thay vào đó là các hệ thống máy truy tìm lại bao gồm nhiều kiểu chức năng khác nhau. Chẳng hạn như không còn đơn thuần là một máy truy tìm theo kiểu thư mục đối tượng mà bên cạnh đó nó cũng cung cấp luôn cả kiểu máy nhện cho người dùng. 1.1.2.2 Căn cứ theo đối tượng tìm kiếm - Tìm kiếm văn bản - Tìm kiếm hình ảnh - Tìm kiếm âm thanh 1.1.2.3 Căn cứ theo chức năng Theo cách phân loại này thì tùy theo đối tượng tìm kiếm sẽ có: - Tìm kiếm địa chỉ trang Web - Tìm kiếm địa chỉ thư điện tử - Tìm kiếm thông tin riêng về một người - Tìm kiếm thông tin về một tổ chức - Tìm kiếm việc làm . 1.1.3 Một số công cụ tìm kiếm thông dụng trên thế giới và Việt Nam 1.1.3.1 Các công cụ tìm kiếm thông dụng trên thế giới Hiện nay, trên thế giới các công cụ tìm kiếm xuất hiện ngày càng nhiều, trong đó tiêu biểu là: - Alta Vista: - HotBot: - Google:
  11. - Lycos : - MSN : - Yahoo : 1.1.3.2 Các công cụ tìm kiếm thông dụng tại Việt Nam Bên cạnh các công cụ tìm kiếm mang tầm cỡ thế giới thì ở các quốc gia, các máy tìm kiếm bản địa cũng ra đời vừa thể hiện được bản sắc văn hóa của đất nước mình vừa có thể hướng tới phục vụ cộng đồng người sử dụng xác định như công cụ tìm kiếm www.baidu.com (Trung Quốc), www.narver.com (Hàn Quốc), www.yandex.com (Nga) Các công cụ tìm kiếm này trước mắt có thể giành lấy thị trường trong nước, ngoài ra, bằng việc cập nhật công nghệ thông tin có thể mở rộng ra khu vực, châu lục, thế giới. Nằm trong xu thế chung đó, ở Việt Nam cũng xuất hiện các công cụ tìm kiếm khá hữu ích. Tiêu biểu là: - Xalo: - Bambo: - Socbay: - Timnhanh: 1.2 Giới thiệu công cụ tìm kiếm Google 1.2.1 Lịch sử hình thành và phát triển của Google 1.2.1.1 Thời kỳ đầu Google được biết đến với ban đầu là một công trình nghiên cứu của hai nhà đồng sáng lập là Larry Page và Sergey Brin – hai nghiên cứu sinh của trường đại học Stanford, Mỹ năm 1996. Larry Page và Sergey Brin đưa ra giả thuyết cho rằng một công cụ tìm kiếm dựa vào cách phân tích các liên hệ giữa các website sẽ đem lại kết quả tốt hơn. Đầu tiên giả thuyết này được gọi bằng cái tên là Backrub (Gãi lưng) bởi vì hệ thống này dùng các
  12. liên kết đến để ước tính tầm quan trọng của trang. Theo giả thuyết đó, họ cho rằng những trang có nhiều liên kết đến nhất từ các trang thích hợp khác sẽ là những trang thích hợp nhất. Gỉa thuyết này đã được thử nghiệm trong nghiên cứu của họ và đó cũng là cơ sở đặt nền móng cho công cụ tìm kiếm Google hiện đại bây giờ. 1.2.1.2 Thời kỳ phá t triển * Giai đoạn 1997 - 1999: Ban đầu, Google sử dụng tên miền www.google.stanford.edu – tên miền thuộc trang web của trường Đại học Stanford, Mỹ. Sau đó, tên miền www.google.com được đăng ký vào ngày 15/9/1997. Năm 1998, dấu hiệu Beta (thử nghiệm) đã xuất hiện trên giao diện tìm kiếm đồng nghĩa với việc Google chính thức đưa công cụ này vào thử nghiệm rộng rãi. Nhưng khi đó, tìm kiếm chủ yếu tập trung vào “stanford search” – tức là tìm kiếm nội dung có liên quan đến trường đại học Stanford.
  13. Hình ảnh giao diện của Google năm 1997 * Giai đoạn từ 1999 đến nay: Năm 1999 đánh dấu bước ngoặt quan trọng khi Google thay đổi chiến lược phát triển. Đó là khi Google nhận ra rằng dịch vụ tìm kiếm web của hãng có thể đứng độc lập, bởi vì tại thời điểm đó tìm kiếm vẫn là một lĩnh vực chưa phát triển. Hình ảnh giao diện của Google năm 1999 Giao diện tìm kiếm của Google vào năm 1999 là một giao diện đơn giản nhất và có ít liên kết nhất trong tất cả các giao diện mà Google đã sử dụng. Tuy nhiên, do chưa được biết đến rộng rãi nên Google vẫn phải đưa
  14. ra lời giải thích “search the web using Google” (có thể dịch: “Google là công cụ tìm kiếm nội dung trên web”). Năm 2000, Google vượt qua Yahoo trở thành công cụ tìm kiếm tốt nhất (best search engine) và dấu hiệu Beta cũng không còn xuất hiện. Google cũng bắt đầu cung cấp cho người dùng dịch vụ tìm kiếm mang tính địa phương hóa tức là cho phép tìm kiếm bằng nhiều ngôn ngữ khác nhau. Năm 2001 Google phát triển thêm nhiều dịch vụ hơn nữa trong đó tiêu biểu là dịch vụ Google Web Directory, Google Groups (hiện tại dịch vụ Google Web Directory không còn tồn tại). Thêm vào đó, để quảng cáo, trên hộp nhập từ khóa tìm kiếm, Google ghi rõ số lượng website mà công cụ tìm kiếm này đã đánh chỉ mục. Vào thời gian này, ngày 4/9/2001, Google nhận được bằng sáng chế cho kỹ thuật sắp xếp trang web Pagerank. Hình ảnh giao diện của Google năm 2001 Năm 2002 là năm phát triển mạnh mẽ của Google khi trang công cụ tìm kiếm này đã trở nên phổ biến hơn trong cộng đồng người dùng web. Và
  15. cũng bắt đầu từ năm 2002 người dùng được chứng kiến một logo Google đẹp và sinh động hơn rất nhiều. Logo được thay đổi tùy theo từng sự kiện lớn trên thế giới hay một ngày lễ nào Năm 2007, Google đã thay đổi giao diện khi những liên kết trang web trước đây nằm ngay trên hộp nhập từ khóa tìm kiếm thì đã được đẩy lên góc trên cùng bên tay trái. Đồng thời, các dịch vụ mà Google cung cấp cho người dùng cũng trở nên phong phú và đa dạng hơn như Google News, Google Maps, đặc biệt là dịch vụ thư điện tử nổi tiếng Gmail (dịch vụ email trên nền web) Hình ảnh giao diện của Google năm 2007 Năm 2008 Google đưa ra trình duyệt mã nguồn mở Google Chrome, và Google Translate đã bổ sung thêm tiếng Việt trong dịch vụ dịch tự động và tích hợp ngay trong công cụ tìm kiếm, giúp người dùng nhanh chóng hiểu được cơ bản nội dung trang web trình bày bằng tiếng nước ngoài. Hiện tại, Giao diện của Google có hơn 100 ngôn ngữ khác nhau. Số lượng website được đánh chỉ mục chứa trong cơ sở dữ liệu của Google cũng ngày càng gia tăng nhanh chóng. So với cơ sở dữ liệu ban đầu là 25
  16. triệu trang web năm 1998 thì đến năm 2003, Google đánh chỉ mục cho hơn 3 tỉ website, năm 2004 là 4 tỉ website, năm 2005 là 8 tỉ website. Google đặt địa chỉ tại 1600 Amphitheater Parkway, Mountain View, California, Mỹ - nơi vẫn được gọi là trụ sở đại bản doanh Googleplex. Hiện tại công ty có trên 20.200 nhân viên đến từ nhiều quốc gia khác nhau, giám đốc là tiến sỹ Eric Schmidt. 1.2.1.3 Lƣợt truy cập Ngay từ những ngày đầu thành lập, Google đã phát triển nhanh chóng. Đầu tháng 8/1999, Google phục vụ 3.000 lượt người tìm kiếm một ngày; đến tháng 9/1999, mỗi ngày Google phục vụ 3,5 triệu lượt truy cập, khoảng 65 lượt truy cập mỗi giây. Đến giữa năm 2000, lượt truy cập mỗi ngày tăng lên tới 13 triệu. Tháng 6/2000, Google thay thế dịch vụ tìm kiếm cốt lõi Inktomic của Yahoo. Đầu năm 2004, khi Google đã phát triển mạnh mẽ, công cụ tìm kiếm này đã xử lý trên 80% số lượng tìm kiếm trên Internet qua website www.google.com và các website của khách hàng như Yahoo, AOL, và CNN. Tháng 12/2006, Google là công cụ tìm kiếm được sử dụng nhiều nhất trên mạng với 50,8% thị phần, vượt xa so với Yahoo là 23,6% và Window Live Search là 8,4%. Cũng theo bảng báo cáo thống kê gần đây vào tháng 8 năm 2007 của ComScore Network, Google vượt lên đứng đầu tiên với con số 37 tỷ lượt tìm kiếm, trong khi đó Yahoo đứng vị trí thứ 2 với con số 8,5 tỷ lượt tìm kiếm. 1.2.1.4 Mục tiêu hƣớ ng tớ i Tên gọi “Google” là một lối chơi chữ của từ googol, bằng 10100 . Tên gọi này cũng thể hiện muc̣ tiêu hướ ng tớ i của Google là “Tổ chứ c, sắ p xếp thông tin trên thế giớ i và làm cho nó được dễ dàng tiếp cận”. Do đó, thông tin không chỉ được thu thập, lưu trữ mà còn được sắp xếp, phân loại
  17. khoa học, logic. Điều này vô cùng quan trọng đối với nhu cầu tìm kiếm thông tin chính xác nhất và phù hợp nhất cho người tìm tin. Bởi vì trong khối lượng thông tin đồ sộ và không ngừng gia tăng đó, tìm kiếm đúng thông tin không phải là cái mục đích cuối cùng. Quan điểm nhất quán của Google là thông tin được đánh giá (thông qua hệ thống xếp hạng pagerank) và người sử dụng có thể tìm kiếm, sử dụng, truy cập, tiếp cận nó theo cách thức nhanh nhất, đơn giản nhất có thể. 1.2.2 Các bộ phận hợp thành của công cụ tìm kiếm Google Google là công cụ tìm kiếm theo kiểu máy nhện nên gồm 03 bộ phận cấu thành và phương thức hoạt động như sau: 1.2.2.1 Nhện Web Nhện web (còn gọi là rôbốt phần mềm chuyện biệt, tên khác là bọ tìm kiếm). Đây là một chương trình phần mềm chuyên biệt, có thể nhảy từ đường dẫn này sang đường dẫn khác trên hệ thống mạng toàn cầu World Wide Web. Do đó, nhện web được thường coi như một rôbốt lướt khắp nơi qua các khu vực trên không gian mạng. Nhưng thực tế là nhện web không đi đâu cả, chúng hoạt động cố định trên một máy chủ riêng, từ đó gửi đi một số lượng lớn các truy vấn đến các trang web lên mạng. Nhện web có cấu trúc phức tạp nhưng nguyên tắc hoạt động khá đơn giản: nhện web liên tục quay số tìm kiếm các đường dẫn URL, rồi báo cáo kết quả tìm thấy. Trong các bộ phận của một công cụ tìm kiếm, nhện web là bộ phận giữ vai trò quan trọng nhất, bởi mức độ hoàn thiện của hệ thống chỉ mục phụ thuộc vào số lượng trang web và tần suất duyệt web của nhện web. Các trang kết quả tìm kiếm của mỗi một truy vấn sẽ có nội dung phù hợp hơn khi hệ thống chỉ mục dần hoàn thiện. 1.2.2.2 Hệ thống chỉ mục
  18. Hệ thống chỉ mục là một cơ sở dữ liệu nhưng có quy mô rất lớn. Hệ thống chỉ mục thô giống như một danh mục được sắp xếp theo tên miền: hệ thống chỉ mục liệt kê ra tất cả các trang trên một địa chỉ web, cùng với mọi thông tin thích hợp về những trang này như: các từ, các kết nối, các ký tự trong và xung quanh một kết nối. Hệ thống chỉ mục được tách thành nhiều mảng nhỏ, phụ thuộc vào dữ liệu được xử lý hay chưa và mức độ sẵn sàng của chúng để người tìm kiếm sử dụng. 1.2.2.3 Hệ thống chỉ mục chạy thực Hệ thống chỉ mục chạy thực (hay còn gọi là bộ xử lý thông tin truy vấn) là phần mềm giao diện và tương thích nhằm kết nối các thông tin truy vấn của người sử dụng với hệ thống chỉ mục. Có thể hiểu một cách đơn giản là phần liên kết hai bộ phận của một công cụ tìm kiếm với phần sau bao gồm nhện web, hệ thống chỉ mục và phần trước gồm ứng dụng truy vấn chỉ và giao diện cho người sử dụng. Ba bộ phận này có ảnh hưởng quyết định đến chất lượng và tốc độ của công cụ tìm kiếm, nhưng bên cạnh đó còn có rất nhiều nhân tố khác chi phối đến chất lượng tổng thể của một công cụ tìm kiếm. 1.2.3 Cách thức hoạt động của công cụ tìm kiếm Quy trình tìm kiếm được bắt đầu khi một truy vấn tìm kiếm được đưa ra. Truy vấn ở đây có thể hiểu là các từ khóa, câu hỏi để tìm ra câu trả lời, một trang web, hay về một kiến thức nào đó. Truy vấn này sẽ định hướng đến quy trình tìm kiếm. Quy trình tìm kiếm trang kết quả bắt đầu với nhện web. Dựa trên các truy vấn, các trang web được tìm ra và nhện web đưa các trang này vào hệ thống chỉ mục. Các kết nối trên trang web sẽ được ghi chú lại, sắp xếp và đưa vào các tệp (file) để gửi đi truy vấn. Như vậy với một kết nối mới được tìm ra sẽ có thêm các truy vấn mới, và cứ tiếp tục như vậy cho đến vô cùng.
  19. Nhện web không chỉ tìm ra và lưu vào hệ thống chỉ mục tiêu đề của mỗi trang web mà còn là nội dung của toàn bộ trang web và các loại tệp khác như PDF, các văn bản trong Microsoft Office, âm thanh, hình ảnh và các siêu dữ liệu – thông tin cấu trúc từng trang do chủ trang web cung cấp về các trang và thông tin được duyệt. Nhện web sau khi gửi dữ liệu tìm thấy về hệ thống chỉ mục, các thông tin này được sắp xếp để người tìm kiếm biết đường dẫn URL, và có thể tìm thấy những từ có liên quan đến đường dẫn đó. Đây là một công đoạn rất quan trọng bởi vì bước tiếp theo trong việc tạo ra một hệ thống chỉ mục thông minh là đảo ngược cơ sở dữ liệu – về bản chất, nhằm tạo ra một danh sách các từ liên quan đến đường dẫn URL. Google đã nhận sớm nhận ra cơ sở dữ liệu với khả năng ghi chú lại những mẫu thống kê, và các kết quả của thuật toán là cách tốt nhất nhằm cung cấp kết quả phù hợp với các truy vấn. Qúa trình nhận dạng một hệ thống chỉ mục được coi như một sự phân tích. Thuật toán Pagerank của Google cũng dựa vào cách phân tích này: Pagerank phân tích các liên kết trên một trang web, từ neo xung quanh các liên kết này, và số lượng liên kết ngoài của các trang web, tổng hợp các yếu tố này lại và tìm ra mức độ phù hợp của một trang web với một truy vấn. Và Google thường phân tích dựa trên hơn 100 yếu tố để tìm ra mức độ phù hợp với nội dung trang web với mỗi truy vấn. Trong suốt quá trình phân tích, chỉ mục sẽ tập hợp các thẻ - một loại siêu dữ liệu khác (dữ liệu miêu tả về dữ liệu). Trang web có thể được thẻ chỉ thị để hiển thị theo một ngôn ngữ nhất định hay được chỉ thị để được liệt vào các nhóm trang web có nội dung như thông tin rác, khiêu dâm, hay trang web ít được cập nhật. Và các siêu dữ liệu này là yếu tố then chốt giúp các công cụ tìm được kết quả phù hợp nhất.
  20. Sau khi được phân tích, lưu chỉ mục và đánh dấu bởi các thẻ, các dữ liệu do nhện web đem lại được đổ vào hệ thống chỉ mục chay thực – cơ sở dữ liệu có thể ngay lập tức cung cấp kết quả tìm kiếm cho người dùng . Và đây cũng là hoạt động để kết thúc một quá trình tìm kiếm. Tóm lại, hoạt động của công cụ tìm kiếm gồm ba phần chính. Ba phần này biến đổi tùy theo độ lớn và sự phát triển không ngừng của trang web, đó là nhện web tìm kiếm, lưu dữ liệu vào chỉ mục và đưa ra các trang kết quả tìm kiếm. Đây là một nhiệm vụ không hề đơn giản bởi vì khối lượng tài nguyên thông tin trên mạng là vô cùng lớn thêm vào đó là sự phát triển không ngừng với sự ra đời của các trang web mới, cho nên theo tính toán “Google đã sử dụng hơn 175.000 máy tính cho công việc này. Con số này lớn hơn tổng số máy tính thế giới vào thập niên 1970”.[9] 1.2.4 Hệ thống xếp hạng Pagerank Trước khi tìm hiểu về hệ thống xếp hạng Pagerank, chúng ta cần tìm hiểu về phương pháp trích dẫn và chú giải, thứ haṇ g của ngành xuất bản ấn phẩm. Bởi vì phương pháp này đã định hướng đến phương thức hoạt động của Google. Mặt khác, việc sắp xếp thứ hạng các trang web là vô cùng quan trọng đối với các công cụ tìm kiếm. Điều này sẽ sắp xếp các trang web ở các vị trí khác nhau trên trang kết quả. * Trích dẫn: “Là danh mục tài liệu tham khảo hay danh sách các thông tin quan trọng về ấn phẩm đó, cho phép người ta xác định và định vị nó”. (Khái niệm của thư viện đại học Massachusets, Mỹ). * Chú giải: Theo định nghĩa của ngành xuất bản ấn phẩm, chú giải là hành vi bổ sung vào các trích dẫn ghi chú có tính chất mô tả. Vì vậy, chú giải giống như sự đánh giá về tài liệu được trích dẫn.
  21. * Thứ hạng: Có thể hiểu là sự đánh giá về một ấn phẩm vừa bởi ý tưởng nguyên thủy, nội dung và độ sắc sảo của các trích dẫn trong đó, vừa theo số lượng ấn phẩm mà nó trích dẫn, số lượng ấn phẩm khác trích dẫn tới nó và tầm quan trọng của các trích dẫn đó. Những khái niệm này là cơ sở cho hệ thống xếp hạng Pagerank của Google. Nhưng trước khi Pagerank ra đời, Larry Page đã đưa ra giả thuyết về hệ thống BackRub. Đây là hệ thống cho phép tìm kiếm các liên kết trên web, lưu trữ để phân tích, rồi tái bản chúng trong một dạng mới cho phép người tìm kiếm nhìn thấy tất cả các đối tượng được liên kết với nhau trên web. Dựa trên khái niệm thứ hạng trong ngành xuất bản ấn phẩm, ông đã đưa ra lý thuyết rằng, kiến trúc các đồ thị web vừa cho biết những đối tượng được liên kết với nhau vừa chỉ ra được tầm quan trọng của những đối tượng được liên kết này dựa trên những thuộc tính khác nhau của chúng, ví dụ như các ký tự neo xung quanh liên kết, là nhân tố quyết định thứ hạng và mức độ phù hợp của một trang. Khi biết được tầm quan trọng của một trang, Backrub sẽ đưa ra một thứ hạng tương đối cho trang đó. Với mỗi một trang được xếp hạng sẽ cho thấy các liên kết tới trang đó, và cả thứ hạng của những liên kết này. Thuật toán để đếm được số trang liên kết với một trang cụ thể và cả số liên kết tới các trang liên kết đó được gọi là thuật toán Pagerank. Thuật toán Pagerank tương tự như phương pháp đếm các trích dẫn trong ngành xuất bản ấn phẩm. Ví dụ : Để vào trang web www.tinhvan.com có rất nhiều đường liên kết tới nó. Đường liên kết tới www.tinhvan.com có thể là một đối tác kinh doanh của công ty trong lĩnh vực công nghệ như công ty IBM hoặc Intel, hoặc là từ khách hàng là tapchiquehuongonline. Câu hỏi là làm thế nào để xác định
  22. thứ hạng cho hai trích dẫn này? Đặt giả thuyết vì IBM hay Intel là những trang web rất tiêu biểu trong lĩnh vực này, nên đối tác kinh doanh là IBM với Intel là liên kết quan trọng hơn. Gỉa sử chỉ có vài trang được liên kết với trang của tapchiquehuongonline và những trang này cũng không có nhiều liên kết với nó. Ngược lại, có rất nhiều trang được liên kết với IBM và Intel và những trang này trung bình cũng có khoảng hàng nghìn liên kết. Như vậy, theo Pagerank, thứ hạng trang của tapchiquehuongonline sẽ thấp hơn thứ hạng của trang IBM hay Intel. CHƢƠNG 2: TRANG CHỦ GOOGLE VÀ MỘT SỐ DỊCH VỤ TÌM KIẾM TIÊU BIỂU 2.1 Trang chủ tìm kiếm Google Trang chủ Google được thiết kế với giao diện đơn giản, dễ nhìn, ít chi tiết. 2.1.1 Giao diện tìm kiếm Gồm một hộp để nhập từ khóa tìm kiếm với hai nút để người dùng sử dụng gửi đi từ khóa. - Google search: xử lý từ khóa và tạo một danh sách kết quả - I’m feeling lucky (Xem trang đầu tiên tìm được): Nút này sẽ tự động đưa người dùng đến trang web đầu tiên tìm thấy thay vì hiển thị danh sách. 2.1.2 Nguyên tắc tìm kiếm - Nhập từ khóa đúng chính tả, Google sẽ trả về kết quả tìm kiếm càng ít. Do đó mức độ chính xác càng cao. - Nếu nhập từ khóa dài và không để trong dấu trích dẫn tức là lượng thông tin càng rõ ràng thì danh sách kết quả trả về cũng sẽ ngắn . Tuy
  23. nhiên, nếu ngườ i dùng nhập một đ oạn văn quá dài , sẽ gây ra tình trạng thiếu chính xác về mục đích tìm kiếm và kết quả tìm đươc̣ trả về sẽ rất lớ n. Điều này gây ra tình traṇ g thừ a thông tin. - Google không phân biệt chữ hoa và chữ thường. Do đó, ngườ i dùng không phải quan tâm đến vấn đề này. Kết quả trả về vẫn là giống nhau. - Dấu trích dẫn là cần thiết khi muốn nhấn mạnh từ khóa cần tìm kiếm. Tuy nhiên, không nên áp dụng cho một câu dài. - Không sử dụng các dấu chấm câu giữa các từ khóa. Vì điều này là không cần thiết, kết quả trả về với dấu chấm câu và không có dấu chấm câu vẫn là bằng nhau. VD : Để tìm hiểu về vấn đề : Phần mềm công nghệ thông tin -) Nếu sử dụng từ khóa là : công nghệ thông tin Kết quả là 6.440.000 đầu mục -) Nếu sử dụng từ khóa là : « phần mềm » AND « công nghệ thông tin » Kết quả sẽ ít hơn với 2.330.000 đầu mục. 2.1.3 Các tính năng tìm kiếm - Tìm kiếm đơn giản. - Tìm kiếm nâng cao. - Tìm kiếm an toàn. Vớ i các tiêu chí tìm kiếm khác nhau như tìm kiếm web , tìm kiếm hình ảnh, tìm kiếm video, tìm kiếm sách, tìm kiếm tin tức , Google đưa ra các tính năng khác nhau để trả về các kết quả chính xác , phù hợp và nhanh nhất đến vớ i ngườ i dùng. 2.1.4 Các chức năng chính
  24. 2.1.4.1 Chức năng gợi ý từ khóa Chức năng gợi ý từ khóa được Google đưa vào sử dụng vào giữa năm 2008. Hiện tại, chức năng này được bổ sung cho Google Web, Google Images, Google Videos, và Google News. Chức năng gợi ý sẽ hiển thị các nội dung phổ biến nhất có chứa từ khóa đang tìm. Những gợi ý này nhằm mục đích giúp người dùng có thể đưa ra những lựa chọn chính xác hơn cho ý định tìm kiếm, từ đó có thể có những kết quả tốt nhất. Hình minh hoạ 2.1.4.2 Chức năng tùy chọn hiển thị Với chức năng này người dùng có thể thay đổi mặc định của trang chủ Google theo nhu cầu sử dụng của bản thân, và các thay đổi này sẽ được áp dụng cho tất cả các dịch vụ của Google như lựa chọn ngôn ngữ giao diện, ngôn ngữ tìm kiếm, mở cửa sổ kết quả bằng một trình duyệt mới, hiển thị số lượng kết quả trên mỗi trang
  25. Hình minh hoạ 2.1.4.3 Chức năng lịch sử Web Lịch sử web cung cấp cho người dùng kết quả tìm kiếm và gợi ý phù hợp khác dựa trên hoạt động web. Do đó, chức năng này thể hiện được rất rõ tính cá nhân hóa trên Google. Bởi vì, mục đích của lịch sử Web nhằm : ◊ Xem và quản lý hoạt động của trang web : Người dùng có thể xem và tìm kiếm toàn bộ nội dung những trang web đã truy cập, bao gồm tìm kiếm Google, trang web, hình ảnh, videos và nội dung câu chuyện. ◊ Nhận kết quả phù hợp nhất : Lịch sử web cung cấp thêm kết quả tìm kiếm được cá nhân hóa dựa trên những gì mà người dùng đã tìm kiếm trên Google và những trang web đã truy cập. ◊ Theo dõi các xu hướng trong hoạt động web của người dùng :
  26. Dựa trên những kết quả tìm kiếm và các trang web đã truy cập, người dùng có thể tìm các xu hướng về hoạt động của mình, ví dụ như những trang web đã truy cập nhiều nhất và các tìm kiếm nhiều nhất. Hình minh hoạ 2.2 Một số dịch vụ tim̀ kiếm chủ yếu của Google 2.2.1 Tìm kiếm web: Tìm kiếm web là dịch vụ đầu tiên và quan trọng nhất của Google. * Thông tin trong trang kết quả tìm kiếm: Trong kết quả tìm kiếm của Google thường bao gồm các thông tin chính sau: (1) Bảng tóm tắt trang kết quả tìm kiếm: - Tìm kiếm kết quả theo tiêu chí (web, hình ảnh, video, blog, tin tức ). - Kết quả hiển thị từ đến trong tổng số trang thỏa mãn điều kiện tìm kiếm. - Từ khóa tìm kiếm.
  27. - Thời gian tìm kiếm. (2) Kết quả tìm kiếm: Kết quả là danh sách trang web có chứa cụm từ thoải mãn điều kiện tìm kiếm. Kết quả không chỉ là các trang web mà còn có thể là các định dạng khác như Word, Excell, PDF (3) Các kết quả tìm kiếm liên quan: Với trường hợp từ khóa mang nghĩa bao trùm, Google cũng đưa ra các gợi ý được đặt ở cuối trang tìm kiếm. Hình minh hoạ (4) Các kết quả nhận được bao gồm: - Tên trang web và liên kết tới trang đó. - Bên dưới là một đoạn trích dẫn có chứa từ khóa tìm kiếm trong trang đó. - Phía dưới đoạn trích dẫn là địa chỉ URL không được liên kết và do đó không thể truy cập trực tiếp được vào địa chỉ này. - Bên cạnh địa chỉ URL là thời gian mà Google đưa nội dung vào bộ nhớ cache. (5) Truy cập vào bộ nhớ cache của Google: Khi ngườ i dùng nhấp chuột vào nút tứ c là đã truy cập vào trang web được lưu vào bộ nhớ của Google chứ không phải truy cập vào trang web gốc trên internet. Với cách truy cập này, các cụm từ tìm kiếm sẽ được đánh dấu để ngườ i dùng dễ theo dõi. Tuy nhiên, việc truy cập vào bộ nhớ cache của Google có thể sẽ nhận được thông tin cũ
  28. bởi vì sau một khoảng thời gian nhất định thì Google mới cập nhật lại thông tin của các trang web gốc. Google đưa ra thông báo các thông tin tóm tắt sau: Trong thông báo trên, Google cho biết thời gian lưu trang web vào bộ nhớ của cache và cũng nhắc nhở ngườ i dùng biết từ thời gian đó, trang web gốc có thể đã thay đổi. Trường hợp, ngườ i dùng muốn vào trang web gốc có thể nhấp vào dòng chữ Trang hiện tại. (6) Liên kết tới trang có nội dung tương tự: Phía dưới của các kết quả tìm kiếm thường có nút để liên kết tới các trang có nội dung tương tự hoặc gần giống với trang web này. Điều này cũng giúp cho ngườ i tìm được nhiều thông tin có ích. VD: Với trang www.echip.com.vn, khi chọn các trang tương tự ta sẽ nhận được các trang web:
  29. (7) Một số trang web cùng tên miền: Với một số trường hợp, một số trang web nằm thụt vào so với trang khác. Trang web này là có cùng tên miền để thông báo với người sử dụng rằng không nên nhấp chuột vào cả hai trang web. Google có thể liệt kê tất cả các trang nằm trong một tên miền nếu trang đó cùng liên quan đến cụm từ tìm kiếm. Hình minh hoạ Với các kết quả dạng này, ngườ i dùng có thể xem tất cả các trang web cùng tên miền có chứa cụm từ cần tìm kiếm bằng cách nhấp chuột vào nút .
  30. (8) Lời thông báo nhắc nhở: Trong trường hợp ngườ i dùng gõ nhập sai chính tả từ khóa, Google sẽ đưa ra lời thông báo dưới dạng câu hỏi để ho ̣cân nhắc lại từ khóa tìm kiếm. Hình minh hoạ 2.2.1.1 Tìm kiếm đơn giản: Ngườ i dùng có thể gõ trực tiếp vào ô google search ở trang chủ của Google truy vấn tìm kiếm của mình được thể hiện bằng từ khóa có thể là một từ, cụm từ, một câu hỏi, hoặc bằng những cú pháp cụ thể. Điều này sẽ giúp cho việc tìm kiếm trở nên chính xác, thu gọn kết quả tìm. Bảng từ khóa tìm kiếm của Google Tƣ̀ khó a Ý nghĩa Ví dụ Từ ,cụm Nhâp̣ vào ô search từ khóa có - Máy tính từ , câu thể là 1 từ , cụm từ hay 1 câu - Công nghê ̣thông tin hỏi hỏi. - Tác giả Truyện Kiều là ai? Toán tử Xuất hiêṇ tất cả các từ khóa. - Phần mềm AND Công AND Nhâp̣ các từ , cụm từ vào ô nghê ̣thông tin seach đươc̣ tách rờ i bằng AND.
  31. Toán tử Từ , cụm từ hay bất kỳ một - Phần mềm OR Công OR trong những từ đó phải xuất nghê ̣thông tin hiêṇ . Nhâp̣ vào ô search từ , cụm từ cách nhau bằng toán tử OR. Toán tử Loại bỏ từ hay cụm từ. Nhâp̣ - Phần mềm NOT Công NOT vào ô search từ, cụm từ được nghê ̣thông tin tách rời bẳng toán tử NOT. Cú pháp Tìm tất cả những trang có tiêu - intitle:"phần mềm" [intitle:] đề chứa giá trị cần tìm. Nhâp̣ "toán học" vào ô search từ, cụm từ (nên để trong dấu trích dâñ ): intitle:giátrịcầntìm Cú pháp Tìm những địa chỉ URL -inurl:sinhviên [inurl:] (Đường dẫn) chứ a từ khóa. site:hut.edu.vn Nhâp̣ vào ô search: inurl:từcầntìm Cú pháp Tìm những trang có định dạng - filetype:pdf site:org [filetitle: PDF, .doc, .exe, Nhập vào ô "Toán học" ] search: filetitle:phầnmởrộngcủatàiliệu Cú pháp Tìm tên trang web. Nhập vào ô - "thông tin thư viện" [site:] search: thôngtincầntìm site:ussh.edu.vn site:websitecầntìm (không gõ www) Cú pháp Tìm kiếm những trang có nội -relate:www.ussh.edu.vn [relate:] dung tương tự. Nhập vào ô search: relate:têntrang web
  32. muốntìmnộidungliênquan Cú pháp Tìm kiếm những trang web đặt - link:www.ussh.edu.vn [link:] đường link tới 1 trang web cụ thể. Nhập vào ô search: link:tên_website_cần_tìm Cú pháp Tìm kiếm những trang web gốc -cache:www.ussh.edu.vn [cache:] đã được Google copy bản sao. Nhập vào ô search: cache:địachỉwebcầnxembảnsa o Cú pháp Tìm chính xác từ cần tìm. -intext: “thông tin thư [intext:] Nhập vào ô search: viện” site:ussh.edu.vn = dấu intext:từ_cần_tìm nháy kép “” 2.2.1.2 Tìm kiếm nâng cao Google đưa ra trang tìm kiếm nâng cao nhằm mục đích cung cấp cho người dùng tạo các mẫu yêu cầu phức tạp hơn bằng cách điền vào form. Ưu điểm của trang này là cũng giống như khi ngườ i dùng tìm kiếm trên trang chủ, Google vẫn hiển thị kết quả tìm kiếm được theo cùng một cách. Vùng Find search (Tìm kết quả):
  33. Google đưa ra các lựa chọn cho người dùng bằng cách nhập vào đó các từ hay cụm từ tìm kiếm vào các ô thích hợp. Điều này phụ thuộc vào tìm kiếm theo: - Tất cả các từ. - Cụm từ chính xác. - Trang không bao gồm một từ nhất định hay một tổ hợp từ. Vùng result (Kết quả): Vùng này nhằm giúp người sử dụng lựa chọn số lượng kết quả tìm kiếm trong trang hiển thị danh sách từ 10 đến 100 kết quả. Ưu điểm là người dùng có thể so sánh và quyết định kết quả đúng với yêu cầu đưa ra. Vùng Language ( Ngôn ngữ): Vùng này nhằm giúp người sử dụng giới hạn kết quả tìm kiếm bằng một ngôn ngữ cụ thể nào đó do họ lựa chọn. Bởi lẽ xác lập mặc định của Google là any language. Vùng File type ( Định dạng tệp): Google không chỉ tìm kiếm trang web mà còn tìm kiếm với các định dạng văn bản cụ thể như Adobe Acrobat PDF (.pdf), Adobe Postscrip (.ps),
  34. Autodesk DWF (.dwf), Google Earth KML (.kml), Google Earth KMZ (.kmz), Microsoft Excell (.xls), Microsoft Word (.doc), Rich Text Format (.rtf), Shockwave Flash (.swf). Với lựa chọn này , ngườ i dùng cũng có thể xem ngay với ứng dụng quick view (xem nhanh) hoăc̣ xem dướ i daṇ g HTML mà không phải tải về máy. Hình minh hoạ Hình minh hoạ Vùng Search within a site or domain (Tìm kiếm trang hoặc tên miền):
  35. Mục đích: Để tăng độ chính xác khi tìm kiếm , ngườ i dùng có thể chỉ định một website hoặc tên miền và khi này các trang web hoặc tên miền có chứa cụm từ tìm kiếm sẽ thỏa mãn điều kiện. VD : youtube.com Vùng Date (Ngày tháng): Mục đích: Để tìm kiếm các trang web có nôị dung đươc̣ câp̣ nhâṭ trong môṭ khoảng thờ i gian nào đó , Google đưa ra các lưạ choṇ : 24 giờ qua, tuần qua, tháng qua, năm qua. Như vâỵ , ngườ i dùng có thể tìm kiếm những thông tin mớ i hoăc̣ cũ. Vùng Where your keywords show up (Xuất hiêṇ ) : Mục đích: Nhằm giúp ngườ i dùng tìm kiếm trang web theo vi ̣trí xuất hiêṇ của cuṃ từ tìm kiếm , Google hỗ trơ ̣ các t ính năng là tìm cụm từ tìm kiếm trong tên trang, trong thân trang, trong URL trang, và trong những liên kết đến trang. Vùng Region (Khu vưc̣ ): Region giúp cho các kết quả tìm kiếm đươc̣ x uất hiêṇ ở quốc gia mà người dùng mong muố n. Danh sách vùng , lãnh thổ quốc gia được Google câp̣ nhâṭ đa ̃ lên tớ i hơn 200 tên nướ c. Vớ i trang google bằng tiếng Viêṭ, đây là vùng đươc̣ trình bày ở trang chủ với tùy chọn tìm kiếm với những trang từ Việt Nam.
  36. Vùng Usage rights (Quyền sử duṇ g): Nhằm muc̣ đích cho phép ngườ i dùng tìm kiếm những nôị dung có bản quyền hoặc miễn phí , Google đưa ra các lưạ choṇ : không đươc̣ phép lọc; đươc̣ phép sử duṇ g và chia sẻ ; đươc̣ phép sử duṇ g , chia sẻ kể cả mua bán; đươc̣ phép sử duṇ g , chia sẻ hoăc̣ sử a đổi ; đươc̣ phép sử duṇ g , chia sẻ hoăc̣ sử a đổi , kể cả mua bán . Điều này là cần thiết khi tìm kiếm đối vớ i trang web có đối tươṇ g là phần mềm, mp3, ebook Hình minh hoạ 2.2.2. Dịch vụ Google Images 2.2.2.1 Tìm kiếm đơn giản
  37. Thông tin trong trang kết quả tìm kiếm gồm có: - Kết quả hiển thị từ đến trong tổng số trang thỏa mãn điều kiện tìm kiếm. - Từ khóa tìm kiếm. - Thời gian tìm kiếm. - Tên hoặc dòng chú thích cho hình ảnh. - Kích thước hình ảnh. - Dung lượng của tệp ảnh. - Dạng tệp ảnh (gif, jpg ). - Tên trang web chứa tệp ảnh. - Đường dẫn tới những hình ảnh tương tự (nếu có). Khi ngườ i dùng kích chuột vào link “Find similar images”, sẽ nhận được kết quả là những hình ảnh tương tự với hình ảnh đó nhưng lại nằm ở các trang web khác nhau, cho nên nó sẽ có dung lượng, dạng tệp ảnh và kích thước ảnh khác nhau.
  38. VD: Muốn tìm về tiểu sử Chủ tịch Hồ Chí Minh, ta sẽ có danh sách kết quả như trên. Nếu nhấp chuột vào dòng tìm những hình ảnh giống nhau, ta sẽ nhận được kết quả như sau : Điều này cũng là những gợi ý của Google để ta quyết định hình ảnh nào phù hợp nhất với nhu cầu tìm kiếm. Ngoài ra, trong các hình ảnh được tìm thấy, người dùng có thể lọc ra các hình ảnh theo kích thước hoặc màu sắc bằng cách sử dụng tính năng show option (Hiển thị tùy chọn). Google đưa ra các tùy chọn bao gồm: Kích thước hình ảnh: - Trung bình - Lớn - Biểu tượng - Lớn hơn, tìm kiếm hình ảnh với kích thước tổi thiểu 400 x 300 và kích thước tối đa lớn nhất là 70MP (9600 x 7200).
  39. - Chính xác. Với tùy chọn này, ta có thể điền thông tin của kích thước ảnh, chiều rộng bao nhiêu pixel, chiều dài bao nhiêu pixel. Loại hình ảnh: - Khuôn mặt. - Ảnh. - Hình ảnh. - Bức vẽ. Màu sắc hình ảnh: - Đủ màu. - Đen trắng. - Bảng lọc màu với 12 lựa chọn: màu đỏ, màu cam, màu vàng, màu xanh lá cây, màu xanh dương, màu xanh tím than, màu tím, màu hồng, màu trắng, màu xám, màu đen và màu nâu. Với các tùy chọn này, người dùng có thể tìm kiếm hình ảnh theo các tiêu chí một cách nhanh chóng và đơn giản hơn. 2.2.2.2 Tìm kiếm nâng cao Google cũng đưa tính năng tìm kiếm nâng cao vào tìm kiếm hình ảnh. Tìm kiếm hình ảnh theo điều kiện nâng cao cũng có những vùng giống như tìm kiếm web nâng cao. Đó là vùng Find result (Tìm kết quả), Domain (Tên miền), Usage rights (Quyền sử dụng), Safesearch (Tìm kiếm an toàn). Ngoài ra, còn có thêm một số vùng sau : Vùng Content type (Loại nội dung): Trả lại kết quả hình ảnh có chứa trong nội dung tin tức; khuôn mặt; nội dung ảnh; hình mẫu; bức vẽ.
  40. Vùng Size (Kích thước ảnh): Trả lại kết quả hình ảnh có kích thước ảnh là lớn, trung bình, hay một kích cỡ ảnh cụ thể. Vùng Exact size (Kích thước chính xác): Trả lại kết quả hình ảnh có kích thước ảnh chính xác mà người dùng mong muốn bằng cách điền vào ô trống chiều dài, chiều rộng của hình ảnh. Google cũng đưa ra gợi ý “use my desktop size” tức là “sử dụng kích cỡ màn hình của tôi”. Vùng Aspect ratio (Tỷ lệ khung hình): Trả lại hình ảnh có tỷ lệ khung hình cao, vuông, rộng hay toàn cảnh. Vùng File type (Loại tệp ảnh): Chỉ trả lại tệp hình ảnh có định dạng là tệp JPG, tệp GIF, tệp PNG, tệp BMP. Vùng Coloration (Màu sắc ): Trả lại hình ảnh tìm kiếm có màu đen trắng hoặc đủ màu. Tính năng này ít lựa chọn hơn tính năng hiển thị tùy chọn ở trang chủ đã nói ở trên. 2.2.3 Dịch vụ Google Videos Google cung cấp dịch vụ tìm kiếm Google Videos vào năm 2006. Ưu điểm của dịch vụ này là không chỉ cho phép người dùng tìm kiếm và xem miễn phí các đoạn băng video có sẵn mà còn cho người sử dụng hay các nhà phát hành khả năng phát hành nội dung mà họ muốn, kể cả các chương trình truyền hình và các video ca nhạc. 2.2.3.1 Tìm kiếm đơn giản Thông tin trong trang kết quả tìm kiếm gồm có: - Kết quả hiển thị từ đến trong tổng số trang thỏa mãn điều kiện tìm kiếm. - Từ khóa tìm kiếm. - Thời gian tìm kiếm.
  41. - Thời lượng của đoạn video. - Thời gian cập nhật vào bộ nhớ cache của Google. - Tên trang web có chứa đoạn video. - Đường link Related videos dẫn tới các đoạn video có liên quan. VD : Khi tìm kiếm với từ khóa là học tiếng Anh giao tiếp, ta sẽ nhận về kết quả như trên. Nếu kích chuột vào đường dẫn “các đoạn video có liên quan”, Google trả về các kết quả như sau : Ngoài ra, trong các hình ảnh được tìm thấy, ngườ i dùng có thể lọc ra các đoạn video có thời lượng, hay theo thời gian cập nhật bằng cách sử
  42. dụng tính năng show option (Hiển thị tùy chọn). Google đưa ra các tùy chọn bao gồm: Thời lượng: - Ngắn (0-4 phút ). - Trung bình (4-20 phút ). - Dài (từ 20 phút trở lên). Thời gian cập nhật: - 1 giờ qua. - 24 giờ qua. - Tuần qua. - Năm qua. - Phạm vi ngày cụ thể cho phép người dùng điền vào đó ngày tháng cụ thể mong muốn. Theo mức độ liên quan: - Theo ngày. Theo chất lượng - Chất lượng cao. Theo video: - Có phụ đề. Theo nguồn: - Clip.vn - Youtube.com - Baamboo.com
  43. - Vietgiaitri.com - Metacafe.com - Yahoo.com 2.2.3.2 Tìm kiếm nâng cao Giao diện tìm kiếm nâng cao Google cũng đưa ra các tính năng tìm kiếm video với các điều kiện nâng cao như tìm kết quả, tìm theo ngày, tìm theo chất lượng videos, tìm theo tên miền, tìm theo ngôn ngữ, hay sắp xếp kết quả có liên quan. 2.2.4 Dịch vụ Google Maps Google Maps (trước đó có tên gọi là Google Local) là một dịch vụ ứng dụng vào công nghệ bản đồ trực tuyến trên web miễn phí được cung cấp bởi Google. Google Maps cho phép tìm kiếm bản đồ của một nước, vị trí một thành phố trên thế giới, đường phố, khách sạn, kinh doanh
  44. 2.2.4.1 Giao diện Google Maps có giao diện khá đơn giản, dễ thao tác. Người dùng có thể gõ từ khóa tìm kiếm vào ô tìm kiếm. Điều này cũng tương tự như tìm kiếm web, tìm kiếm hình ảnh hay tìm kiếm videos. Từ khóa, toán tử tìm kiếm càng rõ ràng thì kết quả nhận được càng phù hợp. VD: Tìm địa điểm Bảo tàng Hồ Chí Minh, Thành phố Hà Nội ta gõ vào từ khóa “Bảo tàng Hồ Chí Minh, Hà Nội”, kết quả trả về như sau: Các công cụ của Google Maps gồm: - Traffic - đưa ra các biển báo hiệu giao thông. - Map - hiển thị các đường phố. - Satellite - hiển thị bản đồ theo kiểu chụp từ vệ tinh (Show labels- cho phép hiển thị tên khu vực). - Terrain - hiển thị theo địa hình địa chất.
  45. - Ngoài ra, tính năng More cho phép hiển thị hình ảnh của từng vùng (Photos), các đoạn phim từ YouTube (Video), từ điển bách khoa toàn thư (Wikipedia), hiển thị giá trị tài sản (Real estate). 2.2.4.2 Chế độ hiển thị của bản đồ Google Maps sử dụng chế độ hiển thị của bản đồ thông thường dưới dạng 2D. Google Maps tỏ ra vượt trội về số lượng chế độ hiển thị bản đồ, ngoài việc hiển thị tốt về dạng bản đồ thực (ảnh được chụp từ vệ tinh), hiển thị các biển báo giao thông, các chốt đèn giao thông thì dịch vụ còn hiển thị các hình ảnh đặc trưng của từng vùng miền, thông tin về một địa danh thông qua từ điển Wikipedia, cho biết giá trị tài sản của các ngôi nhà, Muốn xem thông tin về một đối tượng nào đó, người dùng nhấn vào biểu tượng của chúng trên bản đồ. VD: Nếu có nhu cầu tìm kiếm các thông tin về địa danh Sapa, ta gõ từ khóa “Sapa, Lao Cai, Vietnam”, trỏ chuột vào tính năng Satellite, kết quả trả về như sau:
  46. 2.2.4.3 Một số tính năng khác Google Maps còn có tính năng User – created maps, cho phép người dùng tạo riêng một bản đồ để sử dụng khi cần thiết với điều kiện là người dùng đã có tài khoản trong Google. Người dùng đăng nhập vào tài khoản e-mail của Google, rồi nhấn My Maps và làm theo hướng dẫn nhập vào tiêu đề (Tilte), chú thích (Description). Khi xong, dùng các công cụ trên cửa sổ để đánh dấu vị trí bản đồ (Add a placemark), vẽ đường thẳng (Draw a line), vẽ tự do (Draw a shape). Ngoài ra, Google Maps còn hỗ trợ việc cập nhật tin tức tự động, nhanh chóng và mới nhất thông qua công cụ RSS. 2.2.5 Dịch vụ Google Books Dịch vụ Google Books Search là một công cụ cho phép tìm một đoạn văn đầy đủ hay nội dung một cuốn sách do Google quét lại (scan) và qua nhận dạng ký tự OCR được lưu trữ trong một cơ sở dữ liệu số. Ban đầu, dịch vụ này được đặt tên là Google Print vào tháng 10 năm 2004. 2.2.5.1 Mục tiêu tìm kiếm sách của Google Mục tiêu của Google là giúp người dùng khám phá sách và tìm nơi mua sách hoặc mượn sách chứ không phải là đọc sách trực tuyến từ đầu đến cuối. 2.2.5.2 Cơ sở dữ liệu sách của Google Google chứa khoảng hơn 7 triệu cuốn sách có nội dung đầy đủ. Trong đó bao gồm các thể loại sách sau: - Sách có bản quyền và sách đang lưu hành: Sách đang lưu hành là sách mà nhà xuất bản vẫn đang bán. Với dạng sách này, người dùng chỉ có thể xem trước bìa và đặt mua. - Sách có bản quyền và không còn được xuất bản:
  47. Sách không còn xuất bản là sách không được xuất bản hay bán. Vì vậy cách duy nhất để tìm đọc những cuốn sách này là tìm kiếm trong thư viện hoặc hiệu sách cũ. Hiện tại, Google chỉ có thể hiển thị một số câu liên quan cho hầu hết các sách có bản quyền đã được quyét trong Dự án Thư viện. - Sách không có bản quyền: Với loại sách này, Google cho phép người dùng có thể xem bản xem trước của cuốn sách và trong một số trường hợp thì có thể xem toàn bộ nội dung. Nếu cuốn sách ở miền công cộng (không có bản quyền) người dùng có thể tải xuống bản PDF miễn phí. - Báo, tạp chí. 2.2.5.3 Nguồn gốc sách Sách trong tìm kiếm sách của Google được đến từ 2 nguồn là: - Thông qua Dự án Thư viện: Google hợp tác với các thư viện lớn trên thế giới để đưa bộ sưu tập vào cơ sở dữ liệu sách. Vào tháng 12/2007, Dự án Thư viện đã có 28 thư viện tham gia bao gồm các thư viện Trường Đại học Oxford (Vương quốc Anh), Đại học Complutense Madrid (Tây Ban Nha), Thư viện Quốc gia Catalonia (Tây Ban Nha), Thư viện Đại học Lausanne (Thuỵ Sĩ), Đại học Ghent (Bỉ) và Đại học Keio (Nhật Bản). Với loại sách này, người dùng sẽ xem được những thông tin gì là phụ thuộc vào trạng thái bản quyền của cuốn sách. - Thông qua Chương trình Đối tác: Đối tác ở đây có thể là các nhà xuất bản hoặc các tác giả nhằm đưa sách của họ vào bộ sưu tập sách của Google. Vào tháng 12/2007, Google đã liên kết với hơn 10.000 nhà xuất bản [6] và tác giả từ hơn 100 nước tham gia vào Chương trình Đối tác tìm kiếm sách.
  48. 2.2.5.4 Giao diện hiển thị Tháng 12/2007 giao diện Tìm kiếm Sách đã hỗ trợ hơn 35 ngôn ngữ, từ tiếng Nhật tới tiếng Séc và tiếng Phần Lan. Hình minh hoạ So với tìm kiếm web, hình ảnh, videos, tìm kiếm sách có giao diện nhiều chi tiết hơn. Người dùng có thể lựa chọn sách trong danh sách các chủ đề như sách: kinh tế, văn học, triết học, thơ, hóa học, tôn giáo, khoa học công nghệ, toán học . 2.2.5.5 Tìm kiếm đơn giản Người dùng nhập vào hộp tìm kiếm từ khóa. Google đưa ra kết quả khi tìm thấy một cuốn sách có nội dung phù hợp với từ khóa. Thông tin về cuốn sách: - Gồm một trang giới thiệu về cuốn sách này với dữ liệu thư mục cơ bản bao gồm: tiêu đề, tác giả, nhà xuất bản, độ dài và chủ đề. - Thông tin bổ sung: từ, cụm từ chính tham khảo cho cuốn sách từ những tài liệu xuất bản có tính học thuật hoặc tiêu đề chương, danh sách sách có liên quan.
  49. - Đường liên kết tới vị trí sách, nơi người dùng có thể mua sách và các thư viện có thể mượn sách. 2.2.5.6 Tìm kiếm nâng cao Bao gồm các vùng: - Vùng Find search : Tìm kiếm kết quả - Vùng Search : Tìm tất cả, xem giới hạn và xem đầy đủ, chỉ xem đầy đủ, xem ở vùng công cộng. - Vùng Content : Tìm kiếm theo sách hay tạp chí. - Vùng Language : Trả về các kết quả tìm kiếm được viết bằng một ngôn ngữ cụ thể. Google hiện hỗ trợ hơn 40 ngôn ngữ khác nhau. - Vùng Title : Tìm kiếm theo tiêu đề cụ thể. - Vùng Author: Cho phép người dùng tìm kiếm theo tên tác giả cụ thể. - Vùng Publisher: Cho phép người dùng tìm kiếm theo tên nhà xuất bản cụ thể. - Vùng Subject: Tìm kiếm theo một chủ đề nhất định. - Vùng Publisher Date: Cho phép người dùng tìm kiếm năm xuất bản theo 2 lựa chọn : năm xuất bản bất kỳ hoặc trong khoảng thời gian nhất định từ tháng nào?, năm nào?, đến tháng nào? năm nào? - Vùng ISBN (đối với sách) và vùng ISSN (đối với tạp chí) . 2.2.5.7 Tính năng chính - Xem toàn bộ: Đối với sách không có bản quyền (hết thời gian bản quyền), nhà xuất bản hoặc tác giả đã cho phép sách có thể xem toàn bộ.
  50. Mục đích : giúp người dùng xem bất kỳ trang nào của cuốn sách và nếu sách trong miền công cộng có thể tải xuống, lưu và in bản PDF để đọc. Điều này nhanh, hay chậm sẽ phụ thuộc vào tốc độ đường truyền của người dùng. Hình minh hoạ - Xem trước có hạn chế: Người dùng có thể xem trước một số trang đã giới hạn của cuốn sách.
  51. - Xem một số câu có liên quan: Giống như một danh mục thẻ, Google sẽ hiển thị thông tin về cuốn sách và một số câu có liên quan – một vài từ ngữ tìm kiếm trong ngữ cảnh. Hình minh hoạ
  52. - Không có xem trước: Giống như một danh mục thẻ, người dùng có thể xem thông tin cơ bản về cuốn sách. Hình minh hoạ 2.2.6 Dịch vụ Google News Google News là một trang web tổng hợp tin tức tự động được cung cấp bởi Google. Ý tưởng ban đầu được hình thành từ việc xếp hạng trang web của Google, được phát triển bởi Krishna Bharat vào năm 2001, trưởng bộ phận Nghiên cứu của Google. Không ai được thay thế trang chủ hoặc nội dung của nó. Tất cả đều được thực hiện bằng các giải thuật tổng hợp tin. Google News trở thành bản chính thức vào tháng 1/2006. Google News đươc̣ xây dưṇ g bằng cách tổng hơp̣ các tiêu đề từ nhiều nguồn tin tứ c trên thế giớ i , nhóm các câu chuyện tương tự với nhau và hiển thị chúng theo sở thích riêng của mỗi người đọc. Các bài viết do Google lựa chọn và xếp hạ ng bở i máy tính; máy tính sẽ đánh giá , trong số các tiêu chí khác , tần suất và các trang web mà mỗi câu chuyêṇ hiển thi ̣trưc̣ tuyến trên đó . Do vâỵ , các câu chuyện được phân
  53. loại không dựa trên quan điểm chính trị hoặc hệ tư tưở ng và ngườ i đoc̣ có thể choṇ ra từ nhiều phương diêṇ về bất kỳ câu chuyêṇ nào đươc̣ đưa ra. 2.2.6.1 Tìm kiếm đơn giản Ngườ i đoc̣ có thể lưạ choṇ các chủ đề như tin tứ c h àng đầu, tin tứ c thế giớ i, tin tứ c đươc̣ dán nhãn sao, kinh doanh, giải trí, thể thao, sứ c khỏe, tin tứ c phổ biến nhất Thông thườ ng, trướ c tiên ngườ i đoc̣ tin tứ c se ̃ choṇ môṭ ấn phẩm và sau đó tìm các tiêu đề làm ho ̣quan tâm . Nhưng vì lý do nhằm muc̣ đích cung cấp cho ngư ời đọc nhiều tùy chọn riêng và nhiều lựa chọn hơn nên Google cung cấp các liên kết tớ i môṭ số bài viết về mỗi câu chuyện. Do đó, trướ c tiên, ngườ i đoc̣ có thể quyết điṇ h chủ đề nào ho ̣quan tâm và sau đó chọn bài viết của mỗi câu chuyêṇ của nhà xuất baṇ mà ho ̣muốn đoc̣ . Nhấp vào tiêu đề người đọc quan tâm và họ sẽ đi thẳng tới trang web xuất bản của câu chuyện đó. VD : Nếu muốn đoc̣ bài về câu chuyêṇ của Đaị tá Lý Đaị Bàng, ta có thể đoc̣ ở trang web An ninh thủ đô , Sài gòn giải phóng , hay Tiền phong online. 2.2.6.2 Tìm kiếm nâng cao:
  54. Người dùng có thể sử dụng chức năng tìm kiếm nâng cao để nhận được kết quả chính xác và phù hợp nhất bằng việc lựa chọn như tìm kiếm tin tức theo ngày, theo nguồn tin như CNN, Vietnamnet, Dantri hay theo số lần xuất hiện của từ khóa trong bài viết Hình minh hoạ
  55. CHƢƠNG 3: NHẬN XÉT, ĐÁNH GIÁ VÀ TRIỂN VỌNG CỦA CÔNG CỤ TÌM KIẾM GOOGLE TRONG TƢƠNG LAI 3.1 Nhâṇ xét, đá nh giá 3.1.1 Ưu điểm Google được đánh giá là một công cụ tìm kiếm ưu việt do hội tụ được những ưu điểm sau: - Giao diện tìm kiếm thân thiện với người dùng. - Khả năng tìm kiếm nhanh - Thời gian tìm kiếm ngắn. - Tính chính xác cao. - Kết quả được trình bày rõ ràng, khoa học. - Phạm vi tìm kiếm rộng, ngôn ngữ đa dạng. - Tính chọn lọc cao với các tính năng lựa chọn cụ thể. 3.1.2 Hạn chế Google đã, đang trở thành môṭ công cu ̣tìm kiếm quan troṇ g và hữu dụng đối với người tìm kiếm. Tuy nhiên, điểm hạn chế công cụ này là vẫn chủ yếu tìm kiếm bằng văn bản. Điều này có thể hiểu là Google tìm kiếm kết quả dựa vào từ khóa nhưng dừng lại ở việc so sánh từ khóa đó với từ, chuỗi từ trong cơ sở dữ liệu đã được lưu trữ, mà không dựa vào thuộc tính của từ khóa. Do đó, sẽ dẫn đến các trường hợp sau đây xảy ra : Đối với tìm kiếm bằng Web, khi người dùng đưa ra từ khóa là câu hỏi mang sắc thái đánh giá thì Google sẽ không đưa ra được câu trả lời chính xác.
  56. Đối với tìm kiếm Images hay Videos, Google cũng tìm kiếm dựa vào các thông tin có nội dung liên quan mà không phải dựa vào nội dung của hình ảnh, âm thanh đó. Điều này sẽ làm cho phần lớn các kết quả tìm kiếm không trở nên phù hợp. VD: Tìm kiếm hình ảnh với từ khóa “Thư viện Alexandria”, Google tìm được 2.280 kết quả trong 0,07 giây. Nhưng trong danh sách đó có 20 kết quả tìm chính xác với nội dung là hình ảnh Thư viện Alexandra. Còn lại là những kết quả có nội dung về thành phố Alexandria, đất nước Ai Cập, Kim tự tháp, Thánh đường Hồi giáo Abu Ngoài ra, so với các công cụ tìm kiếm bản địa như www.baidu.com (Trung Quốc), www.xalo.com (Việt Nam), www.naver.com (Hàn Quốc), www.yandex.com (Nga), thường tập trung vào yếu tố ngôn ngữ, cách trình bày kết quả và văn hóa nhằm hướng tới việc tiếp nhận, sử dụng và tìm kiếm thông tin cho cộng đồng người dùng tin xác định thì Google chưa làm tốt vấn đề này.
  57. 3.2 Triển vọng của công cụ tìm kiếm Google trong tƣơng lai Trong tương lai gần, Google nói riêng và các công cụ tìm kiếm nói chung sẽ không có những bước thay đổi đột phá do giao thức mạng Internet không thay đổi. Tuy nhiên, do nhu cầu thông tin của con người cũng ngày càng trở nên phức tạp hơn, cụ thể hóa hơn thì Google sẽ phải có những cải tiến mới. Ngoài tìm kiếm bằng văn bản, Google có thể sẽ phải nghiên cứu để thay thế bằng cách thêm vào trang công cụ phương pháp tìm kiếm dùng âm thanh, hoặc hình ảnh. Bên cạnh đó, xu hướng trong tương lai của Google sẽ không chỉ mở rộng các dịch vụ mới bên cạnh việc hoàn thiện, chỉnh sửa các tính năng các dịch vụ đang tồn tại mà sẽ thay đổi trang kết quả tìm kiếm. Trang kết quả tìm kiếm có thể sẽ ngày càng sinh động và đa dạng hơn bằng cách tích hợp tất cả các dịch vụ. Điều này có thể hiểu là khi người dùng tìm kiếm từ khóa cụ thể, trong danh sách kết quả trả về sẽ không đơn thuần chỉ gồm các trang web (với tìm kiếm web), hay hình ảnh (với tìm kiếm hình ảnh), âm thanh (với tìm kiếm videos) .Bởi mục đích cuối cùng của các công cụ tìm kiếm là giúp người dùng tìm kiếm trở nên thuận tiện và dễ dàng hơn. Ngoài ra, cũng sẽ công bằng hơn đối với người tìm kiếm. Mặt khác, là một công cụ mang tầm cỡ thế giới, cơ sở dữ liệu của Google sẽ ngày càng trở nên khổng lồ thì bắt buộc để duy trì hoạt động, Google sẽ phải lớn cùng với sự gia tăng của Internet. Vấn đề tổ chức, sắp xếp thông tin và làm cho nó được tiếp cận dễ dàng sẽ phức tạp hơn rất nhiều. Để làm được điều này, không chỉ đòi hỏi ở cơ sở vật chất như hệ thống máy chủ (servers), máy trạm, đường truyền, điện năng mà phụ thuộc rất nhiều vào yếu tố con người, hệ thống xếp hạng của Google. Do đó, bên cạnh thuật toán Pagerank vô cùng hữu ích, Google còn đánh giá và
  58. xếp hạng các trang web bằng cả phương pháp tự động và thủ công dựa trên hơn 100 chỉ số chính và con số này không chỉ dừng lại ở đó cũng như không ngừng cập nhật thêm các tiêu chí khác như độ hữu dụng của thông tin trong trang web, độ phổ biến của trang web, chất lượng kỹ thuật Trong tương lai, có thể Google sẽ phát triển thành một trung tâm siêu dữ liệu. Đồng thời, với xu hướng công nghệ mạng hiện nay, Google cũng không ngừng thử nghiệm và mở rộng sang các thị trường ở các lĩnh vực khác như phát thanh, xuất bản và đặc biệt trên thiết bị ứng dụng di động. Do đó, tuy tìm kiếm đang trở thành một lĩnh vực phát triển khá mạnh mẽ với sự xuất hiện của rất nhiều công cụ tìm kiếm trong đó có trang tìm kiếm chuyên sâu, hay trang tìm kiếm bản địa nhưng trong tương lai, nhìn chung Google sẽ vẫn là máy tìm kiếm thông dụng, phổ biến và hiệu quả nhất.
  59. PHẦN III : KẾT LUẬN Khi khối lượng thông tin ngày càng phát triển như hiện nay thì vai trò của các công cụ tìm kiếm thông tin trên Internet đang ngày càng trở nên đặc biệt quan trọng. Với sự tồn tại của rất nhiều máy tìm tin hiện có, cộng thêm sự ra đời liên tiếp của các công cụ tìm kiếm mới đang ngày càng mở ra cơ hội cho người dùng tin trong việc lựa chọn các công cụ tìm kiếm phù hợp nhằm thoả mãn tối đa nhu cầu tin. Tuy nhiên sự đa dạng của các công cụ tìm kiếm đôi khi gây khó khăn, gây “nhiễu” cho người sử dụng, bởi mỗi công cụ tìm kiếm lại có những đặc thù riêng trong việc thu thập, sàng lọc, tổ chức sắp xếp và trình bày thông tin. Trong hàng loạt các công cụ tìm kiếm hiện nay trên thế giới, Google là một trong những công cụ tìm kiếm lớn và có uy tín hàng đầu. Sự phát triển của Google đã phần nào thay đổi bộ mặt của Internet, tăng cường đáng kể vai trò và tầm quan trọng của Internet trong đời sống văn hóa xã hội trên toàn thế giới bằng cách kết nối toàn bộ những người truy cập vào mạng thông tin toàn cầu, không phụ thuộc vào vị trí địa lý cũng như ngôn ngữ sử dụng. Với thế mạnh về công nghệ và sự học hỏi, vươn lên không ngừng của mình, Google đã, đang và sẽ tiếp tục trở thành một công cụ tìm kiếm được yêu thích và sử dụng nhiều nhất trên thế giới.
  60. TÀI LIỆU THAM KHẢO 1. Phan An (2006), “Google sắp xếp và quản lý thông tin toàn cầu”, Tạp chí Tia sáng, (số 7), tr. 47-48. 2. Nguyễn Ngọc Hoàng (2007), Larry Page và Google : Sắp xếp lại hệ thống thông tin toàn cầu, Nxb.Trẻ, TP.Hồ Chí Minh. 3. Hoàng Hồng (2007), Sử dụng hiệu quả trang Web tìm kiếm Google : Tìm kiếm nội dung theo chủ đề, tìm kiếm hình ảnh, Giáo dục, Hà Nội. 4. Lê Minh (2005), “Google và những bí mật chưa từng công bố”, Tạp chí Tin học và đời sống, (số 4), tr. 46-47. 5. Nguyễn Minh (2005), “Tìm kiếm sự đơn giản trong Google”, Tạp chí Bưu chính viễn thông và Công nghệ thông tin, (số 264), tr. 56-57. 6. Thành Phú (2002), Hướng dẫn sử dụng các công cụ tìm kiếm và truy cập thông tin nhanh trên Internet, Thống kê, Hà Nội. 7. Nguyễn Kim Quy (2006), Một số vấn đề liên quan đến Search Engine ứng dụng trong Text, Luận văn Thạc sỹ Công nghệ thông tin, Trường Đại học Công nghệ (ĐHQGHN), Hà Nội. 8. Đoàn Phan Tân (2006), Thông tin học: giáo trình dành cho sinh viên ngành thông tin - thư viện và quản trị thông tin, Đại học Quốc Gia Hà Nội, Hà Nội. 9. John Battelle (2008), The search = Công cụ tìm kiếm, Tri thức, Hà Nội. 10. Một số website: - Website Bách khoa toàn thư : www.wikipedia.com - Website thông tin công nghệ : www.thongtincongnghe.com - Website thông tin seo : www.vietseo.vn
  61. - Website tin tức của báo Tuổi Trẻ : www.nhipsongso.tuoitre.vn - Website tin tức : www.vietbao.vn - Website Thư viện Quốc gia Việt Nam : www.nlv.gov.vn