Tóm tắt Luận văn Tổng hợp và phân tích các tương tác người dùng trên hệ thống Thương Mại Điện Tử

pdf 22 trang phuongvu95 4820
Bạn đang xem 20 trang mẫu của tài liệu "Tóm tắt Luận văn Tổng hợp và phân tích các tương tác người dùng trên hệ thống Thương Mại Điện Tử", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdftom_tat_luan_van_tong_hop_va_phan_tich_cac_tuong_tac_nguoi_d.pdf

Nội dung text: Tóm tắt Luận văn Tổng hợp và phân tích các tương tác người dùng trên hệ thống Thương Mại Điện Tử

  1. 1 PHẦN MỞ ĐẦU 1. Lý do chọn đề tài Trong thời đại cơng nghệ thơng tin ngày càng phát triển như hiện nay, những khái niệm mới cũng từ đĩ liên tục được ra đời và hồn thiện. Một trong số đĩ chính là “Thương mại điện tử”(TMĐT), tuy khơng cịn mới đối với thế giới nhưng ở Việt Nam, khái niệm này vẫn chưa hồn tồn được hiểu và tiếp nhận một cách đúng đắn. Thương mại điện tử nĩi chung là hình thái hoạt động kinh doanh bằng các phương pháp điện tử; là việc trao đổi "thơng tin" kinh doanh thơng qua các phương tiện cơng nghệ điện tử. Cơng nghệ tiên tiến hiện nay giúp doanh nghiệp biến Website của mình thành những siêu thị hàng hĩa trên Internet, biến người mua thực sự trở thành những người chủ với tồn quyền trong việc chọn lựa sản phẩm, tìm kiếm thơng tin, so sánh giá cả, đặt mua hàng, ký kết hợp đồng với hệ thống tính tốn tiền tự động, rõ ràng, trung thực. Từ 2006 đến nay, xu hướng phát triển thương mại điện tử ở Việt Nam sẽ đi theo 03 nhĩm: - Các doanh nghiệp tận dụng thương mại điện tử phục vụ marketing, bán hàng, hỗ trợ khách hàng, mở rộng thị trường, xuất khẩu. - Các doanh nghiệp kinh doanh trong lĩnh vực thương mại điện tử với những website thương mại điện tử. - Doanh nghiệp bắt đầu tận dụng thương mại điện tử B2B để mua sắm nguyên vật liệu phục vụ việc kinh doanh sản xuất một cách tự động hoặc bán tự động. Nhằm nâng cao hiệu quả bán hàng và thực hiện đánh giá các hoạt động trong hoạt động Thương mại điện tử một cách tối ưu phù hợp tơi chọn đề tài: “Tổng hợp và phân tích các tương tác người dùng trên hệ thống Thương Mại Điện Tử” nhằm nghiên cứu về cách tối ưu trong việc Tổng hợp và phân tích các tương tác người dùng trên hệ thống Thương Mại Điện Tử, từ đĩ nâng cao hiệu quả trong việc phát triển hệ thống Thương Mại Điện Tử.
  2. 2 2. Mục đích nghiên cứu Nghiên cứu các phương pháp Tổng hợp và phân tích các tương tác người dùng trên hệ thống Thương Mại Điện Tử, để Ứng dụng trong việc Tổng hợp và phân tích các tương tác người dùng trên hệ thống Thương Mại Điện Tử. 3. Phạm vi nghiên cứu Xây dựng hệ thống ứng dụng trích rút tri thức đánh giá sự quan tâm của khách hàng trên trang www.thegioididong.com. 4. Đối tượng nghiên cứu Bài tốn tổng hợp và phân tích các tương tác người dùng trên hệ thống Thương Mại Điện Tử, ứng dụng trên trang www.thegioididong.com. 5. Giả thuyết khoa học Việc lựa chọn và mua hàng Online trên mạng Internet ngày càng phát triển và phổ biến tới người dân, nhưng cũng tồn tại song song với sự phát triển đĩ, khơng ít những mặt hàng, gian hàng lợi dụng vào sự phát triển này quảng cáo và bán những mặt hàng kém chất lượng hoặc giá cả cao, tạo cho người dùng khơng cĩ cái nhìn và đánh giá chính xác về chất lượng cũng như giá cả của mặt hàng. Nếu triển khai được hệ thống Tổng hợp và phân tích các tương tác người dùng trên hệ thống Thương Mại Điện Tử được nghiên cứu và đưa vào ứng dụng thì sẽ khắc phục được những hạn chế trên. 6. Nhiệm vụ nghiên cứu - Nghiên cứu bài tốn Tổng hợp và phân tích các tương tác người dùng trên hệ thống Thương Mại Điện Tử - Nghiên cứu thực trạng việc Tổng hợp và phân tích các tương tác người dùng trang www.thegioididong.com. - Triển khai ứng dụng Bài tốn nghiên cứu trích rút tri thức đánh giá sự quan tâm của khách hàng của trang www.thegioididong.com. 7. Phương pháp nghiên cứu Nghiên cứu lý thuyết: Tìm đọc tài liệu, đối chiếu, so sánh, rút trích, tổng hợp, phân tích, viết thành báo cáo luận văn. Nghiên cứu thực tiễn:
  3. 3 + Nghiên cứu thực trạng việc Tổng hợp và phân tích các tương tác người dùng trang www.thegioididong.com. + Triển khai xây dựng hệ thống trích rút tri thức đánh giá sự quan tâm của khách hàng trên trang www.thegioididong.com. Thực nghiệm: Cài đặt, kiểm thử hệ thống. 8. Cấu trúc luận văn Ngồi phần mở dầu, kết luận và tài liệu tham khảo, luận văn được bố cục thành 3 chương: Chương 1. Tổng quan về Bài tốn Tổng hợp và phân tích các tương tác người dùng trên hệ thống Thương Mại Điện Tử Chương 2. Thực trạng việc Tổng hợp và phân tích các tương tác người dùng trang www.thegioididong.com. Chương 3. Triển khai ứng dụng Bài tốn nghiên cứu trích rút tri thức đánh giá sự quan tâm của khách hàng của trang www.thegioididong.com.
  4. 4 Chương 1 TỔNG QUAN VỀ BÀI TỐN TỔNG HỢP VÀ PHÂN TÍCH CÁC TƯƠNG TÁC NGƯỜI DÙNG TRÊN HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ 1.1. Thương mại điện tử 1.1.1. Khái niệm Thương mại điện tử Thương mại điện tử, hay cịn gọi là e-commerce (EC). Cho đến hiện tại cĩ nhiều định nghĩa khác nhau về thương mại điện tử. Các định nghĩa này xem xét theo các quan điểm, khía cạnh khác nhau. Theo quan điểm truyền thơng, thương mại điện tử là khả năng phân phối sản phẩm, dịch vụ, thơng tin hoặc thanh tốn thơng qua một mạng thường là World Wide Web. Theo quan điểm giao tiếp, thương mại điện tử liên quan đến nhiều hình thức trao đổi thơng tin giữa doanh nghiệp với nhau, giữa khách hàng với doanh nghiệp và giữa khách hàng với khách hàng. Theo quan điểm mơi trường kinh doanh, thương mại điện tử là một mơi trường cho phép cĩ thể mua bán các sản phẩm, dịch vụ và thơng tin trên Internet. Sản phẩm cĩ thể hữu hình hay vơ hình. Theo quan điểm cấu trúc, thương mại điện tử liên quan đến các phương tiện thơng tin để truyền: văn bản, trang web, điện thoại Internet, video Internet. Sau đây là một số định nghĩa khác về thương mại điện tử: Cục Thống kê Hoa kỳ định nghĩa thương mại điện tử là việc hồn thành bất kỳ một giao dịch nào thơng qua một mạng máy tính làm trung gian mà bao gồm việc chuyển giao quyền sở hữu hay quyền sử dụng hàng hố và dịch vụ. Theo nghĩa rộng cĩ nhiều định nghĩa khác về thương mại điện tử như thương mại điện tử là tồn bộ chu trình và các hoạt động kinh doanh liên quan đến các tổ chức hay cá nhân hay thương mại điện tử là việc tiến hành hoạt động thương mại sử dụng các phương tiện điện tử và cơng nghệ xử lý thơng tin số hố. Liên minh châu Âu định nghĩa thương mại điện tử bao gồm các giao dịch thương mại thơng qua các mạng viễn thơng và sử dụng các phương tiện điện
  5. 5 tử. Nĩ bao gồm thương mại điện tử gián tiếp (trao đổi hàng hố hữu hình) và thương mại điện tử trực tiếp (trao đổi hàng hố vơ hình). Định nghĩa của WTO Thương mại điện tử bao gồm việc sản xuất, quảng cáo, bán hàng và phân phối sản phẩm được mua bán và thanh tốn trên mạng Internet, nhưng được giao nhận cĩ thể hữu hình hoặc giao nhận qua Internet dưới dạng số hố. 1.2. Thơng tin trên các hệ thống thương mại điện tử 1.2.1. Nguồn thơng tin, dữ liệu Hiện nay, các thơng tin được sử dụng 2 kênh chính, mạng xã hội và các website. Mạng xã hội Mạng xã hội là dịch vụ nối kết các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau khơng phân biệt khơng gian và thời gian. Những người tham gia vào mạng xã hội cịn được gọi là cư dân mạng [2]. Mạng xã hội cĩ những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ file, blog và xã luận. Mạng đổi mới hồn tồn cách cư dân mạng liên kết với nhau và trở thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới. Các dịch vụ này cĩ nhiều phương cách để các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví dụ như tên trường hoặc tên thành phố), dựa trên thơng tin cá nhân (như địa chỉ e-mail), hoặc dựa trên sở thích cá nhân (như thể thao, phim ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan tâm (như kinh doanh, mua bán) Hiện nay thế giới cĩ hàng trăm mạng mạng xã hội khác nhau, với MySpace và Facebook nổi tiếng nhất trong thị trường Bắc Mỹ và Tây Âu, Châu Á Thái Bình Dương; Orkut và Hi5 tại Nam Mỹ. Mạng xã hội khác gặt hái được thành cơng đáng kể theo vùng miền như Bebo tại Anh Quốc, CyWorld tại Hàn Quốc, Mixi tại Nhật Bản và tại Việt Nam xuất hiện rất nhiều các mạng xã hội như: Zing Me, YuMe, Tamtay Lợi ích mà mạng xã hội cĩ thể mang lại cho doanh nghiệp bao gồm: - Thiết lập mối quan hệ với số đơng khách hàng mục tiêu. - Khả năng lan truyền thơng tin nhanh chĩng.
  6. 6 - Các hoạt động trực tuyến sẽ truyền cảm hứng cho các cuộc hội thoại trong "thế giới thực". - Thơng tin cá nhân khá chân thực về người dùng. - Cơ hội để kể chuyện về doanh nghiệp và sản phẩm của bạn đồng thời tăng độ nhận biết thương hiệu. - Gia tăng trải nghiệm của người dùng. Về mặt bản chất, mạng xã hội chính là hình thức làm marketing truyền miệng trên mơi trường Internet. "Tiếng lành đồn xa, tiếng dữ đồn xa", với khả năng lan truyền thơng tin cực nhanh, mạng xã hội cĩ thể trở thành "kẻ hủy diệt" doanh nghiệp một khi những tin tức bất lợi được lan truyền vượt quá khả năng kiểm sốt của doanh nghiệp. Vì thế, thâm nhập các mạng xã hội tập trung đơng đảo nhĩm khách hàng mục tiêu để hiểu rõ hơn nhu cầu của họ, đồng thời hạn chế tối đa các rủi ro cho doanh nghiệp là việc tất yếu mà các marketer nên làm. Mạng xã hội được cung cấp bởi các nhà cung cấp dịch vụ, nên người dùng chỉ cĩ thể thực hiện các chức năng do họ cung cấp. Khả năng làm chủ rất thấp. Các thơng tin chủ yếu là các comment Các mạng xã hội phổ biến tại Việt Nam Mạng xã hội đang là loại hình kết nối phổ biến nhất hiện nay, khơng chỉ tại Việt Nam mà cịn trên thế giới. Tùy từng thĩi quen theo khu vực mà mỗi nơi lại cĩ những mạng xã hội phổ dụng khác nhau. Sau đây là một số mạng xã hội rất phổ biến tại Việt Nam hiện nay. - Facebook Facebook xứng đáng là mạng xã hội lớn nhất thế giới hiện nay. Dù mới cập bến Việt Nam chưa lâu, nhưng Facebook đã nhanh chĩng lan nhanh khắp các tỉnh và thành phố với tốc độ chĩng mặt. Điều hấp dẫn người sử dụng ở mạng xã hội này chính là khả năng liên kết và chia sẻ thơng tin nhanh chĩng, giao diện đơn giản và dễ sử dụng. Nhờ vậy mà chúng ta cĩ thể dễ dàng tìm kiếm, theo sát và cập nhật sự kiện, tình hình xung quanh cuộc sống của mình. Truy cập Facebook thơng qua các thiết bị di động mỗi khi rảnh rỗi là một thĩi quen và phản xạ thường gặp ở rất nhiều người Việt Nam hiện nay. Facebook
  7. 7 đã và đang chiếm vị trí quan trọng như thế nào? Câu trả lời mỗi người chúng ta hẳn đều đã biết rất rõ. - ZingMe ZingMe là một mạng xã hội được cung cấp bởi một nhà phát triển đến từ Việt Nam. Nhờ đĩ, ZingMe rất gần gũi và thân thiện hơn so với các trang mạng xã hội đến từ nước ngồi khác. Nhìn thống qua thì chúng ta sẽ rất dễ nhầm giao diện của ZingMe so với Facebook vì cả hai cĩ khá nhiều nét tương đồng. Tuy nhiên, điểm mạnh của ZingMe đĩ là sự liên kết của nĩ với nhiều trang mạng được ưa chuộng khác trong hệ thống của Zing như Zing News, Zing MP3, trong đĩ Zing Mp3 cịn được đánh giá là trang nghe nhạc trực tuyến lớn nhất Việt Nam. Nhờ vậy, các thơng tin và chia sẻ liên quan đến các ca sĩ được ưa thích trong nước được cập nhật tới người sử dụng vơ cùng dễ dàng trên ZingMe, họ được theo sát thần tượng của mình mọi lúc mọi nơi trong một mơi trường mạng xã hội khơng hề thua kém gì Facebook. - Youtube Cĩ thể nĩi khả năng đáp ứng nhu cầu chia sẻ thơng tin liên quan đến các vấn đề giải trí, kinh tế, xã hội, thời sự, tồn cầu thơng qua video chính là thế mạnh của mạng chia sẻ video trực tuyến này. Bên cạnh đĩ, nhờ việc kết hợp với Gmail do cùng đặt dưới sự phát triển của Google giúp một phần lớn người sử dụng đã mặc định cĩ tài khoản trên Youtube. Mạng xã hội này hỗ trợ rất tốt cho nhu cầu quảng bá hình ảnh, tuyên truyền những nội dung giáo dục và phát triển con người cũng như giúp các vấn đề xã hội được nhận định, đánh giá một cách khách quan thơng qua tính năng hỗ trợ bình luận phía dưới. Thơng tin trên website thương mại điện tử Các thơng tin trên trang thương mại điện tử được thiết lập để phục vụ một phần hoặc tồn bộ quy trình của hoạt động mua bán hàng hĩa hay cung ứng dịch vụ, từ trưng bày giới thiệu hàng hĩa, dịch vụ đến giao kết hợp đồng, cung ứng dịch vụ, thanh tốn và dịch vụ sau bán hàng.
  8. 8 Dù cĩ độ phủ người dùng thấp hơn mạng xã hội, tuy nhiên việc tự xây dựng các website thương mại điện tử cũng mang lại nhiều lợi ích. Lớn nhất đĩ là chủ động trong các cơng việc: - Quản lý tồn bộ sản phẩm trên web thương mại điện tử một cách đơn giản và nhanh chĩng. - Cập nhật cải tiến quản lý website dễ dàng. - Cung cấp đầy đủ những thơng tin chi tiết về sản phẩm giúp khách hàng dễ dàng lựa chọn được sản phẩm phù hợp. - Cung cấp phương thức thanh tốn đa dạng, linh hoạt một cách gián tiếp hoặc trực tiếp bằng chức năng thanh tốn trực tuyến với những đối tác uy tín. - Tăng cường mối liên hệ tương tác khách hàng – doanh nghiệp nhờ tính năng bình chọn, đánh giá, comment độc lập về sản phẩm - Tích hợp sẵn các tính năng quảng bá website trên Internet, cho phép tối ưu hĩa quảng bá hình ảnh sản phẩm và doanh nghiệp. 1.2.2. Tương tác người dùng trong thương mại điện tử 1.2.2.1. Tầm quan trọng của tương tác người dùng Xét trên khía cạnh khách hàng và sản phẩm, người dùng cĩ thể thể hiện sự quan tâm của mình thơng qua các tương tác như like, click, view trang web cĩ sản phẩm đĩ. Hoặc sau khi mua và cĩ những trải nghiệm thực tế, người dùng đưa ra những phản hồi đánh giá hoặc tư vấn cho những khách hàng khác. Hiện nay, cĩ hàng triệu những tương tác như vậy trên các website giới thiệu sản phẩm hoặc bán hàng trực tuyến. Các dữ liệu này cĩ ý nghĩa rất quan trọng đối với các doanh nghiệp sản xuất hoặc phân phối. Các thơng tin này cĩ thể biết được cảm nhận của khách hàng về sản phẩm, các đặc tính, chức năng, giá cả, chất lượng dịch vụ cĩ đủ sức thu hút được khách hàng hay khơng, từ đĩ cĩ những thay đổi cho phù hợp. Các thơng tin này đem lại lợi ích sau: - Dựa trên những thơng tin thu thập được giúp ta đánh giá được chi phí phát triển và sản xuất, tăng tốc độ đưa sản phẩm phù hợp ra thị trường. - Nắm bắt xu hướng, tạo ra những sản phẩm đáp ứng nhiều nhu cầu của phần lớn người dùng.
  9. 9 - Nắm bắt được về các xu hướng mua sản phầm, giảm lượng hàng tồn kho và độ trễ trong phân phối hàng hĩa nhờ dự đốn thĩi quen mua sắm tại từng khu vực. - Nâng cao hình ảnh, cải thiện chất lượng hàng hĩa, dịch vụ gĩp phần tăng uy tín cho doanh nghiệp. Với người tiêu dùng, lợi ích là nhận được sự tư vấn từ chính những người đã từng sử dụng, cĩ được nhiều đánh giá thực tế và cái nhìn tổng quát về sản phẩm trước khi đưa ra các quyết định mua sắm. Mặc dù cĩ giá trị như vậy, nhưng với những hàng hĩa được nhiều khách hàng quan tâm, lượng tương tác cĩ thể rất nhiều, đọc hết chúng là điều khơng thể. Chưa kể ngồi những tương tác cĩ nội dung rõ ràng, mang tính chất đánh giá về sản phẩm, cịn cĩ nhiều tương tác dài dịng, nhiều câu chữ nhưng lại cĩ số ít đề cập đến ý kiến về sản phẩm. Điều này gây ra sự nhiễu thơng tin, nhàm chán cho người đọc. Nếu doanh nghiệp hay các khách hàng chỉ đọc một số ít trong đĩ thì họ sẽ khơng cĩ được cái nhìn tổng quát về sản phẩm. Do đĩ, nhu cầu hiện nay là cần cĩ một cơng cụ để thu thập và phân tích, trích rút tri thức, đưa ra những kết quả mà người dùng mong muốn một cách nhanh chĩng. 1.3. Bài tốn trích rút tri thức và đánh giá sự quan tâm của người dùng trên hệ thống Thương Mại Điện Tử Bài tốn nghiên cứu trích rút tri thức đánh giá sự quan tâm của người dùng trên hệ thống thương mại điện tử sử dụng các dữ liệu thu thập được trên các website thương mại điện tử để đánh giá thơng tin về một số sản phẩm. 1.4. Tiểu kết chương 1 Chương 1 đã cho chúng ta cái nhìn tổng quan về thương mại điện tử, các thơng tin trên các hệ thống thương mại điện tử như nguồn dữ liệu, các tương tác giữa người dùng và hệ thống, từ đĩ đưa ra các bài tốn trích rút trí thức và đánh giá sự quan tâm của người dùng lên các hệ thống thương mại điện tử. Nếu chỉ dùng cơng thức tính ra điểm độ quan tâm như phương pháp truyền thống thì trong thực tế chúng tơi thấy các vấn đề phát sinh:
  10. 10 - Khi người dùng mới đăng kí, họ sẽ chưa nhận được sự tư vấn ngay. Nguyên nhân của vấn đề này là do chưa cĩ dữ liệu lịch sử về các đánh giá trong quá khứ, làm cho thuật tốn lọc cộng tác khơng hoạt động được. - Nếu người dùng mới, cĩ thời gian sử dụng ít và lượng đánh giá sản phẩm cịn nhỏ, các gợi ý cĩ thể khơng sát với mong muốn của họ. Hiện nay cĩ rất nhiều loại tương tác khác nhau cĩ thể được thu thập. Chúng thể hiện rất tốt sự quan tâm và đánh giá của người dùng đối với sản phẩm. Từ đĩ tơi đưa ra ý tưởng kết hợp tính điểm các tương tác này để trở thành một trọng số trong kết quả tư vấn đầu ra, giúp giải quyết các vấn đề: - Người dùng mới đăng kí, chưa cĩ lịch sử đánh giá hàng hĩa, nhưng dựa vào trọng số tương tác, hệ thống tư vấn hồn tồn cĩ thể đưa ra được gợi ý những sản phẩm được những người dùng khác đánh giá tốt nhất. - Khi ma trận user – item cĩ dữ liệu thưa, thì trọng số cũng giúp cải thiện được kết quả đầu ra. Gợi ý những sản phẩm cĩ được đánh giá cao nhất. - Các sản phẩm được đánh giá cao nhất được tính tốn tổng hợp từ nhiều người dùng và nhiều tiêu chí, chứ khơng chỉ tập trung ở một khía cạnh nào. Tạo sự khách quan về chất lượng trong hệ thống tư vấn.
  11. 11 Chương 2 THỰC TRẠNG VIỆC TỔNG HỢP VÀ PHÂN TÍCH CÁC TƯƠNG TÁC NGƯỜI DÙNG TRANG WWW.THEGIOIDIDONG.COM 2.3. Đánh giá hệ thống www.thegioididong.com - Nguồn thơng tin dữ liệu Hệ thống www.thegioididong.com là 1 hệ thống thương mại điện tử lớn, cĩ số lượng sản phẩm lớn, đa dạng về chủng loại, kiểu dáng đáp ứng được mọi nhu cầu của khách hàng về các sản phẩm điện thoại, laptop Theo thơng kê trên trang ahref.com, một trang uy tín về phân tích dữ liệu thì website www.thegioididong.com cĩ hơn 72000 trang. - Lượng và nguồn truy cập của khách hàng Đi cùng với nguồn thơng tin dữ liệu lớn thì website www.thegioididong.com cịn cĩ lượng truy cập từ khách hàng rất cao. Tơi đã sử dụng similarweb.com, website rất lớn về phân tích các website để phục vụ cho việc phân tích Marketing – SEO để cĩ những số liệu cụ thể về website www.thegioididong.com. Theo website similarweb.com thống kê thì website www.thegioididong.com cĩ 95,38M truy cập trong 3 tháng gần nhất và nguồn truy cập chủ yếu từ máy tính là 24,50% và từ di động và máy tính bảng là 75,50%. Website www.thegioididong.com xếp hạng 1478 trên thế giới và xếp hạng 25 ở Việt Nam. Qua những phân tích ở trên thì ta thấy hệ thống thương mại điện tử www.thegioididong.com cĩ số lượng sản phẩm lớn, đa dạng về chủng loại, kiểu dáng , cĩ lượng truy cập từ khách hàng lớn và ổn định. 2.4. Tiểu kết chương 2 Hệ thống thương mại điện tử www.thegioididong.com là 1 hệ thống thương mại điện tử lớn, đươc xây dựng và phát triển từ lâu, cĩ số lượng sản phẩm lớn, đa dạng về chủng loại, kiểu dáng , cĩ lượng truy cập từ khách hàng lớn và ổn định. Trên thống thương mại điện tử www.thegioididong.com cĩ nhiều tương tác dạng bình luận chất lượng tương ứng với mỗi sản phẩm, việc lấy các bình luận này cũng tương đối dễ dàng nên tơi chọn hệ thống thương mại điện tử www.thegioididong.com để nghiên cứu trích rút tri thức đánh giá sự quan tâm của khách hàng đối với hệ thống
  12. 12 Chương 3 TRIỂN KHAI ỨNG DỤNG BÀI TỐN NGHIÊN CỨU TRÍCH RÚT TRI THỨC ĐÁNH GIÁ SỰ QUAN TÂM CỦA KHÁCH HÀNG CỦA TRANG WWW.THEGIOIDIDONG.COM 3.2. Giải pháp thu thập thơng tin, dữ liệu 3.1.1. Lựa chọn nguồn thơng tin, dữ liệu Với các loại tương tác đã nêu ở chương 1, các tương tác dạng click chuột và khả năng hiển thị đã được dịch vụ của Google cung cấp. Chúng ta cần quyền quản trị để thực hiện việc lấy thơng tin. Vì tơi khơng cĩ quyền quản trị website www.thegioididong.com nên trong đề tài này, tơi sẽ tập trung vào việc lấy ra các dữ liệu tương tác dạng bình luận. Từ trang web www.thegioididong.com, mục tiêu là sẽ lấy ra được các sản phẩm và các bình luận của các sản phẩm tương ứng một cách tự động. Với các thơng tin chính sau: - ID của sản phẩm trên trang www.thegioididong.com - Tên sản phẩm - Tên người viết bình luận - Nội dung bình luận - Thời gian bình luận 3.2.2. Các bước thu thập thơng tin, dữ liệu tự động B1. Phân tích cấu trúc HTML của website Với các website thương mại điện tử như trang www.thegioididong.com, khơng bắt buộc phải đăng nhập để cĩ thể tìm kiếm và xem được các thơng tin về sản phẩm. Vì vậy, việc load các trang HTML về để phân tích cĩ tính khả thi cao. Tuy nhiên, trang HTML này chứa rất nhiều các thơng tin khơng cần thiết đối với chúng ta. Ví dụ, với sản phẩm iPhone Xr 64G, một trang chứa các thơng tin chính sau: - Tên sản phẩm - Thơng tin cụ thể của sản phẩm - Thơng tin khuyến mại sản phẩm
  13. 13 - Các bình luận phản hồi, hỏi đáp về sản phẩm - Các tin tức, hướng dẫn - Các sản phẩm tương tự - Các phụ kiện đi cùng sản phẩm Để phân tích lấy được những dữ liệu dự kiến cần thu thập, bước đầu cần phân tích cấu trúc của file HTML. Sau khi phân tích, tơi đã lọc ra những thẻ chứa thơng tin thơng tin cần thiết. Cụ thể: Bảng 7: Các thẻ và thơng tin tương ứng trong văn bản HTML trên vatgia.com Thơng STT Thẻ HTML Ghi chú tin 1 ID sản Idata là ID phẩm var product = { sản phẩm identifier: '190325', category: ['Điện thoại', 'iPhone (Apple)'], fn: 'iPhone Xr 64GB', description: '', brand: '', price: '22990000', amount: '22990000', currency: 'VND', url: ' phone-xr', photo: ' 2/190325/iphone-xr-black- 600x600.jpg', valid: '0' };
  14. 14 2 Tên sản phẩm var product = { identifier: '190325', category: ['Điện thoại', 'iPhone (Apple)'], fn: 'iPhone Xr 64GB', description: '', brand: '', price: '22990000', amount: '22990000', currency: 'VND', url: ' phone-xr', photo: ' 2/190325/iphone-xr-black- 600x600.jpg', valid: '0' }; 3 ID các Một trang sản phẩm rất nhiều <img data- link liên original=" quan. /Images/42/190325/iphone-xr-black- Nhưng 400x400.jpg" class="lazy" những link src=" cĩ iData thì ges/42/190325/iphone-xr-black- sẽ là các sản
  15. 15 400x400.jpg" style="display: phẩm liên inline;"> quan Bạn đang xem: iPhone Xr 64GB 22.990.000₫ Màn hình 6.1" Camera sau 12 MP Pin 2942 mAh
  16. 16 4 Tên 5 Nội dung Chuyện là comment mình cĩ cái ip5s nhưng ko hiểu sao xài nĩ rất là hao pin dù là coi người ta chỉ rồi nhưng vẫn ko khác gì !! Nhân viên kỹ thuật chỉ mình với B2. Lấy bình luận các sản phẩm Xây dựng module xử lý văn bản HTML DOM (Document Object Model - Mơ hình Đối tượng Tài liệu), là một giao diện lập trình ứng dụng (API). Thường thường DOM, cĩ dạng một cây cấu trúc dữ liệu, được dùng để truy xuất các tài liệu dạng HTML và XML. Mơ hình DOM độc lập với hệ điều hành và dựa theo kỹ thuật lập trình hướng đối tượng để mơ tả tài liệu [3] DOM được sử dụng tốt nhất trong các ứng dụng mà các thành phần của tài liệu cĩ thể được truy xuất và thao tác một cách ngẫu nhiên. Với các ứng dụng dựa trên XML, bao gồm yêu cầu đọc/ghi cĩ chọn lọc cho mỗi lần phân tích (one-time selective read/write per parse), DOM cho thấy được sự tối ưu về mặt bộ nhớ.
  17. 17 Hình 15: DOM trong một cây cĩ cấu trúc Việc sử dụng các thư viện DOM cĩ sẵn (ví dụ trong bộ .NET của Microsoft) để phân tích file HTML sẽ rất mất thời gian. Trước đây, các lập trình viên thường dùng hiện nay là sử dụng Regex để tách các thẻ trong văn bản HTML. Html Agility Pack là một bộ thư viện mã nguồn mở miễn phí được thiết kế nhằm mục đích đơn giản hĩa việc đọc và ghi tài liệu HTML, nĩ phục vụ đắc lực cho việc rút trích dữ liệu trên bất kỳ một tài liệu HTML nào. Thư viện này cho phép duyệt qua nội dung HTML như là một tài liệu XML bằng cú pháp của XPath. Ta cĩ thể dễ dàng hơn trong việc lấy dữ liệu trên cây DOM của tài liệu HTML, di chuyển từ node này sang node khác, hoặc chuyển đến node con một cách dễ dàng. Trích xuất dữ liệu - Lấy danh sách các sản phẩm Sau khi phân tích nội dung của file HTML và xác định được các thẻ chứa thơng tin cần thiết. Để đơn phân tách và đơn giản hĩa các cơng việc cần làm, tơi sẽ lấy ra danh sách các sản phẩm trước. Từ đĩ, lấy thơng tin tương ứng như người dùng, thời gian và nội dung comment sau. Thuật tốn đệ quy được sử dụng, để tự động quét các link cĩ trong trang web.
  18. 18 Nhập link sản phẩm Tải văn bản HMTL Tách lấy ID và link của các sản phẩm cĩ trong văn bản Yes Số lượng Lấy ID vào bảng Xây dựng link của sản ID > 1 kết quả phẩm tiếp theo No Lấy ID vào bảng kết quả Hình 16: Sơ đồ thuật tốn lấy danh sách các sản phẩm - Lấy comment của từng sản phẩm Khi đã cĩ danh sách các ID tương tứng với danh sách các sản phẩm, việc lấy các thơng tin về comment tương đối dễ dàng. Chúng ta chỉ cần sử dụng phần tử DOM đã phát triển ở trên để tách thơng tin khỏi file HTML. 3.3. Phân tích, thiết kế hệ thống Use Case chính của hệ thống Kiểm tra Username «include» Đăng nhập «include» «uses» «extends» Kiểm tra password Đăng kí «uses» Người dùng «uses» Xem sản phẩm gợi ý «extends» «extends» Xem các sản phẩm Đánh giá sản phẩm Hình 24: Use case hệ thống
  19. 19 Thiết kế các bảng trong cơ sở dữ liệu Hình 25: Thiết kế cơ sở dữ liệu Trong đĩ: - tblUserAccount: chứa thơng tin về tài khoản của người dùng - tblProduct: chứa thơng tin về sản phẩm thu thập được - tblRating: các đánh giá của người dùng thu thập được 3.4. Cài đặt và thử nghiệm 3.4.1. Xây dựng và cài đặt hệ thống Tơi tiến hành xây dựng hệ thống đánh giá thơng tin sản phẩm được xây dựng dưới dạng một website cung cấp thơng tin về sản phẩm giúp người dùng cĩ thể chọn các hàng hĩa mà mình yêu thích. Mơ hình hệ thống gồm các thành phần: người dùng, máy chủ web, module tư vấn và CSDL. Người dùng truy cập vào website cĩ thể xem thơng tin sơ bộ về các sản phẩm. Khi đăng nhập vào hệ thống, người dùng sẽ cĩ quyền đánh giá các sản phẩm và dùng chức năng tư vấn các mặt hàng mình cĩ thể yêu thích. Module tư vấn sẽ chạy trước các tính tốn trong pha offline, đầu ra là ma trận kết quả tư vấn. Khi người dùng kích hoạt chức năng này, hệ thống sẽ chỉ việc vào CSDL và lấy ra các tư vấn cần thiết, nên tốc độ đưa ra kết quả là rất nhanh.
  20. 20 - Input: Trong thử nghiệm này, tơi chạy chương trình trên bộ dữ liệu cĩ 706 user và 1557 sản phẩm. - Output: ma trận điểm trọng số từng sản phẩm và ma trận kết quả dự đốn. Hệ thống đánh giá thơng tin sản phẩm được phát triển trên mơi trường .NET, dùng hệ quản trị cơ sở dữ liệu SQL Server của Microsoft, cĩ thể dễ dàng triển khai trong thực tế. Giao diện chính của hệ thống: 3.2.2. Kết quả thử nghiệm Để đánh giá hiệu quả của hệ thống, tơi sử dụng độ đo mà cộng đồng người dùng trong lĩnh vực hệ thống gợi ý thường sử dụng là Root Mean Squared Error (RMSE). RMSE được xác định qua cơng thức: Với: Dtest ( Ux Ix R) là tập dữ liệu dùng để đánh giá; (u, i, r) tương ứng là user, item và rating; r là giá trị đánh giá thực tế, cịn rˆ (u,i) là giá trị dự đốn tương ứng của user u trên item i. Kết quả thu được: Phương pháp RMSE Lọc cộng tác 1.114771 Lọc cộng tác kết hợp trọng 0.934826 số 3.5. Tiểu kết chương 3 Tromg chương này, tơi trình bày chi tiết cách thực hiện việc thu thập dữ liệu từ nguồn thegioididong.com. Sau đĩ tiến hành phân tích tài liệu XML để trích xuất được các câu bình luận về sản phẩm. Quá trình phân tích, thiết kế và xây dựng hệ thống được thực hiện dựa trên thuật tốn đã nêu ở chương 2. Để đánh giá hiệu quả của hệ thống, tơi sử dụng độ đo mà cộng đồng người dùng trong lĩnh vực hệ thống gợi ý thường sử dụng là Root Mean Squared Error (RMSE), kết quả là cĩ đạt được cải tiến so với phương pháp truyền thống.
  21. 21 KẾT LUẬN VÀ KHUYẾN NGHỊ 1. Kết luận Những vấn đề đã giải quyết được: Luận văn tập trung nghiên cứu, tìm hiểu các phương pháp thu thập thơng tin trên hệ thống thương mại điện tử www.thegioididong.com, từ đĩ trích rút tri thức đánh giá sự quan tâm của khách hàng với một số sản phẩm - Tìm hiểu tổng quan về thương mại điện tử, các hình thức, thực trạng, xu hướng, lợi ích và hạn chế của hệ thống thương mại điện tử từ đĩ lọc ra những thơng tin cĩ giá trị. - Đi sâu nghiên cứu trích rút tri thức đánh giá sự quan tâm của khách hàng về các sản phầm trên các trang thương mại điện tử, việc phân tích phải dựa trên cấu trúc XML của từng website nên phải cĩ sự phân tích để cĩ thể trích rút được. - Đưa ra phương pháp đánh giá về sự quan tâm của khách hàng về các sản phẩm trên các dữ liệu thu thập được. Kết hợp phương pháp đánh giá độ tương quan truyền thống với cải tiến bổ sung điểm trọng số để giải quyết bài tốn trong trường hợp người dùng mới hoặc dữ liệu thưa. Khi dữ liệu đầy đủ, thuật tốn vẫn cĩ thể đưa ra gợi ý chính xác hơn, dựa trên sự đánh giá của những người dùng khác nữa. - Lập trình đánh giá trích rút thơng tin từ những dữ liệu thu thập được từ hệ thống thương mại điện tử www.thegioididong.com Những hạn chế của luận văn: Do hạn chế về mặt thời gian nghiên cứu cũng như trình độ học thuật, nên một số vấn đề được phân tích, nghiên cứu trong luận văn chắc chắn vẫn cịn thiếu sĩt. Luận văn sử dụng phương pháp KNN để thực hiện việc phân lớp dữ liệu cĩ độ chính xác khơng cao bằng phương pháp Nạve Bayes và sử dụng đại số gia tử để phân lớp. Cịn các thành phần khác vẫn chưa được tối ưu để hệ thống được hồn thiện hơn.
  22. 22 Ngồi ra việc chạy thuật tốn tại pha offline với lượng dữ liệu lớn cịn khá chậm, do phải tính tốn sự tương quan giữa nhiều sản phẩm hoặc người dùng với nhau gây ảnh hưởng đến quá trình cập nhật điểm tương tác. Tơi hy vọng những hạn chế, thiếu sĩt của luận văn này sẽ được khắc phục trong các nghiên cứu sâu hơn. Rất mong nhận được nhiều ý kiến đĩng gĩp về từ các quý thầy cơ và đồng nghiệp. Hướng nghiên cứu phát triển: Tiếp tục nghiên cứu thêm về các phương thức khai thác dữ liệu trên các trang thương mại điện từ nĩi riêng và trên internet nĩi chung. Phát triển thêm các kỹ thuật đánh giá, trích rút thơng tin cĩ độ chính xác cao hơn, cĩ thể áp dụng vào cho các bài tốn cụ thể cho từng dịng sản phầm 2. Khuyến nghị Từ kết quả thu được của luận văn, cĩ thể cải tiến khả năng thu thập dữ liệu sử dụng Nạve Bayes và sử dụng đại số gia tử để phân lớp khai thác dữ liệu trên các trang thương mại điện từ nĩi riêng và trên internet nĩi chung. Giải pháp này khi dữ liệu đầy đủ, thuật tốn vẫn cĩ thể đưa ra gợi ý chính xác hơn, dựa trên sự đánh giá của những người dùng khác nữa.