Sử dụng phần mềm xử lý số liệu SPSS và r trong nghiên cứu về khoa học giảng dạy Vật lý

pdf 109 trang thiennha21 5500
Bạn đang xem 20 trang mẫu của tài liệu "Sử dụng phần mềm xử lý số liệu SPSS và r trong nghiên cứu về khoa học giảng dạy Vật lý", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfsu_dung_phan_mem_xu_ly_so_lieu_spss_va_r_trong_nghien_cuu_ve.pdf

Nội dung text: Sử dụng phần mềm xử lý số liệu SPSS và r trong nghiên cứu về khoa học giảng dạy Vật lý

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP. HỒ CHÍ MINH KHOA VẬT LÝ KIM VĂN THANH KHÓA LUẬN TỐT NGHIỆP SỬ DỤNG PHẦN MỀM XỬ LÝ SỐ LIỆU SPSS VÀ R TRONG NGHIÊN CỨU VỀ KHOA HỌC GIẢNG DẠY VẬT LÝ Chuyên ngành: Sư phạm Vật lý TP. Hồ Chí Minh, năm 2020
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP. HỒ CHÍ MINH KHOA VẬT LÝ SỬ DỤNG PHẦN MỀM XỬ LÝ SỐ LIỆU SPSS VÀ R TRONG NGHIÊN CỨU VỀ KHOA HỌC GIẢNG DẠY VẬT LÝ Người thực hiện: Kim Văn Thanh Người hướng dẫn khoa học: ThS. Tô Thị Hoàng Lan TP. Hồ Chí Minh, năm 2020
  3. i LỜI CẢM ƠN Trong suốt thời gian học tập và hoàn thành khóa luận tốt nghiệp, với sự cố gắng nỗ lực của bản thân, tôi đã nhận được sự giúp đỡ, hướng dẫn tận tình của nhiều cá nhân và tập thể. Cho phép tôi được tỏ lòng biết ơn và gửi lời cảm ơn chân thành tới: Ban Giám hiệu Trường Đại học Sư phạm Thành phố Hồ Chí Minh cùng toàn thể cán bộ quản lý và giảng viên của Trường nói chung và của Khoa Vật lý nói riêng. Với sự giúp đỡ, tạo điều kiện của nhà Trường, tôi đã có một môi trường thuận lợi để học tập, nghiên cứu và tiếp thu kiến thức cho bản thân. Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc tới giảng viên hướng dẫn ThS. Tô Thị Hoàng Lan đã tận tình hướng dẫn, giúp đỡ, quan tâm và động viên tôi trong quá trình tìm hiểu và xây dựng khóa luận tốt nghiệp. Xin chân thành cảm ơn các tác giả của các tài liệu tham khảo mà tôi đã trích dẫn trong khóa luận của mình. Đặc biệt là GS. Nguyễn Văn Tuấn bởi những bài giảng cùng sự tư vấn, giải đáp các khó khăn, khúc mắc mà tôi gặp phải trong quá trình tìm hiểu về phần mềm R. Xin chân thành cảm ơn sự nhận xét và góp ý tận tình của ThS. Lê Hải Mỹ Ngân, TS. Phan Thị Ngọc Loan, cùng sự giúp đỡ của bạn Nguyễn Thị Thảo Trang đã giúp tôi hoàn thành sản phẩm cho khóa luận. Tôi xin chân thành cảm ơn bạn Phan Thanh Trà đã luôn đồng hành, giúp đỡ, nhận xét và góp ý để giúp tôi hoàn thành khóa luận. Cuối cùng, nhân dịp hoàn thành khóa luận tốt nghiệp, cho phép tôi được gửi lời cảm ơn sâu sắc tới gia đình, người thân cùng bạn bè đã hỗ trợ, động viên, giúp đỡ và tạo điều kiện thuận lợi cho tôi vượt qua mọi khó khăn trong quá trình học tập kiến thức, tìm hiểu và xây dựng khóa luận tốt nghiệp này. TP. Hồ Chí Minh, tháng 06 năm 2020 Tác giả Kim Văn Thanh
  4. ii DANH MỤC CÁC TỪ VIẾT TẮT Ký hiệu Ý nghĩa XSTK Xác suất thống kê VD Ví dụ
  5. iii MỤC LỤC LỜI CẢM ƠN i DANH MỤC CÁC TỪ VIẾT TẮT ii MỤC LỤC iii DANH MỤC BẢNG BIỂU 1 DANH MỤC HÌNH ẢNH 2 PHẦN MỞ ĐẦU 5 1. Lý do chọn đề tài 5 2. Tổng quan nghiên cứu 5 3. Định hướng nghiên cứu của đề tài 8 3.1. Mục tiêu đề tài 8 3.2. Câu hỏi nghiên cứu 8 4. Phương pháp, đối tượng nghiên cứu 8 4.1. Phương pháp nghiên cứu 8 4.2. Đối tượng nghiên cứu 9 5. Cấu trúc khóa luận 9 CHƯƠNG 1. SỬ DỤNG PHẦN MỀM SPSS 11 1. Giới thiệu phần mềm SPSS 11 1.1. Lịch sử hình thành và phát triển 11 1.2. Khả năng của SPSS 11 1.3. Giao diện 12 1.4. Khai báo biến 12 1.5. Nhập dữ liệu 13 2. Các chức năng cơ bản của SPSS 14 2.1. Tạo biến mới từ các biến sẵn có 14 2.2. Thống kê mô tả 16 2.3. Tạo bảng tương quan nhiều chiều 21 2.4. So sánh trung bình 22 2.5. Phân tích tương quan 33 2.6. Kiểm định độ tin cậy của thang đo 36
  6. iv 2.7. Phân tích hồi quy 39 2.8. Biểu đồ 46 CHƯƠNG 2. SỬ DỤNG PHẦN MỀM R 48 1. Giới thiệu phần mềm R 48 1.1. Lịch sử hình thành và phát triển 48 1.2. Khả năng của R 48 1.3. Giao diện 49 1.4. Dẫn nhập 51 1.5. Nhập dữ liệu 54 2. Các chức năng cơ bản của R 58 2.1. Tạo biến mới từ các biến sẵn có 58 2.2. Thống kê mô tả 61 2.3. So sánh trung bình 66 2.4. Phân tích tương quan 75 2.5. Kiểm định độ tin cậy của thang đo 77 2.6. Phân tích hồi quy 79 2.7. Biểu đồ 84 3. Các lỗi thường gặp trong sử dụng R và RStudio 85 3.1. Lỗi đọc file 85 3.2. Lỗi không tìm thấy dataset, không tìm thấy lệnh. 85 3.3. Lỗi trùng tên biến 85 4. Tổng kết các lệnh thường dùng trong R. 85 CHƯƠNG 3. ỨNG DỤNG PHẦN MỀM XỬ LÝ SỐ LIỆU PHỤC VỤ NGHIÊN CỨU KHOA HỌC GIẢNG DẠY VẬT LÝ 89 1. So sánh phần mềm SPSS và R 89 1.1. Giống nhau 89 1.2. Khác nhau 89 2. Ưu và nhược điểm của phần mềm SPSS và R 90 2.1. Ưu và nhược điểm của phần mềm SPSS 90 2.2. Ưu và nhược điểm của phần mềm R 91 3. Ứng dụng phần mềm SPSS và R vào các nghiên cứu Khoa học giảng dạy Vật lý 92 KẾT LUẬN VÀ KIẾN NGHỊ 94
  7. v TÀI LIỆU THAM KHẢO 97 PHỤ LỤC 99
  8. 1 DANH MỤC BẢNG BIỂU Bảng 1. Thống kê mô tả biến Diemthi 19 Bảng 2. Bảng chéo Xeploai và Lop 20 Bảng 3. Bảng tương quan giữa Xeploai với Gioitinh và Lop. 22 Bảng 4. Kết quả tính giá trị trung bình theo biến định tính 23 Bảng 5. Kết quả kiểm định Paired-Samples T-Test 25 Bảng 6. Kết quả kiểm định One-Sample T Test 27 Bảng 7. Kết quả so sánh trung bình giữa hai nhóm 29 Bảng 8. Kết quả kiểm định One-Way ANOVA 32 Bảng 9. Kết quả phân tích tương quan đơn 35 Bảng 10. Đánh giá hệ số Cronbach’s Alpha 39 Bảng 11. Bảng Model Summary 42 Bảng 12. Bảng ANOVA 43 Bảng 13. Bảng Coecients 44 Bảng 14. Tổng hợp các lệnh cơ bản thường dùng trong R 88
  9. 2 DANH MỤC HÌNH ẢNH Hình 1. Giao diện làm việc của SPSS 12 Hình 2. Cửa sổ khai báo biến 13 Hình 3. Nhập dữ liệu vào SPSS 14 Hình 4. Mã hóa biến 15 Hình 5. Mã hóa biến Xeploai 15 Hình 6. Cơ sở dữ liệu lớp thực nghiệm và lớp đối chiếu 16 Hình 7. Tính tần suất biến Diemthi 17 Hình 8. Kết quả tính tần số biến Diemthi 18 Hình 9. Các tùy chọn trong lệnh Options của Descriptives 18 Hình 10. Tạo bảng chéo hai biến 19 Hình 11. Đồ thị bảng chéo Xeploai và Lop 20 Hình 12. Tạo bảng nhiều chiều 21 Hình 13. Tính giá trị trung bình theo biến định tính 23 Hình 14. Bảng số liệu so sánh cặp 24 Hình 15. Kiểm định Paired-Samples T-Test 25 Hình 16. Kiểm định One-Sample T Test 26 Hình 17. So sánh trung bình giữa hai nhóm 28 Hình 18. Phân nhóm giá trị so sánh trung bình giữa hai nhóm 28 Hình 19. Cơ sở dữ liệu mức tiêu thụ xăng 30 Hình 20. Kiểm định One-Way ANOVA 31 Hình 21. Đánh giá kết quả kiểm định One-Way ANOVA. 32 Hình 22. Phân tích tương quan đơn 34 Hình 23. Đánh giá hệ số Cronbach’s Alpha 38 Hình 24. Bảng số liệu phân tích hồi quy tuyến tính 40 Hình 25. Phân tích hồi quy tuyến tính bội 40 Hình 26. Cài đặt thông số phân tích 41
  10. 3 Hình 27. Cài đặt biểu đồ kiểm tra giả thiết hồi quy 41 Hình 28. Bảng ý nghĩa giá trị Durbin-Watson 43 Hình 29. Đồ thị Histogram 45 Hình 30. Đồ thị Normal P-P Plot 45 Hình 31. Đồ thị Scatter Plot 46 Hình 32. Vẽ đồ thị với SPSS 47 Hình 33. Giao diện sử dụng của R 49 Hình 34. Giao diện sử dụng của RStudio 50 Hình 35. Cài đặt Packages trực tiếp cho R 53 Hình 36. Cài packages tự động với RStudio 54 Hình 37. Hợp nhất các biến thành dataset 55 Hình 38. Nhập dữ liệu trực tiếp 56 Hình 39. Đọc file vào RStudio 57 Hình 40. Xem trước dữ liệu trước khi đọc 57 Hình 41. Cơ sở dữ liệu lớp thực nghiệm và lớp đối chiếu 58 Hình 42. Cơ sở dữ liệu mức tiêu thụ xăng 59 Hình 43. Tạo biến mới đơn giản 59 Hình 44. Lệnh mã hóa biến Xeploai 60 Hình 45. Mã hóa biến Xeploai 60 Hình 46. Trích dữ liệu từ dataset cũ 61 Hình 47. Dữ liệu lớp thực nghiệm trích từ dataset Dulieu 61 Hình 48. Thông báo package và dataset sẽ làm việc. 62 Hình 49. Bảng phân tích tần số biến Diem. 62 Hình 50. Lệnh vẽ đồ thị phân bố tần số 63 Hình 51. Đồ thị phân bố tần số biến Diem 63 Hình 52. Lệnh vẽ biểu đồ beeswarm. 64 Hình 53. Biểu đồ phân bố điểm theo từng lớp 64 Hình 54. Bảng chéo phân tích hai biến 66
  11. 4 Hình 55. Phân tích tham số thống kê theo nhóm. 67 Hình 56. Dữ liệu so sánh cặp 68 Hình 57. Kiểm định Paired T Test 69 Hình 58. Lệnh kiểm định trung bình tổng thể điểm lớp thực nghiệm 70 Hình 59. Lệnh kiểm định trung bình tổng thể điểm lớp đối chiếu 70 Hình 60. Kiểm định trung bình tổng thể điểm lớp thực nghiệm 71 Hình 61. Kiểm định trung bình tổng thể điểm lớp đối chiếu 71 Hình 62. So sánh phương sai giữa điểm của hai nhóm lớp 72 Hình 63. Kiểm định Two Sample T Test giữa điểm của hai nhóm lớp 73 Hình 64. Cơ sở dữ liệu mức tiêu thụ xăng 74 Hình 65. Kiểm định ANOVA 74 Hình 66. Tương quan giữa mức tiêu thụ xăng và công suất động cơ 76 Hình 67. Tương quan giữa mức tiêu thụ xăng và khối lượng xe 76 Hình 68. Tương quan giữa mức tiêu thụ xăng và số cylinder 77 Hình 69. Tương quan giữa mức tiêu thụ xăng và dung tích động cơ 77 Hình 70. Hệ số Cronbach's Alpha của cơ sở dữ liệu mức tiêu thụ xăng 78 Hình 71. Phân tính hồi quy tuyến tính với R. 79 Hình 72. Biểu đồ Histogram về phân bố phần dư 81 Hình 73. Biểu đồ Normal Q-Q Plot về phân bố phần dư 81 Hình 74. Biểu đồ studentized residuals về phương sai và giá trị tiên lượng 82 Hình 75. Biểu đồ Component + Residual Plot về mối tương quan tuyến tính 83 Hình 76. Kiểm tra giả định độc lập durbinWatsonTest 84
  12. 5 PHẦN MỞ ĐẦU 1. Lý do chọn đề tài Ngày 26/12/2018, Bộ Giáo dục và Đào tạo đã chính thức công bố chương trình giáo dục phổ thông mới bao gồm chương trình giáo dục tổng thể và chương trình giáo dục từng bộ môn. Đây là bước đổi mới toàn điện trên quy mô cả nước về chương trình dạy và học ở phổ thông. Chương trình giáo dục phổ thông mới sẽ tập trung phát triển về phẩm chất và năng lực cho các em học sinh. Qua đó, chương trình giáo dục phổ thông mới tập trung trả lời câu hỏi: “Học xong chương trình, học sinh làm được những gì?”. Việc đổi mới chương trình cũng đồng thời đặt ra yêu cầu và thách thức đối với đội ngũ giáo viên trong việc đổi mới phương pháp dạy học và cách thức tổ chức dạy học nhằm phát triển tối đa phẩm chất và năng lực cho từng đối tượng học sinh. Trong bối cảnh có rất nhiều thay đổi và mới mẻ về tổ chức dạy học các môn học ở phổ thông nói chung và Vật lý nói riêng, cần có những nghiên cứu khoa học trong lĩnh vực này trở nên là một việc cần thiết và cũng là cơ hội để mở ra nhiều hướng nghiên cứu trong lĩnh vực khoa học giáo dục mà môn Vật lý là một phần trong đó. Một trong các phương pháp nghiên cứu trong khoa học giáo dục là Thống kê và sử dụng phần mềm xử lý số liệu thống kê. Hiện nay, các phần mềm thống kê cũng rất phát triển với nhiều phần mềm khác nhau có thể tính toán và xử lý lượng lớn dữ liệu. Tuy nhiên, được sử dụng rộng rãi trên thị trường có thể kể đến hai phần mềm là SPSS và R (cùng các gói package của R). Cả hai phần mềm này có đáp ứng được phần lớn nhu cầu xử lý số liệu trong nghiên cứu khoa học giáo dục hay không? Mỗi phần mềm có ưu điểm và nhược điểm nào, đặc biệt với đối tượng sử dụng là sinh viên, học viên cao học hoặc giáo viên phổ thông? Cách sử dụng mỗi phần mềm này ra sao và để cho hiệu quả? Với các câu hỏi như trên, chúng tôi quyết định chọn đề tài “Sử dụng phần mềm xử lý số liệu SPSS và R trong nghiên cứu về khoa học giảng dạy Vật lý” để làm đề tài nghiên cứu. 2. Tổng quan nghiên cứu Các đề tài nghiên cứu về khoa học dạy học Vật lý đều ít nhiều sử dụng Thống kê. Những mô thức phổ biến là sử dụng thống kế mô tả, so sánh trung bình mẫu, kiểm định giả thuyết thống kê. Có thể thấy rõ mô thức này trong luận văn Thạc sĩ Khoa học giáo dục của tác giả Hà Thị Trúc Linh (2016). “Xây dựng và sử dụng hệ thống câu hỏi TNKQ theo định hướng phát triển năng lực chuyên biệt và dạy học chương “Cảm ứng điện từ” – Vật lý 11”[11]; Banhnalak Bosanthay (2017). “Tổ chức dạy
  13. 6 học chương “Dòng điện một chiều” – Vật lý lớp 9 THCS ở nước CHDCND Lào theo hướng phát huy tính tích cực, tự lực học tập của học sinh”[3]; Bùi Xuân Dương (2017). “Tổ chức dạy học giải quyết vấn đề một số kiến thức của chương “Các định luật bảo toàn” – Vật lý 10 với sự hỗ trợ của phần mềm Crocodile PHYsics”[5]. Những số liệu này cần thiết cho việc nghiên cứu mẫu can thiệp và mẫu đối chứng. Các tham số được sử dụng như điểm trung bình, phương sai, độ lệch chuẩn, tần số điểm, tần số tích lũy, của điểm các lớp trước và sau khi áp dụng phương pháp mới. Các tác giả kết so sánh kết quả, vẽ biểu đồ từ đó kết luận độ hiệu quả của phương pháp mới được nêu ra. Nếu chỉ dừng ở thống kê mô tả thì việc xử lý số liệu khá đơn giản, có thể tính bằng tay hoặc dùng phần mềm Excel. Tuy nhiên, để xử lý số liệu với các bước phức tạp hơn thì các đề tài nghiên cứu cần đến phần mềm chuyên dụng xử lý số liệu. Trước tiên, xét đến phần mềm SPSS. SPSS là một phần mềm thương mại có phí bản quyền khoảng 99$/tháng. Đó là một khó khăn với sinh viên, học viên cao học hay giáo viên phổ thông nếu muốn sử dụng phần mềm này cho nghiên cứu của mình. Tuy nhiên, tính năng của SPSS giúp việc sử lý số liệu phức tạp được tiến hành dễ dàng và có mức độ sâu hơn là thống kê mô tả. Trong luận văn Thạc sĩ Khoa học giáo dục của các tác giả: Hoàng Thị Hạnh (2016). “Vận dụng mô hình PEER INSTRUCTION trong dạy học một số kiến thức chương “Chất khí” – Vật lý 10”[7], tác giả đã giới thiệu mô hình Peer Instruction và phân tích ưu điểm, hạn chế và những thuận lợi, khó khăn khi áp dụng mô hình vào dạy học Vật lý phổ thông ở Việt Nam. Dựa vào đó tác giả đã phân tích kiến thức và xây dựng tiến trình dạy học chương “Chất khí” – Vật lý 10 theo mô hình Peer Instruction. Từ đó tổ chức thực nghiệm sư phạm và khảo sát số liệu đánh giá kết quả của mô hình. Tác giả đã dùng SPSS để tính toán các tham số của thống kê mô tả như điểm trung bình, phương sai, độ lệch chuẩn, tần suất và tần suất tích lũy, Ngoài ra với số liệu khảo sát là điểm của hai lớp gồm lớp thực nghiệm và lớp đối chiếu tác giả đã sử dụng kiểm định Independent-Sample T Test để so sánh trung bình giữa hai nhóm. Từ đó thấy được sự khác nhau về ý nghĩa thống kê giữa điểm của lớp thực nghiệm và điểm của lớp đối chiếu. Điểm trung bình của lớp thực nghiệm cao hơn so với lớp đối chiếu nên có thể thấy được độ hiệu quả của việc áp dụng mô hình Peer Instruction vào dạy học Vật lý phổ thông ở nước ta. Thao tác này sẽ khó khăn hơn nếu không sử dụng một phần mềm chuyên dụng cho việc xử lý số liệu.
  14. 7 Ngoài SPSSI, có thể sử dụng phần mềm Transana để phân tích các đoạn phim trong quá trình giảng dạy. Phần mềm Transana được sử dụng trong luận văn Thạc sĩ Khoa học giáo dục của tác giả Đinh Vũ Nguyên Chương (2017). “Tổ chức dạy học chủ đề tích hợp “Năng lượng” cho sinh viên chuyên ngành kỹ thuật”[4]. Trong đó phần mềm Transana được sử dụng để phân tích các clip được quay lại trong quá trình giảng dạy bằng phương pháp mới. Từ đó đánh giá được sự tích cực làm việc, hoạt động của học sinh được nâng cao. Bên cạnh đó, cũng có những đề tài không sử dụng phân tích thống kê để đánh giá kết quả mà thay vào đó, tác giả chấm điểm sản phẩm của học sinh và thu thập những nhận xét của học sinh, giáo viên và các chuyên gia để kết luận độ hiệu quả của mô hình. Ví dụ như luận văn Thạc sĩ Khoa học giáo dục của tác giả: Đàm Việt Thắng (2017). “Tổ chức hoạt động ngoại khóa về ứng dụng kỹ thuật chương “Cơ học chất lưu” – Vật lý 10 theo hướng phát huy tính tích cực và phát triển năng lực sáng tạo của học sinh”[15]; luận văn tốt nghiệp của tác giả Nguyễn Thanh Huy (2017). “Xây dựng cơ sở học liệu cho việc dạy và học học phần thiên văn và quang học trong môn khoa học tự nhiên ở bậc tiểu học”[9]. Phương pháp đánh giá này không thuyết phục do đây chỉ là đánh giá trên một mẫu nhỏ và chưa đủ cơ sở để đánh giá độ hiệu quả của đề tài trên phạm vi quần thể. Như vậy, qua tìm hiểu và phân tích một vài luận văn, khóa luận về khoa học dạy học môn Vật lý được bảo vệ tại Khoa Vật lý trường Đại học Sư phạm Tp.HCM trong khoảng 3 năm trở lại đây các tác giả có sử dụng SPSS và một số phần mềm khác để xử lý số liệu. Tuy nhiên trong phạm vi tìm hiểu, chúng tôi chưa ghi nhận đề tài nào có sử dụng phần mềm R để xử lý số liệu. Trong khi sử dụng SPSS cần phải trả phí bản quyền, R là một phần mềm thống kê miễn phí. Tuy nhiên R có thể xem như là một ngôn ngữ thống kê vì người dùng phải lập trình với rất nhiều câu lệnh và nhiều gói Packages khá phức tạp. Điều này có lẽ là một nguyên nhân dù được sử dụng miễn phí nhưng không nhiều đề tài dành cho sinh viên, học viên cao học sử dụng, mặc dù tìm hướng dẫn sử dụng R không khó. Trong các hướng dẫn chi tiết về R, có thể kể đến sách của Giáo sư Nguyễn Văn Tuấn (2014). “Phân tích dữ liệu với R”[14]. Trong quyển sách này, tác giả đã trình bày rất chi tiết về các chức năng và hướng dẫn sử dụng phần mềm R để phân tích số liệu. Giáo sư đã trình bày rõ ràng và đầy đủ về cách sử dụng kèm theo các ví dụ cụ thể về các chức năng của R trong sách. Tuy nhiên, chính vì đầy đủ nên tài liệu khá
  15. 8 dài, lên đến 517 trang, phù hợp cho học tập và nghiên cứu với R nhưng lại không thân thiện với một người mới bắt đầu dùng và chỉ dùng như một công cụ nghiên cứu. Chính vì lẽ đó, trong khóa luận này chúng tôi sẽ trình bày cách sử dụng các chức năng quan trọng, cần thiết cho phân tích số liệu trong lĩnh vực Khoa học giáo dục nói chung và Khoa học giảng dạy Vật lý nói riêng của phần mềm SPSS và R. Một quyển cẩm nang vừa phải là rất cần thiết cho những người dùng ban đầu. Đồng thời chúng tôi cũng phân tích ưu và nhược điểm của từng phần mềm để người dùng có thể lựa chọn phần mềm nào phù hợp với bản thân. 3. Định hướng nghiên cứu của đề tài 3.1. Mục tiêu đề tài Phân tích hai phần mềm xử lý số liệu SPSS và R để phục vụ cho các nghiên cứu về khoa học giảng dạy Vật lý và tạo ra một quyển cẩm nang sử dụng cho hai phần mềm này với các chức năng quan trọng và cơ bản nhất. 3.1.1. Mục tiêu cụ thể - Giới thiệu và phân tích ưu, nhược điểm của phần mềm SPSS. - Giới thiệu và phân tích ưu, nhược điểm của phần mềm R. - So sánh sự khác nhau giữa hai phần mềm SPSS và R. - Phân tích số liệu thực tế để đưa ra sự phù hợp của từng phần mềm với các đề tài nghiên cứu khác nhau về khoa học giảng dạy Vật lý. - Thiết kế cẩm nang hướng dẫn sử dụng. 3.2. Câu hỏi nghiên cứu - Sử dụng phần mềm SPSS và R trong xử lý số liệu nghiên cứu như thế nào? - Ưu, nhược điểm của hai phần mềm SPSS và R là gì? - Đâu là sự khác nhau giữa SPSS và R? Tại sao hai phần mềm này có thể tồn tại song song với nhau trên trị trường mà không nghiêng hẳn về một phần mềm nào? - Từng phần mềm SPSS và R phù hợp với đề tài nghiên cứu nào? 4. Phương pháp, đối tượng nghiên cứu 4.1. Phương pháp nghiên cứu 4.1.1. Phương pháp nghiên cứu lý luận - Phân tích và nghiên cứu các tài liệu liên quan đến phần mềm SPSS và R.
  16. 9 - Nghiên cứu các tài liệu về khoa học giảng dạy Vật lý. - Mô hình hóa các hệ thống số liệu thực tế. - Nghiên cứu các tài liệu về xử lý số liệu, các luận văn, luận án liên quan đến xử lý số liệu và khoa học giảng dạy Vật lý. 4.1.2. Phương pháp nghiên cứu thực tiễn - Nghiên cứu các số liệu thực tiễn liên quan đến khoa học giảng dạy Vật lý. - Nghiên cứu việc xây dựng hướng xử lý và sử dụng phần mềm xử lý số liệu SPSS và R để phân tích số liệu thực tế liên quan đến khoa học giảng dạy Vật lý. 4.2. Đối tượng nghiên cứu Hai phần mềm SPSS và R cùng số liệu của các đề tài nghiên cứu về khoa học giảng dạy Vật lý. 5. Cấu trúc khóa luận Để đạt được mục tiêu đã đề ra, khóa luận sẽ nghiên cứu thực tế tình hình sử dụng phần mềm xử lý số liệu trong các nghiên cứu về khoa học giảng dạy Vật lý; đưa ra ưu, nhược điểm của hai phần mềm SPSS và R; so sánh đặc điểm khác nhau giữa hai phần mềm; rút ra nhận xét về sự phù hợp của từng phần mềm với các đối tượng nghiên cứu khác nhau trong lĩnh vực khoa học giảng dạy Vật lý. Với các nhiệm vụ như trên khóa luận này được chia làm ba chương không kể phần mở đầu và kết luận. Chương 1: Sử dụng phần mềm SPSS Trong chương này khóa luận sẽ giới thiệu phần mềm SPSS, và các chức năng cơ bản thường dùng cho các nghiên cứu về Khoa học giảng dạy Vật lý. Song song đó, khóa luận cũng đưa ra các VD cụ thể cho từng chức năng để phân tích mẫu trên các số liệu thực tế. Chương 2: Sử dụng phần mềm R Trong chương này khóa luận sẽ giới thiệu phần mềm R, và các chức năng cơ bản thường dùng cho các nghiên cứu về Khoa học giảng dạy Vật lý. Song song đó, khóa luận cũng đưa ra các VD cụ thể cho từng chức năng để phân tích mẫu trên các số liệu thực tế. Chương 3: Ứng dụng phần mềm xử lý số liệu phục vụ nghiên cứu khoa học giảng dạy Vật lý Trong chương này khóa luận sẽ tập trung vào việc đánh giá hai phần mềm SPSS và R. Từ kết quả thu được khi phân tích các VD với số liệu thực tế ở Chương 1 và
  17. 10 Chương 2 rút ra kết luận về ưu, nhược điểm của hai phần mềm này. Qua đó trình bày về những đặc điểm giống và khác nhau của hai phần mềm trên để trả lời câu hỏi tại sao hai phần mềm này lại cùng tồn tại song song với nhau mà không nghiêng hẳn về một phần mềm nào? Đồng thời đưa ra kết luận về sự phù hợp của từng phần mềm với các đối tượng sử dụng khác nhau, các đối tượng nghiên cứu khác nhau trong lĩnh vực khoa học giảng dạy Vật lý.
  18. 11 CHƯƠNG 1. SỬ DỤNG PHẦN MỀM SPSS 1. Giới thiệu phần mềm SPSS 1.1. Lịch sử hình thành và phát triển SPSS là một phần mềm phổ biết đã được xây dựng từ những năm 1968 và được hoàn thiện dần theo thời gian. SPSS (viết tắt của Statistical Package for the Social Sciences) là một chương trình máy tính phục vụ cho công tác phân tích thống kê. SPSS được sử dụng rộng rãi trong công tác thống kê kinh tế - xã hội và được sử dụng rộng rãi trong kinh tế lượng.[2] Thế hệ đầu tiên của SPSS được đưa ra từ những năm 1968 chuyên sử dụng cho các máy chủ ở Mỹ. SPSS được sử dụng bởi các nhà nghiên cứu thị trường, nghiên cứu y khoa, công ty điều tra, các nhà nghiên cứu giáo dục và những lĩnh vực khác. Sau đó phần mềm không ngừng cải tiến và nâng cao các tính năng của mình, ngày càng có nhiều thế hệ mới của SPSS ra đời, với các tiện ích ngày càng phong phú, đa dạng hơn. Thế hệ mới nhất cho đến nay được xem là SPSS 22.0 được giới thiệu từ tháng 8 năm 2008, có cả phiên bản cho các hệ điều hành Microsoft Windows, Mac, và Linux/ UNIX. SPSS 22.0, nhiều chức năng đa dạng và linh hoạt nên được sử dụng rộng rãi trong nhiều ngành khoa học khác nhau như: Xã hội học, Y học, Nhân học, Tâm lý học, Kinh tế học, Marketing [2] 1.2. Khả năng của SPSS Phần mềm SPSS cung cấp một hệ thống quản lý dữ liệu và khả năng phân tích thống kê với giao diện thân thiện cho người dùng trong môi trường đồ hoạ, sử dụng các trình đơn mô tả và các hộp thoại đơn giản. Chức năng cơ bản của SPSS: + Thống kê mô tả (Descriptive statistics): tần số (Frequencies), các loại bảng số liệu tổng hợp (Cross tabulation, Explore, Descriptive Ratio Statistics). + Thống kê 2 biến số (Bivariate statistics): trung bình (Means), tương quan (bivariate, partial, distances), kiểm định phi tham số (Nonparametric tests), kiểm định sự tin cậy của thang đo bằng Cronbach Alpha phân tích tương quan, kiểm định trung bình (T-test), kiểm định sự khác nhau giữa các biến phân loại (định danh) bằng phân tích phương sai (ANOVA), vẽ bản đồ nhận thức (dùng trong marketing).
  19. 12 + Dự báo (Prediction): Hồi quy (regression), phân tích nhân tố (Factor analysis), cluster analysis (two-step, K-means, hierarchical), biệt thức (Discriminant). 1.3. Giao diện Giao diện của SPSS trực quan và quen thuộc nhờ có nét tương đồng với các phần mềm Office thường dùng, trong đó: Hình 1. Giao diện làm việc của SPSS 1. Thanh menu chức năng, 2. Biểu tượng một số chức năng thông dụng, 3. Cột hiển thị tên các biến, 4. Số thứ tự các dòng, 5. Data View (cửa sổ nhập liệu và thể hiện dữ liệu). Variable View (cửa sổ khai báo biến). 1.4. Khai báo biến SPSS yêu cầu người sử dụng phải khai báo đầy đủ các biến trước khi thực hiện các bước tính toán với dữ liệu. Công việc này được thực hiện trong của sổ Variable View, với:
  20. 13 Hình 2. Cửa sổ khai báo biến + Name: tên biên, ký tự liên tục, không có khoảng trắng, + Type: kiểu dữ liệu, số (numeric), chữ (string), ngày tháng (date), tiền tệ (dollar), + Width: độ rộng kiểu dữ liệu, nêu type là string thì width là số ký tự tối đa, + Decimals: lượng số thập phân, + Label: nhãn biến (chú thích cho tên biến, là tên cột hiển thị ở bảng kết quả), + Values: giá trị mã hóa dữ liệu: ví dụ 1 là Nam, 2 là Nu, + Missing: khai báo giá trị khuyết (khai báo khi bản khảo sát có dữ liệu sai hoặc không đúng cấu trúc), các giá trị này sẽ bị bỏ đi để tránh làm ảnh hướng tới kết quả, + Columns: độ rộng cột tên biến, + Align: vị trí hiển thị dữ liệu trong cột (căn lề), + Measure: loại thang đo dữ liệu: • Scale (thang đo tỉ lệ): có thể cộng, trừ, nhân, chia, • Ordinal (thang đo thứ bậc): có thể cộng, trừ nhưng hạn chế về nhân chia, ví dụ điểm trung bình, • Nominal (thang đo định danh): chỉ đếm được tần số chứ không thực hiện các phép tính được, + Role: vai trò của biến. 1.5. Nhập dữ liệu SPSS cung cấp nhiều công cụ nhập số liệu khảo sát rất tiện dụng, trong đó phổ biến là nhập dữ liệu thủ công và nhập từ phần mềm Excel.
  21. 14 Hình 3. Nhập dữ liệu vào SPSS + Nhập dữ liệu thủ công được thực hiện trực tiếp trên cửa sổ Data View. Thực hiện khai báo các biến trong cửa sổ Variable View sau đó nhập số liệu cho các biến trong cửa sổ Data View. + Để đọc dữ liệu từ file Excel ta vào File → Open → Data → Chọn all file → Chọn file dữ liệu cần sử dụng. Ngoài ra SPSS còn cho phép sao chép dữ liệu trực tiếp từ Excel bằng lệnh Copy/Paste. * Lưu ý: dữ liệu đưa vào SPSS nên là số hoặc ký tự không dấu, không khoảng trắng để tránh lỗi. Để SPSS có thể mở được file thì tên file và tên đường dẫn đến file đều phải là ký tự tiếng Anh hoặc tiếng Việt không dấu. 2. Các chức năng cơ bản của SPSS 2.1. Tạo biến mới từ các biến sẵn có SPSS cung cấp nhiều tính năng để tạo biến mới trong Menu Transform, trong đó thường dùng nhất là: + Compute Variable : dùng để tạo một biến mới từ các biến đã có sẵn. VD: có thể tạo thêm một biến “điểm hệ số 2” = 2* “điểm”.
  22. 15 + Recode into Same Variables : dùng để mã hóa lại giá trị của biến có sẵn và thêm điều kiện lọc nếu cần. Biến mới tạo ra sẽ thay thế biến cũ. + Recode into Different Variables : dùng để mã hóa lại giá trị của biến có sẵn và thêm điều kiện lọc nếu cần. Biến mới tạo sẽ độc lập với biến cũ. VD: Mã hóa biến Diemthi để tạo biến mới Xeploai Hình 4. Mã hóa biến 1: Dùng để đặt tên và mô tả cho biến mới, 2: Dùng để mã hóa các giá trị của biến cũ, 3: Dùng để thêm điều kiện lọc cho biến mới. Chọn Old and New Values để mã hóa biến Xeploai với điều kiện mã hóa như sau: Hình 5. Mã hóa biến Xeploai
  23. 16 Kết quả sẽ xuất ra biến mới Xeploai với các giá trị 1, 2, 3, 4, 5 lọc theo các giá trị của biến Diemthi. Sau khi có biến mới ta có thể tiếp tục vào cửa sổ Variable View → Values để mã hóa tiếp thành các bậc xếp hạng A, B, C, D, F nếu cần. 2.2. Thống kê mô tả Thống kê mô tả gồm các chức năng tính toán cơ bản như tính tần suất, giá trị trung bình, phương sai, độ lệch chuẩn, Các chức năng thống kê mô tả được SPSS cung cấp trong Menu Analyze → Descriptive Statistics. Để VD cho các chức năng thống kê chúng ta xét cơ sở dữ liệu là số liệu thống kê về lớp thực nghiệm và lớp đối chiếu được khảo sát trong luận văn Thạc sĩ Khoa học giáo dục của các tác giả: Hoàng Thị Hạnh (2016). “Vận dụng mô hình PEER INSTRUCTION trong dạy học một số kiến thức chương “Chất khí” – Vật lý 10”[7]. Hình 6. Cơ sở dữ liệu lớp thực nghiệm và lớp đối chiếu
  24. 17 Trong đó các lệnh thường dùng là: * Frequencies : Tính tần suất. Hình 7. Tính tần suất biến Diemthi Để lập bảng tần suất ta chọn lệnh Frequencies → chuyển biến cần tính vào ô Variable(s) → OK. Ngoài ra có thể sử dụng các lệnh bên phải để thêm các yêu cầu cho phép toán, các lệnh thường sử dụng như sau: + Lệnh Statistics để tính thêm các tham số thống kê như giá trị trung bình, phương sai, độ lệch chuẩn, độ nhọn, giá trị lớn nhất, nhỏ nhất, khoảng biến thiên, tính đối xứng, Để tính các thông số này, chúng ta chọn lệnh và tích vào các thông số muốn tính. + Lệnh Charts để vẽ đồ thị biểu diễn tần suất của các giá trị trong biến đã lựa chọn, có nhiều dạng đồ thì như cột, tròn, đường. Để sử dụng ta chọn lệnh và chọn loại đồ thị cần vẽ. Kết quả:
  25. 18 Hình 8. Kết quả tính tần số biến Diemthi * Descriptives : Tính các tham số thống kê mô tả như: giá trị trung bình, phương sai, độ lệch chuẩn, độ nhọn, giá trị lớn nhất, nhỏ nhất, khoảng biến thiên, tính đối xứng, Để sử dụng ta chọn lệnh Descriptives → chuyển biến cần mô tả vào ô Variable(s) → chọn Options để tùy chọn các giá trị cần tính → Continue → OK để phần mềm bắt đầu tính toán. Hình 9. Các tùy chọn trong lệnh Options của Descriptives
  26. 19 Kết quả mô tả biến Diemthi Descriptive Statistics N Range Minimum Maximum Mean Std. Deviation Variance Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Statistic Diemthi 89 5,0 4,3 9,3 6,917 ,1116 1,0532 1,109 Valid N (listwise) 89 Bảng 1. Thống kê mô tả biến Diemthi * Crosstabs: Tạo bảng chéo hai biến (phân tích hai biến). Để tạo bảng chéo hai biến chúng ta chọn lệnh Crosstabs → chuyển biến vào ô Row và Column để tạo bảng chéo. Lưu ý có thể chọn nhiều biến nhưng một bảng sẽ chỉ gồm 2 biến phụ thuộc nhau. Có thể tích chọn Display clustered bar charts để tạo đồ thị dạng cột cho bảng. VD: Tạo bảng chéo hai biến Lop và biến Xeploai vừa tạo ở phần trước. Hình 10. Tạo bảng chéo hai biến
  27. 20 Kết quả: Xeploai * Lop Crosstabulation Count Lop Total Lopthucnghiem Lopdoichieu D 2 6 8 C 10 25 35 Xeploai B 29 11 40 A 5 1 6 Total 46 43 89 Bảng 2. Bảng chéo Xeploai và Lop Hình 11. Đồ thị bảng chéo Xeploai và Lop
  28. 21 2.3. Tạo bảng tương quan nhiều chiều SPSS cung cấp công cụ để tạo bảng tương quan giữa các biến có tương quan với nhau trong Menu Analyze → Tables. Để tạo bảng ta chọn lệnh Custom Tables → kéo các biến vào ô Rows và Columns → OK để tạo bảng mong muốn. VD: Sử dụng cơ sở dữ liệu về lớp đối chiếu và lớp thực nghiệm để tạo bảng tương quan giữa biến Xeploai với Gioitinh của các học sinh trong hai Lop. Hình 12. Tạo bảng nhiều chiều
  29. 22 Kết quả: Lop Lopthucnghiem Lopdoichieu GIoitinh GIoitinh Nam Nu Nam Nu Count Count Count Count F 0 0 0 0 D 1 1 1 5 Xeploai C 6 4 10 15 B 9 20 5 6 A 2 3 0 1 Bảng 3. Bảng tương quan giữa Xeploai với Gioitinh và Lop. 2.4. So sánh trung bình So sánh trung bình là một công để phân tích số liệu có liên quan đến so sánh điểm trước và sau hoặc so sánh điểm giữa các nhóm học sinh. SPSS cũng cung cấp những công cụ so sánh trung trong Menu Analyze → Compare Means. Trong công cụ này chúng ta cũng xét các VD dựa trên cơ sở dữ liệu lớp thực nghiệm và lớp đối chiếu đã nêu ở trên. Các chức năng thường được sử dụng là: * Means: Tính giá trị trung bình của một biến định lượng theo một biến định tính. Để tính giá trị trung bình của một biến định lượng theo một biến định tính chúng ta sử dụng chức năng Means của SPSS. Chọn lệnh Means trong Menu Analyze → Compare Means. VD: Tính điểm trung bình của biến định lượng Diemthi theo biến định tính Lop. Chọn lệnh Means → chuyển biến định lượng vào ô Dependent List và biến định tính vào ô Independent List → OK. Lưu ý có thể chọn Options để tính thêm các tham số cần tính toán.
  30. 23 Hình 13. Tính giá trị trung bình theo biến định tính Kết quả: Lop Mean N Std. Deviation Lopthucnghiem 7,393 46 ,9938 Lopdoichieu 6,407 43 ,8664 Total 6,917 89 1,0532 Bảng 4. Kết quả tính giá trị trung bình theo biến định tính * Paired-Sample T Test: So sánh cặp. Sử dụng khi so sánh giá trị trung bình của hai nhóm tổng thể riêng biệt nhưng có sự tương quan theo cặp giữa các phần tử của hai nhóm, thường được sử dụng để khảo sát sự thay đổi của một nhóm đối tượng sau một thời gian, hoặc sau khi có biến cố gì xảy ra. VD: So sánh sự thay đổi của điểm số các nhóm học sinh trước và sau khi áp dụng phương pháp dạy học mới. Điều kiện áp dụng là kích cỡ mẫu giữa hai nhóm đối tượng phải bằng nhau và giá trị của hai mẫu phải có phân bố chuẩn hoặc kích cỡ mẫu lớn để xem như xấp xỉ phân bố chuẩn. Kiểm định Paired-Sample T Test bắt đầu tính toán sự chênh lệch của từng cặp rồi tính toán sự chênh lệch trung bình của hai mẫu. Kết quả nhận được bằng 0 tức là hai mẫu không có sự khác biệt và khác 0 là hai mẫu có sự sai khác so với nhau. Các bước khi thực hiện phân tích Paired-Samples T-Test bao gồm: + Bước 1: Đặt giả thuyết Ho: “Không có sự khác nhau về trị hai trung bình tổng thể”, tức là khác biệt giữa hai trung bình là bằng 0.
  31. 24 + Bước 2: Thực hiện kiểm định Paired-Samples T-Test. + Bước 3: So sánh giá trị sig của kiểm định t được xác định ở bước 2 với 0.05 (mức ý nghĩa 5% = 0.05 | độ tin cậy 95%). Nếu sig > 0.05 thì ta chấp nhận giả thuyết Ho nghĩa là trung bình hai tổng thể là bằng nhau, không có sự khác biệt. Nếu sig < 0.05 thì ta bác bỏ giả thuyết Ho nghĩa là có khác biệt trung bình hai tổng thể. VD: Thực hiện so sánh cặp giữa điểm của các học sinh ở hai lớp thực nghiệm và lớp đối chiếu. Mỗi lớp lấy 43 học sinh và xem như lớp thực nghiệm chính là lớp đối chiếu sau khi áp dụng phương pháp dạy học mới. Với giả thuyết như vậy, chúng ta được bảng số liệu mới như sau: Hình 14. Bảng số liệu so sánh cặp Thực hiện kiểm định: chọn Paired-Sample T Test → đưa hai biến muốn kiểm định trị trung bình vào khung Paired Variables → Chọn Options và nhập độ tin cậy (sử dụng độ tin cậy 95% tương đương mức ý nghĩa là 5%) → OK.
  32. 25 Hình 15. Kiểm định Paired-Samples T-Test Kết quả: Paired Samples Statistics Mean N Std. Deviation Std. Error Mean Lopdoichieu 6,407 43 ,8664 ,1321 Pair 1 Lopthucnghiem 7,551 43 ,8096 ,1235 Paired Samples Correlations N Correl Sig. ation Lopdoichieu & Pair 1 43 -,029 ,855 Lopthucnghiem Paired Samples Test Paired Differences t df Sig. (2-tailed) Mean Std. Std. 95% Confidence Deviation Error Interval of the Mean Difference Lower Upper Pai Lopdoichieu - -1,1442 1,2026 ,1834 -1,5143 -,7741 -6,239 42 ,000 r 1 Lopthucnghiem Bảng 5. Kết quả kiểm định Paired-Samples T-Test Đánh giá kết quả: + Đầu tiên cần quan tâm bảng Paired Samples Test: giá trị Sig = 0,000 < 0,05 tức là chúng ta bác bỏ giả thiết Ho tức là có sự khác biệt giữa điểm của hai lớp.
  33. 26 + Tiếp theo đánh giá bảng Paired Samples Statistics: dễ thấy điểm trung bình của lớp thực nghiệm là 7,551 cao hơn so với 6,407 của lớp đối chiếu. + Cuối cùng bảng Paired Samples Correlations: cho biết mối tương quan của dữ liệu giữa hai nhóm khảo sát. Giá trị sig = 0,855 > 0,05 cho thấy dữ liệu của hai nhóm này có sự tương quan rất gần với nhau. * One-Sample T Test: Kiểm định trung bình tổng thể. Sử dụng để so sánh trung bình của tổng thể với một giá trị nào đó. VD: So sánh điểm của lớp thực nghiệm với điểm 7. Quy trình kiểm định: + Bước 1: Đặt ra giả thuyết Ho là điểm trung bình của lớp thực nghiệm là 7 điểm. + Bước 2: Thực hiện kiểm định One-Sample T Test. + Bước 3: So sánh giá trị sig của kiểm định t được xác định ở bước 2 với 0.05 (mức ý nghĩa 5% = 0.05 | độ tin cậy 95%) Nếu sig > 0.05 thì ta chấp nhận giả thuyết Ho nghĩa là điểm trung bình tổng thể bằng 7. Nếu sig < 0.05 thì ta bác bỏ giả thuyết Ho nghĩa là điểm trung bình tổng thể khác 7, từ đó dựa vào cột Mean Difference có giá trị dương hay âm để kết luận điểm trung bình lớp hơn hay nhỏ hơn 7. Thực hiện kiểm định: Chọn lệnh One-Sample T Test → đưa các biến cần kiểm định vào khung Test Variable → nhập giá trị muốn so sánh vào ô Test Value → OK. Hình 16. Kiểm định One-Sample T Test
  34. 27 Kết quả: One-Sample Statistics N Mean Std. Deviation Std. Error Mean Lopthucnghiem 43 7,551 ,8096 ,1235 Lopdoichieu 43 6,407 ,8664 ,1321 One-Sample Test Test Value = 7 t df Sig. (2-tailed) Mean Difference 95% Confidence Interval of the Difference Lower Upper Lopthucnghiem 4,464 42 ,000 ,5512 ,302 ,800 Lopdoichieu -4,488 42 ,000 -,5930 -,860 -,326 Bảng 6. Kết quả kiểm định One-Sample T Test Đánh giá kết quả: + Không có điểm trung bình lớp nào là 7, bác bỏ Ho do giá trị sig ở cả hai biến đều là 0,000 < 0,05. + Đánh giá cột Mean Difference: điểm trung bình lớp thực nghiệm có hiệu số dương và lớp hơn 7. Ngược lại điểm trung bình lớp đối chiếu có hiệu số âm và nhỏ hơn 7. Lưu ý ở đây One-Sample T Test đưa ra giá trị sig để chấp nhận hay bác bỏ giả thuyết Ho không chỉ dựa vào điểm trung bình mà còn dựa vào các yếu tố về kích thước mẫu, độ lệch chuẩn, khoảng biến thiên, độ tin cậy, Do đó, khi muốn so sánh trung bình của biến với một giá trị nào đó, chúng ta cần tiến hành kiểm định One- Sample T Test chứ không thể kết luận dựa vào giá trị trung bình của biến đó được. * Independent-Sample T Test: So sánh trung bình giữa hai nhóm. Independent-Sample T Test chỉ dùng để kiểm định sự khác biệt trung bình trong trường hợp chỉ có hai biến định tính. VD: lớp thực nghiệm, lớp đối chiếu; nam, nữ; cô giáo A dạy, cô giáo B dạy; Trong trường hợp ta có từ ba biến định tính trở lên thì ta phải sử dụng kiểm định ANOVA nếu không sẽ rất mất thời gian khi đi so sánh từng cặp biến định tính với nhau. Independent-Sample T Test dùng để kiểm định sự khác biệt trung bình của biến định lượng với các giá trị khác nhau của biến định tính. VD: Có sự khác nhau về điểm số giữa lớp chuyên và lớp không chuyên hay không? Có sự khác nhau về mức độ chi tiêu giữa sinh viên thành phố với sinh viên các tỉnh hay không?
  35. 28 VD: Thực hiện kiểm định trên cơ sở dữ liệu lớp thực nghiệm và lớp đối chiếu với hai biến định tính là Lop gồm “lopthucnghiem” và “lopdoichieu” cùng biến định lượng là Diemthi với độ tin cậy 95%. Hình 17. So sánh trung bình giữa hai nhóm Chọn Independent-Sample T Test → đưa biến định lượng vào ô Test Variable và đưa biến định tính và ô Grouping Variable → chọn Define Groups để phân nhóm giá trị (với giá trị của lopthucnghiem là 1 và giá trị của lopdoichieu là 2 đã mã hóa ban đầu) → Continue → OK. Hình 18. Phân nhóm giá trị so sánh trung bình giữa hai nhóm
  36. 29 Kết quả: Group Statistics Lop N Mean Std. Deviation Std. Error Mean Lopthucnghiem 46 7,393 ,9938 ,1465 Diemthi Lopdoichieu 43 6,407 ,8664 ,1321 Independent Samples Test Levene's Test for t-test for Equality of Means Equality of Variances F Sig. t df Sig. (2- Mean Std. Error 95% Confidence tailed) Difference Difference Interval of the Difference Lower Upper Equal variances ,422 ,518 4,977 87 ,000 ,9865 ,1982 ,5925 1,3805 assumed Diem thi Equal variances 5,000 86,591 ,000 ,9865 ,1973 ,5943 1,3787 not assumed Bảng 7. Kết quả so sánh trung bình giữa hai nhóm Đánh giá kết quả: Đầu tiên quan sát kết quả Sig của cột Levene's Test nếu nhỏ hơn 0,05, nghỉa là phương sai giữa hai lớp khác nhau nhiều. Tiếp tục quan sát giá trị Sig. (2-tailed) ở cột t-test (hàng đầu tiên Equal variances assumed): + sig T-test < 0,05 : kết luận có sự khác biệt về điểm số của hai lớp. + sig T-test 0,05 : kết luận không có sự khác biệt về điểm số của hai lớp. Nếu giá trị Sig Levene's Test lớn hơn hoặc bằng 0,05 thì phương sai giữa hai lớp không có sự khác nhau nhiều. Tiếp tục quan sát giá trị Sig. (2-tailed) ở cột t-test (hàng thứ 2 Equal variances not assumed): + sig T-test < 0,05 : kết luận có sự khác biệt về điểm số của hai lớp. + sig T-test 0,05 : kết luận không có sự khác biệt về điểm số của hai lớp.
  37. 30 * One-Way ANOVA: Phân tích phương sai một chiều (kiểm định ANOVA) dùng khi có nhiều nhóm cần so sánh. Kiểm định One-Way ANOVA cũng dùng để kiểm định trung bình giống như kiểm định Independent-Sample T Test ở trên. Tuy nhiên với One-Way ANOVA chúng ta có thể so sánh trung bình về một tiêu chí nào đó với hai hay nhiều đối tượng nghiên cứu chứ không bó buộc trong hai đối tượng như Independent-Sample T Test. VD: Có sự khác nhau về trường học giữa các học sinh có số điểm thi tốt nghiệp khác nhau hay không, có sự khác nhau giữa giáo viên giảng dạy giữa các học sinh đạt mức điểm thi khác nhau hay không. Ở chức năng này chúng ta sử dụng cơ sở dữ liệu về mức tiêu thụ xăng của các máy công nghiệp. Dữ liệu được lấy từ bài tập Phân tích dữ liệu nghiên cứu với SPSS của Khoa Toán – Thống kê Đại học Đại học Kinh tế TP. Hồ Chí Minh (EUH)[1]. Số liệu cụ thể như sau: Hình 19. Cơ sở dữ liệu mức tiêu thụ xăng VD: Sử dụng cơ sở dữ liệu trên hãy so sánh mức tiêu thụ xăng giữa các máy động cơ có số cylinder khác nhau với độ tin cậy 95%. Theo đó hai biến cần quan tâm là ttxang (mức tiêu thụ xăng) và may (số cylinder trong máy). Ở ví dụ này biến định lượng là mức tiêu thụ xăng, còn biến định tính là số cylinder gồm năm giá trị là 3, 4, 5, 6, 8. Vậy ở đây để kiểm định giá trị trung bình giữa năm yếu tố định tính này ta không thể sử dụng kiểm định Independent-Sample T Test được vì sẽ rất dài dòng phức tạp khi phải đi so sánh từng cặp giá trị định tính với nhau. Thay vào đó kiểm định One-Way ANOVA là phương án phù hợp hơn.
  38. 31 Thực hiện kiểm định: Chọn lệnh One-Way ANOVA → đưa biến định lượng vào ô Dependent List → đưa biến định tính vào ô Factor → Chọn Options và tích chọn hai mục Homogeneity of variance test và Welch → Continue → OK. Hình 20. Kiểm định One-Way ANOVA
  39. 32 Kết quả: Test of Homogeneity of Variances muc tieu thu xang (km/lit) Levene Statistic df1 df2 Sig. 3,828 4 45 ,009 ANOVA muc tieu thu xang (km/lit) Sum of Squares df Mean Square F Sig. Between Groups 365,037 4 91,259 15,301 ,000 Within Groups 268,391 45 5,964 Total 633,429 49 Robust Tests of Equality of Means muc tieu thu xang (km/lit) Statistica df1 df2 Sig. Welch 17,360 4 4,087 ,008 Bảng 8. Kết quả kiểm định One-Way ANOVA Đánh giá kết quả: Quy trình phân tích One-Way ANOVA được thực hiện như sau: Hình 21. Đánh giá kết quả kiểm định One-Way ANOVA[25][18]. Khi phương sai của các nhóm giá trị không đồng nhất thì phải sử dụng kiểm định Welch để đánh giá kiểm định trung bình. Với kết quả VD trên Sig. Levene Statistic = 0.009 < 0.05 nghĩa là phương sai giữa các nhóm giá trị không đồng nhất nên sử dụng kết quả của kiểm định Welch. Quan sát Sig. Welch = 0.008 < 0.05, kết luận có sự khác biệt trung bình giữa các biến định lượng.
  40. 33 2.5. Phân tích tương quan Trước khi xem xét phân tích tương quan chúng ta cùng tìm hiểu qua về hai chỉ số rất quan trọng trong phân tích thống kê là Reliability (Độ tin cậy) và Validity (Độ chuẩn xác). + Reliability (Độ tin cậy) là độ ổn định của thang đo với các kết quả sai biệt không quá lớn trong một mẫu khảo sát đủ lớn. Khi thực hiện khảo sát với nhiều biến quan sát (biến độc lập) để đánh giá một biến tổng (biến phụ thuộc) thì độ ổn định trong các kết quả thu được giữa các biến quan sát là vô cùng quan trọng. Nó cho các nhà nghiên cứu biết được thang đo của họ có độ hiệu quả và độ tin cậy cao nếu không có sự sai khác lớn giữa các đáp án. Chỉ số này được đánh giá thông qua hệ số Cronbach’s Alpha sẽ được trình bày kỹ hơn ở dưới. + Validity (Độ chuẩn xác) là độ hội tụ các kết quả khảo sát của các biến quan sát với biến tổng cần đánh giá. Nói cách khác chính là độ tương quan giữa các biến quan sát với biến tổng nhằm chỉ ra biến quan sát có thực sự đang đánh giá đúng biến tổng. Như vậy nếu các biến quan sát đều có mối tương quan với biến tổng thì thang đo có độ chuẩn xác cao. Ngược lại biến quan sát không có tương quan với biến tổng thì ta cần loại bỏ biến quan sát đó. Chỉ số này được đánh giá thông qua phân tích tương quan Pearson về độ tương quan giữa các biến quan sát với biến tổng. + VD: Một ví dụ đơn giản để thấy được sự khác nhau và tầm quan trọng của hai thông số này trong phân tích thống kê như sau: để đánh giá mức độ hiệu quả của phương pháp dạy học tích cực vào việc nâng cao kiến thức và kỹ năng cho học sinh, một nhà nghiên cứu đưa ra các câu hỏi cho các biến quan sát như sau: Học sinh có hài lòng về giáo viên giảng dạy? Thời gian học sinh tự học ở nhà? Học sinh thích môn học nào nhất? Giả sử kết quả khảo sát trong 3 lớp học đều cho kết quả gần tương tự nhau. Từ đó ta có thể nhận xét độ ổn định của thang đo này là rất lớn dẫn đến hệ số Cronbach’s Alpha cao. Tuy nhiên các biến quan sát này chưa thể đánh giá được biến tổng là mức độ hiện quả của phương pháp dạy học tích cực. Chính vì thế chỉ số tương quan giữa các biến quan sát với biến tổng trong phân tích tương quan Pearson sẽ không cao. Do đó để đánh giá một thang đó là chính xác và tin cậy để có thể đánh giá đúng về biến tổng thì cả hai chỉ số Reliability và Validity đều phải đạt mốc. Chính bởi tầm quan trọng của phân tích tương quan mà SPSS cũng cung cấp các công cụ phân tích tương quan trong Menu Analyze → Correlate, trong đó thường dùng nhất là:
  41. 34 * Bivariate: Phân tích tương quan Pearson (tương quan đơn). Phân tích tương quan Pearson sẽ đánh giá độ tương quan giữa các biến quan sát và biến tổng, đồng thời cũng đánh giá tương quan giữa các biến quan sát với nhau. Tương quan Pearson r có giá trị từ -1 đến 1:[16] - Nếu r càng tiến về -1, 1 thì tương quan tuyến tính càng mạnh mẽ, càng liên kết chặt chẽ với nhau. Tiến đến 1 là tương quan dương và ngược lại tiến đến -1 là tuong quan âm. - Nếu r càng tiến về 0 thì tương quan tuyến tính giữa các biến càng yếu. Tuy nhiên chỉ số r chỉ có nghĩa khi chỉ số sig 0.05 chúng ta kết luận với mức ý nghĩa 5% thì hai biến không có tương quan với nhau. Chỉ số r 0.7 thì các biến quan sát có sự tương quan mạnh với biến tổng nên thang đo này là chuẩn xác. Chọn thẻ Correlate → Bivariate → đưa biến tổng và các biến quan sát vào ô Variables → OK. VD: Kiểm định độ tương quan giữa biến tổng mức tiêu thụ xăng với các biến quan sát là công suất động cơ, khối lượng xe, số máy (cylinder) và dung tích động cơ với độ tin cậy 95%. Thực hiện kiểm định: Đưa biến tổng và các biến quan sát vào ô Variables. Lưu ý, đưa biến tổng lên đầu tiên để dễ quan sát và nhận xét kết quả. Hình 22. Phân tích tương quan đơn
  42. 35 Kết quả: Correlations muc tieu thu cong suat khoi luong so may dung tich xang (km/lit) dong co (HP) xe (kg) (cylinder) dong co (lit) muc tieu thu Pearson 1 -,788 -,858 -,681 -,777 xang (km/lit) Correlation Sig. (2- ,000 ,000 ,000 ,000 tailed) N 50 50 50 50 50 cong suat Pearson -,788 1 ,786 ,752 ,818 dong co (HP) Correlation Sig. (2- ,000 ,000 ,000 ,000 tailed) N 50 50 50 50 50 khoi luong xe Pearson -,858 ,786 1 ,802 ,901 (kg) Correlation Sig. (2- ,000 ,000 ,000 ,000 tailed) N 50 50 50 50 50 so may Pearson -,681 ,752 ,802 1 ,941 (cylinder) Correlation Sig. (2- ,000 ,000 ,000 ,000 tailed) N 50 50 50 50 50 dung tich Pearson -,777 ,818 ,901 ,941 1 dong co (lit) Correlation Sig. (2- ,000 ,000 ,000 ,000 tailed) N 50 50 50 50 50 . Correlation is significant at the 0.01 level (2-tailed). Bảng 9. Kết quả phân tích tương quan đơn Đánh giá kết quả: Ở đây yếu tố cần chú ý đầu tiên là chỉ số sig của biến tổng với các biến quan sát. Ta thấy với tất cả biến quan sát chỉ số này đều nhỏ hơn 0.05 nên kết luận các biến quan sát đều có tương quan với biến tổng. Sau đó quan sát giá trị Pearson Correlation, chỉ số này đều rơi vào khoảng (-0,6 → -0,9) như vậy có thể kết luận thang đo này là chuẩn xác.
  43. 36 Ngoài ra dựa vào bảng kết quả ta còn có thể đánh giá Validity (Độ chuẩn xác) giữa các biến quan sát với nhau theo cách nhận xét tương tự. 2.6. Kiểm định độ tin cậy của thang đo Đầu tiên để đánh giá được độ tin cậy của thang đo dựa trên đánh giá hệ số Cronbach’s Alpha. Vậy hệ số Cronbach’s Alpha là gì? Và kiểm định độ tin cậy Reliability như thế nào? Trong nghiên cứu định lượng, việc đo lường các nhân tố lớn đôi khi sẽ rất khó khăn và phức tạp, hoặc nếu chỉ khảo sát mỗi nhân tố đó sẽ không khách quan. VD: Để đánh giá độ hiệu quả của phương pháp dạy học tích cực đối với học sinh, không thể chỉ đặt câu hỏi là: em có cảm thấy phương pháp dạy học tích cực có hiệu quả không? Như thế kết quả thu được sẽ không khách quan. Thay vào đó, chúng ta cần một số biến quan sát để cùng làm rõ biến tổng là độ hiệu quả của phương pháp dạy học tích cực. Giả sử có thể đặt thêm các khảo sát như: Điểm số của em sau khi học bằng phương pháp mới? Khả năng thuyết trình của em sau khi học phương pháp mới được cải thiện? Khả năng sáng tạo của em sau khi học phương pháp mới được cải thiện? Khả năng làm việc nhóm được cải thiện? Như vậy với các biến quan sát trên cùng với một câu hỏi cho biến tổng ta sẽ được một thang đo có thể đánh giá khách quan được biến tổng. Vậy câu hỏi đặt ra là thang đo như vậy đã hợp lý chưa và kết quả sau khi khảo sát có tin cậy được không? Để đánh giá được Reliability (Độ tin cậy) với ý nghĩa là độ ổn định của thang đo chúng ta sử dụng hệ số Cronbach’s Alpha. Hệ số Cronbach’s Alpha sẽ giao động trong khoảng từ 0 – 1, kết hợp với hệ số tương quan biến tổng để đánh giá xem các biến quan sát của biến tổng có tin cậy hay không? Có tốt không? Phép kiểm định này phản ánh mức độ liên quan chặt chẽ giữa các biến quan sát không? Biến nào có đóng góp trong việc đo lường biến tổng, biến nào không? Từ đó có thể kết luận Reliability (Độ tin cậy) của thang đo. Như vậy nếu thang đo không tin cậy tức là các biến quan sát không có mối tương quan với nhau, và không thể hiện được thuộc tính chung của biến tổng. Khi này hệ số Cronbach’s Alpha và hệ số tương quan biến tổng sẽ có giá trị rất thấp và ngược lại. Với thang đo không đủ độ tin cậy cần phải xây dựng lại hệ thống câu hỏi khảo sát hoặc loại bỏ những câu hỏi không liên quan, không có đóng góp trong việc đo lường biến tổng.
  44. 37 Cronbach (1951) đưa ra hệ số tin cậy cho thang đo. Chú ý, hệ số Cronbach’s Alpha chỉ đo lường độ tin cậy của thang đo (bao gồm từ 3 biến quan sát trở lên) chứ không tính được độ tin cậy cho từng biến quan sát.[16] Hệ số Cronbach’s Alpha có giá trị biến thiên trong đoạn [0,1]. Về lý thuyết, hệ số này càng cao càng tốt (thang đo càng có độ tin cậy cao). Tuy nhiên điều này không hoàn toàn chính xác. Hệ số Cronbach’s Alpha quá lớn (khoảng từ 0.95 trở lên) cho thấy có nhiều biến trong thang đo không có khác biệt gì với nhau, hiện tượng này gọi là trùng lắp trong thang đo.[16] Nếu một biến đo lường có hệ số tương quan biến tổng Corrected Item – Total Correlation 0.3 thì biến đó đạt yêu cầu.[22] Mức giá trị hệ số Cronbach’s Alpha:[8] + Từ 0.8 đến gần bằng 1: thang đo lường rất tốt. + Từ 0.7 đến gần bằng 0.8: thang đo lường sử dụng tốt. + Từ 0.6 trở lên: thang đo lường đủ điều kiện. + Dưới 0.6: thang đo chưa tin cậy, cần xem xét lại mô hình khảo sát. Để kiểm định độ tin cậy của thang đo, SPSS cũng cấp công cụ phân tích hệ số Cronbach’s Alpha trong Menu Analyze → Scale. Cụ thể là chức năng: * Reliability Analysis: Sử dụng hệ số Cronbach’s Alpha và hệ số tương quan biến tổng để đánh giá độ tin cậy của thang đo nghiên cứu. Để thực hiện đánh giá độ tin cậy ta chọn Scale → Reliability Analysis → Chuyển các biến cần đánh giá vào ô items → chọn Statistics → tích chọn Scale if item deleted để đánh giá luôn hệ số Cronbach’s Alpha của biến tổng thay đổi như thế nào nếu loại bỏ biến quan sát đó → Continue → OK. Lưu ý nếu mẫu khảo sát có nhiều thang đo để đánh giá nhiều biến tổng chẳng hạn biến giáo dục gồm các biến quan sát GD1, GD2, GD3; biến y tế gồm các biến quan sát YT1, YT2, YT3; Thì ta phải kiểm định Reliability Analysis cho từng nhóm biến tổng một chứ không đưa tất cả biến quan sát vào một lúc. VD: Đánh giá độ tin của cơ sở dữ liệu mức tiêu thụ xăng bằng hệ số Cronbach’s Alpha. Với biến tổng là ttxang và độ tin cậy 95%.
  45. 38 Hình 23. Đánh giá hệ số Cronbach’s Alpha
  46. 39 Kết quả: Reliability Statistics Cronbach's Alpha N of Items ,156 5 Item-Total Statistics Cronbach's Scale Mean if Scale Variance Corrected Item- Alpha if Item Item Deleted if Item Deleted Total Correlation Deleted muc tieu thu xang (km/lit) 1326,10012 95918,748 -,867 ,190 cong suat dong co (HP) 1247,81860 81067,073 ,785 -,007a khoi luong xe (kg) 110,89860 711,884 ,775 -,090a so may (cylinder) 1333,71860 93265,939 ,813 ,158 dung tich dong co (lit) 1336,09848 93289,643 ,910 ,158 a. The value is negative due to a negative average covariance among items. This violates reliability model assumptions. You may want to check item codings. Bảng 10. Đánh giá hệ số Cronbach’s Alpha Từ kết quả quan sát được hệ số Cronbach's Alpha = 0.156 < 0.6 nên độ tin cậy của thang đo này không cao. Đồng thời quan sát cột Cronbach's Alpha if Item Deleted với ý nghĩa là hệ số Cronbach's Alpha nếu bỏ đi biến quan sát đó. Nếu giá trị này lớn chúng ta tiến hành bỏ đi biến quan sát để tăng độ tin cậy cho thang đo. Trong trường hợp này các giá trị ở cột này đều nhỏ nên có thể kết luận thang đó này không tin cậy. 2.7. Phân tích hồi quy Phân tích hồi quy, cụ thể là phân tích hồi quy tuyến tính là một chức năng quan trọng trong việc dự đoán mối tương quan giữa các biến với nhau, qua đó làm cơ sở cho việc tiên lượng giá trị của biến phụ thuộc dựa vào các biến độc lập. Phần mềm SPSS cũng cung cấp các công cụ phân tích hồi quy tuyến tính cho người dùng trong Menu Analyze → Regression. Các lệnh thường dùng cho các phân tích thông dụng là: * Linear: Phân tích hồi quy tuyến tính bội. Để thực hiện phân tích hồi quy tuyến tính bội, chúng ta sử dụng lệnh Linear trong Menu Analyze → Regression. VD: Phân tích hồi quy tuyến tính bội của cơ sở dữ liệu mức tiêu thụ xăng. Độ tin cậy 95%.
  47. 40 Hình 24. Bảng số liệu phân tích hồi quy tuyến tính Phân tích bảng số liệu chúng ta thấy có một biến phụ thuộc là mức tiêu thụ xăng ttxang sẽ phụ thuộc vào các biến độc lập là công xuất động cơ maluc, khối lượng xe nang, số cylinder may và dung tích động cơ lit. Tiến hành phân tích: Chọn Regression → Linear → đưa biến phụ thuộc vào ô Dependent, các biến độc lập vào ô Indenpendents. Hình 25. Phân tích hồi quy tuyến tính bội
  48. 41 Tiếp tục chọn Statistics → tích chọn 4 mục Estimates, Model fit, Collinearity diagnostics và Durbin-Watson → Continue. Hình 26. Cài đặt thông số phân tích Tiếp tục vào mục Plots để xuất ra các biểu đồ phục vụ cho việc kiểm tra vi phạm các giả định hồi quy. Trong bảng chọn hiện ra, chọn trục Y là *ZPRED và X là *ZRESID sau đó tích chọn 2 mục Histogram và Normal probability plot → Continue → OK để chạy phân tích hồi quy tuyến tính bội. Hình 27. Cài đặt biểu đồ kiểm tra giả thiết hồi quy
  49. 42 Kết quả: Kết quả bao gồm nhiều bảng phân tích trong đó ta quan tâm đến các bảng Model Summary, ANOVA và Coecients và đồ thị. Ta sẽ lần lượt đọc và phân tích kết quả của các bảng này: + Bảng Model Summary: Model Summaryb Adjusted R Std. Error of the Model R R Square Square Estimate Durbin-Watson 1 ,881a ,776 ,757 1,77383 1,668 a. Predictors: (Constant), dung tich dong co (lit), cong suat dong co (HP), khoi luong xe (kg), so may (cylinder) b. Dependent Variable: muc tieu thu xang (km/lit) Bảng 11. Bảng Model Summary - Trong bảng này ta cần để ý 2 giá trị Adjusted R Square và Durbin-Watson. - Giá trị Adjusted R Square = 0.757 hay còn gọi là R bình phương hiệu chỉnh, nó phản ánh mức độ ảnh hưởng của các biến độc lập lên biến phụ thuộc. Cụ thể trong trường hợp này, 4 biến độc lập đưa vào ảnh hưởng 75,7% sự thay đổi của biến phụ thuộc, còn lại 24,3% là do các biến ngoài mô hình và sai số ngẫu nhiên. Thường thì giá trị này từ 50% trở lên là nghiên cứu được đánh giá tốt. Như vậy với mẫu số liệu như trên thì các biến độc lập ảnh hưởng tương đối lớn đến biến phụ thuộc. - Giá trị Durbin-Watson = 1.668 dùng để kiểm định sự tương quan của các sai số kề nhau (hay còn gọi là tương quan chuỗi bậc nhất) có giá trị biến thiên trong khoảng từ 0 đến 4; nếu các phần sai số không có tương quan chuỗi bậc nhất với nhau thì giá trị sẽ gần bằng 2 (từ 1 đến 3); nếu giá trị càng nhỏ, gần về 0 thì các phần sai số có tương quan thuận; nếu càng lớn, gần về 4 có nghĩa là các phần sai số có tương quan nghịch. Lưu ý, đây là giá trị ước lượng thường dùng trong SPSS chứ không chính xác. Nếu bài phân tích yêu cầu tính chính xác, chúng ta cần tra trong bảng hệ số Durbin-Watson (Phụ lục) Và đối chiếu với bảng ý nghĩa bên dưới. Với mức ý nghĩa 1% ở bảng A-1 và 5% ở bảng A-2. Không có tự tương quan chuỗi bậc nhất thì dữ liệu thu thập là tốt.
  50. 43 > 0 Không = 0 Không kết 0.05 thì cần xem xét lại mô hình.
  51. 44 + Bảng Coecients: Coefficientsa Unstandardized Standardized Coefficients Coefficients Collinearity Statistics Model B Std. Error Beta t Sig. Tolerance VIF 1 (Constant) 26,234 2,319 11,312 ,000 cong suat dong co (HP) -,046 ,016 -,348 -2,783 ,008 ,318 3,141 khoi luong xe (kg) -,009 ,002 -,722 -4,161 ,000 ,165 6,067 so may (cylinder) ,244 ,536 ,100 ,455 ,651 ,102 9,763 dung tich dong co (lit) ,178 ,882 ,063 ,202 ,841 ,051 19,748 a. Dependent Variable: muc tieu thu xang (km/lit) Bảng 13. Bảng Coecients - Với mô hình hồi quy chuẩn hóa chúng ta cần chú ý ba giá trị là B, Beta, sig. - Đầu tiên là giá trị sig < 0.05 nghĩa là biến đó có ý nghĩa trong mô hình, ngược lại thì biến đó không có ý nghĩa với mô hình và cần được loại bỏ. - Tiếp theo là hệ số hồi quy B và hệ số hồi quy chuẩn hóa Beta, trong tất cả các hệ số hồi quy, biến độc lập nào có Beta lớn nhất thì biến đó ảnh hưởng nhiều nhất đến sự thay đổi của biến phụ thuộc. Do đó khi đề xuất giải pháp, các nhà nghiên cứu nên chú trọng nhiều vào các nhân tố có Beta lớn. Nếu hệ số Beta âm nghĩa là biến đó tác động nghịch, hệ số Beta dương, biến đó tác động thuận. Khi so sánh thứ tự độ lớn, chúng ta xét giá trị tuyệt đối của hệ số Beta.Với mô hình này ta thấy biến khối lượng xe có ảnh hưởng nhiều nhất đến mức tiêu thu xăng. - Như vậy với hệ số hồi quy B chúng ta có phương trình hồi quy tuyến tính là: mức tiêu thụ xăng = -0,046*công suất động cơ -0,009*khối lượng xe +0.244*số máy +0.178*dung tích động cơ. + Đồ thị: - Với các lựa chọn trong VD thực hành kết quả thu được 3 đồ thị:
  52. 45 Hình 29. Đồ thị Histogram Hình 30. Đồ thị Normal P-P Plot
  53. 46 Hình 31. Đồ thị Scatter Plot - Trong đó đồ thị Histogram và đồ thị Normal P-P Plot dùng để đánh giá giả thiết phân phối chuẩn của phần dư có bị vi phạm hay không. Ở đồ thị Histogram, đường cong phân phối chuẩn đặt chồng lên biểu đồ tần số và có dạng hình chuông như vậy phân phối phần dư xấp xỉ chuẩn. Ở đồ thị Normal P-P Plot các điểm phân vị trong phân phối phần dư tập chung thành một đường chéo do đó không vi phạm giả định hồi quy về phân phối chuẩn của phần dư. - Ở đồ thị Scatter Plot với giá trị trục Y và X như đã chọn ban đầu thì trục hoành sẽ biểu thị giá trị phần dư chuẩn hóa (Standardized Residual) và trục tung sẽ biểu thị giá trị dự đoán chuẩn hóa (Predicted Value). Dựa vào đồ thị các điểm phân bố của phần dư nếu không tạo thành dạng đường thẳng thì đã vi phạm giả định liên hệ tuyến tính và ngược lại. 2.8. Biểu đồ Trong các phân tích số liệu thì đồ thị là một phần quan trọng để thể hiện kết quả phân tích. Phần mềm SPSS cũng cung cấp công cụ vẽ đồ thị rất đa dạng gồm nhiều
  54. 47 loại đồ thì như: dạng cột, đường, tròn, miền, Các chức năng cơ bản được trình bày trong khóa luận ở trên cũng đã lưu ý vẽ thêm đồ thị cho một số phép phân tích. Ngoài ra chức năng vẽ đồ thị được SPSS cung cấp trong Menu Graphs → Chart Builder. Hình 32. Vẽ đồ thị với SPSS
  55. 48 CHƯƠNG 2. SỬ DỤNG PHẦN MỀM R 1. Giới thiệu phần mềm R 1.1. Lịch sử hình thành và phát triển Phần mềm R là một ngôn ngữ lập trình, ngôn ngữ trên R có nét giống với ngôn ngữ lập trình C. Phần mềm R có nguồn gốc từ phần mềm S dùng cho phân tích và quản lý dữ liệu. Phần mềm S được các nhà khoa học RA Becker, JM chambers và A Wilks phát triển phiên bản S2 vào năm 1988. Phiên bản này chỉ được sử dụng trong viện nghiên cứu Bell Labs là một trung tâm nghiên cứu về công nghệ và khoa học rất quan trọng của Hoa Kỳ. JM chambers và TJ Hastie tiếp tục phát triển phiên bản S3 vào năm 1992. Đến năm 1998 JM chambers đã biến phần mềm S thành một phần mềm có thể thương mại hóa với bản phần mềm S4. S là một phần mềm khá phức tạp và được thiết kế cho những chuyên gia về thống kê. Vì vậy S không quá phổ biến trên thị trường.[14] Vào thập niên 1990s, hai nhà thống kê học là Ross Ihaka và Robert Gentleman thuộc Đại học Auckland, New Zealand đã viết lại phần mềm S thành một phần mềm miễn phí để cộng đồng thống kê sử dụng là R. Đến năm 1997, lúc này R đã rất nổi tiếng, một nhóm gồm 15 thành viên được thành lập để đứng ra quản lý và duy trì phần mềm này gọi là “R-core”. Từ đó R ngày càng nổi tiếng và phát triển cho đến tận ngày nay.[14] Phần mềm R được xem là một trong những phát triển lớn nhất của khoa học thống kê trong vài năm gần đây. Gần đây có nhiều phương pháp phân tích dữ liệu mới được các chuyên gia thống kê phát triển nhưng để phổ biến phương pháp đó cho mọi người là rất khó. Do đó R là một công cụ tuyệt vời để lập trình và chia sẻ các phương pháp thống kê mới một cách nhanh chóng. Phần mềm R có thể xem như một cuộc cách mạng trong khoa học thống kê. Không những thế, R còn là một phần mềm hoàn toàn miễn phí và đã được sử dụng rộng rãi trên thế giới. Việc sử dụng R sẽ tiết kiệm một khoản tiền rất lớn cho các công ty, tổ chức, các trường đại học, các nhà nghiên cứu, [14] 1.2. Khả năng của R R là một ngôn ngữ phân tích thống kê, không phải là một hệ thống các phân tích được tích hợp sẵn như SPSS. Khả năng của R:
  56. 49 + Phần mềm R có thể thực hiện tất cả các mô hình thống kê phân tích với rất nhiều gói packages được phát triển bởi các chuyên gia thống kê đã được kiểm định kỹ lưỡng. + Mô phỏng (simulation): cho phép tính toán các mô hình thống kê không xử lý được bằng các phương pháp toán học thông thường. + Phần mềm R có khả năng mô phỏng đồ thị, biểu đồ rất tốt. R không chỉ vẽ được những biểu đồ mô phỏng số liệu đơn giản mà còn có thể vẽ các bản đồ phức tạp như bản đồ địa hình hay quốc gia. + R cho phép người dùng tự lập trình một phương pháp phân tích mới phù hợp với nhu cầu. + R có thể sử dụng như một máy tính cầm tay với các phép tính thông thường rất dễ dàng. Khả năng tính toán của R cũng rất tốt, có thể xử lý nhiều phép tính phức tạp mà máy tính bỏ túi không giải quyết được. Các phép tính và các hàm tính toán trong R rất giống với Excel nên có thể sử dụng dễ dàng. 1.3. Giao diện Phần mềm R có giao diện sử dụng tương đối xa lạ với người dùng bình thường và các nhà nghiên cứu không am hiểu về lập trình. Hình 33. Giao diện sử dụng của R
  57. 50 Trong đó: 1 - Khu vực các lệnh cơ bản. 2 - Khu vực làm việc chính. R là một công cụ miễn phí và dần dần được sử dụng rộng rãi. Nhưng cũng như các ngôn ngữ khác, chúng ta có các chương trình phụ trợ cho R, gọi là IDE, Integrated Development Environment: Môi trường Phát triển Tích hợp tạo nên một giao diện thân thiện hơn, dễ dùng hơn trong khi làm việc với R. RStudio là một trong số đó và là một phần mềm “bán thương mại”. RStudio cung cấp bản miễn phí cho người dùng sử dụng song song với R để làm việc dễ dàng hơn. Cùng với đó là bản trả phí dùng trong các công ty, doanh nghiệp, với khả năng chia sẻ và bảo mật thông tin. Để sử dụng được RStudio thì cần tải và cài đặt cả RStudio và phần mềm R. Cốt lõi sức mạnh của RStudio là phần mềm R nên có thể nói ngoài thêm vào các chức năng hỗ trợ thì RStudio còn có thể sử dụng toàn bộ các chức năng của R. Sau khi tải và cài đặt thì giao diện sử dụng của RStudio như sau: Hình 34. Giao diện sử dụng của RStudio Trong đó: + Vùng 1 – thanh công cụ. + Vùng 2 – cửa sổ hiển thị dữ liệu của các dataset đã nhập vào R. + Vùng 3 – cửa sổ Console hiển thị các lệnh, đây chính là cửa sổ làm việc của phần mềm R có khả năng nhập và thực hiện các lệnh hoàn toàn tương đồng với R.
  58. 51 + Vùng 4 – cửa số hiển thị tất cả các biến, các dataset đã nhập vào R và lịch sử các lệnh đã nhập. Trong đó cửa sổ Environment hiển thị các biến và các dataset, có thể nhấp vào để hiển thị dữ liệu đó trên Vùng 2. Ở cửa sổ History, RStudio sẽ hiển thị tất cả các lệnh đã nhập vào Vùng 3 Console, nhấp đúp vào lệnh sẽ chuyển lệnh đó vào Vùng 3 Console rất tiện lợi khi nhập các lệnh tương tự nhau. + Vùng 5 – cửa số hiển thị các file trên máy tính (cửa sổ File), các đồ thị được vẽ từ R (cửa sổ Plots) và trình quản lý packages (cửa sổ Packages). Cửa sổ của các vùng có thể phóng to, thu nhỏ, điều chỉnh kích thước linh hoạt nhằm tiện cho việc quan sát kết quả khi làm việc. RStudio cung cấp nhiều chức năng hỗ trợ cho R như tự động đọc file, không gian hiển thị rõ ràng thân thiện hơn, cài và quản lý các gói packages dễ dàng hơn. Ngoài ra RStudio còn cung cấp nhiều công cụ hỗ trợ khác và toàn bộ các chức năng mà R có. Do đó, trong khóa luận này chúng tôi sẽ sử dụng RStudio để hướng dẫn các chức năng của R. Các lệnh nhập vào cửa sổ Console của RStudio có thể nhập trực tiếp vào R với kết quả tương đương. 1.4. Dẫn nhập Làm việc với R có chút khác biệt so với các phần mềm office thường sử dụng. Trước tiên muốn đọc dữ liệu, lưu dữ liệu hay bất cứ thao tác nào liên hệ giữa R với máy tính thì R cần được biết thư mục đang làm việc ở đâu. Từ đó sinh ra khái niệm về Workspace là môi trường mà chúng ta đang làm việc và xử lý trên R. Các lệnh cơ bản để thao tác với Workspace như sau: + getwd(): xem folder đang làm việc trên R. + getwd(“d:/R/dulieu”): đổi folder làm việc, lưu ý folder phải được đặt trong dấu nháy kép. Và R sử dụng dấu “/” trong các đường dẫn thay vì dấu “\”. + savehistory(file=“dulieuchaythu”): lưu trữ tất cả các lệnh đã sử dụng trong Workspace tại file “dulieuchaythu” trong folder đang làm việc. + loadhistory(file=“dulieuchaythu”): mở lại các lệnh đã lưu trong file “dulieuchaythu” để tiếp tục làm việc. Tất cả dữ liệu trong quá trình tính toán trên R được lưu trữ trong các object. Mỗi object phải có tên được đặt bằng các ký tự viết thường, viết hoa, chữ số hay các ký hiệu như “.” và “_”. Lưu ý tên object phải được viết liền không dấu và R sẽ phân biệt
  59. 52 chữ viết hoa với chữ viết thường. VD: Thanh, thanh, THANH là 3 object khác nhau trong R. Để đưa bất kỳ một đối tượng nào vào R, ta đều phải đặt nó vào trong một object để lưu trữ và R sẽ truy cập khi tính toán. Để dẫn nhập đối tượng vào R ta dùng ký hiệu “=” hoặc “<-”. VD: Các thao tác trong R đều sử dụng các lệnh và chủ yếu mỗi lệnh lại là một hàm khác nhau. Để biết một hàm cần có những thông số nào, chúng ta dùng lệnh args(x), mà trong đó x là một hàm chúng ta cần biết: Ngoài các lệnh và thao tác cơ bản, phần mềm R còn kèm theo các gói packages với rất nhiều chức năng thêm vào. Có thể nói packages là một phần không thể tách rời của phần mềm R. Các packages được thiết kế để phân tích các mô hình thống kê phức tạp. Mỗi packages được các chuyên gia thiết kế cho một chức năng hoặc một loại thống kê (một phương pháp phân tích) riêng biệt. Packages rất đa dạng với khoảng hơn 1000 gói, qua đó R có thể thực hiện tất cả các phép phân tích thống kê. Để sử dụng các packages ta phải tải về từ Internet và cài đặt vào R để bắt đầu làm việc. Cách cài đặt: + Tải các packages có thể được tải ở địa chỉ: → chọn Packages. + Sau khi tải về máy tính có thể dùng lệnh: install.packages(c(“moments”,“graphics”) Lệnh dùng để cài đặt 2 packages “moments” và “graphics” vào R. + Tuy nhiên nếu máy tính có kết nối mạng thì có thể cài trực tiếp các packages trong phần mềm R mà không cần phải tải về trước. Để làm được điều này chúng ta sử dụng menu Packages trên thanh công cụ. VD: Cài đặt packages boot vào R
  60. 53 Thực hành: Chọn menu Packages → Install packege(s). Khi lần đầu cài packages thì R sẽ cho chúng ta lựa chọn sever để tải packages. Lúc này, có thể chọn sever tùy thích hoặc có thể chọn sever 0-Cloud nếu không có sever nơi chúng ta đang sống nhằm có tốc độ tốt nhất. Hình 35. Cài đặt Packages trực tiếp cho R
  61. 54 Ngoài ra, RStudio cũng cho phép cài packages rất đơn giản như sau: Ở cửa sổ File → chọn packages → Install → Ở cửa sổ Install Packages nhập tên packages cần cài vào ô Packages → Install. Hình 36. Cài packages tự động với RStudio Với lệnh này RStudio sẽ tự động cài đặt packages đã chọn và các packages cần thiết. 1.5. Nhập dữ liệu * Nhập dữ liệu trực tiếp: R cho phép nhập dữ liệu trực tiếp vào R và lưu trữ trong các object. Dữ liệu được nhập lần lượt thành các Vector và Dataset. Vector là một đối tượng trên R xem như là một cột trong Excel hay một biến số (veryable). Lệnh nhập giá trị cho biến: tên biến = c(giá trị). Xem lại giá trị của biến bằng lệnh chứa tên biến.
  62. 55 Lưu ý khi cần nhập giá trị biến là các kí tự chứ không phải con số thì R yêu cầu phải nhập ký tự đó trong dấu nháy kép. Khi đó chúng ta sẽ không thể tính toán với biến này Dataset là tập hợp của nhiều vector có xem như một cơ sở dữ liệu. Một dataset xem như một ma trận (gồm nhiều dòng và cột). Lệnh hợp nhiều vecter lại: cbind(các biến). Lệnh hợp nhiều vecter thành một dataset: tên dataset = data.frame(các biến). VD: Nhập giá trị cho các biến x, y, z với các giá trị khác nhau. Rồi tiến hành gộp các biến lại thành 1 dataset với tên data. Hình 37. Hợp nhất các biến thành dataset Ngoài ra với những dữ liệu lớn hơn R còn cũng cấp công cụ để nhập trực tiếp một dataset với lệnh: tên dataset = edit(data.frame()).
  63. 56 Hình 38. Nhập dữ liệu trực tiếp Với lệnh này R sẽ cung cấp một cửa sổ giống như Excel để nhập dữ liệu vào dataset. Tiến hành sửa tên biến var1, var2, thành tên các biến với kiểu dữ liệu số hoặc chữ rồi nhập giá trị cho các biến. Trong quá trình làm việc các dataset và biến không còn cần dùng nữa có thể được xóa đi với lệnh: tên dataset = NULL tên dataset$biến = NULL. * Nhập dữ liệu gián tiếp qua Excel, SPSS: Phần mềm R cung cấp nhiều công cụ để đọc dữ liệu gián tiếp từ các gói Packages. Tuy nhiên việc cài các gói Packages chuyên dụng để đọc dữ liệu từ các ứng dụng khác như Excel và SPSS cũng không dễ dàng. Hơn nữa trong quá trình cài đặt chúng ta thường cài thiếu các Packages liên quan dẫn đến đọc dữ liệu bị lỗi. Tuy nhiên, với RStudio chúng ta có thể đọc dữ liệu vào R đơn giản hơn. Tại cửa sổ File → chọn Go to directory (dấu ) → chọn thư mục chứa file cần đọc → tại cửa sổ File đang hiện toàn bộ file có trong thư mục click chuột trái vào file Excel hoặc SPSS cần đọc và chọn Import Dataset.
  64. 57 Hình 39. Đọc file vào RStudio Tại cửa sổ xuất hiện có thể xem trước dữ liệu của file cần đọc. Tiến hành đổi tên dataset tại mục Name → Import. Hình 40. Xem trước dữ liệu trước khi đọc Trong quá trình đọc file nếu máy tính chưa cài đủ Packages để đọc thì RStudio sẽ hiển thị thông báo cài đặt → chọn chấp nhận để tự động cài đặt các gói Packages cần dùng.
  65. 58 Lưu ý, tương tự như SPSS dữ liệu đưa vào R nên là số hoặc ký tự không dấu, không khoảng trắng để tránh lỗi. Để R có thể mở được file thì tên file và tên đường đẫn đến file đều phải là ký tự tiếng Anh hoặc tiếng Việt không dấu. 2. Các chức năng cơ bản của R 2.1. Tạo biến mới từ các biến sẵn có Trong phần trước sử dụng SPSS thì khóa luận đã phân tích và minh họa một số chức năng quan trọng và cần thiết cho các nhà nghiên cứu về Khoa học giảng dạy Vật lý. Trong phần sử dụng R này khóa luận sẽ tập chung phân tích các chức năng giống như đã phân tích trong phần sử dụng SPSS. Các dẫn chứng, VD cũng hoàn toàn giống như phần trước nhưng được thực hiện trên phần mềm R với công cụ hỗ trợ RStudio. Do đó ở phần sử dụng phần mềm R này, khóa luận sẽ không phân tích và giải thích ý nghĩa của các chức năng nữa. Thay vào đó, ở phần này chúng tôi sẽ chỉ tập chung vào câu hỏi: Làm thế nào để sử dụng được chức năng đó trên phần mềm R? Và kết quả của phép phân tích trong các VD. Các VD ở phần này cũng xoay quanh hai cơ sở dữ liệu đã quá quen ở phần trước là cơ sở dữ liệu lớp thực nghiệm và lớp đối chiếu, cùng với cơ sở dữ liệu về mức tiêu thụ xăng: Hình 41. Cơ sở dữ liệu lớp thực nghiệm và lớp đối chiếu[7]
  66. 59 Hình 42. Cơ sở dữ liệu mức tiêu thụ xăng[1] * Tạo biến mới đơn giản: VD: Từ biến x = {1, 2, 3, 4, 5}, tạo biến mới y = 2x. Thực hiện lần lượt các bước nhập biến mới x vào R và đặt biến y = 2x. Hình 43. Tạo biến mới đơn giản * Mã hóa biến mới trong dataset: Giả sử ta có cơ sở dữ liệu lớp thực nghiệm và lớp đối chiếu. Tương tự như với SPSS ở đây chúng ta cũng thực hiện VD sau.
  67. 60 VD: Mã hóa biến mới Xeploai dựa trên biến Diemthi thành các bậc xếp loại 1, 2, 3, 4, 5. Để mã hóa biến trong dataset và đưa biến mới và trong dataset luôn thì R cung cấp một lệnh rất đơn giản là: tên dataset$tên biến mới [điều kiện biến mới] = giá trị. Cụ thể như sau: Hình 44. Lệnh mã hóa biến Xeploai Kết quả: Hình 45. Mã hóa biến Xeploai Ngoài ra khi điều kiện mã hóa là một giá trị chính xác của biến thì cần sử dụng dấu “==” để xác định giá trị chính xác đó. * Tạo một dataset mới với một phần dữ liệu của dataset đã có: Khi dataset tổng có nhiều dữ liệu trong khi dữ liệu cần xử lý chỉ là một phần trong đó thì R cung cấp một lệnh để tạo một dataset mới với một phần dữ liệu của dataset cũ. Cú pháp lệnh: tên dataset = subset(tên dataset cũ, điều kiện lọc). Nếu điều kiện lọc gồm nhiều điều kiện thì nối với nhau bởi dấu và ‘&’.
  68. 61 VD: Trích dữ liệu về lớp thực nghiệm từ dataset Dulieu thành dataset mới Dulieu1. Để thực hiện chính dữ liệu từ dataset Dulieu chúng ta thực hiện lệnh như sau: Hình 46. Trích dữ liệu từ dataset cũ Kết quả: Sau khi R thực hiện lệnh ta được một dataset mới Dulieu1 với toàn bộ dữ liệu về lớp thực nghiệm có trong dataset Dulieu. Hình 47. Dữ liệu lớp thực nghiệm trích từ dataset Dulieu 2.2. Thống kê mô tả Tương tự như SPSS, R cũng cung cấp rất nhiều lệnh để mô tả số liệu, thậm chí so với SPSS còn đa dạng và phong phú hơn về các lệnh và các kiểu phân tích. Tuy nhiên trong giới hạn, khóa luận sẽ chỉ trình bày các chức năng cơ bản và cần thiết cho các nhà nghiên cứu về Khoa học giảng dạy Vật lý. Trong đó các chức năng thường dùng là:
  69. 62 * Lập bảng tần suất: R cung cấp nhiều kiểu phân tích tần suất trong đó thường dùng là lệnh CrossTable trong package gmodels. Đầu tiên chúng ta tiến hành cài đặt package gmodels, sau đó sử dụng lệnh: library (tên package) để thông báo cho R từ đây chúng ta sẽ làm việc với package đó. Đồng thời sử dụng thêm lệnh attach (tên dataset) để thông báo với R từ này chúng ta sẽ làm việc với dataset được chọn. Hình 48. Thông báo package và dataset sẽ làm việc. Lệnh lập bảng phân tích tần suất: CrossTable (tên biến) VD: Lập bảng phân tích tần số của biến Diem trong dataset Diemthi. Chúng ta sử dụng lệnh CrossTable (Diem) để lập bảng tần số. Kết quả: Hình 49. Bảng phân tích tần số biến Diem.
  70. 63 Kết quả thu được là tần suất xuất hiện các giá trị và phần trăm xuất hiện của chúng. Với kết quả này thường chúng ta sẽ muốn vẽ thêm biểu đồ phân bố histogram theo lệnh sau: Hình 50. Lệnh vẽ đồ thị phân bố tần số Trong đó prob=T để xác định vẽ đồ thị bằng tỉ lệ phần trăm; breaks = 20 để tăng số cột lên 20; col = "blue", border = "white" để chỉnh màu cho đồ thị và màu nền; xlap="Diem", ylap="Frequency" để đặt nhãn cho trục hoành và trục tung; xlim=c(0,10) để nới rộng giá trị của trục hoành nhằm tiện theo dõi; main = "Bang tan so diem thi" để gắn tên cho đồ thị. Lệnh lines(density(na.omit(Diem)), col = "red", lwd=2) dùng để vẽ thêm đường biểu diễn mật độ. Kết quả: Hình 51. Đồ thị phân bố tần số biến Diem RStudio sẽ hiển thị biển đồ ở cửa số Vùng 5 trong cửa sổ Plots rất thuận tiện để theo dõi.
  71. 64 Ngoài biểu đồ histogram, R còn cho phép vẽ nhiều loại biểu đồ khác trong đó biểu đồ beeswarm cũng rất thích hợp cho mô tả phân bố. Lệnh vẽ biểu đồ này nằm trong package beeswarm với cú pháp lệnh: beeswarm (biến định lượng ~ biến phân nhóm, data = dataset, color=16, pch=16) Trong đó color=16 là nhân tố điều chỉnh màu cho biểu đồ với giá trị 16 là màu đen. VD: Vẽ biểu đồ phân bố điểm thi theo từng lớp trong dataset Diemthi. Hình 52. Lệnh vẽ biểu đồ beeswarm. Kết quả: Hình 53. Biểu đồ phân bố điểm theo từng lớp
  72. 65 * Tính các tham số thống kê: Đây là chức năng cơ bản nhất luôn cần thiết khi xử lý số liệu. R cho phép tính các tham số thống kê một cách đơn giản bằng các lệnh có cú pháp là: tham số cần tính (biến cần tính) Trong đó: + mean (giá trị trung bình) Lệnh tích giá trị trung bình: mean(tên biến) + median (trung vị). Lệnh tính trung vị: median (tên biến) + var (phương sai). Lệnh tính phương sai: var (tên biến) + sd (độ lệch chuẩn). Lệnh tính độ lệch chuẩn: sd (tên biến) + length (số đối tượng). Lệnh tính số đối tượng: length (tên biến) + min, max (giá trị nhỏ nhất, lớn nhất). Lệnh tính giá trị lớn nhất, nhỏ nhất: max (tên biến), min (tên biến) + range (khoảng chênh lệch). Lệnh tính khoảng chênh lệch: range (tên biến). Ngoài ra, R còn cho phép xem các tham số thống kê của một biến bằng lệnh: Summary (biến). * Tạo bảng chéo hai biến (phân tích hai biến): Để tạo được bảng chéo nhằm theo dõi hai biến thì R lại sử dụng lệnh CrossTable trong package gmodels. Cú pháp lệnh: CrossTable (biến dòng cột, biến dòng hàng, digits = 3) Với digits = 3 là quy định lấy 3 chữ số thập phân khi tính tỉ lệ trong bảng.
  73. 66 Kết quả: Hình 54. Bảng chéo phân tích hai biến Trong đó bảng Cell Contents giải thích ý nghĩa của các giá trị trong bảng chéo. R đã tính toán rất chi tiết các tỉ lệ giữa các thành phần của hai biến với các tổng rất thuận tiện cho phân tích số liệu. 2.3. So sánh trung bình Như đã đề cập ở phần trước về SPSS, so sánh trung bình là chức năng rất thường dùng trong nghiên cứu về Khoa học giảng dạy Vật lý. Phần mềm R cũng cung cấp
  74. 67 nhiều công cụ để thực hiện phân tích so sánh trung bình. Cụ thể các chức năng thường được sử dụng là: * Phân tích trung bình theo nhóm: tính giá trị trung bình của các biến định lượng theo biến định tính. Trong trường hợp mô hình nghiên cứu cần quan tâm nhiều biến trong dataset thì R cung cấp một lệnh rất hưu dụng là describe và describe.by trong package psych dùng để tính các tham số thống kê của tất cả các biến trong dataset. Trong đó lệnh describe.by để chia nhóm theo biến nhất định. Lệnh: describe (dataset) describe.by (dataset, biến cần phân nhóm). VD: Phân tích các tham số thống kê của dataset Diemthi chia làm hai nhóm lớp thực nghiệm và lớp đối chiếu. Tiến hành nhập lệnh describe.by: Kết quả: Hình 55. Phân tích tham số thống kê theo nhóm. * Paired T Test: So sánh cặp. Tương tự SPSS thì R cũng cung cấp chức năng kiểm định Paired T Test để so sánh trung bình của hai nhóm đối tượng có sự tương quan theo cặp tương tự chức năng Paired-Sample T Test của SPSS. Giả sử chúng ta xem như lớp đối chiếu và lớp thực nghiệm là cùng một lớp trước và sau khi áp dụng phương pháp dạy học mới. Theo đó chúng ta có bảng số liệu mới như sau:
  75. 68 Hình 56. Dữ liệu so sánh cặp Với cơ sở dữ liệu so sánh cặp như trên chúng ta không thể khẳng định điểm của hai nhóm lớp có khác nhau hay không thông qua điểm trung bình được. Trong nghiên cứu về xác suất thống kê thì chỉ dựa vào điểm trung bình chưa thể kết luận được sự khác nhau về điểm của hai nhóm. Sự khác nhau về điểm trung bình có thể là ngẫu nhiên. Muốn xác định tương đối chính xác về có sự khác nhau giữa điểm của hai lớp hay không còn phải dựa vào nhiều yếu tố như phương sai, độ lệch chuẩn, khoảng biến thiên, Trong trường hợp này phải sử dụng chức năng Paired T Test với cú pháp lệnh: t.test (biến nhóm trước, biến nhóm sau, paired=TRUE).
  76. 69 VD: Giả sử lớp đối chiếu và lớp thực nghiệm là cùng một lớp trước và sau khi áp dụng phương pháp dạy học mới với 43 học sinh. Thực hiện kiểm định Paired T Test để so sánh điểm của lớp sau khi áp dụng phương pháp mới. Hình 57. Kiểm định Paired T Test Theo kết quả trên, R đã kết luận luôn cho chúng ta là điểm của hai lớp hoàn toàn khác nhau. Giá trị p-value = 1.801e-07 < 0.05 cũng cho thấy sự khác nhau này có ý nghĩa thống kê. Hơn nữa R còn cho ra giá trị điểm trung bình của lớp đối chiếu thấp hơn khoảng 1.14 điểm so với lớp thực nghiệm. * One-Sample T Test: Kiểm định trung bình tổng thể. Để kiểm định trung bình tổng thể so với một giá trị cụ thể nào đó thì R cũng cung cấp phương pháp phân tích One-Sample T Test rất thông dụng. Để thực hiện kiểm định One-Sample T Test cho tổng thể chúng ta sử dụng lệnh: t.test (biến, mu = giá trị kiểm định). VD: Kiểm định điểm trung bình tổng thể của hai lớp thực nghiệm và lớp đối chiếu so với giá trị 7 điểm (độ tin cậy 95%). Để thực hiện kiểm định này, R đòi hỏi phải tách riêng dữ liệu của lớp thực nghiệm và lớp đối chiếu rồi tiến hành kiểm định cho từng lớp. Kiểm định lớp thực nghiệm: Tiến hành trích dữ liệu từ dataset Diemthi sang dataset mới Lopthucnghiem với toàn bộ dữ liệu của lớp thực nghiệm. Sau đó tiến hành kiểm định One-Sample T Test cho biến Diem của dataset Lopthucnghiem:
  77. 70 Hình 58. Lệnh kiểm định trung bình tổng thể điểm lớp thực nghiệm Kiểm định lớp đối chiếu: Tiến hành tương tự lớp thực nghiệm. Hình 59. Lệnh kiểm định trung bình tổng thể điểm lớp đối chiếu
  78. 71 Kết quả: Lớp thực nghiệm: Hình 60. Kiểm định trung bình tổng thể điểm lớp thực nghiệm Lớp đối chiếu: Hình 61. Kiểm định trung bình tổng thể điểm lớp đối chiếu Kết quả đưa ra bởi R dễ hiểu và dễ quan sát. Trong trường hợp này với độ tin cậy là 95% thì giá trị t trong kiểm định One-Sample T Test của cả hai lớp đều có ý nghĩa thống kê do giá trị p-value < 0,05 ở cả hai trường hợp. Với kết quả trên R cũng đã kết luận điểm trung bình của cả hai lớp đều khác 7. Lớp thực nghiệm với độ tin cậy 95% có điểm trung bình biến thiên từ 7.098342 - 7.688615 lớn hơn so với 7. Ngược lại lớp đối chiếu có điểm trung bình biến thiên từ 6.140335 - 6.673618 nhỏ hơn so với 7. * Two Sample T Test: So sánh trung bình giữa hai nhóm. Với cơ sở dữ liệu lớp thực nghiệm và lớp đối chiếu thông qua chức năng phân tích trung bình theo nhóm thì điểm trung bình của lớp thực nghiệm cao hơn so với lớp đối chiếu. Tuy nhiên trong nghiên cứu về xác suất thống kê thì chỉ dựa vào điểm trung bình chưa thể kết luận được sự khác nhau về điểm của hai lớp. Sự khác nhau về điểm trung bình có thể là ngẫu nhiên. Muốn xác định tương đối chính xác về có
  79. 72 sự khác nhau giữa điểm của hai lớp hay không còn phải dựa vào nhiều yếu tố như phương sai, độ lệch chuẩn, khoảng biến thiên, Do đó R cung cấp chức năng kiểm định Two Sample T Test nhằm kiểm định sự khác nhau giữa hai nhóm đối tượng độc lập với nhau. Chức năng này tương tự kiểm định Independent-Sample T Test của SPSS. Cũng tương tự kiểm định Independent-Sample T Test của SPSS thì kiểm định Two Sample T Test chia làm hai trường hợp. Thứ nhất là hai nhóm có phương sai khác nhau; thứ hai là hai nhóm có phương sai gần bằng nhau. Cú pháp lệnh: t.test (biến định lượng ~ biến phân nhóm) : phương sai khác nhau. t.test (biến định lượng ~ biến phân nhóm, var.equal=TRUE) : phương sai không khác biệt lớn. Do đó trước khi tiến hành kiểm định Two Sample T Test chúng ta cần thực hiện so sánh phương sai var.test với cú pháp lệnh: var.test (biến định lượng ~ biến phân nhóm) VD: So sánh phương sai giữa điểm thi của hai nhóm lớp thực nghiệm và lớp đối chiếu. Sau đó thực hiện kiểm định Two Sample T Test giữa điểm của hai nhóm lớp. Hình 62. So sánh phương sai giữa điểm của hai nhóm lớp Với kết quả so sánh phương sai trên chúng ta thấy giá trị p-value = 0.3718 > 0,05 nên sự khác nhau về phương sai giữa điểm của hai nhóm lớp không có giá trị thống kê. Kết hợp với tỷ lệ chênh lệch phương sai khoảng 0.76 thì chúng ta kết luận không có sự khác biệt lớn về phương sai giữa điểm của hai nhóm lớp. Như vậy để kiểm định Two Sample T Test giữa điểm của hai nhóm lớp chúng ta sử dụng cú pháp lệnh của trường hợp hai.
  80. 73 Hình 63. Kiểm định Two Sample T Test giữa điểm của hai nhóm lớp Kết quả kiểm định Two Sample T Test giữa điểm của hai nhóm lớp cho thấy có sự khác nhau về điểm giữa hai nhóm lớp. Trong đó giá trị p-value = 3.235e-06 < 0.05 biển thị sự khác biệt này có ý nghĩa thống kê. R cũng tính toán cho chúng ta khoảng khác biệt giữa điểm của hai nhóm lớp, trong đó điểm của lớp đối chiếu nhỏ hơn từ khoảng 1.38 - 0.59 so với điểm của lớp thực nghiệm (với độ tin cậy 95%). Lưu ý: Trong trường hợp số liệu thống kê thể hiện hai nhóm phân biệt thành hai biến phân biệt VD: biến Lopthucnghiem và biến Lopdoichieu thì kiểm định Two Sample T Test có cú pháp là: t.test (biến nhóm 1, biến nhóm 2) * Kiểm định ANOVA: Phân tích phương sai một chiều dùng khi có nhiều nhóm cần so sánh. Tương tự SPSS, khi có nhiều nhóm độc lập cần so sánh thì kiểm định t.test không phù hợp để so sánh sự khác biệt giữa các nhóm. Bởi vì kiểm định t.test chỉ có thể làm với hai nhóm nên để so sánh giữa nhiều nhóm bắt buộc phải thực hiện so sánh từng cặp nhóm với nhau. Phương pháp này rất mất thời gian nhất là với các cơ sở dữ liệu có nhiều nhóm cần so sánh. Do đó phương pháp phân tích thích hợp được dùng trong trường hợp này là kiểm định ANOVA. Cú pháp lệnh kiểm định ANOVA trên R như sau: O = aov (biến định lượng ~ biến phân nhóm) summary(O). Trong đó O là đối tượng ngẫu nhiên mà chúng ta gán giá trị của kiểm định ANOVA vào. Có thể sử dụng bất kỳ ký tự nào thay cho O. VD: Thực hiện kiểm định ANOVA cho cơ sở dữ liệu mức tiêu thụ xăng với biến định lượng là TTXANG và biến phân nhóm là MAY.
  81. 74 Tiến hành đọc cơ sở dữ liệu mức tiêu thụ xăng vào R: Hình 64. Cơ sở dữ liệu mức tiêu thụ xăng Ở đây biến phân nhóm chúng ta chọn là MAY (số cylinder) và biến định lượng là TTXANG (mức tiêu thụ xăng). Tuy nhiên với cơ sở dữ liệu này thì biến MAY là biến số học mà chúng ta đang xem đó là biến phân nhóm nên MAY phải là biến yếu tố (factor). Như vậy chúng ta cần tạo ra một biến mới SOMAY với dữ liệu của biến MAY nhưng ở dạng factor bằng lệnh: Tiếp theo thực hiện kiểm định ANOVA: Hình 65. Kiểm định ANOVA
  82. 75 Với kết quả có giá trị Pr(>F) = 9.07e-08 0.05 ta kết luận với mức ý nghĩa 5% thì hai biến không có tương quan với nhau. Chỉ số r 0.7 thì các biến có sự tương quan mạnh với nhau. Nếu các biến độc lập đều có sự tương quan mạnh với biến phụ thuộc thì thang đo này là chuẩn xác. Điểm hạn chế của R là chỉ tính hệ số tương quan giữa hai biến một lần, nên khi cần tính toán tương quan của nhiều biến phải làm lần lượt từng cặp.
  83. 76 VD: Tính toán sự tương quan giữa biến phụ thuộc TTXANG với các biến độc lập MALUC, NANG, MAY và LIT trên cơ sở dữ liệu mức tiêu thụ xăng. Qua đó kết luận độ chuẩn xác của thang đo. Để tính toán sự tương quan giữa các biến, chúng ta lần lượt tính sự tương quan giữa biến phụ thuộc TTXANG với các biến độc lập. MALUC: Hình 66. Tương quan giữa mức tiêu thụ xăng và công suất động cơ Kết quả này cho thấy biến phụ thuộc TTXANG có tương quan với biến độc lập MALUC do giá trị p = 1.093e-11 < 0.05. Hai biến này tương quan âm với hệ số tương quan khoảng -0.788 tương quan mạnh. Tương tự cho các biến còn lại: NANG: Hình 67. Tương quan giữa mức tiêu thụ xăng và khối lượng xe
  84. 77 MAY: Hình 68. Tương quan giữa mức tiêu thụ xăng và số cylinder LIT: Hình 69. Tương quan giữa mức tiêu thụ xăng và dung tích động cơ Các kết quả trên đều cho thấy sự tương quan mạnh giữa các biến độc lập và biến phụ thuộc TTXANG. Từ đó có thể kết luận thang đo này có độ chuẩn xác cao. 2.5. Kiểm định độ tin cậy của thang đo Kiểm định độ tin cậy của thang đo chính là tính toán hệ số Cronbach's Alpha của thang đo đó. Mức giá trị hệ số Cronbach’s Alpha:[8] - Từ 0.8 đến gần bằng 1: thang đo lường rất tốt. - Từ 0.7 đến gần bằng 0.8: thang đo lường sử dụng tốt. - Từ 0.6 trở lên: thang đo lường đủ điều kiện. - Dưới 0.6 độ tin cậy của thang đo không cao cần xây dựng lại thang đo hoặc loại bỏ một số biến độc lập.
  85. 78 Phần mềm R có thể tính toán hệ số Cronbach's Alpha bằng lệnh alpha trong package psych. Cú pháp lệnh: alpha (dataset). Lưu ý: dataset được dùng để tính toán hệ số Cronbach's Alpha thì trong đó tất cả các biến đều phải là biến số học. VD: Tính toán hệ số Cronbach's Alpha của cơ sở dữ liệu mức tiêu thụ xăng. Qua đó kết luận về độ tin cậy của thang đo này. Hình 70. Hệ số Cronbach's Alpha của cơ sở dữ liệu mức tiêu thụ xăng Đánh giá kết quả tính toán hệ số Cronbach's Alpha cần lưu ý hai chỉ số quan trọng. Thứ nhất, giá trị lower alpha upper, trong đó giá trị alpha chính là hệ số Cronbach's Alpha = 0.16 < 0.6. Từ giá trị hệ số Cronbach's Alpha này có thể kết luận thang đo về mức tiêu thụ xăng có độ tin cậy không cao, cần xây dựng lại. Ngoài ra, chỉ số cần lưu ý thứ hai là raw_alpha trong bảng Reliability. Chỉ số này của từng biến là hệ số Cronbach's Alpha nếu bỏ đi biến đó. Nếu hệ số Cronbach's Alpha chưa đạt tiêu chuẩn mà có một hoặc hai biến có chỉ số raw_alpha cao thì có thể bỏ đi các biến đó để tăng hệ số Cronbach's Alpha. Hoặc nếu các biến đều có chỉ số raw_alpha thấp thì phải xây dựng lại thang đo.
  86. 79 2.6. Phân tích hồi quy Phân tích hồi quy trong R thực hiện bởi lệnh: L = lm (biến phụ thuộc ~ biến độc lập 1 + biến độc lập 2 + ) summary(L) Trong đó L là đối tượng ngẫu nhiên mà chúng ta gán giá trị của mô hình hồi quy tuyến tính vào. Có thể sử dụng bất kỳ ký tự nào thay cho L. VD: Thực hiện phân tính hồi quy tuyến tính cho cơ sở dữ liệu mức tiêu thụ xăng, qua đó tìm ra phương trình hồi quy tuyến tính cho biến TTXANG. (Độ tin cậy 95%). Hình 71. Phân tính hồi quy tuyến tính với R. Với kết quả phân tính như trên ta cần quan tâm đến chỉ số Adjusted R-squared: 0.7566 tức là các biến MALUC, NANG, MAY, LIT mô tả được khoảng 75.66% sự thay đổi của biến phụ thuộc TTXANG. Thông thường chỉ số này ở mức trên 50% là mô hình hồi quy tuyến tính có thể chấp nhận được. Nếu Adjusted R-squared dưới 50% thì cần xem xét lại mô hình, có thể thay đổi các biến hoặc thêm vào một số biến nữa để mô tả cho biến phụ thuộc. Một giá trị nữa cũng quan trọng là giá trị của kiểm định
  87. 80 F trong mô hình này là 39.08 và p của F là 4.233e-14 |t|) trong bảng Coefficients. Đây chính là hệ số hồi quy của từng biến trong phương trình hồi quy tuyến tính và giá trị p của nó. Theo đó ta có: Phương trình hồi quy tuyến tính: TTXANG 26.234 – 0.046*MALUC – 0.009*NANG + 0.244*MAY + 0.178*LIT. Mô hình này chỉ có biến MALUC và NANG có chỉ số p 0.05). Tuy nhiên với kết quả như trên chúng ta cần kiểm tra mô hình này có phù hợp với các giả định hồi quy hay không. Giả định hồi quy tuyến tính: + Phần dư của mô hình hồi quy tuân theo luật phân phối chuẩn. + Phương sai của mỗi giá trị tiên lượng tương đương nhau (phương sai bất biến). + Mối tương quan giữa biến phụ thuộc và các biến độc lập phải tuyến tính. + Các giá trị của biến phụ thuộc độc lập với nhau và chỉ phụ thuộc vào giá trị của các biến độc lập. Để xem xét sự vi phạm các giả định hồi quy này chúng ta sử dụng các biểu đồ mô tả phần dư của mô hình hồi quy tuyến tính: + Biểu đồ Histogram: Trước tiên chúng ta cần đặt phần dư của mô hình hồi quy tuyến tính thành một đối tượng trong R bằng lệnh: tên đối tượng = resid (mô hình hồi quy tuyến tính). Sau đó vẽ biểu đồ Histogram bằng lệnh: hist (đối tượng).
  88. 81 Hình 72. Biểu đồ Histogram về phân bố phần dư Ta thấy biểu đồ Histogram về phân bố phần dư có dạng hình chuông nên tuân theo luật phân phối chuẩn và không vi phạm giả định hồi quy tuyến tính. + Biểu đồ Normal Q-Q Plot: Lệnh: Hình 73. Biểu đồ Normal Q-Q Plot về phân bố phần dư
  89. 82 Biểu đồ Normal Q-Q Plot về phân bố phần dư cũng dùng để đánh giá sự phân phối của phần dư. Ở mô hình này phân bố phần dư gần như xếp theo đường thẳng phân phối chuẩn nên có thể kết luận phần dư của mô hình hồi quy tuyến tính tuần theo quy luật phân phối chuẩn, không vi phạm giả định hồi quy tuyến tính. + Biểu đồ studentized residuals: năm trong package car. Lệnh: Hình 74. Biểu đồ studentized residuals về phương sai và giá trị tiên lượng Với mô hình có thể thấy phương sai không phải là giá trị bất biến do phân bố phương sai không tạo thành đường nằm ngang, đã vi phạm giả định hồi quy tuyến tính. Tuy nhiên độ dốc không quá lớn nên vẫn có thể chấp nhận được. + Biểu đồ Component + Residual Plot: nằm trong package car Lệnh:
  90. 83 Hình 75. Biểu đồ Component + Residual Plot về mối tương quan tuyến tính Với biểu đồ Component + Residual Plot thì đường nét đứt là đường tuyến tính kỳ vọng, còn đường nét liền là đường đường tương quan giữa biến phụ thuộc và từng biến độc lập. Như vậy nếu đường nét liền có dạng gần trùng với đường tuyến tính kỳ vọng thì có thể kết luận mối liên hệ giữa biến phụ thuộc và các biến độc lập là tuyến tính và không vi phạm giả định hồi quy tuyến tính. Trong mô hình hồi quy này thì biến MALUC và biến NANG có thể xem như là liên hệ tuyến tính với biến phụ thuộc TTXANG. Còn biến MAY và LIT không có mối liên hệ tuyến tính nên cần được bỏ đi trong mô hình hồi quy tuyến tính.
  91. 84 + Kiểm tra giả định độc lập durbinWatsonTest: nằng trong packages car. Lệnh: Hình 76. Kiểm tra giả định độc lập durbinWatsonTest Trong kiểm định durbinWatsonTest, nếu giá trị p 0.05 nên các giá trị của biến độc lập với nhau. 2.7. Biểu đồ R cũng là một phần mềm rất mạnh và có khả năng vẽ rất nhiều loại biểu đồ. Tuy nhiên với khuôn khổ khóa luận này chúng ta sẽ xem xét hai loại đồ thị cơ bản. Ở phần trên khi giới thiệu về các chức năng chúng ta cũng đã thực hiện vẽ một số biểu đồ. Phần này sẽ tập chung giới thiệu chi tiết về hai loại biểu đồ cơ bản là: + Biểu đồ phân bố (histogram): Lệnh: hist (biến, breaks = số cột muốn vẽ (20), xlap = “nhãn trục hoành”, ylap = “nhãn trục tung”, main = “nhãn biểu đồ”, col = “màu cột” (blue), border = “màu nền” (white), prob = T (vẽ biểu đồ bằng xác suất)) Các thông số chi tiết rất nhiều nhưng chúng ta chỉ cần nêu ra những thông số muốn thay đổi. Các thông số không được nêu sẽ theo tự động của R. Ngoài ra trong biểu đồ phân bố thường có đường biểu diễn phân bố vẽ bằng lệnh: lines (density(na.omit(biến)), col, lwd = độ dày đường (3)) Chú ý: Khi nêu các thông số chi tiết trong lệnh vẽ biểu đồ, thông số nào đã được giải thích rồi sẽ không được giải thích lại. Các ngoặc tròn đằng sau là ví dụ về cách điền. + Biểu đồ hộp (box plot): Lệnh: boxplot (biến, xlap, ylap, main, col, border, horizontal = T (vẽ biểu đồ theo dạng nằm)) Trường hợp cần vẽ biến định lượng theo biến phân nhóm: boxplot (biến định lượng ~ biến phân nhóm, xlap, ylap, main, col, border, horizontal = T (vẽ biểu đồ theo dạng nằm))
  92. 85 3. Các lỗi thường gặp trong sử dụng R và RStudio 3.1. Lỗi đọc file Trong quá trình xử lý số liệu, việc đầu tiên cần làm là đọc dữ liệu vào R để tính toán. Quá trình này rất hay bị lỗi chủ yếu do thiếu packages hoặc packages chưa phù hợp. + Khắc phục: Sử dụng phần mềm công cụ hỗ trợ RStudio. Khi đọc file, RStudio sẽ tự động tìm và cài đặt các packages cần thiết và phù hợp để đọc file. Ngoài ra, lỗi đọc file còn có thể đến từ tên file hoặc tên đường dẫn đến file. + Khắc phục: Đặt tên file theo tiếng Anh hoặc tiếng Việt không dấu, không ký tự đặc biệt. Sau đó đặt file trong thư mục với đường dẫn cũng là tiếng Anh hoặc tiếng Việt không dấu, không ký tự đặc biệt. Tốt nhất nên đặt file trong thư mục gốc làm việc của R. 3.2. Lỗi không tìm thấy dataset, không tìm thấy lệnh. Tuy đã đọc dataset mới vào R nhưng không thể thực hiện tính toán với dataset đó và không thể sử dụng lệnh nằm trong packages đã cài. + Khắc phục: Kích hoạt dataset và packages lần lượt bằng lệnh: attach (tên dataset) library (tên packages) 3.3. Lỗi trùng tên biến Trong quá trình sử dụng R, đôi khi tên biến và tên dataset, hoặc giá trị của biến được đặt cùng một chuỗi ký tự. Lúc này khi thực hiện tính toán R sẽ không hiểu lệnh được nhập đang đề cập đến yếu tố nào dẫn đến lỗi. + Khắc phục: Chú ý đặt tên biến, tên dataset và giá trị trong dataset khác nhau. Loại bỏ các dataset không dùng tới để tránh gặp lỗi. 4. Tổng kết các lệnh thường dùng trong R. Chức năng Lệnh Tác dụng Dẫn nhập getwd() xem folder đang làm việc trên R getwd(“đường dẫn đến folder”) đổi folder làm việc
  93. 86 R sử dụng dấu “/” trong các đường dẫn thay vì dấu “\” savehistory(file=“tên file”) lưu trữ tất cả các lệnh đã sử dụng trong Workspace tại folder đang làm việc loadhistory(file=“tên file”) mở lại các lệnh đã lưu args(tên hàm) hiển thị thông số chi tiết của một hàm Nhập dữ liệu tên biến = c(giá trị) nhập giá trị cho biến tên dataset = data.frame(các hợp nhiều vecter thành một biến) dataset tên dataset = edit(data.frame()) nhập dữ liệu cho dataset tên dataset = NULL xóa dataset và biến tên dataset$biến = NULL attach (tên dataset) thông báo làm việc trên dataset library (tên package) thông báo làm việc trên packages Tạo biến mới tên dataset$tên biến mới [điều mã hóa biến trong dataset từ các biến sẵn kiện biến mới] = giá trị có tên dataset = subset(tên dataset Tạo một dataset mới với một cũ, điều kiện lọc) phần dữ liệu của dataset đã có Thống kê mô tả library (gmodels) lập bảng phân tích tần suất CrossTable (Diem) mean (tên biến) tính giá trị trung bình median (tên biến) tính trung vị var (tên biến) tính phương sai sd (tên biến) tính độ lệch chuẩn length (tên biến) tính số đối tượng
  94. 87 max (tên biến), min (tên biến) Tìm giá trị lớn nhất, nhỏ nhất range (tên biến) tính khoảng chênh lệch summary (biến) tính các tham số thống kê của một biến library (gmodels) Tạo bảng chéo hai biến (phân CrossTable (biến dòng cột, biến tích hai biến) dòng hàng, digits = 3) So sánh trung library (psych) Phân tích trung bình theo bình describe.by (dataset, biến phân nhóm nhóm) t.test (biến nhóm trước, biến Paired T Test: So sánh cặp nhóm sau, paired=TRUE) t.test (biến, mu = giá trị kiểm One-Sample T Test: Kiểm định) định trung bình tổng thể var.test (biến định lượng ~ biến so sánh phương sai var.test phân nhóm) t.test (biến định lượng ~ biến Two Sample T Test: So sánh phân nhóm) : phương sai khác trung bình giữa hai nhóm nhau. t.test (biến định lượng ~ biến phân nhóm, var.equal=TRUE) : phương sai không khác biệt lớn. O = aov (biến định lượng ~ biến Kiểm định ANOVA: Phân tích phân nhóm) phương sai một chiều dùng khi summary(O) có nhiều nhóm cần so sánh Phân tích tương cor.test (biến phụ thuộc, biến Phân tích tương quan Pearson: quan độc lập) tương quan đơn Kiểm định độ library (psych) tính toán hệ số Cronbach's tin cậy của alpha (dataset) Alpha của thang đo thang đo