Bài giảng Phương pháp nghiên cứu kinh tế - Bài 8: Nhập và xử lý dữ liệu

ppt 91 trang Đức Chiến 04/01/2024 1640
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Phương pháp nghiên cứu kinh tế - Bài 8: Nhập và xử lý dữ liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pptbai_giang_phuong_phap_nghien_cuu_kinh_te_bai_8_nhap_va_xu_ly.ppt

Nội dung text: Bài giảng Phương pháp nghiên cứu kinh tế - Bài 8: Nhập và xử lý dữ liệu

  1. Bài 8. Nhập và xử lý dữ liệu Môn học: Phương pháp nghiên cứu kinh tế Khoa Kinh tế Phát triển Đại học Kinh Tế TP. Hồ Chí Minh
  2. 8.1 Giới thiệu Nhằm hướng dẫn sinh viên cách: Cách nhập liệu, xử lý và phân tích dữ liệu. Các kỹ thuật phân tích dữ liệu mang tính khám phá (exploratory data analysis). Cách sử dụng bảng chéo (cross-tabulation) để trắc nghiệm mối quan hệ giữa các biến phân loại (categorical variables). Cách sử dụng các thống kê phân tích trắc nghiệm giả thiết. TS. Trần Tiến Khai, UEH 2
  3. 8.2 Quy trình phân tích dữ liệu Hình 8.1 Các bước khám Lập đề cương NC Kế hoạch phân tích sơ phá, trắc nghiệm và phân khởi Thu thập và chuẩn Xác định lại giả tthuyết tích trong quá trình nghiên bị dữ liệu cứu Thể hiện trực quan dữ liệu Phân tích và diễn giải dữ liệu Phân tích mô tả các biến số Lập bảng chéo cho các biến số Trình bày dữ liệu (histogram, boxplots, Pareto, stem-and- leaf, AID, etc.) Phân tích dữ liệu Trắc nghiệm giả thiết Báo cáo nghiên cứu Ra quyết định TS. Trần Tiến Khai, UEH 3
  4. 8.3 Nhập số liệu 8.3.1 Cách bố trí dữ liệu trên máy tính Mục tiêu: ◼ Nhằm tạo điều kiện thuận tiện cho việc nhập liệu ◼ Nhằm tạo sự thuận lợi cho việc chỉnh sửa dữ liệu TS. Trần Tiến Khai, UEH 4
  5. 8.3 Nhập số liệu Thực hiện: ◼ Nguyên tắc chung: đặt tên biến ngắn gọn, viết tắt (tiếng Việt không dấu hoặc tiếng Anh). Tên biến nên được đặt theo quy định. ◼ Dùng Excel: dễ thao tác và chỉnh sửa, không gian lưu trữ hạn chế, công cụ thống kê và kinh tế lượng không đủ cho phân tích. ◼ Dùng SPSS: không gian lưu trữ gần như không hạn chế, công cụ thống kê và kinh tế lượng phát triển đầy đủ cho nhu cầu phân tích. Khai báo dữ liệu bắt buộc, mất thời gian. TS. Trần Tiến Khai, UEH 5
  6. 8.3 Nhập số liệu Hình 5. 2 Cách nhập dữ liệu vào bảng tính SPSS TS. Trần Tiến Khai, UEH 6
  7. 8.3 Nhập số liệu Hình 8.3 Cách định nghĩa các thuộc tính của các biến số định tính và định lượng TS. Trần Tiến Khai, UEH 7
  8. Định nghĩa kiểu biến TS. Trần Tiến Khai, UEH 8
  9. Xác định nhãn (giải thích) của biến TS. Trần Tiến Khai, UEH 9
  10. Xác định giá trị phân loại của biến TS. Trần Tiến Khai, UEH 10
  11. Xác định thang đo của biến TS. Trần Tiến Khai, UEH 11
  12. 8.4 Làm sạch dữ liệu 8.4.1 Phát hiện giá trị dị biệt trong dữ liệu a. Sử dụng Excel: hàm Max và Min, công cụ Auto Filter, đồ thị Scatter TS. Trần Tiến Khai, UEH 12
  13. 8.4 Làm sạch dữ liệu Hình 5.4 Công cụ đồ thị Scatter trong Excel TS. Trần Tiến Khai, UEH 13
  14. 8.4 Làm sạch dữ liệu 8.4.1 Phát hiện giá trị dị biệt trong dữ liệu b. Sử dụng SPSS: đồ thị Scatter, công cụ Frequency, Bar Chart, Pie Chart, và Box Plot trong Explore TS. Trần Tiến Khai, UEH 14
  15. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: đồ thị Scatter Motobike Names 80 Others Honda @ 70 Honda Dream 60 SYM Attila 50 Yamaha Cygnus Honda Wave 40 Yamaha Jupiter 30 Yamaha Sirius 20 Honda Future Neo 10 Honda AirBlade Age of motorbike user motorbike of Age 0 10 20 30 40 NumberTS. of Trần used Tiến days Khai, in UEH a month 15
  16. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: công cụ Frequency, Explore Hình 8.6 Công cụ FrequencyTS. Trần và Tiến Explore Khai, UEH trong SPSS 16
  17. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: công cụ Frequency Frequency Percent %Valid Cumulative Percent Honda Air Blade 10 10.0 10.0 10.0 Honda Future Neo 8 8.0 8.0 18.0 Yamaha Sirius 7 7.0 7.0 25.0 Yamaha Jupiter 13 13.0 13.0 38.0 Honda Wave 24 24.0 24.0 62.0 Yamaha Cygnus 4 4.0 4.0 66.0 SYM Attila 11 11.0 11.0 77.0 Honda Dream 6 6.0 6.0 83.0 Honda @ 7 7.0 7.0 90.0 Others 10 10.0 10.0 100.0 TS. Trần Tiến Khai, UEH 17 Total 100 100.0 100.0
  18. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: công cụ Pie Chart và Bar Chart 30 Others Honda AirBlade 10.0% 10.0% Honda @ 20 Honda Future Neo 7.0% 8.0% Honda Dream Yamaha Sirius 10 6.0% 7.0% Honda Future Neo Honda AirBlade Yamaha JupiterYamaha Cygnus Yamaha Sirius SYM Attila Honda Wave Honda Dream SYM Attila Honda @ 0 Others Yamaha Jupiter Percent 11.0% 13.0% Yamaha Cygnus 4.0% Honda Wave 24.0% Motobike Names TS. Trần Tiến Khai, UEH 18
  19. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: công cụ Histogram Biểu đồ histogram là một giải pháp quy ước dùng để thể hiện các dữ liệu tỷ lệ hoặc khoảng cách. Biểu đồ histogram được sử dụng để phân nhóm các giá trị dữ liệu của các biến số (variable) thành các khoảng cách. Biểu đồ histogram được xây dựng dưới dạng các thanh thể hiện giá trị dữ liệu. TS. Trần Tiến Khai, UEH 19
  20. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: công cụ Histogram Biểu đồ histogram rất hữu dụng cho việc: (1) thể hiện tất cả các khoảng cách trong một phân phối (distribution), và (2) trắc nghiệm dạng hình của phân phối như độ méo (skewness), độ nhọn (kurtosis). Ghi chú: Biểu đồ histogram không dùng được cho các biến danh nghĩa. TS. Trần Tiến Khai, UEH 20
  21. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: công cụ Histogram 30 Ví dụ 8.2 Phân phối biến số tuổi của người sử dụng xe máy 20 10 Std. Dev = 14.42 Mean = 39 0 N = 100.00 20 25 30 35 40 45 50 55 60 65 70 75 Age of motorbike user TS. Trần Tiến Khai, UEH 21
  22. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays) Mỗi dòng của biểu đồ được gọi là một thân; và mỗi số liệu thể hiện trên một thân gọi là một lá. Khi biểu đồ thân-và-lá được quay trái 900 , nó sẽ có dạng hình tương tự như biểu đồ histogram. TS. Trần Tiến Khai, UEH 22
  23. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays) Age of motorbike user Stem-and-Leaf Plot 8.3 Biểu đồ Thân-và Lá Frequency Stem & Leaf của biến số Tuổi của người sử dụng xe máy 6.00 1 . 889999 18.00 2 . 000111122222233344 8.00 2 . 55677788 13.00 3 . 0012233334444 4.00 3 . 5556 12.00 4 . 123333334444 13.00 4 . 5555566777789 10.00 5 . 0123344444 9.00 5 . 566667779 2.00 6 . 03 4.00 6 . 5567 .00 7 . 1.00 7 . 6 Stem width: 10 TS. Trần Tiến Khai, UEH 23 Each leaf: 1 case(s)
  24. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: biểu đồ hộp (Box-Plots) Biểu đồ hộp, hay còn gọi là biểu đồ hộp-và-râu (box- and-whisker plot), cho ta một hình ảnh trực quan khác về vị trí, độ phân tán, dạng hình, độ dài đuôi và các giá trị bất thường (outliers) của phân phối. Biểu đồ hộp thể hiện tóm tắt 5 giá trị thống kê của một phân phối là trung vị (median), hai tứ phân vị trên và dưới (the upper and lower quartiles), và các giá trị quan sát lớn nhất và nhỏ nhất TS. Trần Tiến Khai, UEH 24
  25. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: biểu đồ hộp (Box-Plots) Các thành phần chủ yếu của biểu đồ hộp là: ◼ Hộp hình chữ nhật chứa đựng 50% các giá trị dữ liệu. ◼ Đường thẳng ở trung tâm hộp là giá trị trung vị. ◼ Hai lề của hộp thể hiện hai giá trị tứ phân vị thứ 1 và thứ 3 (tương ứng với giá trị thứ 25% (25th percentile) và giá trị thứ 75% (75th percentile) của dãy số liệu. ◼ Các “râu” kéo dài từ lề phía trên và phía dưới của hộp thể hiện giá trị lớn nhất và nhỏ nhất. Các giá trị này nằm trong khoảng tối đa 1,5 lần khoảng cách giữa các tứ phân vị tính từ lề của hộp. TS. Trần Tiến Khai, UEH 25
  26. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: biểu đồ hộp (Box-Plots) Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (extremes) Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 3 (75th percentile) (outliers) Giá trị lớn nhất quan sát được không phải là giá trị bất thường Tứ phân vị thứ 3 (75th PERCENTILE) 50% trường hợp có giá trị nằm Trung vị (MEDIAN) trong hộp Tứ phân vị thứ 1 (25th PERCENTILE) Giá trị lớn nhất quan sát được không phải là giá trị bất thường Các giá trị lớn hơn 1,5 lần so với độ dài của hộp tính từ giá trị tứ phân vị thứ 1 (25th percentile) (outliers) Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ th TS. Trần Tiếngiá trị tứKhai, phân UEHvị thứ 1 (25 percentile) (extremes) 26
  27. 8.4 Làm sạch dữ liệu b. Sử dụng SPSS: biểu đồ hộp (Box-Plots) 100 80 60 40 8.4 Biểu đồ hộp của biến 20 số Tuổi của người sử dụng 0 xe máy và số ngày sử N = 100 100 dụng trong tháng Age of motorbike use Number of used days TS. Trần Tiến Khai, UEH 27
  28. 8.5 Phân tích thống kê mô tả 8.5.1 Phân tích thống kê mô tả cho biến định lượng Sử dụng Excel: công cụ Descriptives Statistics trong chức năng Data Analysis. Sử dụng SPSS: công cụ Frequency, Descriptives, Explore trong chức năng Descriptive Statistics của SPSS. TS. Trần Tiến Khai, UEH 28
  29. 8.5 Phân tích thống kê mô tả 8.5.1 Phân tích thống kê mô tả cho biến định lượng Các chỉ tiêu thống kê mô tả : xu hướng trung tâm, tính biến thiên và dạng hình phân phối của dữ liệu. TS. Trần Tiến Khai, UEH 29
  30. 8.5 Phân tích thống kê mô tả 8.5.1 Phân tích thống kê mô tả cho biến định lượng Đo lường xu hướng trung tâm (Measures of Central Tendency) Giá trị trung bình (mean) là tổng tất cả giá trị của các dữ liệu chia cho số lượng của dữ liệu. Trung vị (median) là giá trị của số liệu có vị trí nằm giữa bộ số liệu sắp xếp theo trật tự. Đây chính là điểm giữa của phân phối. Khi số quan sát là chẵn, trung vị là giá trị trung bình của hai quan sát ở vị trí trung tâm. Mode là giá trị của quan sát có tần suất xuất hiện nhiều nhất trong bộ dữ liệu. Khoảng cách (range) là giá trị khác biệt giữa con số lớn nhất và nhỏ nhất trong bộ dữ liệu. TS. Trần Tiến Khai, UEH 30
  31. 8.5 Phân tích thống kê mô tả 8.5.1 Phân tích thống kê mô tả cho biến định lượng Đo lường tính biến thiên (Measures of Variability) Phương sai (Variance; σ2) là trung bình tổng các sai số bình phương giữa các giá trị của các quan sát và giá trị trung bình. Độ lệch chuẩn (Standard deviation; SD; σ) đo lường mức độ phân tán của số liệu xung quanh giá trị trung bình. Sai số chuẩn của giá trị trung bình (Standard error of the mean; s.e.) đo lường phạm vi mà giá trị trung bình của quần thể (µ) có thể xuất hiện với một xác suất cho trước dựa trên giá trị trung bình của mẫu (mean). TS. Trần Tiến Khai, UEH 31
  32. 8.5 Phân tích thống kê mô tả 8.5.1 Phân tích thống kê mô tả cho biến định lượng Đo lường dạng hình của phân phối (Measures of Shape) Độ méo (skewness) đo lường độ lệch của phân phối về một trong hai phía. Phân phối méo trái (negative skew, left-skewed) khi đuôi phía trái dài hơn, và phần lớn số liệu tập trung ở phía phải của phân phối. Phân phối méo phải (positive sknew, right-skewed) khi đuôi phía phải dài hơn, và phần lớn số liệu tập trung ở phía trái của phân phối. Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị skewness âm. Độ méo càng lớn thì giá trị sknewness càng lớn hơn 0. TS. Trần Tiến Khai, UEH 32
  33. 8.5 Phân tích thống kê mô tả 8.5.1 Phân tích thống kê mô tả cho biến định lượng Hình 8.10 Đường phân phối chuẩn và các đặc tính TS. Trần Tiến Khai, UEH 33
  34. 8.5 Phân tích thống kê mô tả 8.5.1 Phân tích thống kê mô tả cho biến định lượng Hình 8.11 Các dạng phân phối lệch trái và lệch phải so với phân phối bình thường TS. Trần Tiến Khai, UEH 34
  35. 8.5 Phân tích thống kê mô tả 8.5.1 Phân tích thống kê mô tả cho biến định lượng Đo lường dạng hình của phân phối (Measures of Shape) Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của phân phối so với phân phối bình thường (có độ nhọn bằng 0). Phân phối có dạng nhọn khi giá trị kurtosis dương và có dạng bẹt khi giá trị kurtosis âm. Với phân phối bình thường, giá trị của độ méo và độ nhọn bằng 0. Căn cứ trên tỷ số giữa giá trị skewness và kurtosis và sai số chuẩn của nó, ta có thể đánh giá phân phối có bình thường hay không (khi tỷ số này nhỏ hơn - 2 và lớn hơn +2, phân phối là không bình thường). TS. Trần Tiến Khai, UEH 35
  36. 8.5 Phân tích thống kê mô tả Phân tích thống kê mô tả với SPSS: công cụ Descriptive Hình 8.13 Các chức năng thốngTS. Trần kê Tiến mô Khai, tả UEHcủa công cụ Descriptives 36
  37. 8.5 Phân tích thống kê mô tả Phân tích thống kê mô tả với SPSS: công cụ Descriptive Bảng 8.6 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy Statistic Std. Error Age of motorbike user N 100 Range 58 Minimum 18 Maximum 76 Mean 39.01 1.44 Std. Deviation 14.42 Variance 207.909 Skewness .242 .241 Kurtosis -.948 .478 TS. Trần Tiến Khai, UEH 37
  38. 8.5 Phân tích thống kê mô tả Phân tích thống kê mô tả với SPSS: công cụ Explore Công cụ Explore rất thích hợp để thống kê mô tả chi tiết các biến số phân nhóm theo một biến phân loại khác (factor variable). TS. Trần Tiến Khai, UEH 38
  39. 7.7 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng phân theo giới tính Age of motorbike user Number of used days in a month User Statistic Std. Error Statistic Std. gender Error female Mean 38.46 2.11 20.71 1.07 95% Confidence Lower 34.19 18.54 Interval for Mean Bound Upper 42.74 22.88 Bound 5% Trimmed Mean 38.13 20.95 Median 41.00 22.00 Variance 183.205 47.212 Std. Deviation 13.54 6.87 Minimum 19 7 Maximum 65 30 Range 46 23 Interquartile Range 23.00 11.00 Skewness .118 .369 -.513 .369 Kurtosis TS. Trần Tiến Khai, UEH-1.089 .724 -.838 .72439
  40. 7.7 Thống kê mô tả các biến số Tuổi của người sử dụng xe máy và số ngày sử dụng trong tháng phân theo giới tính male Mean 39.39 1.97 19.76 1.01 95% Confidence Lower Bound 35.45 17.74 Interval for Mean Upper Bound 43.33 21.79 5% Trimmed Mean 38.87 19.90 Median 42.00 21.00 Variance 228.173 60.460 Std. Deviation 15.11 7.78 Minimum 18 5 Maximum 76 32 Range 58 27 Interquartile Range 28.00 15.00 Skewness .292 .311 -.175 .311 Kurtosis -.932 .613 -1.271 .613 TS. Trần Tiến Khai, UEH 40
  41. 8.5 Phân tích thống kê mô tả 8.5.2 Phân tích thống kê mô tả cho biến định tính a. Sử dụng công cụ Basic Table trong SPSS TS. Trần Tiến Khai, UEH 41
  42. 8.5 Phân tích thống kê mô tả 8.5.2 Phân tích thống kê mô tả cho biến định tính a. Sử dụng công cụ Basic Table trong SPSS TS. Trần Tiến Khai, UEH 42
  43. 8.5 Phân tích thống kê mô tả 8.5.2 Phân tích thống kê mô tả cho biến định tính a. Sử dụng công cụ Basic Table trong SPSS Bảng. Phân bố nhóm tuổi của người sử dụng xe máy theo nhãn hiệu Age groups under 20 under 30 under 40 under 50 under 60 older than 60 Count Row % Count Row % Count Row % Count Row % Count Row % Count Row % Motobike Honda AirBlade 2 20.0% 3 30.0% 3 30.0% 1 10.0% 1 10.0% Names Honda Future Neo 4 50.0% 2 25.0% 2 25.0% Yamaha Sirius 1 14.3% 1 14.3% 2 28.6% 3 42.9% Yamaha Jupiter 4 30.8% 1 7.7% 4 30.8% 4 30.8% Honda Wave 1 4.2% 2 8.3% 8 33.3% 7 29.2% 5 20.8% 1 4.2% Yamaha Cygnus 1 25.0% 1 25.0% 1 25.0% 1 25.0% SYM Attila 3 27.3% 4 36.4% 1 9.1% 2 18.2% 1 9.1% Honda Dream 3 50.0% 1 16.7% 1 16.7% 1 16.7% Honda @ 2 28.6% 1 14.3% 4 57.1% Others 2 20.0% 2 20.0% 5 50.0% 1 10.0% TS. Trần Tiến Khai, UEH 43
  44. 8.5 Phân tích thống kê mô tả 8.5.2 Phân tích thống kê mô tả cho biến định tính b. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS Bảng chéo là một kỹ thuật dùng để so sánh dữ liệu từ hai hoặc nhiều hơn các biến phân loại hoặc danh nghĩa (categorical or nominal variables), ví dụ như là giới tính. Bảng chéo sử dụng các bảng có các cột và dòng thể hiện các mức độ hoặc các giá trị mã hóa của từng biến phân loại hoặc danh nghĩa. Bảng chéo là bước đầu tiên để xác định các quan hệ giữa các biến. Khi bảng chéo được xây dựng để trắc nghiệm thống kê, ta gọi chúng là bảng contingency (contingency tables), và loại trắc nghiệm dùng để đánh giá liệu các biến phân loại có độc lập với nhau hay không là χ2 (Chi bình phương / chi-square). TS. Trần Tiến Khai, UEH 44
  45. 8.5 Phân tích thống kê mô tả 8.5.2 Phân tích thống kê mô tả cho biến định tính b. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS TS. Trần Tiến Khai, UEH 45
  46. 8.5 Phân tích thống kê mô tả 8.5.2 Phân tích thống kê mô tả cho biến định tính b. Sử dụng công cụ Bảng chéo (Cross-Tabulation) trong SPSS TS. Trần Tiến Khai, UEH 46
  47. 8.5 Phân tích thống kê mô tả Bảng. Phân bố giới tính của người sử dụng xe máy theo nhãn hiệu Motobike Names * User gender Crosstabulation Count User gender female male Total Motobike Honda AirBlade 3 7 10 Names Honda Future Neo 4 4 8 Yamaha Sirius 3 4 7 Yamaha Jupiter 6 7 13 Honda Wave 9 15 24 Yamaha Cygnus 2 2 4 SYM Attila 5 6 11 Honda Dream 2 4 6 Honda @ 3 4 7 Others 4 6 10 Total 41 59 100 TS. Trần Tiến Khai, UEH 47
  48. 8.5 Phân tích thống kê mô tả Bảng. Phân bố giới tính của người sử dụng xe máy theo nhãn hiệu User gender * Motobike Names Crosstabulation Motobike Names Honda Honda Yamaha Yamaha Yamaha AirBlade Future Neo Sirius Jupiter Honda Wave Cygnus SYM Attila Honda Dream Honda @ Others Total User gender female Count 3 4 3 6 9 2 5 2 3 4 41 Expected Count 4.1 3.3 2.9 5.3 9.8 1.6 4.5 2.5 2.9 4.1 41.0 % within User gender 7.3% 9.8% 7.3% 14.6% 22.0% 4.9% 12.2% 4.9% 7.3% 9.8% 100.0% % within Motobike Names 30.0% 50.0% 42.9% 46.2% 37.5% 50.0% 45.5% 33.3% 42.9% 40.0% 41.0% % of Total 3.0% 4.0% 3.0% 6.0% 9.0% 2.0% 5.0% 2.0% 3.0% 4.0% 41.0% male Count 7 4 4 7 15 2 6 4 4 6 59 Expected Count 5.9 4.7 4.1 7.7 14.2 2.4 6.5 3.5 4.1 5.9 59.0 % within User gender 11.9% 6.8% 6.8% 11.9% 25.4% 3.4% 10.2% 6.8% 6.8% 10.2% 100.0% % within Motobike Names 70.0% 50.0% 57.1% 53.8% 62.5% 50.0% 54.5% 66.7% 57.1% 60.0% 59.0% % of Total 7.0% 4.0% 4.0% 7.0% 15.0% 2.0% 6.0% 4.0% 4.0% 6.0% 59.0% Total Count 10 8 7 13 24 4 11 6 7 10 100 Expected Count 10.0 8.0 7.0 13.0 24.0 4.0 11.0 6.0 7.0 10.0 100.0 % within User gender 10.0% 8.0% 7.0% 13.0% 24.0% 4.0% 11.0% 6.0% 7.0% 10.0% 100.0% % within Motobike Names 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% % of Total 10.0% 8.0% 7.0% 13.0% 24.0% 4.0% 11.0% 6.0% 7.0% 10.0% 100.0% TS. Trần Tiến Khai, UEH 48
  49. 8.6 Phân tích trắc nghiệm giả thiết 8.6.1 Trắc nghiệm giả thiết Mục tiêu của trắc nghiệm giả thiết là nhằm quyết định tính chính xác của giả thiết dựa trên các số liệu mẫu thu thập được. Chúng ta đánh giá tính chính xác của các giả thiết bằng cách áp dụng các kỹ thuật thống kê; và đánh giá tầm quan trọng của sự khác biệt có ý nghĩa thống kê. Cách tiếp cận cổ điển hay là lý thuyết lấy mẫu thể hiện cách nhìn mục tiêu theo xác suất dựa trên phân tích dữ liệu mẫu. Một giả thiết được xây dựng, nó sẽ bị bác bỏ hoặc chấp nhận dựa trên mẫu dữ liệu thu thập. TS. Trần Tiến Khai, UEH 49
  50. 8.6 Phân tích trắc nghiệm giả thiết Mục tiêu và kiểu của các câu hỏi nghiên cứu Mục tiêu chung Quan hệ giữa các biến Thuần Mô tả Mục tiêu cụ thể So sánh Mức độ liên Tóm lược nhóm quan, các biến dữ liệu liên quan Kiểu câu hỏi/ giả thiết Khác biệt Liên quan Mô tả Kiểu thống kê Thống kê khác biệt Thống kê liên Thống kê mô (v.d. t-test, ANOVA) quan tả (v.d. trung (v.d. tương bình, tỷ lệ) TS. Trần Tiến Khai, UEHquan, hồi quy) 50
  51. 8.6 Phân tích trắc nghiệm giả thiết Xây dựng giả thiết H0 và giả thiết thay thế Câu hỏi NC Giả thiết H0 Biểu diễn giả Giả thiết H1 Biểu diễn giả thiết H0 thiết H1 Có sự khác Không có sự H0: µnam = µnữ Có sự khác H0: µnam ≠ µnữ biệt về tuổi khác biệt về biệt về tuổi giữa nam và tuổi giữa nam giữa nam và nữ? và nữ. nữ. Có liên hệ gì Không có liên H0: рGM = 0 Có liên hệ H0: рGM ≠ 0 giữa giới tính hệ gì giữa giới giữa giới tính và nhãn hiệu tính và nhãn và nhãn hiệu xe? hiệu xe. xe. th th th th Mức độ sử Không có khác H0: µu = µu Có khác biệt H1: µu ≠ µu dụng xe có biệt giữa các giữa các nhóm khác biệt giữa nhóm tuổi về tuổi về mức các nhóm tuổi mức độ sử độ sử dụng không? dụng xe. xe. TS. Trần Tiến Khai, UEH 51
  52. 8.6 Phân tích trắc nghiệm giả thiết 8.6.2 Quy trình trắc nghiệm giả thiết 1. Phát biểu giả thiết 2. Chọn loại trắc nghiệm thống kê 3. Chọn mức ý nghĩa mong muốn 4. Tính giá trị khác biệt 5. Có được giá trị trắc nghiệm 6. Diễn giải kết quả trắc nghiệm TS. Trần Tiến Khai, UEH 52
  53. 8.6 Phân tích trắc nghiệm giả thiết 8.6.2 Quy trình trắc nghiệm giả thiết 1. Phát biểu giả thiết và giả thiết thay thế 2. Chọn mức ý nghĩa mong muốn 3. Có được giá trị xác suất p 4. So sánh giá trị xác suất p và mức ý nghĩa và ra quyết định 5. Diễn giải kết quả trắc nghiệm TS. Trần Tiến Khai, UEH 53
  54. 8.6 Phân tích trắc nghiệm giả thiết Giá trị xác suất (p Values) Hầu hết các phần mềm thống kê đều cho kết quả với giá trị xác suất (p values). Giá trị xác suất p value là xác suất để đạt được một kết quả, ít nhất cao bằng, hoặc cao hơn giá trị được quan sát trong thực tế, với điều kiện cho trước là giả thiết H0 là đúng. TS. Trần Tiến Khai, UEH 54
  55. 8.6 Phân tích trắc nghiệm giả thiết Giá trị xác suất (p Values) Giá trị p value được so sánh với mức ý nghĩa (significant level - α), và dựa trên kết quả này để bác bỏ hay không bác bỏ giả thiết. Nếu giá trị p value nhỏ hơn mức ý nghĩa, giả thiết bị bác bỏ (p value α, không bác bỏ giả thiết H0). TS. Trần Tiến Khai, UEH 55
  56. 8.6 Phân tích trắc nghiệm giả thiết Kiểm định ý nghĩa: các kiểu kiểm định Có hai loại: parametric (tham số) và nonparametric (phi tham số). Parametric tests là công cụ mạnh vì xử lý các dữ liệu dạng scale (interval, ratio). Nonparametric tests là công cụ xử lý các dữ liệu dạng nominal và ordinal. TS. Trần Tiến Khai, UEH 56
  57. 8.6 Phân tích trắc nghiệm giả thiết Parametric tests Parametric tests đòi hỏi một số giả định: ◼ Các quan sát phải độc lập với nhau. ◼ Các quan sát phải được rút ra từ các dân số phân phối bình thường chuẩn. ◼ Các dân số nên có phương sai tương đương. ◼ Thang đo phải ở dạng scale để các tính toán có thể thực hiện được. TS. Trần Tiến Khai, UEH 57
  58. 8.6 Phân tích trắc nghiệm giả thiết Parametric tests Nonparametric tests ít đòi hỏi các giả định: ◼ Không đòi hỏi các quan sát phải được rút ra từ các dân số phân phối bình thường chuẩn. ◼ Không đòi hỏi các dân số phải có phương sai tương đương. ◼ Là cách duy nhất để xử lý dữ liệu nominal. ◼ Là cách đúng đắn để xử lý dữ liệu ordinal, mặc dù parametric có thể áp dụng được. ◼ Dễ hiểu và dễ sử dụng. TS. Trần Tiến Khai, UEH 58
  59. 8.6 Phân tích trắc nghiệm giả thiết Làm sao chọn một trắc nghiệm thống kê phù hợp? Để chọn một trắc nghiệm thống kê phù hợp, nên suy nghĩ đến 3 câu hỏi: ◼ Trắc nghiệm liên quan đến 1 mẫu, 2 mẫu phụ hay nhiều hơn 2 mẫu phụ (k)? ◼ Nếu có 2 mẫu phụ hay nhiều hơn 2 mẫu phụ (k), chúng có độc lập với nhau hay không? ◼ Dữ liệu thuộc loại nào (nominal, ordinal, scale)? TS. Trần Tiến Khai, UEH 59
  60. 8.6 Phân tích trắc nghiệm giả thiết Các kỹ thuật phân tích thống kê nên dùng theo loại dữ liệu và trắc nghiệm Measurement One-sample Two-Samples Tests k-Samples Tests scale Case Related Independent Related Independent Samples Samples Samples Samples Nominal - Binomial - McNemar - Fisher exact - Cochran Q - χ2 for k- - χ2 one-sample test samples test - χ2 two- sample test Ordinal - Kolmogorov- - Sign test -Median test -Friedman two- - Median Smirnov one- - Wilcoxon Mann-Whitney way ANOVA extension sample test matched-pairs U - Kruskal- - Runs test test - Kolmogorov- Wallis one-way Smirnov ANOVA Wald-Wolfowitz Interval and Ratio - T-test - T-test for - T-test - Repeated- - One-way - Z test paired samples - Z test measured ANOVA ANOVA - N-way ANOVA60 TS. Trần Tiến Khai, UEH
  61. 8.6 Phân tích trắc nghiệm giả thiết 8.6.3 Phân tích dữ liệu a. Excel: công cụ Correlation, Anova và Regression trong chức năng Data Analysis b. SPSS: các công cụ Compare Means và Nonparametric Tests TS. Trần Tiến Khai, UEH 61
  62. 8.6 Phân tích trắc nghiệm giả thiết 8.6.3 Phân tích dữ liệu b. SPSS: các công cụ Compare Means và Nonparametric Tests TS. Trần Tiến Khai, UEH 62
  63. 8.7 Một số áp dụng cụ thể 1. One-Sample T Test One-sample tests được dùng khi ta có 1 mẫu và muốn kiểm định giả thiết là liệu mẫu này có đến từ 1 dân số cụ thể nào đó không? Ví dụ: ◼ Liệu có sự khác biệt giữa tần suất quan sát và 1 tần suất chuẩn nào đó dựa trên lý thuyết? ◼ Liệu có sự khác biệt giữa tỷ phần quan sát với 1 tỷ phần kỳ vọng nào đó không? TS. Trần Tiến Khai, UEH 63
  64. 8.7 Một số áp dụng cụ thể 1. One-Sample T Test Ví dụ 1 (Parametric test) ◼ Có số liệu tốc độ tăng doanh số của 9 doanh nghiệp. ◼ Tốc độ tăng trưởng chuẩn là 6,5%/năm. ◼ Giả thiết: tốc độ tăng trưởng doanh số bình quân của 9 doanh nghiệp không khác biệt với tốc độ chuẩn (6,5%/năm). TS. Trần Tiến Khai, UEH 64
  65. 8.7 Một số áp dụng cụ thể 1. One-Sample T Test. Ví dụ 1 (parametric test) TS. Trần Tiến Khai, UEH 65
  66. 8.7 Một số áp dụng cụ thể 1. One-Sample T Test Analyze → Compare Means → One-Sample T Test (TẠI SAO?) TS. Trần Tiến Khai, UEH 66
  67. 8.7 Một số áp dụng cụ thể 1. One-Sample T Test Analyze → Compare Means → One-Sample T Test TS. Trần Tiến Khai, UEH 67
  68. 8.7 Một số áp dụng cụ thể 1. One-Sample T Test Analyze → Compare Means → One-Sample T Test Diễn giải kết quả phân tích Ví dụ 1 (Parametric test) ◼ P value (Sig. 2 tailed) > 0.05. ◼ Khác biệt giữa tốc độ tăng trưởng doanh số bình quân của 9 doanh nghiệp và tốc độ chuẩn không có ý nghĩa thống kê ở mức ý nghĩa 0.05. ◼ Chấp nhận giả thiết (không bác bỏ): tốc độ tăng trưởng doanh số bình quân của 9 doanh nghiệp không khác biệt với tốc độ chuẩn (6,5%/năm). TS. Trần Tiến Khai, UEH 68
  69. 8.7 Một số áp dụng cụ thể 2. One-Sample Chi-Square Test Ví dụ 2 (Nonparametric test) ◼ Số liệu điều tra sử dụng xe máy. ◼ Giả thiết H0: tất cả các nhãn hiệu xe máy đều có cơ hội được người sử dụng xe lựa chọn như nhau. Analyze → Nonparametric Tests → Chi-Square TS. Trần Tiến Khai, UEH 69
  70. 8.7 Một số áp dụng cụ thể 2. One-Sample Chi-Square Test TS. Trần Tiến Khai, UEH 70
  71. 8.7 Một số áp dụng cụ thể Ta có 100 quan sát và 10 nhãn xe máy. Cơ hội để mỗi nhãn xe được chọn là 10%, và số lượng kỳ vọng là 10 xe/nhãn hiệu. Tuy nhiên, sự khác biệt giữa N quan sát và N kỳ vọng cho từng nhãn xe là lớn. Với P value < 0.05, ta bác bỏ giả thiết Ho và phát biểu là các nhãn hiệu xe máy được người sử dụng lựa TS. Trần Tiến Khai, UEH chọn khác biệt nhau. 71
  72. 8.7 Một số áp dụng cụ thể 3. Two-Sample T Test Có hai kiểu T Test cho hai mẫu: ◼ Không bắt cặp (unpaired, independent T Test): cho hai mẫu độc lập với nhau, ví dụ nam, nữ, các nhóm người, nhóm nghề nghiệp, v.v.) ◼ Bắt cặp (paired T Test): cho hai mẫu có liên hệ với nhau, ví dụ 1 nhóm người trước và sau khi bị một yếu tố tác động. TS. Trần Tiến Khai, UEH 72
  73. 8.7 Một số áp dụng cụ thể 3. Two-Sample T Test Ví dụ 3. Số liệu điều tra sử dụng xe máy ◼ Giả thiết: tuổi trung bình của người sử dụng xe máy nam và nữ là như nhau. TS. Trần Tiến Khai, UEH 73
  74. 8.7 Một số áp dụng cụ thể 3. Two-Sample T Test Analyze → Compare Means → Independent-Samples T Test TS. Trần Tiến Khai, UEH 74
  75. 8.7 Một số áp dụng cụ thể 3. Two-Sample T Test TS. Trần Tiến Khai, UEH 75
  76. 8.7 Một số áp dụng cụ thể 3. Two-Sample T Test Chọn biến Age cho ô Test Variable(s) Grouping Variable: Group 1 = 1 (male); Group 2 = 0 (female) TS. Trần Tiến Khai, UEH 76
  77. 8.7 Một số áp dụng cụ thể 3. Two-Sample T Test Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Mean Std. Error Difference F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper Age of motorbike user Equal variances 1.239 .268 -.315 98 .754 -.93 2.95 -6.77 4.92 assumed Equal variances -.321 91.785 .749 -.93 2.89 -6.66 4.81 not assumed P values (Sig. (2-tailed)) cao hơn α = 0.05 rất nhiều. Ta chấp nhận giả thiết và diễn giải là không có sự khác biệt về tuổi trung bình giữa người sử dụng xe máy là Nam và Nữ. TS. Trần Tiến Khai, UEH 77
  78. 8.7 Một số áp dụng cụ thể 4. Two-Sample Nonparametric Test Ví dụ 4. Số liệu điều tra sử dụng xe máy ◼ Giả thiết: sự lựa chọn nhãn hiệu xe máy giữa người sử dụng nam và nữ là như nhau. Analyze → Nonparametric Test → Two-Independent Samples TS. Trần Tiến Khai, UEH 78
  79. 8.7 Một số áp dụng cụ thể 4. Two-Sample Nonparametric Test Analyze → NonparametricTS. TestTrần Tiến → Khai,Two UEH-Independent Samples 79
  80. 8.7 Một số áp dụng cụ thể 4. Two-Sample Nonparametric Test Mann-Whitney Test Two-Sample Kolmogorov-Smirnov Test Test Statisticsa Test Statisticsa Motobike Motobike Names Names Most Extreme Absolute .045 Mann-Whitney U 1200.000 Differences Positive .045 Wilcoxon W 2970.000 Negative -.018 Z -.067 Kolmogorov-Smirnov Z .224 Asymp. Sig. (2-tailed) .946 Asymp. Sig. (2-tailed) 1.000 a. Grouping Variable: User gender a. Grouping Variable: User gender Kết luận: chấp nhận giả thiết và phát biểu rằng sự lựa chọn nhãn hiệu xe máy giữa người sử dụng nam và nữ là như nhau. TS. Trần Tiến Khai, UEH 80
  81. 8.7 Một số áp dụng cụ thể 5. One-Way ANOVA (Parametric Test) Phương pháp thống kê để kiểm định giả thiết là các trung bình của các dân số bằng nhau là Phân tích phương sai - analysis of variance (ANOVA). One-way ANOVA sử dụng các mô hình 1 yếu tố, các ảnh hưởng cố định để so sánh ảnh hưởng của một nghiệm thức (treatment) hoặc một yếu tố (factor) trên một biến phụ thuộc và liên tục. TS. Trần Tiến Khai, UEH 81
  82. 8.7 Một số áp dụng cụ thể 5. One-Way ANOVA (Parametric Test) Ví dụ 5. Số liệu điều tra sử dụng xe máy Giả thiết: Không có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng. Analyze → Compare Means → One-Way ANOVA TS. Trần Tiến Khai, UEH 82
  83. 8.7 Một số áp dụng cụ thể 5. One-Way ANOVA (Parametric Test) TS. Trần Tiến Khai, UEH 83
  84. 8.7 Một số áp dụng cụ thể 5. One-Way ANOVA (Parametric Test) TS. Trần Tiến Khai, UEH 84
  85. 8.7 Một số áp dụng cụ thể 5. One-Way ANOVA (Parametric Test) ANOVA Number of used days in a month Sum of Squares df Mean Square F Sig. Between Groups 1428.944 5 285.789 6.737 .000 Within Groups 3987.806 94 42.423 Total 5416.750 99 P value < 0.05. Kết luận: bác bỏ giả thiết; Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng TS. Trần Tiến Khai, UEH 85
  86. 8.7 Một số áp dụng cụ thể 5. One-Way ANOVA (Parametric Test) Number of used days in a month Subset for alpha = .05 Age groups N 1 2 3 Tukey HSDa,b under 60 19 14.47 under 50 25 17.96 17.96 under 20 6 18.33 18.33 under 30 26 22.62 22.62 under 40 17 24.12 24.12 older than 60 7 26.14 Sig. .695 .198 .769 Duncana,b under 60 19 14.47 under 50 25 17.96 17.96 under 20 6 18.33 18.33 under 30 26 22.62 22.62 under 40 17 24.12 older than 60 7 26.14 Sig. .175 .101 .215 Means for groups in homogeneous subsets are displayed. a. Uses Harmonic Mean Sample Size = 12.013. b. The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levelsTS. are Trần not Tiếnguaranteed. Khai, UEH 86
  87. 8.7 Một số áp dụng cụ thể 5. One-Way ANOVA (Parametric Test) Age Group Value Grouping Under 60 14,5 a Under 50 17,9 ab Under 20 18,3 ab Under 30 22,6 abc Under 40 24,1 abc Older than 60 26,1 abc TS. Trần Tiến Khai, UEH 87
  88. 8.7 Một số áp dụng cụ thể 5. One-Way ANOVA (Parametric Test) Hình. Phân bố số ngày sử dụng xe máy bình quân trong tháng theo độ tuổi của người sử dụng TS. Trần Tiến Khai, UEH 88
  89. 8.7 Một số áp dụng cụ thể 6. Nonparametric Test for k-Independent Samples Ví dụ 6. Số liệu điều tra sử dụng xe máy Giả thiết: Không có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về nhãn hiệu xe. Analyze → Nonparametric Tests → k Independent Samples TS. Trần Tiến Khai, UEH 89
  90. 8.7 Một số áp dụng cụ thể 6. Nonparametric Test for k-Independent Samples TS. Trần Tiến Khai, UEH 90
  91. 8.7 Một số áp dụng cụ thể 6. Nonparametric Test for k-Independent Samples Kruskal-Wallis Test Ranks Test Statisticsa,b Age groups N Mean Rank Motobike Motobike Names under 20 6 46.25 Names under 30 26 49.40 Chi-Square 1.493 under 40 17 50.62 df 5 under 50 25 55.66 Asymp. Sig. .914 under 60 19 45.87 a. Kruskal Wallis Test older than 60 7 52.07 Total 100 b. Grouping Variable: Age groups P value > 0.05 → Kết luận: chấp nhận giả thiết; Phát biểu rằng sự lựa chọn các nhãn hiệu xe máy giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau là như nhau. TS. Trần Tiến Khai, UEH 91