Lâm nghiệp - Khai thác và sử dụng SPSS để xử lý số liệu nghiên cứu trong lâm nghiệp

pdf 205 trang vanle 5712
Bạn đang xem 20 trang mẫu của tài liệu "Lâm nghiệp - Khai thác và sử dụng SPSS để xử lý số liệu nghiên cứu trong lâm nghiệp", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdflam_nghiep_khai_thac_va_su_dung_spss_de_xu_ly_so_lieu_nghien.pdf

Nội dung text: Lâm nghiệp - Khai thác và sử dụng SPSS để xử lý số liệu nghiên cứu trong lâm nghiệp

  1. Khai thác vμ sử dụng SPSS để xử lý số liệu nghiên cứu trong lâm nghiệp GS.TS. Nguyễn Hải Tuất TS. Nguyễn Trọng Bình
  2. Lời giới thiệu hống kê toán học ngày càng đ−ợc ứng dụng rộng rãi trong các lĩnh vực, đặc Tbiệt là trong nghiên cứu khoa học. Trong lâm nghiệp, thống kê toán học là công cụ giúp các nhà khoa học có cơ sở phân tích, đánh giá kết quả nghiên cứu trong các lĩnh vực chuyên môn, nh− lâm sinh, môi tr−ờng, sâu bệnh, thổ nh−ỡng, điều tra rừng, chế biến lâm sản Hiện nay, các ph−ơng pháp thống kê cụ thể đ−ợc giới thiệu trong các tài liệu chuyên môn mà ng−ời đọc đều có thể tra cứu tiện lợi. Tuy nhiên, vấn đề mà những ng−ời làm công tác nghiên cứu khoa học quan tâm là, làm thế nào để việc xử lý số liệu cũng nh− tính toán các chỉ tiêu thống kê cần thiết cho mỗi nghiên cứu sao cho đơn giản và tiện lợi, mà không làm giảm độ chính xác cũng nh− độ tin cậy. Để giải quyết vấn đề này, các giảng viên của Tr−ờng Đại học Lâm nghiệp đã biên soạn cuốn “Khai thác và sử dụng SPSS để xử lý số liệu nghiên cứu trong lâm nghiệp”. Trong cuốn sách, các tác giả giới thiệu những ph−ơng pháp thống kê th−ờng đ−ợc vận dụng trong lâm nghiệp. Với mỗi ph−ơng pháp, phần lý thuyết đều đ−ợc hệ thống và nâng cao so với ch−ơng trình bậc đại học, đồng thời còn gợi ý h−ớng vận dụng vào các lĩnh vực chuyên môn sâu khác nhau. Phần ứng dụng đ−ợc giới thiệu t−ơng đối cụ thể, từ các b−ớc nhập số liệu cũng nh− các thao tác thực hành trên máy cho đến phân tích kết quả cuối cùng. Từ những vấn đề đ−ợc giới thiệu, ng−ời đọc dễ nhận thấy, cuốn sách là tài liệu đ−ợc biên soạn công phu và nghiêm túc bởi nhóm tác giả. Đây là tài liệu h−ớng dẫn thực hành tốt cho những ng−ời làm công tác nghiên cứu đã có kiến thức thống kê toán học ở bậc đại học và kiến thức tin học ứng dụng chuyên ngành. Cũng vì thế, cuốn sách còn là tài liệu dùng cho học viên cao học lâm nghiệp khi nghiên cứu môn thống kê toán học. Chúng tôi rất vui mừng và trân trọng giới thiệu cuốn sách với bạn đọc. Hà Tây, ngày 31 tháng 5 năm 2005 GS. TS. Vũ Tiến Hinh 2
  3. Lời nói đầu SPSS ra đời từ những năm 60 của thế kỷ tr−ớc và không ngừng đ−ợc nâng cấp và hoàn thiện. Cho đến nay thế hệ mới nhất mà ta biết đ−ợc là 12.5 với nhiều nội dung tân tiến đ−ợc đ−a vào. Tuy nhiên, những vấn đề cốt lõi có ứng dụng nhiều trong Lâm nghiệp mà ta đã quen thuộc thì vẫn không thay đổi mặc dù phiên bản đang đ−ợc các nhà khoa học tr−ờng ta ứng dụng là 10.0 hoặc 11.5. Nội dung của SPSS rất rộng bao gồm những vấn đề cơ bản và nâng cao, rất thích hợp cho nhiều đối t−ợng chuyên môn khác nhau. Để phục vụ cho các nhà nghiên cứu Lâm nghiệp không chuyên về thống kê, tài liệu học tập chủ yếu là giới thiệu những vấn đề thống kê th−ờng đ−ợc vận dụng trong Lâm nghiệp, trong đó có một số vấn đề đ−ợc nâng cao hơn so với thống kê cơ bản. Ngoài ra, nhóm tác giả cũng hết sức chú ý khai thác những vấn đề có liên quan đến đặc thù nghiên cứu trong Lâm nghiệp nh− việc chỉnh lý số liệu theo 2 biến, vấn đề kiểm tra luật phân bố, sự t−ơng thích của mô hình hồi quy, hồi quy phi tuyến tính Xử lý thống kê bằng SPSS 10.0/11.5 for Windows là tài liệu phục vụ thực hành tốt cho học viên cao học Lâm nghiệp sau khi đã học xong phần Tin học chuyên ngành. Ngoài ra, tài liệu cũng có thể phục vụ tốt cho những cán bộ và sinh viên làm nghiên cứu khoa học, nếu đã qua trình độ thống kê cơ bản. Tuy nhiên, để giúp cho ng−ời đọc tiện tra cứu về mặt thống kê, ở một số mục nhóm tác giả có trình bày sâu thêm một số vấn đề lý luận và công thức vận dụng ngoài nội dung chính là các quy trình ứng dụng SPSS để xử lý số liệu. Trong lần đọc đầu tiên, độc giả có thể l−ớt qua những vấn đề đó mà cũng không ảnh h−ởng đến mục tiêu chính của tài liệu. Do học viên cao học đã nghiên cứu kỹ phần tin học có liên quan đến phần mềm SPSS, nên trong tài liệu này những vấn đề đó cũng không trình bày lại một cách đầy đủ. Tuy nhiên, tài liệu có thêm một ch−ơng khái quát về SPSS nhất là cách nhập số liệu vào máy. Độc giả có thể đọc thêm những tài liệu (2), (4), (8). Biên soạn: ch−ơng 1, 3 và 8 do TS. Nguyễn Trọng Bình, các ch−ơng còn lại do GS.TS. Nguyễn Hải Tuất đảm nhiệm. Xin chân thành cảm ơn một số bạn bè và đồng nghiệp kể cả những học viên cao học, đặc biệt là GS.TS Vũ Tiến Hinh và Thạc sỹ. Nguyễn Thị Thanh An đã góp phần sửa chữa về nội dung và hình thức trong quá trình nhóm tác giả biên soạn tập tài liệu này. Mặc dù đã có nhiều cố gắng biên soạn, nh−ng đây là một phần mềm rất phong phú và phức tạp, thời gian nghiên cứu ch−a nhiều nên chắc không tránh khỏi những khiếm khuyết; rất mong đ−ợc bạn đọc l−ợng thứ và cho nhiều ý kiến quý báu để nhóm tác giả tiếp tục sửa chữa và hoàn thiện. Nhóm tác giả 3
  4. Mục lục Mục Nội dung Trang Lời nói đầu Ch−ơng 1: Khái quát về SPSS 1 1.1 Nội dung cơ bản của SPSS 1 1.2 Cửa sổ làm việc của SPSS 1 1.3 Các hộp thoại trong SPSSS (Dialogue Boxes) 3 1.4 Phân loại các biến trong SPSS 4 1.5 Tổ chức các biến trong SPSS 5 1.6 Cách ghi biến trong SPSS 10.0/11.5/12.5 6 1.7 Một số ví dụ điển hình cách tạo biến trong SPSS 9 1.8 Một số thủ tục quan trọng th−ờng dùng có liên quan đến các biến trong SPSS 10 Ch−ơng 2: Thống kê mô tả 15 2.1 Tính toán các đặc tr−ng mẫu 15 2.2 Lập bảng phân bố tần số(Frequency) 16 2.3 Khám phá và sàng lọc các số liệu thô 22 Ch−ơng 3 : Xây dựng các bảng biểu và sơ đồ thống kê 27 3.1 Các bảng biểu thống kê 27 3.2 Biểu đồ thống kê 38 Ch−ơng 4 : So sánh các mẫu thí nghiệm và quan sát 53 4.1 ý nghĩa 53 4.2 Tr−ờng hợp các mẫu độc lâp 53 4.3 Tr−ờng hợp các mẫu liên hệ 63 4.4 Kiểm tra tính độc lập theo tiêu chuẩn χ2 72 Ch−ơng 5 : Phân tích ph−ơng sai 76 5.1 ý nghĩa của ph−ơng pháp 76 5.2 Phân tích ph−ơng sai một nhân tố 77 5.3 Phân tích ph−ơng sai hai nhân tố 90 5.4 Phân tích ph−ơng sai ba nhân tố 100 4
  5. Ch−ơng 6 : Phân tích hồi quy một lớp và nhiều lớp 108 6.1 Hệ số t−ơng quan 108 6.2 Hồi quy tuyến tính một lớp 110 6.3 Hồi quy tuyến tính nhiều lớp 121 Ch−ơng 7: Các dạng đ−ờng cong và hàm phi tuyến 144 7.1 Các dạng đ−ờng cong 144 7.2 Hàm Logistic 147 7.3 Các hàm phi tuyến tính (Nonlinear) 150 7.4 Kết hợp phân tích hồi quy với phân tích ph−ơng sai để chọn bậc của đa thức 157 Ch−ơng 8 : Kiểm tra dạng phân bố lý thuyết 175 8.1 ý nghĩa 175 8.2 Kiểm tra dạng phân bố bằng ph−ơng pháp Kolmogorov - Smirnov 175 8.3 Kiểm tra dạng phân bố bằng tiêu chuẩn χ2 179 Tài liệu tham khảo Bảng tra tìm các quy trình đã vận dụng SPSS 5
  6. Ch−ơng 1 Khái quát về spss 1.1. Nội dung cơ bản SPSS SPSS là tên viết tắt của tên đầy đủ Statistical Products for social Services. Nh− vậy, đối t−ợng phục vụ của SPSS là cho nhiều ngành kinh tế xã hội và khoa học khác nhau. Nội dung của SPSS rất phong phú và đa dạng bao gồm từ việc thiết lập các bảng biểu và sơ đồ thống kê, tính toán các đặc tr−ng mẫu trong thống kê mô tả, đến một hệ thống đầy đủ các ph−ơng pháp thống kê phân tích nh− so sánh các mẫu bằng nhiều tiêu chuẩn tham số và phi tham số (Nonparametric Tests), các mô hình phân tích Ph−ơng sai theo dạng tuyến tính tổng quát ( General Linear Models) , các mô hình hồi quy đơn và nhiều biến, các hồi qui phi tuyến tính (Nonlinear), các hồi quy Logistic; Phân tích theo nhóm (Cluster Analysis). Phân tích tách biệt (Discriminatory Analysis ) và nhiều chuyên sâu khác (Advanced Statistics). Những nội dung nói trên có thể nói là đủ để giúp cho các nhà khoa học thực hiện việc xử lý số liệu nghiên cứu nói chung và trong nghiên cứu Lâm nghiệp nói riêng. Danh sách các chủ đề thống kê mà SPSS đề cập đến có trong menu Analyze ở cửa sổ chính SPSS Data Editor đ−ợc giới thiệu ở mục sau. 1.2. Cửa sổ làm việc của SPSS Sau khi ch−ơng trình SPSS đ−ợc mở thì cửa sổ đầu tiên của SPSS là SPSS Data Editor xuất hiện gọi là cửa sổ hiệu đính số liệu. Với cửa sổ này giúp ta các thao tác mở các chuyên đề thống kê để phân tích, xem xét các số liệu, cắt xoá copy thay đổi trật tự và hình thức các biến . Hình 1.1 Cửa sổ SPSS Data Editor Nội dung chủ yếu của các Menus trong SPSS 10.0 /11.5 for Windows - File : Khởi tạo file mới đóng mở, l−u, in ấn thoát 6
  7. - Edit : undo, cắt dán, tìm kiếm, thay thế, xác lập các mặc định - View: Cho hiện dòng trạng thái, thanh công cụ, chọn phông chữ, cho hiện giá trị nhập vào hay nhãn, ý nghĩa của các giá trị nhập vào. - Data : Định nghĩa biến thêm biến đi đến các quan sát xếp thứ hạng ghép file chia file , lựa chọn các chủ thể (Select cases) - Transforrm: Tính toán mã hoá lại các biến - Analyze: Liệt kê các chuyên đề thống kê. Đây là menu chủ yếu của cửa sổ này. - Graphs : Tạo các biểu đồ - Utilities : Tìm hiểu các thông tin về biến ,File - Windows: Sắp xếp và di chuyển giữa các cửa sổ làm việc. Cửa sổ thứ 2 cũng rất quan trọng là SPSS Viewer Với cửa sổ này ta có thể lựa chọn và đọc các kết quả (Outputs ) theo dạng cấu trúc cây. Tại đây ta cũng có thể hiệu đính sửa chữa các kết quả và l−u lại để dùng sau này (Xem hình 1.2) Hình 1.2 Cửa sổ SPSS Viewer Cần chú ý rằng trong loại cửa sổ này nếu ta kích đúp bảng kết quả nh− bảng của hình 1.2 thì xuất hiện menu Pivot rất tiện ích cho việc thay đổi cột và hàng của bảng mà ta gọi là hiệu đính bảng trụ. Nháy chuột vào Pivot và chọn Pivoting trays ta có một công cụ nh− hình 1.3. Với công cụ này ta có thể thay đổi cách trình bày một bảng kết quả tính toán theo ý muốn bằng cách chỉ cần dùng ph−ơng pháp kéo thả các biểu 7
  8. t−ợng từ cột sang hàng hoặc ng−ợc lại. Nh− hình 1.3 ta có thể chuyển các chỉ tiêu thống kê (Statistics ) đang biểu thị theo hàng sang cách biểu thị theo cột Statistic s Hình1.3 Cửa số thứ 3 cũng rất quan trọng là cửa sổ Chart Editor dùng để hiệu đính và sửa chữa các biểu đồ thống kê (Xem hình 1.4) Hình1.4 Cửa sổ SPSS Chart Editor Tất nhiên muốn mở đ−ợc cửa sổ này ta cần kích hoạt biểu đồ và từ menu Edit ta chọn SPSS Chart Object \Open. Ngoài ra còn có một số cửa sổ khác nh− cửa sổ hiệu đính cú pháp (Syntax Editor) hiệu đính văn bản đầu ra (Text output Editor ) 1.3. Các hộp thoại trong SPSS (Dialogue Boxs) Làm việc trong môi tr−ờng Window các hộp thoại có các đặc tính chung nh− các nút bấm (Pushpottons) các hộp danh sách, hộp lựa chọn (Option Boxs) và các hộp kiểm tra (check Boxes). 8
  9. Hộp lựa chọn Nút bấm lựa chọn Hộp kiểm tra Hộp để khai báo biến Hình 1.5 Một dạng hộp thoại trong SPSS Th−ờng các hộp thoại đầu tiên dùng để khai báo biến và lựa chọn các h−ớng phân tích cơ bản. Tiếp theo là các hộp thoại đ−ợc hình thành từ các nút bấm theo yêu cầu của chuyên gia phân tích. Nh− hộp thoại trên hình 1.5 nếu không khai báo gì thêm thì ta có ngay một biểu đồ tần số dạng cột chỉ số ng−ời t−ơng ứng với trình độ học vấn. Nếu muốn thay đổi một mặc định nào đó thì ta chọn Options và nếu muốn ghi tên biểu đồ thì chọn Tiles. Cần chú ý là sau khi khai báo xong các hộp thoại từ các nút bấm phải click vào Continue để trở về hộp thoại ban đầu và sau đó kết thúc bằng OK. 1.4. Phân loại các biến trong SPSS Trong SPSS các biến quan sát th−ờng đ−ợc chia làm 2 loại : biến định tính và biến định l−ợng hay còn gọi là đại l−ợng. Trong Lâm nghiệp, biến định tính nh− chất l−ợng cây trồng đ−ợc phân ra thành cây tốt, cây xấu hoặc cây sống, cây chết , dấu hiệu định l−ợng nh− các số đo về đ−ờng kính về chiều cao của cây, số cây chứa trong các ô quan sát, và các đại l−ợng khác có thể cân đong đo đếm đ−ợc. Tuy nhiên, trong thời đại kỹ thuật số ng−ời ta có thể chuyển đổi các biến định tính về biến định l−ợng bằng cách mã hoá nh− cho điểm học tập của học sinh là một ví dụ. Đối với các biến định l−ợng trong SPSS ng−ời ta chia thành các thang đo khoảng (interval scale) và các thang đo tỷ lệ (ratio scale). Còn đối với biến định tính đ−ợc số hoá ng−ời ta chia làm thang đo định danh (nominal scale) không mang tính chất thứ bậc và thang đo 9
  10. mang tính chất thứ bậc (ordinal scale). Trong lâm nghiệp, các thang đo định danh không thứ bậc nh− giới tính trong điều tra Lâm nghiệp xã hội (nam=1, nữ = 0). Trong ví dụ này, các con số 0 và 1 chỉ mang ý nghĩa định danh không mang ý nghĩa thứ bậc. Việc tính toán các đặc tr−ng mẫu nh− trung bình và ph−ơng sai là không có ý nghĩa. Trái lại, địa hình chân s−ờn đỉnh (Chân=1, s−ờn =2, đỉnh =3) là một thang đo thứ bậc. Vì rằng hàm l−ợng các chất dinh d−ỡng ở 3 địa hình trên là khác nhau. Dấu hiệu quan sát Biến định l−ợng Biến định tính Thang đo khoảng Thang đo tỷ lệ Thang đo thứ bậc TĐ không thứ bậc Hình 1.6 Sơ đồ các thang đo của số liệu quan sát 1.5. Tổ chức các biến trong SPSS Trong ch−ơng trình SPSS, các biến (variables) có một vị trí quan trọng nh−ng vai trò của chúng rất khác nhau. Có những biến là những đại l−ợng quan sát nh− chiều cao, đ−ờng kính, đ−ờng kính tán của cây chẳng hạn là những biến dùng để phân tích đánh giá, so sánh và −ớc l−ợng Nh−ng cũng có những biến đóng vai trò là những nhân tố ảnh h−ởng đến sinh tr−ởng của cây nh− địa hình, mật độ, loại phân bón hoặc có những biến làm nhiệm vụ phân nhóm (grouping variables) để có thể phân chia các biến định l−ợng thành các nhóm khác nhau nh− so sánh sinh tr−ởng chiều cao của cây giữa các địa hình, giữa các dạng lập địa Việc tổ chức các biến một cách thích hợp cho một bài toán phân tích thống kê trên SPSS là một thành công b−ớc đầu rất quan trọng, góp phần thực hiện thắng lợi các b−ớc tiếp theo. Sau đây là những loại biến có thể th−ờng gặp trong nghiên cứu lâm nghiệp theo từng chủ đề phân tích thống kê. 1.5.1. So sánh các mẫu quan sát và thí nghiệm Trong ph−ơng pháp thống kê này thì đ−ờng kính, chiều cao, đ−ờng kính tán, thể tích cây (trên 1 ô) là những biến quan sát. Các biến phân nhóm có thể là địa hình (chân, s−ờn, đỉnh ), loài cây, xuất sứ, mật độ trồng. Khi đ−a vào màn hình SPSS, các biến quan sát đ−ợc cho thành từng cột, mỗi biến một cột riêng lẻ, và biến phân nhóm (Grouping Variables ) cho vào một cột theo các mã 1, 2, 3 Với SPSS, ta có thể so sánh chiều cao trung bình (hoặc các đại l−ợng quan sát khác) của địa hình 1 với địa hình 2 (hoặc dạng lập địa 1 và 2) cả cho tr−ờng hợp ph−ơng pháp tham số và phi tham số. 1.5.2 Phân tích ph−ơng sai Khi phân tích ph−ơng sai 1 nhân tố, việc tổ chức các biến cũng giống nh− khi so sánh các mẫu độc lập. Các nhân tố cần nghiên cứu có thể là địa hình, mật độ trồng, hoặc là ph−ơng pháp tạo giống Trong phân tích ph−ơng sai 2, 3 nhân tố thì các đại l−ợng quan sát nh− chiều cao, đ−ờng kính là những biến cần đ−ợc phân tích; các biến nh− mật độ, địa hình, phân bón là những biến nhân tố để hai hoặc 3 cột khác nhau. 10
  11. 1.5.3. Kiểm tra tính độc lập Đây là một tr−ờng hợp đặc biệt th−ờng gây khó khăn cho ng−ời làm phân tích thống kê. Khác với phân tích ph−ơng sai, đ−ờng kính, chiều cao cây là những đại l−ợng quan sát cần phân tích thì trong kiểm tra tính độc lập tần số là yếu tố cần phân tích; còn các nhân tố làm ảnh h−ởng đến sự phân bố tần số nói trên đóng vai trò là các biến định tính. Các nhân tố làm ảnh h−ởng đến sự phân bố tần số nói trên nh− các loài cây chịu ảnh h−ởng của yếu tố sinh thái làm thay đổi sự xuất hiện số cây của từng loài trong các ô quan sát. ở đây các nhân tố (biến định tính ) đóng vai trò là những biến đ−ợc mã hoá thành các số 1, 2, 3 sau đó dùng lệnh Crosstabs để có bảng tần số theo hai chiều ứng với các biến định tính. 1.5.4. Về t−ơng quan và hồi quy So với các ph−ơng pháp trên, thì trong t−ơng quan và hồi quy việc tổ chức các biến là khá đơn giản. Thông th−ờng có bao nhiêu đại l−ợng quan sát cần xác lập t−ơng quan thì cần bấy nhiêu biến. Tuy nhiên, nếu cần lập t−ơng quan riêng cho từng chủ thể nào đó thì ta nên lập thêm một cột biến phụ. Chẳng hạn, khi lập t−ơng quan giữa H và D1.3 cho nhiều loài cây thì cần có một biến phụ là loài cây theo mã hoá 1, 2, 3 Khi đ−a biến này vào thì kết quả sẽ cho t−ơng quan giữa H và D1.3 theo từng loài cây (dùng mục lệnh Select cases). 1.6. Cách ghi biến trong SPSS 10.0/11.5/12.5 1.6.1. Tr−ờng hợp ghi số liệu vào 1 file có sẵn Sau khi SPSS đ−ợc mở ta nhận đ−ợc hộp thoại sau Hình 1.7 Hộp thoại SPSS for windows Từ hộp thoại này, ta chọn một trong những file có sẵn trong tuỳ chọn open an existing data source (hoặc chọn từ Open trong menu file ở cữa sổ SPSS data Editor) Nhấp chuột vào File này ta có màn hình với trạng thái data view với các số liệu đã đ−a 11
  12. vào tr−ớc đó. Nếu muốn ghi tiếp số liệu mới ta nhấp vào variable view và bắt đầu ghi số liệu vào màn hình này (chi tiết đ−ợc trình bày ở mục 1.6.2) 1.6.2 Tr−ờng hợp tạo file mới Sau khi mở ch−ơng trình SPSS cửa sổ SPSS data editor xuất hiện, có 2 trạng thái data view và variable view. Ta chọn variable view để ghi số liệu vào màn hình này với mỗi biến là một dòng, còn cột thể hiện nội dung và trạng thái của biến nh− sau (Xem hình 1.8 ) Hình 1.8 Cửa sổ SPSS data editor với màn hình variable view Hình 1.9 Hộp thoại Value Label • Name (tên biến): Gõ tên vắn tắt của biến có độ dài không quá 8 ký tự và không có các dấu đặc biệt (Ví dụ Đ−ờng kính = Dkinh). 12
  13. • Type (kiểu biến): Mặc định của máy là định l−ợng. Nếu số liệu d−ới dạng chuỗi thì chọn string. Cũng ở trong hộp thoại này ta có thể tuỳ ý chọn độ dài của số ( width ) và số con số sau dấu phẩy (Decimal places) • Label (nhãn): Ghi tên đầy đủ của biến. Ví dụ Chiều cao trung bình • Values (giá trị): Ghi giá trị đ−ợc mã hoá dùng cho các biến định tính. Trong ô ở d−ới chữ values về phía phải click vào ô vuông nhỏ màu đen nhạt (Xem hình 1.8) ta có hộp thoại value label để ghi các giá trị mã hoá. Ví dụ mã hoá về giới tính ta có 2 giá trị: 1 cho nam và 0 cho nữ. Đầu tiên ghi 1 vào ô value và ghi Nam vào ô value label , sau đó click vào add để có kết quả 1= ” nam”. Ta cũng lặp lại quá trình trên cho nữ giới. Để hoàn thành thủ tục này ta bấm OK . (xem hình 1.9). • Hình 1.10 SPSS Data editor với màn hình Data view Sau ghi xong các biến click vào Data view để chuyển sang màn hình Data view. Tại đây ta thực hiện việc ghi số liệu vào các cột để trống với các tên đã ghi ở màn hình variable view vừa thực hiện ở trên (Xem hình 1.10) .Sau khi ghi xong nhớ làm các thủ tục ghi file vào một file có sẵn hoặc một file mới . 1.7 Một số ví dụ điển hình về cách tạo biến trong SPSS 1.7.1 Tr−ờng hợp kiểm tra tính độc lập 13
  14. Đây là ph−ơng pháp thống kê chúng ta th−ờng vận dụng trong Lâm nghiệp. Số liệu có thể cho theo 2 dạng: đã qua chỉnh lý theo kiểu bảng chéo và ch−a qua chỉnh lý- là số liệu gốc đ−ợc ghi chép từ thực địa nh− bảng số liệu về điều tra một số loài cây trên một số ô tiêu chuẩn ở rừng tự nhiên nh− sau: Thứ tự cây Ô tiêu Loài cây Thứ tự cây Ô tiêu Loài cây chuẩn chuẩn 1 1 giẻ 48 4 táu 2 1 táu 49 4 lim 3 1 sến 50 4 giẻ . . Mục đích của ta là nghiên cứu xem sự xuất hiện của các loài trên các ô tiêu chuẩn là ngẫu nhiên hay có liên quan đến vị trí của ô tiêu chuẩn. Trong tr−ờng hợp có bảng số liệu gốc nh− trên ta có thể đ−a vào màn hình một cột nh− cột 2 với các mã 1, 2, 3, 4 cho thứ tự ô tiêu chuẩn thành một biến, một biến nữa cho loài cây với các mã nh− 1=giẻ, 2= lim, 3= táu, 4= sến và lần l−ợc ghi cho đến cây cuối cùng trong bảng số liệu gốc. Tr−ờng hợp số liệu đ−ợc cho nh− bảng chéo ta cũng lập thành 2 biến: Biến thứ nhất cho ô tiêu chuẩn và biến 2 cho loài cây và lần l−ợt ghi nh− trên. Riêng số cây trong các ô của bảng chéo thì cho thành một biến theo quy trình QT1.4 cho tr−ờng hợp trọng số cho ở mục 1.8.3 . 1.7.2 Tr−ờng hợp phân tích ph−ơng sai 2 nhân tố Tr−ờng hợp số liệu đ−ợc cho d−ới dạng bảng 5.5 (ch−ơng 5) ta ghi thành 3 biến: biến loài đ−ợc mã hoá thành 1, 2, 3, 4 ; biến khối với mã 1, 2, 3, 4. Biến còn lại là chiều cao. Các biến đ−ợc ghi nh− bảng sau: Kh L H ối oài 1 1 18 1 2 14 1 3 12 1 4 16 2 1 15 2 2 15 2 3 16 2 4 13 . . . . . . 14
  15. . . . Tr−ờng hợp nếu số liệu ghi chép từ v−ờn −ơm có các cột nh− trên thì ta cứ để nguyên các cột và đ−a vào máy với mỗi cột là một biến nh−ng không quên rằng các cột Loài và khối chỉ ghi theo các số đã mã hoá và chiều cao cũng nh− đ−ờng kình th−ờng tính theo giá trị trung bình trên một ô thí nghiệm. 1.7.3 Tr−ờng hợp phân tích ph−ơng sai 3 nhân tố Tr−ờng hợp 3 nhân tố kiểu ô vuông La tinh nh− bảng 5.9 ch−ơng 5 ta có 4 biến: Biến thứ nhất là Hàng (khối), biến thứ 2 là Cột (thứ tự cột) biến thứ 3 là CT ( Thứ tự công thức) và biến cuối cùng là đại l−ợng quan sát (Chiều cao). Theo ví dụ bảng 5.9 ta lần l−ợt ghi nh− sau: Hàng ghi 1, Cột ghi 1, CT ghi 3 (vì c=3) chiều cao ghi 13. Hàng ghi 2 Cột ghi 1, CT ghi 1 (vì a =1), chiều cao ghi 18. Cứ thế tiếp tục cho đến Hàng ghi 5, Cột ghi 5, CT ghi 3 và chiều cao ghi 14. Hàng Cột CT Chiều cao 1 1 3 13 2 1 1 18 . . . . . . . . 5 5 3 14 Ngoài những tr−ờng hợp nh− trên, trong thực tế còn nhiều mô hình thí nghiệm phức tạp hơn đòi hỏi ta phải linh hoạt vận dụng trên cơ sở nắm vững những nguyên tắc chung nhất. 1.8 Một số thủ tục quan trọng th−ờng dùng có liên quan đến các biến trong SPSS 1.8.1 Lựa chọn các chủ thể (Select cases) Trong nhiều tr−ờng hợp ng−ời ta thực hiện phân tích thống kê chỉ trên một số chủ thể nào đó. Chẳng hạn, với số liệu cho ở bảng 1.1 ta muốn chỉ tính toán các đặc tr−ng mẫu với những cây chất l−ợng trung bình hoặc chỉ tính cho những cây có chất l−ợng tốt. Chọn Select cases trong menu Data ta có thể loại bỏ những chủ thể không tham gia tính toán mà chỉ để lại những chủ thể tham gia tính toán theo ý đồ của ta. Ví dụ ở bảng 1.1, ta chỉ muốn nghiên cứu những cây có chất l−ợng loại 1và 2 đ−ợc thực hiện theo quy trình sau: 15
  16. Bảng (1.1)- Đ−ờng kính và chiều cao của 62 cây rừng tự nhiên IIIa2 tại Lâm tr−ờng Bình thanh (Hoà Bình) (nguồn Nguyễn Thị Thanh An) Thứ D1.3 Hvn Chất l−ợng Thứ D1.3 Hvn Chất l−ợng tự (cm) (m) cây tự (cm) (m) cây 1 50 22 1 32 50 19 1 2 11 6.5 3 33 25 9 2 3 39 14 2 34 35 12 2 4 45.5 18 1 35 17 9 2 5 22 9 2 36 27.5 18 1 6 34 15 3 37 25.5 12 1 7 23 14 2 38 21 9 2 8 29 16 2 39 24 10 2 9 28 17 1 40 32 12 2 10 18 17 1 41 11 5 3 11 38 20 1 42 17.5 6 3 12 41 19 1 43 8 6 3 13 15 9 3 44 26.5 11 2 14 18.5 10 1 45 21.5 9 2 15 19 8 3 46 28 12 1 16 22 11 2 47 24.5 7 2 17 21.5 11 2 48 6 5 3 18 39 21 1 49 13 17 1 19 33 16 1 50 22 11 2 20 41 15 1 51 8 4 3 21 22 10 1 52 28 9 2 22 26 7 3 53 14 5 3 23 36.5 14 1 54 25.5 13 1 24 27 8 2 55 19 10 1 25 10 4 3 56 17 11 2 26 10 7 3 57 14 6 2 27 7 6 2 58 17 8 2 28 32 12 2 59 34.55 14 2 29 20 13 2 60 26 8 3 30 8 5 1 61 15.5 9 3 31 17 8 3 62 12.5 6 2 QT1.1 1. Data Select cases 2. If condition satisfied Chọn if và đ−a biến chất l−ợng (mã clu) vào và dùng các toán tử ở bảng d−ới để xác định những chủ thể cần lựa chọn. Chẳng hạn ta cần nghiên cứu các đặc tr−ng thống kê của những cây có chất l−ợng trung bình và tốt ta ghi clu ≤ 2 hoăc clu=1⏐clu=2 (tức các cây có có mã chất l−ợng 1và 2) 3. OK 16
  17. Hình 1.11 Hộp thoại Select cases Kết quả trong bảng số liệu gốc ở cửa sổ Data editor những phần tử không đ−ợc chọn bị gạch chéo và ghi 0, những phần tử đ−ợc chọn để nguyên không gạch và ghi 1 trong cột Filter$. Với kết quả này, ta có thể thực hiện các phân tích thống kê tiếp theo nh− trong tr−ờng hợp có đầy đủ các phần tử đã quan sát. Trong tr−ờng hợp chọn chủ thể ở các cột khác nhau thì thay dấu⏐ bằng dấu &. Nếu muốn trở lại phân tích thống kê cho tất cả các chủ thể ta thực hiện quy trình sau: Data\. All cases\ OK Sau đây là một phần kết quả số liệu sau khi lọc bỏ những cây xấu (clu ≤ 2) Bảng 1.2 Bảng số liệu sau khi thực hiện lệnh Select cases (trích) D1.3 Hvn clu Filte r-$ 1 50 22 1 1 2 38 6.5 3 0 3 41 14 2 1 4 15 18 1 1 5 18.5 9 2 1 6 19 15 3 0 7 22 14 2 1 8 21.5 16 2 1 9 39 17 1 1 10 33 17 1 1 Trong bảng trên, các cột 2,3,4 là đ−ờng kính, chiều cao và chất l−ợng cây, đ−ợc mã hoá nh− bảng số liệu gốc trong cửa sổ SPSS data editor, cột 5 máy tự động ghi mã những cây bị lọc và không bị lọc (1 là những cây không bị lọc và 0 là những cây bị lọc). Đồng thời, ở cột thứ tự những cây bị loại đ−ợc đánh dấu bằng các gạch chéo về phía trái các số thứ tự. 17
  18. Trong nghiên cứu Lâm sinh học, lệnh này có thể dùng để phân tích thống kê chỉ riêng với sinh tr−ởng của những cây rừng ở những địa hình hoặc dạng lập địa nào đó đ−ợc lựa chọn trong số những địa hình và dạng lập địa ta có. Trong Lâm nghiệp xã hội, những chủ thể đ−ợc lựa chọn có thể là những dân tộc ít ng−ời hoặc những làng bản nào đó mà ta đã điều tra phỏng vấn theo ph−ơng pháp điều tra xã hội học. Ngoài việc lựa chọn theo chủ quan nh− đã nói ở trên, ng−ời ta cũng có thể lựa chọn các chủ thể theo cách ngẫu nhiên. Chẳng hạn, trong nghiên cứu lâm sinh chúng ta quan sát nhiều cây rừng trong một số ô tiêu chuẩn nh−ng chỉ muốn chọn hạn chế khoảng 50 cây để tính toán và phân tích. Trong tr−ờng hợp này ta dùng ph−ơng pháp chọn ngẫu nhiên trong lệnh Select Cases theo quy trình sau: QT1.2 1. Data\. Select cases\. Random sample of cases và click vào Sample 2. Trong hộp thoại Random Sample có hai cách lựa chọn: - Chọn t−ơng đối (approximately) với tỷ lệ % so với số phần tử đã quan sát. - Chọn chính xác (exactly) với số l−ợng cụ thể trong số những phần tử đầu tiên đã quan sát, nh− ví dụ của ta ghi là 50 và số đầu tiên là toàn bộ số cây đã quan sát nh− 200 cây chẳng hạn. 3. OK Kết quả những cây không lựa chọn đ−ợc gạch chéo ở cột đầu tiên trong bảng số liệu gốc và cho vào cột Filter-$ nh− tr−ờng hợp chọn chủ quan đã nói ở trên. 1.8.2 Đổi biến số Trong nhiều tr−ờng hợp, ta cần chuyển đổi một biến số có dạng lệch trái hoặc lệch phải về dạng gần chuẩn nhằm thoả mãn cho một yêu cầu nào đó nhất là khi vận dụng các ph−ơng pháp tham số nh− so sánh 2 mẫu theo tiêu chuẩn t hay bài toán phân tích ph−ơng sai chẳng hạn. Trong tr−ờng hợp nh− vậy nếu đại l−ợng quan sát X có phân bố lệch trái thì ta dùng ph−ơng pháp biến đổi Y = logX hoặc Y = X . Nếu X lệch phải thì chuyển thành Y= X2 (có thể mũ 2, 3 tuỳ mức độ lệch phải của X). Sau những biến đổi trên đại l−ợng Y có phân bố chuẩn hoặc gần chuẩn. Ngoài ra, ng−ời ta còn có thể biến đổi một đại l−ợng có phân bố chuẩn về dạng phân bố chuẩn tiêu chuẩn và còn nhiều cách biến đổi khác nữa. Quy trình chung để thực hiện việc biến đổi nh− sau QT1.3 1 Transform \ Compute 2 Trong conpute variable đánh biến mục tiêu vào Target variable (nh− ví dụ của ta Y), tiếp theo bôi đen hàm Lg10 nằm trong danh sách các hàm Functions và dùng chuột chuyển nó vào hộp thoại numeric expression. Một dấu hỏi xuất hiện nằm giữa 2 ngoặc đơn đang chờ đợi biến cần biến đổi của ta. Nh− ví dụ là D1.3, bằng cách bôi đen biến này và dùng chuột đ−a vào để thực hiện việc tính Lg10D1.3. Trong cửa sổ SPSS Data Editor ta có thêm một cột Y= Lg10D1.3. 18
  19. Hình 1.12 . Hộp thoại Compute Variable 1.8.3 Sử dụng trọng số Trong nhiều nghiên cứu của ta số liệu th−ờng cho d−ới dạng một bảng tần số nhất là trong điều tra rừng. Để thuận tiện cho việc phân tích thống kê, trong tr−ờng hợp nh− vậy ta có thể chuyển cột tần số thành một biến với ký hiệu nào đó nh− fi chẳng hạn theo quy trình sau : QT1.4 1. Data\ Weight cases 2. Chọn Weight cases by và đ−a biến fi vào hộp thoại frequency variable 3. OK Nh− vậy các b−ớc tính toán của ta tiếp theo đều liên quan đến trọng số. Trong tr−ờng hợp này dung l−ợng mẫu là tổng các trọng số của cột đã cho (n = Σfi) Hình 1.13 Hộp thoại Weight cases 1.8.4. M∙ hoá lại các biến Mã hoá lại biến là việc làm cần thiết để chia một biến ra thành nhiều nhóm có trị số khác nhau và xếp chúng thành từng loại. Trong Lâm nghiệp ph−ơng pháp này giúp ta thực hiện việc chia tổ ghép nhóm các quan sát nh− D1.3 hoặc Hvn để lập thành các bảng phân bố tần số (Xem một ví dụ cụ thể ở ch−ơng 2 mục 2.2, QT 2.3). 19
  20. CHƯƠNG 2 Thống kê mô tả Thống kê mô tả th−ờng là b−ớc xử lý đầu tiên tr−ớc khi đi sâu vào phân tích thống kê. Nó bao gồm các nội dung chính nh− sau: tính các đặc tr−ng mẫu, lập bảng phân bố tần số, khám phá và sàng lọc các số liệu thô 2.1. Tính toán các đặc tr−ng mẫu Trong nhiều tr−ờng hợp sau khi thu thập đ−ợc số liệu ng−ời ta cần tính ngay các đặc tr−ng mẫu nh− trung bình ph−ơng sai độ lệch chuẩn, nhất là khi số liệu không nhiều (n < 30). Quy trình thực hiện trên SPSS nh− sau: QT2.1 1. Analyze \ Descriptive Statistics\ Descriptives 2. Đ−a các biến cần tính toán vào hộp thoại Descriptives 3. Trong hộp thoại Options Khai báo các đặc tr−ng mẫu (xem hình 2.2) 4. OK Hình 2.1 Hộp thoại Descriptives Hình 2.2 Hộp thoại Options 20
  21. Ví dụ 1.1 Với số liệu của bảng 1.1(ch−ơng 1) , đ−a biến chiều cao và đ−ờng kính vào ô Variables cho kết quả nh− bảng sau (H 2.3 ): cột 1 lần l−ợt cho tên các chỉ tiêu thống kê nh− sau: Dung l−ợng mẫu, phạm vi biến động, trị số nhỏ nhất, trị số lớn nhất, tổng giá trị quan sát, trung bình, độ lệch chuẩn, ph−ơng sai, độ lệch phân bố, độ nhọn phân bố cho cả đ−ờng kính cũng nh− chiều cao. Trng khoang cuối cùng cho sai số của số trung bình và sai số của độ lệch, độ nhọn. Descriptive Statistics D1.3 Statistic N 62 Range 44.00 Minimum 6.00 Maximum 50.00 Sum 1469.05 Mean 23.6944 Std. Deviation 10.68994 Variance 114.275 Skewness .512 Kurtosis -.173 Std. Error Mean 1.3576 Skewness .304 Kurtosis .599 Hvn Statistic N 62 Range 18.00 Minimum 4.00 Maximum 22.00 Sum 765.00 Mean 12.3387 Std. Deviation 4.94127 Variance 24.416 Skewness .210 Kurtosis -.986 Std. Error Mean .6275 Skewness .304 Kurtosis .599 Valid N (listwise) Statistic N 62 Hình 2.3 2.2. Lập bảng phân bố tần số (Friequency) Trong nghiên cứu Lâm sinh học nhất là trong điều tra rừng ng−ời ta cần lập các bảng phân bố tần số thực nghiệm để phục vụ cho nhiều mục tiêu khác nhau. Nếu là đại l−ợng đứt quãng ta thực hiện một cách giản đơn theo qui trình sau QT2.2 1. Analyze\ Descriptive Statistics\ Friequencies 2. Chọn biến cần lập phân bố thực nghiệm đ−a vào hộp thoại Variable (s). Click vào Display friequency tables để có bảng phân bố thực nghiệm. Click vào Statistics nếu muốn có các đặc tr−ng mẫu và click vào charts để vẽ các biểu đồ thống kê. ở đây ta chọn biểu đồ dạng cột (Bar). 21
  22. 3. OK Ví dụ 2.2 Bảng 2. 1 Số cây trên các ô quan sát ở rừng tự nhiên Thứ tự ô Số cây Thứ tự ô Số cây Thứ tự ô Số cây Thứ tự Số cây 1 3.00 10 6.00 19 4.00 28 3.00 2 5.00 11 6.00 20 2.00 29 4.00 3 4.00 12 6.00 21 3.00 30 2.00 4 5.00 13 5.00 22 4.00 31 5.00 5 1.00 14 3.00 23 4.00 32 5.00 6 3.00 15 1.00 24 3.00 33 3.00 7 2.00 16 1.00 25 3.00 34 4.00 8 2.00 17 2.00 26 4.00 35 4.00 9 3.00 18 3.00 27 2.00 36 2.00 Hình 2.4 Hộp thoại Friequencies 22
  23. Hình 2.5 Hộp thoại Statistics Với số liệu ở bảng2.1 ta có kết quả nh− sau: Statistics Số cây \ ô N Valid 36 Missing 34 Mean 3.3889 Std. Error of Mean .2333 Median 3.0000 Mode 3.00 Std. Deviation 1.3995 Variance 1.9587 Skewness .175 Std. Error of Skewness .393 Kurtosis -.639 Std. Error of Kurtosis .768 Range 5.00 Minimum 1.00 Maximum 6.00 Sum 122.00 Hình 2.6 So cay /o Cumulative Frequency Percent Valid Percent Percent Valid 1.00 3 2.4 8.3 8.3 2.00 7 5.6 19.4 27.8 3.00 10 8.0 27.8 55.6 4.00 8 6.4 22.2 77.8 5.00 5 4.0 13.9 91.7 6.00 3 2.4 8.3 100.0 Total 36 28.8 100.0 Missing System 89 71.2 Total 125 100.0 Hình 2.7 Bảng phân bố số ô theo số cây Giải thích: Bảng kết quả đầu tiên (H 2.6) cho các đặc tr−ng mẫu từ trên x−ống d−ới: Dung l−ợng mẫu, số quan sát thiếu hệ thống (do máy tạo ra), trung bình, sai số của số trung bình, trung vị mẫu, chúng số(có sách còn gọi độ đông= trị số có số lần xuất hiện cao nhất ), sai tiêu chuẩn mẫu ph−ơng sai mẫu, độ lệch và sai số độ lệch, độ nhọn và sai số độ nhọn, phạm vi biến động, trị số nhỏ nhất, trị số lớn nhất và cuối cùng tổng giá trị quan sát. Bảng tiếp theo (H 2.6) là bảng tần số thực nghiệm. Cột đầu tiên cho số cây trong một ô. Cột 2 là số quan sát t−ơng ứng. Cột 3 tỷ lệ % kể cả những cây thiếu hệ thống (cột này không cần chú ý), cột 4 tỷ lệ cây có giá trị theo số liệu quan sát. Cột cuối cùng là tần suất luỹ tích (cumulative). Cuối cùng là biểu đồ hình cột biểu thị phân bố số ô theo số cây với trục ngang là số cây và trục đứng là số ô t−ơng ứng. 23
  24. Số ô 12 10 8 6 4 2 0 1.00 2.00 3.00 4.00 5.00 6.00 Số cây / ô Hình 2.8 Phân bố số ô theo số cây trên ô Tr−ờng hợp với đại l−ợng liên tục nh− D1.3, Hvn ta thực hiện việc chia tổ ghép nhóm theo các công thức m = 5lg n (2.1) k = (xmax – xmin)/ m (2.2) Đây là những công thức mang tính chất h−ớng dẫn. Ta có thể thay đổi chút ít để tránh những số quá lẻ. Nh− ví dụ ở bảng 1.1 ta có m =9 và k= 5 . Căn cứ vào cự ly tổ đ−ợc xác định ta lập bảng phân bố theo quy trình sau: QT2.3 1 Transform\ Recode (mã hoá lại) 2. Into same variable(s) hoặc into different variable(s). Trong cửa sổ data editor nếu dùng Into same variable(s) thì số liệu gốc sẽ mất nên ta chỉ nên dùng into different variable(s), số liệu mã hoá đ−ợc cho vào cột cuối cùng của cửa sổ đang hoạt động. Trong hộp thoại này, dùng chuột đ−a biến cần mã hoá (nh− ví dụ của ta là D1.3) vào hộp thoại input variable → output variable. 3. Trong Name đặt tên biến mới thay cho biến cũ. Nh− ví dụ của D1.3 gr thay cho D1.3. Tiếp theo trong ô Label ghi D1.3 theo tổ. Sau đó click vào old and new values 4. Hộp thoại old and new values xuất hiện, bên hộp thoại old valeue click vào Range và đánh vào giá trị cận d−ới và cận trên (cận d−ới Through cận trên). Nh− ví dụ của ta cận d−ới của tổ đầu tiên là 6 và cận trên của tổ đầu tiên là 11 ( Để máy xếp tần số một cách chính xác ta ghi 6 Through 10.99). Tại ô new values click vào value và đánh vào giá trị giữa tổ (nh− ví dụ của ta là 8.50), sau đó click vào Add. Cứ làm nh− vậy cho đến tổ cuối cùng của dãy số liệu. Cuối cùng nhớ click vào continue để sang hộp thoại tiếp theo. 5. Hộp thoại into different variable(s) xuất hiện ta click vào Change 24
  25. 6 OK Hình 2.9 Hộp thoại old and new values Kết quả của quá trình mã hoá trên cho ta một cột riêng ở cuối trong cửa sổ SPSS Data editor có đuôi Saw. Đây chính là những trị số giữa tổ của dãy quan sát. Dùng quy trình QT2.2 cho biến số mới đ−ợc mã hoá với tên mới D1.3 theo tổ ta có bảng phân bố thực nghiệm của D1.3 bằng ph−ơng pháp chia tổ ghép nhóm (Xem bảng và sơ đồ ở d−ới) và có cấu tạo nh− đã giải thích ở quy trình QT2.2 Statistics D1.3 theo to HVN theo to N Valid 62 62 Missing 63 63 Mean 24.1452 12.8710 Std. Error of Mean 1.33834 .63040 Median 23.5000 13.0000 Mode 23.50 9.00a Std. Deviation 10.53814 4.96375 Variance 111.05235 24.63882 Skewness .432 .222 Std. Error of Skewness .304 .304 Kurtosis -.402 -.952 Std. Error of Kurtosis .599 .599 Range 40.00 18.00 Minimum 8.50 5.00 Maximum 48.50 23.00 Sum 1497.00 798.00 a. Multiple modes exist. The smallest value is shown Hình 2.10 25
  26. D1.3 theo to Cumulative Frequency Percent Valid Percent Percent Valid 8.50 7 5.6 11.3 11.3 13.50 8 6.4 12.9 24.2 18.50 10 8.0 16.1 40.3 23.50 13 10.4 21.0 61.3 28.50 9 7.2 14.5 75.8 33.50 6 4.8 9.7 85.5 38.50 4 3.2 6.5 91.9 43.50 3 2.4 4.8 96.8 48.50 2 1.6 3.2 100.0 Total 62 49.6 100.0 Missing System 63 50.4 Total 125 100.0 Hình 2.11 Phân bố số cây theo D1.3 D1.3 theo to 14 12 Tan so 10 8 6 4 Std. Dev = 10.54 2 Mean = 24.1 0 N = 62.00 10.0 15.0 20.0 25.0 30.0 35.0 40.0 45.0 50.0 D1.3 theo to Hình 2.12 Phân bố số cây theo D1.3 theo dạng Histogram Với biến chiều cao cho ở bảng 1.1 cũng đ−ợc mã hoá t−ơng tự ta có kết quả HVN theo to Cumulative Frequency Percent Valid Percent Percent Valid 5.00 4 3.2 6.5 6.5 7.00 8 6.4 12.9 19.4 9.00 10 8.0 16.1 35.5 11.00 8 6.4 12.9 48.4 13.00 4 3.2 6.5 54.8 15.00 10 8.0 16.1 71.0 17.00 8 6.4 12.9 83.9 19.00 4 3.2 6.5 90.3 21.00 4 3.2 6.5 96.8 23.00 2 1.6 3.2 100.0 Total 62 49.6 100.0 Missing System 63 50.4 Total 125 100.0 26
  27. Hình 2.13 Phân bố số cây theo chiều cao Hvn 20 10 Std. Dev = 4.59 Mean = 11.0 0 N = 62.00 5.0 7.5 10.0 12.5 15.0 17.5 20.0 22.5 HVN Hình 2.14 Phân bố số cây theo chiều cao dạng Histogram 2.3 Khám phá và sàng lọc các số liệu thô Trong nghiên cứu Lâm nghiệp th−ờng số liệu thu thập đ−ợc rất lớn. Vì vậy cần loại bỏ những phần tử quan sát quá đặc thù (trị quan sát quá lớn hoặc quá bé) để cho phân bố thực nghiệm phản ảnh khách quan quy luật của tổng thể. Với phần mềm SPSS cho phép ta loại bỏ đ−ợc những trị số quá đặc thù có thể sai sót khi quan sát số liệu. Việc loại bỏ các trị số này chủ yếu là căn cứ mức độ chênh lệch giữa chúng với số trung vị của dãy quan sát. Chẳng hạn ta thử kiểm tra số liệu của bảng 1.1 nh− sau: QT2.4 1. Analyze\ Descriptive Statistics\ Explore 2. Đ−a các biến D1.3 và Hvn vào khung Dependent Lists 3. Trong Statistics chọn Descriptive , M – Estimators, Outliers (ngoại lai) (khai báo nh− hình 2.15 và 2.16) 4. OK 27
  28. Hình 2.15 Hộp thoại Explore Hình 2.16 Hộp thoại Statistics Giải thích Bảng thứ 1 (H 2.17) cho ta các trị số thống kê của mỗi biến: Số trung bình mẫu (cột 1) và sai số của trung bình mẫu (cột 2), giới hạn d−ới và trên của trung bình mẫu với độ tin cậy 95% (hàng 2 và 3, cột 1), trung bình tỉa 5%, trung vị mẫu, ph−ơng sai, độ lêch chuẩn, trị số nhỏ nhất, trị số lớn nhất, phạm vi biến động, phạm vi biến động trong phạm vi phân vị của dãy quan sát, độ lệch và cuối cùng là độ nhọn. Bảng thứ 2 (H 2.18) cho ta các −ớc l−ợng đ−ợc xem là mạnh thay cho trung bình hoặc trung vị khi mà dãy số liệu của ta khác với phân phối chuẩn và có nhiều trị số đặc thù. Bảng tiếp theo (H2.18) cho 5 trị số lớn nhất và 5 trị số bé nhất cho mỗi biến, nh−ng trị số nào là ngoại lai thì cần phải xem các sơ đồ ở hình 2.20 và 2.21 Tại đây cho thấy cây số 1 và số 32 với trị số đ−ờng kính 50 cm quá xa số trung vị (trị số ứng với đ−ờng gạch ngang trong sơ đồ). 28
  29. Descriptives Statistic Std. Error D1.3 Mean 23.6944 1.35762 95% Confidence Lower Bound 20.9796 Interval for Mean Upper Bound 26.4091 5% Trimmed Mean 23.2554 Median 22.0000 Variance 114.275 Std. Deviation 10.68994 Minimum 6.00 Maximum 50.00 Range 44.00 Interquartile Range 13.1250 Skewness .512 .304 Kurtosis -.173 .599 Hvn Mean 12.3387 .62754 95% Confidence Lower Bound 11.0839 Interval for Mean Upper Bound 13.5936 5% Trimmed Mean 12.2652 Median 12.0000 Variance 24.416 Std. Deviation 4.94127 Minimum 4.00 Maximum 22.00 Range 18.00 Interquartile Range 8.0000 Skewness .210 .304 Kurtosis -.986 .599 Hình 2.17 M-Estimators Huber's Tukey's Hampel's Andrews' a b c d M-Estimator Biweight M-Estimator Wave D1.3 22.7042 22.0184 22.7636 22.0085 Hvn 12.1019 12.1500 12.1991 12.1513 a. The weighting constant is 1.339. b. The weighting constant is 4.685. c. The weighting constants are 1.700, 3.400, and 8.500 d. The weighting constant is 1.340*pi. Hình 2.18 29
  30. Extreme Values Case Number Value D1.3 Highest 1 1 50.00 2 32 50.00 3 4 45.50 4 12 41.00 5 20 41.00 Lowest 1 48 6.00 2 27 7.00 3 51 8.00 4 43 8.00 5 30 8.00 Hvn Highest 1 1 22.00 2 32 22.00 3 18 21.00 4 49 21.00 5 11 20.00a Lowest 1 56 4.00 2 25 4.00 3 61 5.00 4 30 5.00 5 58 6.00b a. Only a partial list of cases with the value 20.00 are shown in the table of upper extremes. b. Only a partial list of cases with the value 6.00 are shown in the table of lower extremes. Hình 2.19 Theo nguyên tắc 2 trị số này nằm ngoài 2 đ−ờng biên nên nếu cần có thể loại bỏ khi nghiên cứu về phân bố số cây theo đ−ờng kính. Nh− vậy trong các xử lý tiếp theo đối với D1.3 số liệu trên có thể loại bỏ cây số 1 và 32. Riêng tr−ờng hợp chiều cao thì không có cây nào bị loại (xem hình 2.20). Ngoài ph−ơng pháp trên ng−ời ta cũng có thể loại bỏ một trị số nếu trị số chuẩn hoá của nó về tuyệt đối lớn hơn 3 hoặc trong phân tích hồi quy trị số d− chuẩn hoá cũng lớn hơn 3. Hai biểu đồ cuối cùng nhằm khám phá quy luật phân bố tần số. Nếu quy luật này tuân theo dạng chuẩn hoặc gần chuẩn thì số liệu trên có thể thực hiện đ−ợc với các bài toán phân tích theo các ph−ơng pháp tham số nh− so sánh 2 mẫu theo tiêu chuẩn t chẳng hạn. Nếu không tuân theo luật chuẩn thì phải thực hiện việc so sánh theo các tiêu chuẩn phi tham số . 30
  31. 60 1.00 50 32.00 40 30 20 10 0 N = 62 D1.3(cm) Hình 2.20 Sơ đồ sàng lọc số liệu thô theo D1.3 30 20 10 0 N = 62 Chieu c ao(m) Hình 2.21 Sơ đồ sàng lọc Hvn Histogram 14 12 Frequency 10 8 6 4 Std. Dev = 10.69 2 Mean = 23.7 0 N = 62.00 5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0 45.0 50.0 D1.3 Hình 2.22 Phân bố số cây theo D1.3 31
  32. Histogram 16 14 Frequency 12 10 8 6 4 Std. Dev = 4.94 2 Mean = 12.3 0 N = 62.00 5.0 7.5 10.0 12.5 15.0 17.5 20.0 22.5 Hvn Hình 2.23 Phân bố số cây theo chiều cao 32
  33. Ch−ơng 3 XÂY dựng các bảng biểu vμ biểu đồ THốNG kê Bảng biểu và biểu đồ thống kê là những công cụ quan trọng để phân tích thực trạng kinh tế xã hội nói chung và cho một cuộc điều tra khảo sát rừng nói riêng. Trong ch−ơng này chỉ giới thiệu cách thiết lập các bảng biểu và sơ đồ tiêu biểu bằng SPSS . 3.1 Các bảng biểu thống kê 3.1.1. Tr−ờng hợp một biến số định tính : Tr−ờng hợp này t−ơng tự nh− bảng tần số (Frequency) nh−ng ở đây có thể trình bày đơn giản hơn . Ví dụ 3.1: Lập bảng thống kê số ng−ời theo học các lớp theo số liệu LNXH (Bảng 3.1) với quy trình QT3.1 1. Analyze\ Tables \ Basic Tables 2. Đ−a biến trình độ học vấn vào khung Down 3. Nhấn chuột vào Statistics để lựa chọn các hàm thống kê. Cần chú ý khi bấm chuột để chọn một hàm nào đó ta cần chỉnh sửa theo ý muốn tr−ớc khi đ−a vào khung cell Statistics. Mục chỉnh sửa trong khung Label. Chẳng hạn count thay bằng ng−ời col% thì bỏ col chỉ để lại % . Sau khi chỉnh sửa xong ta đ−a các các hàm này vào ô cell Statistics (nhớ làm riêng cho từng đặc tr−ng thống kê). Nháy chuột vào continue để đ−a về hộp thoại ban đầu. Tại đây ta có thể kích chuột vào Total và chọn Total over group variable và chỉnh sửa để có tổng cả cột. 4. OK Hình 3.1 Hộp thoại Basic tables Kết quả nh− sau 33
  34. Bang phan bo tan so so nguoi % Trinhdo 0 22 19.3% hoc van 1 5 4.4% 2 20 17.5% 3 15 13.2% 4 18 15.8% 5 6 5.3% 6 9 7.9% 7 16 14.0% 10 3 2.6% Tong so 114 100.0% Hình3.2 Giải thích Bảng trên (H 3.2) cột đầu là trình độ học vấn từ mù chữ (0) đến lớp 10. Các cột tiếp theo lần l−ợt là số ng−ời và tỷ lệ % (tần suất) ứng với trình độ học vấn (TĐHV) 3.1.2. Tr−ờng hợp 2 biến định tính Ta cũng thực hiện nh− quy trình trên với việc đ−a biến thứ 2 vào khung across. Nh− ví dụ số liệu về LNXH ta đ−a biến Dân tộc vào cho kết quả nh− sau Bang phan bo tan so Dan toc nguoi tong 1 2 3 so nguoi % so nguoi % so nguoi % so nguoi % Trinhdo 0 1 14.3% 16 20.8% 5 16.7% 22 19.3% hoc van 1 5 6.5% 5 4.4% 2 13 16.9% 7 23.3% 20 17.5% 3 10 13.0% 5 16.7% 15 13.2% 4 13 16.9% 5 16.7% 18 15.8% 5 4 5.2% 2 6.7% 6 5.3% 6 1 14.3% 7 9.1% 1 3.3% 9 7.9% 7 4 57.1% 8 10.4% 4 13.3% 16 14.0% 10 1 14.3% 1 1.3% 1 3.3% 3 2.6% tong 7 100.0% 77 100.0% 30 100.0% 114 100.0% Hình 3.3 3.1.3 Tr−ờng hợp 3 biến định tính Nh− ví dụ trên ta đ−a thêm biến làng c− trú vào ô Across với thực hiện quy trình trên nh−ng để làm gọn bảng không đ−a vào tỷ lệ %. Trong hộp thoại Layout chú ý chọn In separrate tables và Lable groups with lables only. Sau khi chỉnh sửa ta có kết quả nh− sau: 34
  35. so nguoi Dao Thanh Kinh Dao Thanh Y Phan So So Lang So Lang 1 Lang 2 Lang 3 nguoi Lang 1 Lang 2 Lang 3 nguoi 4 nguoi 0 1 1 4 4 8 16 5 5 1 1 2 2 5 2 3 7 3 13 7 7 3 5 5 10 5 5 4 4 3 6 13 5 5 5 3 1 4 2 2 6 1 1 4 3 7 1 1 7 1 1 2 4 4 2 2 8 4 4 10 1 1 1 1 1 1 Tong 3 2 2 7 28 28 21 77 30 30 so Hình 3.4 Trong tr−ờng hợp nếu muốn tách dân tộc và làng c− trú riêng ra ta nên dùng Bảng tổng hợp theo quy trình sau QT 3.2 1. Analyze\ Tables \ General Tables 2. Đ−a biến trình độ học vấn vào khung Rows, biến dân tộc và biến làng c− trú đ−a vào columns. Cần chú ý rằng mỗi lần đ−a các biến vào thì cần nháy chuột vào Inser total (sửa chữa thành tổng ) và Edit Statistics để đ−a các hàm thống kê vào mà ở đây chủ yếu là counts (thay = số ng−ời) 3. OK Hình 3.5 Hộp thoại General Tables Nh− ví dụ của ta cho kết quả nh− sau 35
  36. Bảng phan bo tan so cho 3 bien Dan toc nguoi Total Lang cu tru Total 1 2 3 1 2 3 4 so nguoi so nguoi so nguoi so nguoi so nguoi so nguoi so nguoi so nguoi so nguoi Trinhdo 0 1 16 5 22 4 5 8 5 22 hoc van 1 5 5 1 2 2 5 2 13 7 20 3 7 3 7 20 3 10 5 15 5 5 5 15 4 13 5 18 4 3 6 5 18 5 4 2 6 3 1 2 6 6 1 7 1 9 5 3 1 9 7 4 8 4 16 5 3 4 4 16 10 1 1 1 3 1 1 1 3 Total 7 77 30 114 31 30 23 30 114 Hình 3.6 3.1.4 Một biến định tính và một biến định l−ợng Trong tr−ờng hợp này ta lại sử dụng Basic Tables gần nh− QT3.1 nh−ng chú ý đ−a biến định l−ợng vào ô Summaries (Xem hình 3.1). Các chỉ tiêu thống kê đ−a vào có thể là số ng−ời , số trung bình, trị số lớn nhất , trị số nhỏ nhất Theo ví dụ LNXH biến định tính là trình độ học vấn nh−ng biến định l−ợng là thu nhập của hộ trên tháng. Kết quả nh− sau: Thu nhap nguoi dan theo trinh do hoc van So nguoi Trung binh lon nhat nho nhat Trinhdo 0 Thu nhap/nguoi 22 67727.27 120000.00 40000.00 hoc van 1 Thu nhap/nguoi 5 66000.00 80000.00 50000.00 2 Thu nhap/nguoi 20 74000.00 120000.00 40000.00 3 Thu nhap/nguoi 15 74666.67 120000.00 40000.00 4 Thu nhap/nguoi 18 83888.89 120000.00 40000.00 5 Thu nhap/nguoi 6 68333.33 80000.00 50000.00 6 Thu nhap/nguoi 9 61111.11 80000.00 40000.00 7 Thu nhap/nguoi 16 83750.00 140000.00 50000.00 10 3 106666.67 120000.00 80000.00 so nguoi 114 75000.00 140000.00 40000.00 Hình 3.7 Nếu thêm các biến diện tích canh tác cho ta nh− bảng sau (Xem H3.8) Giải thích Hình 3.8 cho ta mức thu nhập và diện tích canh tác hộ nông dân ứng với trình độ học vấn. Kết quả cho thấy trình độ học vấn cao ch−a hẳn đã có thu nhập bình quân cao và diện tích canh tác cũng không đ−ợc sử dụng một cách t−ơng ứng với trình độ học vấn. Có nghĩa là nhân tố học lực phổ thông ở khu vực nghiên cứu ch−a có vai trò thúc đẩy sản xuất một cách rõ ràng 36
  37. Thu nhap nguoi dan va dien tich canh tac theo trinh do hoc van So nguoi Trung binh lon nhat nho nhat Trinhdo 0 Thu nhap/nguoi 22 67727.27 20000.00 40000.00 hoc van Dien tich nong nghie 22 4.60 10.00 1.10 Dien tich lam nghiep 22 2777.27 30000.00 .00 1 Thu nhap/nguoi 5 66000.00 80000.00 50000.00 Dien tich nong nghie 5 5.90 7.00 3.00 Dien tich lam nghiep 5 72.00 360.00 .00 2 Thu nhap/nguoi 20 74000.00 20000.00 40000.00 Dien tich nong nghie 20 5.20 10.00 2.00 Dien tich lam nghiep 20 7800.00 45000.00 .00 3 Thu nhap/nguoi 15 74666.67 20000.00 40000.00 Dien tich nong nghie 15 6.47 10.00 3.00 Dien tich lam nghiep 15 3381.33 30000.00 .00 4 Thu nhap/nguoi 18 83888.89 20000.00 40000.00 Dien tich nong nghie 18 5.84 10.00 2.00 Dien tich lam nghiep 18 5605.56 55000.00 .00 5 Thu nhap/nguoi 6 68333.33 80000.00 50000.00 Dien tich nong nghie 6 3.00 5.00 1.50 Dien tich lam nghiep 6 .00 .00 .00 6 Thu nhap/nguoi 9 61111.11 80000.00 40000.00 Dien tich nong nghie 9 4.56 6.00 2.00 Dien tich lam nghiep 9 3455.56 20000.00 .00 7 Thu nhap/nguoi 16 83750.00 40000.00 50000.00 Dien tich nong nghie 16 4.20 9.00 .00 Dien tich lam nghiep 16 8812.50 31000.00 .00 10 Thu nhap/nguoi 3 106666.67 20000.00 80000.00 Dien tich nong nghie 3 5.90 7.50 5.00 Dien tich lam nghiep 3 9666.67 26000.00 .00 so nguoi Thu nhap/nguoi 114 75000.00 40000.00 40000.00 Dien tich nong nghiep 114 5.09 10.00 .00 Dien tich lam nghiep 114 5001.58 55000.00 .00 Hình 3.8 3.1.5 Một biến định l−ợng và 2 biến định tính Nếu muốn tìm hiểu thêm khả năng sản xuất của các nhóm dân tộc ta cần đ−a thêm biến này vào ô Across trong Basic Tables và thực hiện quy trình nh− trên, nh−ng để cho gọn ta chỉ lựa chọn chỉ tiêu trung bình để đ−a vào so sánh (xem H 3.9) 37
  38. Thong ke thu nhap cua ca c ho thuoc 3 nhom dan toc co trinh do hoc van khac nhau Dan toc nguoi 1 2 3 Trung binh Trung binh Trung binh Trinhdo 0 Thu nhap/nguoi 120000.00 61250.00 78000.00 hoc van 1 Thu nhap/nguoi . 66000.00 . 2 Thu nhap/nguoi . 66153.85 88571.43 3 Thu nhap/nguoi . 72000.00 80000.00 4 Thu nhap/nguoi . 79230.77 96000.00 5 Thu nhap/nguoi . 65000.00 75000.00 6 Thu nhap/nguoi 60000.00 58571.43 80000.00 7 Thu nhap/nguoi 87500.00 80000.00 87500.00 10 Thu nhap/nguoi 80000.00 120000.00 120000.00 Hình 3.9 3.1.6 Tr−ờng hợp 2 biến định l−ợng theo dạng bảng t−ơng quan Trong Lâm nghiệp ta th−ờng gặp các bảng t−ơng quan giữa 2 biến nh− giữa D1.3 và Hvn . Để thu đ−ợc bảng tần số ta vận dụng bảng Basic cho 2 biến định tính mà ở đây là 2 biến định l−ợng đ−ợc chia thành từng tổ quan sát. Nh− ví dụ ở bảng 1.1 sau khi thực hiện chia tổ ghép nhóm cho D1.3 và Hvn dùng QT3.1 ta có kết quả sau: D1.3 theo to So cay 8.50 13.50 18.50 23.50 28.50 33.50 38.50 43.50 48.50 So cay So cay So cay So cay So cay So cay So cay So cay So cay So cay Hvn 5.00 2 1 1 4 theo to7.00 2 3 1 1 1 8 9.00 2 3 1 4 10 11.00 1 1 5 1 8 13.00 1 1 2 4 15.00 1 4 2 2 1 10 17.00 1 1 2 2 2 8 19.00 1 1 2 4 21.00 1 1 2 4 23.00 2 2 So cay 7 8 10 13 9 6 4 3 2 62 Hình 3.10 Bảng phân bố số cây theo D1.3 và Hvn Trong tr−ờng hợp 2 biến định l−ợng có quan hệ ta có thể sử dụng thủ tục Crrosstabs ngoài việc cho kết quả nh− trên có thể cho ta một số đặc tr−ng t−ơng quan nh− hệ số t−ơng quan Pearson và tỷ t−ơng quan (Eta) để đánh giá mức độ liên hệ giữa 2 biến. Quy trình nh− sau 38
  39. QT3.3 1. Analyze\ Descriptive statistics\ Crosstabs 2. Trong hộp thoại này đ−a các biến lập bảng vào. Nh− ví dụ của ta là D1.3 theo tổ vào column(s) và Hvn theo tổ vào Row(s) (Theo số liệu ở bảng 1.1 ch−ơng 1 sau khi chia tổ ghép nhóm D1.3 và Hvn). Nếu muốn có số liệu phân bố chiều cao theo chiều trục Y từ hộp thoại ở hình 3.11 ta nhấn vào Format và chọn Desending. Nếu muốn có hệ số t−ơng quan và tỷ t−ơng quan ta chọn Statistics, sau đó click vào Eta và correlation. 3. OK Hình 3.11 Hộp thoại Crosstabls Nh− ví dụ bảng11 cho 2 biến D1.3 và Hvn đã đ−ợc mã hoá ta có kết quả nh− sau HVN theo to * D1.3 theo to Crosstabulation Count D1.3 theo to So 8.50 13.50 18.50 23.50 28.50 33.50 38.50 43.50 48.50 cay HVN 23.00 0 0 0 0 0 0 0 0 2 2 theo to 21.00 0 1 1 0 0 0 2 0 0 4 19.00 1 0 1 0 0 0 0 2 0 4 17.00 0 1 1 2 2 2 0 0 0 8 15.00 1 0 0 4 0 2 2 1 0 10 13.00 0 0 1 0 1 2 0 0 0 4 11.00 1 0 1 5 1 0 0 0 0 8 9.00 0 2 3 1 4 0 0 0 0 10 7.00 2 3 1 1 1 0 0 0 0 8 5.00 2 1 1 0 0 0 0 0 0 4 So cay 7 8 10 13 9 6 4 3 2 62 Hình 3.12 Bảng phân bố số cây theo theo D1.3 và Hvn 39
  40. Directional Measures Value Nominal by Interval Eta Hvn theo to Dependent .609 D1.3 theo to Dependent .645 Hình 3.13 Symmetric Measures Asymp. a b Value Std. Error Approx. TApprox. Sig. Interval by IntervPearson's R .541 .109 4.978 .000c Ordinal by Ordin Spearman Correlati .488 .117 4.335 .000c N of Valid Cases 62 a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. Hình 3.14 Giải thích: Bảng đầu tiên (H 3.12) chỉ phân bố tần số 2 chiều với các cột là đ−ờng kính và hàng là chiều cao, còn toạ độ là số cây t−ơng ứng. Kết quả hoàn toàn giống nh− khi dùng thủ tục Basic tables cho 2 biến định tính nh−ng số liệu chiều cao sắp xếp nh− một bảng t−ơng quan trong điều tra rừng. Bảng thứ 2 (H3.13) chỉ tỷ t−ơng quan Hvn theo D1.3 và tỷ t−ơng quan D1.3 theo Hvn. Bảng tiếp theo (H3.14) cho hệ số t−ơng quan tính theo Pearson và theo Spearman (Xem ch−ơng 6) cùng với kết quả kiểm tra sự tồn tại của nó theo các công thức gần đúng. Cột cuối cùng của bảng cho thấy xác suất của t tính theo công thức gần đúng rất nhỏ (< 0,05), cho thấy các hệ số t−ơng quan tính theo Pearson và Spearman đều tồn tại. Tuy nhiên do phân bố tần số của cả 2 biến đều không chuẩn nên việc tính theo Pearson là không thích hợp bằng tính theo Spearman. 3.1.7 Các bảng báo cáo tổng hợp (Summary Reports) Trong các bảng báo cáo này ng−ời ta trình bày giá trị cá biệt của các biến định l−ợng theo các chủ thể ( Cases ) và các đặc tr−ng thống kê cho từng nhóm chủ thể. Chẳng hạn thu nhập của các hộ thuộc các nhóm dân tộc hoặc các làng đã đ−ợc điều tra phỏng vấn . Quy trình nh− sau 40
  41. QT3.4 1. Analyze\ Reports\ Case Summaries 2. Đ−a các biến cần báo cáo vào hộp Variables Nh− ví dụ của ta đ−a biến thu nhập và các biến diện tích canh tác, đ−a biến Dân tộc vào ô Grouping Variables. Nếu chỉ thống kê cho một hoặc vài nhóm thì dùng thủ tục Select cases để chọn. Trong ví dụ của ta chỉ chọn nhóm Kinh có số ký hiệu là1 3. Chọn show only valid cases & show case numbers ( bỏ Limit case to first ) 4. Nhấn chuột vào Statistics để lựa chọn các đặc tr−ng thống kê đ−a vào bảng tổng hợp . Nh− ví dụ của ta chỉ cần đ−a các đặc tr−ng sau : Mean, number of cases , 4. OK Hình 3. 15 Hộp thoại Summary cases Case Summaries Thu Thu tu nhap/n DTNN DTLN ho guoi (Sao) (m^2) Dan toc Kinh 1 8 80000 5.20 3000.00 nguoi 2 27 60000 7.00 10000 3 29 60000 5.00 .00 4 51 70000 4.00 .00 5 56 120000 5.00 400.00 6 65 100000 4.50 .00 7 83 120000 .00 31000 Tong So ho 7 7 7 Trung 87143 4.3857 6342.9 binh 7 7 7 87143 4.3857 6342.9 Hình 3.16 Giải thích Bảng trên (H3.16 ) cột đầu tiên cho thứ tự các hộ cần thống kê cho đến số 7. Cột tiếp theo của bảng là số liệu các hộ đứng trong danh sách của 114 hộ thuộc 3 nhóm dân tộc. Các cột tiếp theo lần l−ợt là thu nhập diện tích canh tác nông lâm nghiệp của 41
  42. từng hộ. Cuối những cột này là các chỉ số thống kê cho toàn nhóm mà ở đây là tổng số hộ và trị trung bình. Ta cũng có thể lập một bảng chéo cho một vài biến định l−ợng và định tính theo thủ tục Case Summaries với việc đ−a các biến cần báo cáo vào hộp Variables Nh− ví dụ của ta đ−a biến thu nhập và các biến diện tích canh tác và đ−a biến Dân tộc, Làng c− trú và giới tính vào ô Grouping Variables. Nếu chỉ thống kê cho một hoặc vài nhóm thì dùng thủ tục Select cases để chọn. Cần chú ý trong hộp thoại 3. 15 không chọn Display case. Nhấn chuột vào Statistics để lựa chọn các đặc tr−ng thống kê đ−a vào bảng tổng hợp. Nh− ví dụ của ta chỉ cần đ−a các đặc tr−ng sau: Mean, number of cases. Để đổi chiều thống kê, ta kích đúp Output và từ cửa sổ SPSS viewer chọn Pivot \ Pivoting Trays. Trong hộp thoại này ta có thể thay đổi việc thống kê theo hàng bằng cột do việc di chuyển dấu hiệu Statistics cho kết quả nh− sau (Xem hộp thoại 3.17) Statistics Hình 3.17 Kết quả ở Hình 3.18 cho ta số ng−ời và trị trung bình của thu nhập và diện tích canh tác ứng với các biến định tính là Dân tộc, làng c− trú và giới tính. 3 biến này là 3 biểu t−ợng đ−ợc sắp xếp liền kề nhau đứng tr−ớc biểu t−ợng Statistics về phía trái Nếu thay đổi vị trí của các biểu t−ợng này thì lập tức các biến định tính cũng sẽ thay đổi vị trí trên hình 3.18 . 42
  43. Case Summaries Thu Dien tich nong Dien tich lam nhap/nguoi nghiep nghiep Gioi Trung Trung Trung Dan toc nguoi Lang cu tru tinh N binh N binh N binh Kinh 1 Nam 1 80000.0 1 5.2000 1 3000.00 nu 2 60000.0 2 6.0000 2 5000.00 Tong 3 66666.7 3 5.7333 3 4333.33 2 nu 2 95000.0 2 4.5000 2 200.000 Tong 2 95000.0 2 4.5000 2 200.000 3 Nam 1 120000 1 .0000 1 31000.0 nu 1 100000 1 4.5000 1 .0000 Tong 2 110000 2 2.2500 2 15500.0 Tong Nam 2 100000 2 2.6000 2 17000.0 nu 5 82000.0 5 5.1000 5 2080.00 Tong 7 87142.9 7 4.3857 7 6342.86 Dao Tthanh y 1 Nam 20 69000.0 20 5.5900 20 1036.00 nu 8 70000.0 8 5.5000 8 1250.00 Tong 28 69285.7 28 5.5643 28 1097.14 2 Nam 23 75652.2 23 6.1739 23 265.217 nu 5 54000.0 5 5.8000 5 80.0000 Tong 28 71785.7 28 6.1071 28 232.143 3 Nam 11 71818.2 11 4.9273 11 1850.91 nu 10 61000.0 10 3.8000 10 3920.00 Tong 21 66666.7 21 4.3905 21 2836.19 Tong Nam 54 72407.4 54 5.7037 54 873.704 nu 23 62608.7 23 4.8261 23 2156.52 Tong 77 69480.5 77 5.4416 77 1256.88 Dao Tthanh 4 Nam 18 86666.7 18 4.3333 18 16333.3 Phan nu 12 85833.3 12 4.4167 12 11250.0 Tong 30 86333.3 30 4.3667 30 14300.0 Tong Nam 18 86666.7 18 4.3333 18 16333.3 nu 12 85833.3 12 4.4167 12 11250.0 Tong 30 86333.3 30 4.3667 30 14300.0 Tong 1 Nam 21 69523.8 21 5.5714 21 1129.52 nu 10 68000.0 10 5.6000 10 2000.00 Tong 31 69032.3 31 5.5806 31 1410.32 2 Nam 23 75652.2 23 6.1739 23 265.217 nu 7 65714.3 7 5.4286 7 114.286 Tong 30 73333.3 30 6.0000 30 230.000 3 Nam 12 75833.3 12 4.5167 12 4280.00 nu 11 64545.5 11 3.8636 11 3563.64 Tong 23 70434.8 23 4.2043 23 3937.39 4 Nam 18 86666.7 18 4.3333 18 16333.3 nu 12 85833.3 12 4.4167 12 11250.0 Tong 30 86333.3 30 4.3667 30 14300.0 Tong Nam 74 76621.6 74 5.2865 74 5070.00 nu 40 72000.0 40 4.7375 40 4875.00 Tong 114 75000.0 114 5.0939 114 5001.58 Hình 3.18 43
  44. 3.2. Biểu đồ thống kê Sẽ là sai lầm nếu không đề cập đến vấn đề biểu thị các phân bố thực nghiệm bằng các biểu đồ thống kê. Do khuôn khổ tài liệu có hạn và độc giả có thể dễ dàng tự nghiên cứu , nên trong mục này chỉ nêu một số tr−ờng hợp cơ bản th−ờng đ−ợc vận dụng. Những loại biểu đồ đề cập trong tài liệu này là biểu đồ đ−ờng (Line) dạng cột (Bar) cho cả tr−ờng hợp giản đơn và phức hợp nh− tr−ờng hợp lập nhóm (clustered) cũng nh− chồng xếp (stacked). Ngoài ra đồ thị 2 biến theo dạng đám mây điểm Scatter và Histogram và một vài dạng biểu đồ mang tính chất thăm dò dạng phân bố cũng đ−ợc đề cập đến. 3.2.1 Tr−ờng hợp đơn giản Quy trình chung đối với tr−ờng hợp giản đơn cho Line và Bar nh− sau QT3.5 1. Graphs\ Line (hoặc Bar) \ Simple 2. Click vào Define trong hộp thoại này đ−a biến số nào cần vẽ vào ô Category axis 3. OK Hình 3.19 Hộp thoại Summaries for groups of Cases Nh− ví dụ ở bảng số liệu LNXH ta có kết quả cho biến Trình độ học vấn 30 So nguoi 20 10 0 Missing 0 1 2 3 4 5 6 7 10 . Trinh do hoc van Hình 3.20 Biểu đồ hình cột biểu thị phân bố số ng−ời theo trình độ học vấn. 44
  45. Hình đầu tiên chỉ phân bố số ng−ời điều tra theo trình độ học vấn (0= mù chữ, 1= lớp một, 2= lớp 2 ) theo kiểu cột (Bar) với trục Y biểu thị số ng−ời t−ơng ứng. Hình tiếp theo theo kiểu đ−ờng (Line) . 30 So nguoi 20 10 0 Missing 0 1 2 3 4 5 6 7 10 Trinh do hoc van Hình 3.21 Biểu đồ đa giác biểu thị số ng−ời theo trình đô học vấn 3.2.2 Tr−ờng hợp phức hợp Nh− ví dụ của bảng số liệu trên, nếu muốn biết ở mỗi một trình độ học vấn có mấy ng−ời Kinh, mấy ng−ời Dao thanh Y, mấy ng−ời Dao thanh Phán hoặc ng−ợc lại, thì ta nên dùng biểu đồ phức hợp theo kiểu phân nhóm (Clustered )hoặc (Stacked) chồng xếp . Quy trình nh− sau: QT3.6 1 Graphs\ Bar\ Clustered (hoặc Stacked) 2 Define. Đ−a biến thống kê (nh− ví dụ của ta là Trình độ học vấn) vào ô Catogory Axis và biến phân nhóm (nh− ví dụ của ta là mã dân tộc) vào ô Define clusters by (hoặc Define stacks by nếu muốn dùng ph−ơng pháp chồng xếp). 3 OK Kết quả nh− sau: Biểu đồ thứ nhất là kiểu theo nhóm. Tại đây, mỗi một giá trị chỉ trình độ học vấn có từ 1 đến 3 dân tộc, bao gồm: Kinh (mã số1), Dao thanh y (mã số 2), Dao thanh phán (mã số 3). Trái lại, biểu đồ tiếp theo tại một giá trị học vấn, số ng−ời của các dân tộc trên chia nhau trên một cột, nhiều nhất là 3 và ít nhất là 1. Đáng tiếc do không có màu nên không thấy rõ. 45
  46. 20 So nguoi 10 Dan toc nguoi Missing 1 2 0 3 Missing 1 3 5 7 0 2 4 6 10 Trinh do hoc van Hình 3.22 Phân bố số ng−ời theo học vấn cho các dân tộc kiểu nhóm 30 So nguoi 20 Dan toc nguoi 10 3 2 1 0 Missing Missing 1 3 5 7 0 2 4 6 10 Trinh do hoc van Hình 3.23 Phân bố số ng−ời theo trình độ học vấn cho các dân tộc kiểu chồng xếp 3.2.3 Biểu đồ chỉ quan hệ giữa biến định l−ợng và biến phân loại Trong hình 3.19 nháy chuột vào other summary function và đ−a biến định l−ợng vào khung Variables. Còn biến phân loại đ−a vào Category axis. Chẳng hạn biến định l−ợng là thu nhập (chỉ tính trung bình) và biến phân loại là số lao động trong hộ. Kết quả nh− sau: 90000 80000 Thu nhap/nguoi Thu 70000 60000 50000 1 2 3 4 5 6 So lao dong Hình 3.24 Quan hệ giữa thu nhập bình quân và số lao động trong hộ 46
  47. Nếu muốn vẽ nhiều đ−ờng cho nhiều biến định l−ợng ta thực hiện quy trình sau QT3.7 1. Graphs\ Line \ multiple và chọn Summaries separate Variables 2. Click vào Define trong hộp thoại này đ−a biến số nào cần vẽ vào ô Line Represent , nh− ví dụ của ta là các biến thu nhập và diện tích canh tác, đ−a biến Số ng−ời vào Category axis . 3. OK Kết quả nh− sau Hình 3.25 Hộp thoại Line charts 47
  48. Hình 3.26 Hộp thoại Summaries of Separate Variables 100000 80000 60000 40000 Thu nhap/Dien tich dat Lam nghiep dat Lam tich Thu nhap/Dien 20000 Dien tich lam nghiep 0 Thu nhap/nguoi 1 2 3 4 5 6 So lao dong trong ho Hình 3.27 Quan hệ giữa số ng−ời trong hộ với thu nhập và diện tích canh tác 3.2.4. Biểu đồ t−ơng tác đa chiều Có nhiều loại khác nhau nh−ng ở đây chỉ giới thiệu một tr−ờng hợp điển hình là t−ơng tác dân tộc, giới tính và trình độ học vấn theo dạng hình cột (Bar). Quy trình nh− sau QT3.8 1. Graphs\ Interactive\ Bar 2. Sau khi chọn trục (2D hoặc 3D) dùng ph−ơng pháp kéo thả đ−a các biến vào các trục của biểu đồ. Nh− ví dụ của ta, đ−a Trình độ học vấn vào trục đứng, các biến còn lại đ−a vào các trục ngang trên mặt phẳng (Xem hình .3.28) 3. OK Chọn trục 48
  49. Hình 3.28 Hộp thoại Create Bar Chart Bars show Means Hình 3.29 Biểu đồ chỉ quan hệ giới tính dân tộc và trình độ học vấn Rê chuột vào đây Qua biểu đồ cho thấy ng−ời Kinh là nữ có trung bình học lực cao nhất (trên lớp 8). Tiếp theo ng−ời kinh là nam giới (trên lớp 4). Dao thanh phán có học lực trung bình cũng trên lớp 4 cho tr−ờng hợp nữ giới. Nếu muốn xem các chiều biểu thị của hình 3.29 thì rê chuột vào hình 3D ở trên và hình3.29 sẽ quay theo một góc nhìn nào đó làm ta dễ phân tích trên sơ đồ . 3.2.5 Biểu đồ đám mây điểm (Scatter ) Loại biểu đồ này dùng biểu thị quan hệ giữa các biến đ−ợc thực hiện theo quy trình nh− sau : QT3.9 1. Graphs\ Scatter \ Simple 2. Click vào Define. Trong hộp thoại này cần đ−a 2 biến quan sát vào Y –Axis và X - Axis. Nh− ví dụ tài liệu ở bảng 1.1 ta đ−a biến chiều cao vào Y Axis và đ−a biến đ−ờng kính vào X – Axis cho kết quả nh− hình 3.30. Nguời ta có thể biểu thị riêng cho từng đối t−ợng nh− trong ví dụ ở Hình 3.30 là chất l−ợng cây với việc dùng màu khác nhau. 49
  50. 3. OK 30 20 Chiều cao (m) 10 0 0 10 20 30 40 50 60 D1.3(cm) Hình 3.30 Đám mây điểm biểu thị quan hệ giữa D1.3 và Hvn Nếu muốn nâng cấp các biểu đồ trong output sau khi đ−ợc kích hoạt ta bấm chuột phải và chọn SPSS chart object - open, ta có cửa sổ SPSS chart editor. Nếu muốn vẽ các dạng đ−ờng cong từ cửa sổ này ta chọn Chart – options tiếp theo trong Fit line chọn Total - Fit options chọn Quadratic regression (Parabol bậc 2) (hoặc các dạng đ−ờng cong khác). Kết quả cho ta nh− hình sau : 30 Chiều cao (m) cao Chiều 20 10 0 0 10 20 30 40 50 60 D1.3(cm) Hình 3.31 Quan hệ bậc 2 giữa D1.3 và Hvn theo số liệu bảng 1.1 Hoặc ta có thể vẽ d−ới dạng D1.3 chia theo cỡ kính nh− hình 3.32 50
  51. 30 20 HVN 10 0 Rsq = 0.6151 0 10 20 30 40 50 D1.3 theo co kinh Hình 3.32 Nếu muốn có biểu đồ d−ới dạng 3 chiều x,y và z cũng theo quy trình trên nh−ng chọn loại 3D thay cho Simple. Nh− ví dụ LNXH ta đ−a biến trình độ học vấn vào X- axis, biến tuổi vào Z –axis và biến thu nhập vào Y –axis cho kết quả nh− sau Quan he giua thu nhap voi tuoi va hoc luc T h u 160000 n 140000 h 120000 a p 100000 / 80000 n g 60000 u 40000 o i 12 10 80 8 60 70 6 50 4 2 40 Trinhdo hoc van 0 30 Do tuoi Hình 3.33 Biểu đồ 3 chiều về quan hệ giữa thu nhập với trình độ học vấn và độ tuổi 3.2.6 Biểu đồ dạng Histogram Đây cũng là biểu đồ tần số (hoặc tần suất). Trong biểu đồ này nguời ta cũng sử dụng dạng hình chữ nhật nh−ng chúng đứng liền nhau dùng cho đại l−ợng liên tục mà đáy chữ nhật là cự ly tổ do máy tự động chia trên trục X . 51
  52. Quy trình nh− đ−ợc thực hiện nh− sau: QT 3.10 1. Graphs\ Histogram Trong hộp thoại này đ−a biến định l−ợng vào Variable Nếu muốn thăm dò dạng chuẩn ta nháy vào Display normal curve. Click vào Tiles để ghi tên của biểu đồ. 2. OK Nh− ví dụ bảng 1.1 ta đ−a biến D1.3 để vễ cho kết quả nh− sau Phan bo so cay theo D1.3 14 So cay So 12 10 8 6 4 Std. Dev = 10.69 2 Mean = 23.7 0 N = 62.00 5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0 45.0 50.0 Duong kinh Hình 3.34 Phân bố số cây theo D1.3 dạng Histogram 3.2.7. Thăm dò dạng phân bố theo ph−ơng pháp sơ đồ Nguyên tắc chung của ph−ơng pháp này là máy tự động tính toán và so sánh bằng sơ đồ giữa giá trị phân bố tần suất luỹ tích thực nghiệm và tần suất luỹ tích lý thuyết. Trong SPSS trục ngang biểu thị tần suất luỹ tích thực nghiệm (observed cum prob), trục đứng biểu thị tần suất lý thuyết luỹ tích (expected cum prob). Nếu chúng xấp xỉ nhau thì các điểm toạ độ sẽ nằm gần đ−ờng thẳng chia gốc toạ độ 2 phần bằng nhau. Căn cứ vào mức độ phân tán của các điểm toạ độ này mà ta có kết luận chấp nhận hoặc bác bỏ giả thuyết đã chọn. Rõ ràng ph−ơng pháp này chỉ mang tính chất thăm dò, mức độ chính xác phụ thuộc nhiều vào kinh nghiệm của nhà nghiên cứu. Tuy nhiên ph−ơng pháp này cũng thích hợp cho những nghiên cứu không đòi hỏi có độ chính xác cao nhất là thăm dò dạng phân bố chuẩn khi thực hiện các ph−ơng pháp thống kê theo ph−ơng pháp tham số nh− tiêu chuẩn t , F Quy trình chung của ph−ơng pháp này nh− sau QT3.11 1 Graphs\ P-P_ (hoặc Q-Q) 2 Đ−a các biến kiểm tra vào Variables trong Test distribution Nh− ví dụ bảng 52
  53. 1.1 ta đ−a D1.3. Tiếp theo chọn phân bố lý thuyết cần mô phỏng nh− phân bố chuẩn (Normal) Weibull. Trong Distribution parameters chọn Estimation from data trong proportion Estimation formula chọn Blom's 3 OK Hình 3.35 Hộp thoại P-P Plots Ví dụ 1 Thăm dò dạng phân bố chuẩn theo số liệu D1.3 ở bảng 1.1 Normal P-P Plot of Duong kinh 1.00 .75 .50 Tan suat ly thuyet luy tich .25 0.00 0.00 .25 .50 .75 1.00 Tan suat thuc te luy tich Hình 3.36 Sơ đồ kiểm tra luật phân bố chuẩn về D1.3 theo số liệu bảng 1.1 Kết quả cho thấy các điểm toạ độ nằm tuy không hoàn toàn thẳng hàng nh−ng cũng không quá tồi để đi đến bác giả thuyết H0 về phân bố chuẩn của D1.3 theo số liệu ở bảng 1.1. Nếu so với sơ đồ ở hình 3.34 gần có dạng đối xứng thì ở ph−ơng pháp sơ đồ này việc chấp nhận giả thuyết với sự phân bố các điểm toạ độ nh− vậy là khá yên tâm. Theo ví dụ ở trên trị số trung bình (location) 23.694355 và sai tiêu chuẩn (scale) 10.689937 của phân bố chuẩn. Nếu muốn có dạng đối xứng hơn ta nên chuyển D1.3 thành logD1.3 Ví dụ 2 Thử thăm dò theo hàm Weibull cho số liệu D1.3 ở bảng 1.1 53
  54. Phân bố Weibull th−ờng d−ợc dùng để mô phỏng phân bố N/D1.3 và N/H ở rừng trồng. Phân bố Weibull có dạng hàm mật độ nh− sau p(x) = λαxαexp(-λxα) (3.3) α là tham số đặc tr−ng về hình dạng (shape) α= 3 phân bố có dạng đối xứng (gần dạng chuẩn) α 3 phân bố có dạng lệch phải. Còn tham số λ th−ờng đ−ợc −ớc l−ợng theo ph−ơng pháp tối đa hợp lý. Riêng trong SPSS thì tham số thứ 2 này đ−ợc viết theo 1 dạng khác là β (scale) có quan hệ với λ và α nh− sau: λ = 1/ βα (3.4) Bây giờ ta thực hiện theo quy trình trên cho phân bố Weibull với số liệu ở bảng 1.1 sau khi trừ cho trị số D1.3 = 5,8cm 0) cho kết quả nh− sau: Với biến D1.3 phân bố Weibull có các tham số: scale=21,071238 shape=1,273617. Kết quả cho thấy phân bố Weibull ch−a thật thoả mãn vì các điểm toạ độ nằm hơi xa đ−ờng chéo góc, nh−ng nếu không yêu cầu độ chính xác cao ta vẫn có thể chấp nhận trong tổng thể có tồn tại phân bố Weibull. Weibull P-P Plot of Duong kinh 1.00 .75 .50 Tan suat ly thuyet luy tich .25 0.00 0.00 .25 .50 .75 1.00 Tan suat thuc te luy tich Hình 3.37 Sơ đồ kiểm tra D1.3 ở bảng 1.1 theo phân bố Weibull Ngoài loại sơ đồ trên trong phần kết xuất còn có một dạng sơ đồ khác mà ở đó ng−ời ta cho biết số các giá trị âm và giá trị d−ơng khi so sánh giữa tần suất luỹ tích thực nghiệm Fn(x) và F0x). Nếu số giá trị âm và d−ơng xấp xỉ nhau và nằm gần trục song song với Ox có y = 0, chứng tỏ phân bố thực nghiệm có nhiều khả năng phù hợp phân bố lý thuyết. Nh− ví dụ mô phỏng D1.3 theo dạng phân bố chuẩn và phân bố Weibull thì cho thấy ở Hình 3.38b phân bố Weibull có số điểm nằm d−ới và trên đ−ờng Y=0 là xấp xỉ nhau (20/21), trong khi đó thì ở phân bố chuẩn ở hình 3.38a số điểm 54
  55. chênh lệch nhau nhiều hơn (26/15) chứng tỏ phân bố Weibull mô phỏng tốt hơn phân bố chuẩn. Detrended Normal P-P Plot of Duong kinh .08 .06 .04 .02 0.00 Do chenh lech tu phan bo chuan -.02 -.04 0.0 .2 .4 .6 .8 1.0 Tan suat luy tich thuc te (a) Detrended Weibull P-P Plot of Duong kinh .1 0.0 Do chenh lech tu phan bo Ưweibull -.1 0.0 .2 .4 .6 .8 1.0 Tan suat thuc te luy tich (b) Hình 3.38 Sơ đồ so sánh số giá trị âm và số giá trị d−ơng về chênh lệch giữa Fn(x) và F0(x) . 55
  56. Bảng 3.1 Số Liệu điều tra LNHX tại Hoành Bồ (Nguồn Nguyễn Tiến Hải) Tên chủ hộ Làng Dân G tính Tuổi H lực Số DTnn DT ln Thu nhập tộc ng−ời Ly T Tai 1 2 0 60 0 1 1.1 0 60000 Tran V Tich 1 2 0 63 1 5 6.5 0 50000 Ly X Dung 1 2 0 52 3 10 9 720 60000 Ban V Hai 1 2 0 52 3 5 8.5 0 100000 Tran T Chau 1 2 1 50 0 4 10 0 100000 Ha V Chuc 1 2 0 50 4 5 8 0 70000 Trieu T Kh 1 2 1 48 2 5 6 10000 80000 Nguyen V Hai 1 1 0 40 10 4 5.2 3000 80000 Hoang T Quyen 1 2 0 36 7 4 5.2 0 100000 Hoang V Toan 1 2 1 30 2 4 2 0 60000 Tran V Khang 1 2 0 48 3 8 10 10000 40000 Ly V Quang I 1 2 0 64 7 4 6 0 120000 Chuong T Son 1 2 1 54 5 5 3.5 0 50000 Ha V Dung 1 2 0 36 4 5 7 0 80000 Ha Kim 1 2 0 43 6 5 6 10000 60000 Hoang T Lan 1 2 1 50 7 6 7 0 50000 Chuong V Phu 1 2 0 60 4 3 7 0 100000 Chuong V Tha 1 2 0 27 5 3 3 0 50000 Chuong T Nha 1 2 1 41 0 5 5 0 40000 Ly V Binh 1 2 0 26 5 5 5 0 80000 Ly V Quang I 1 2 0 62 2 3 3 0 50000 Ly T Sen 1 2 1 30 0 4 1.5 0 100000 Ly V Thu 1 2 0 33 6 6 5 0 70000 Ly V Duong 1 2 0 27 6 3 2 0 80000 Dang V Dong 1 2 0 38 3 5 7 0 60000 Tran T Son 1 2 1 40 4 6 9 0 80000 Cu T Chi 1 1 1 49 7 5 7 10000 60000 Ly V Dung 1 2 0 29 3 4 5 0 60000 Lg T Chien 1 1 1 46 6 6 5 0 60000 Tran V Yeu 1 2 0 35 7 3 2.5 0 50000 T V Chan 1 2 0 37 6 3 5 0 40000 Ly T Ca 2 2 1 52 0 8 7 0 60000 Ha V Luong 2 2 0 40 3 5 6 0 40000 Dang V Dieu 2 2 0 33 2 5 5 0 100000 Ly T Quyet 2 2 1 58 0 5 7 0 40000 Ly V Thuat 2 2 0 45 1 7 6 0 60000 Chg T Quy 2 2 1 43 3 6 10 0 40000 Chg T Diem 2 2 1 28 0 4 3 0 60000 56
  57. B V Nhan 2 2 0 31 7 7 9 0 70000 D V Ngoc 2 2 0 35 7 5 5 0 80000 Chg V Ut 2 2 0 44 2 7 8 0 50000 Chg V Tuan 2 2 0 41 6 6 6 0 60000 Chg V Ba 2 2 0 51 2 5 9 0 60000 Chg V Hai 2 2 0 58 3 4 3 0 120000 Ch V Hieu 2 2 0 26 2 4 5 0 120000 Ch V Doan 2 2 0 29 5 4 1.5 0 80000 H V Tho 2 2 0 64 3 6 10 0 120000 Dg T Luyen 2 2 1 25 0 3 2 400 70000 Chg V Duong 2 2 0 28 6 4 4 0 40000 Chg C Luc 2 2 0 34 10 5 7.5 0 120000 Do T Lien 2 1 1 33 7 4 4 0 70000 Trieu Quynh 2 2 0 32 2 5 4 0 40000 Dg T Duong 2 2 0 30 2 5 5 0 90000 Chg V Nhu 2 2 0 30 6 4 3 1100 60000 Tri V Nam 2 2 0 43 4 7 10 0 120000 Ngo T Van 2 1 1 60 0 4 5 400 120000 Dg V Han 2 2 0 32 4 5 6 0 40000 Chg V Ba 2 2 0 36 1 5 7 0 80000 Dg V Sinh 2 2 0 49 3 5 5 0 80000 Dg V Chung 2 2 0 42 4 7 10 5000 70000 Dg V Quy 2 2 0 61 2 5 7 0 40000 Ban T Tam 3 2 1 35 4 4 3 300 80000 Ly V Thanh 3 2 0 36 2 6 5 0 50000 Chg V Hong 3 2 1 39 0 7 4 0 40000 Ng T Hue 3 1 1 36 7 5 4.5 0 100000 Dg T Bich 3 2 1 40 4 7 6 0 80000 Tr T Tam 3 2 1 60 2 4 5 0 60000 Dg V Quang 3 2 0 35 4 5 4 10000 60000 Dg V Han 3 2 0 66 7 3 3 0 100000 Ban V Vinh 3 2 0 69 1 3 3 0 60000 Dg V Manh 3 2 0 24 0 6 6 0 80000 Dg V Hoa 3 2 0 56 0 10 4 0 70000 Dg V Thuong 3 2 0 32 0 5 5 0 70000 Ly V Dam 3 2 0 27 0 5 5 0 50000 Ly V Toan 3 2 0 25 4 9 5 10000 70000 Chg T Ly 3 2 1 48 0 7 5 0 60000 Tran T Tuan 3 2 1 47 0 10 4 0 40000 Dg V Tu 3 2 0 55 4 8 7.2 0 100000 Dao V Tan 3 2 0 59 1 3 7 360 80000 Tran T Huong 3 2 1 38 4 7 5 3600 80000 57
  58. Ly T Tranh 3 2 1 29 2 4 3 5000 60000 Dg T Chuyen 3 2 1 40 7 6 0 30000 70000 Ph N Gia 3 1 0 61 7 6 0 31000 120000 Tr V Bich 3 2 1 58 0 6 3 300 40000 Linh D Quy 4 3 0 25 0 4 7 30000 100000 Linh D Lien 4 3 0 36 2 5 3 0 80000 Linh D Tai 4 3 0 38 7 5 5 20000 140000 Linh D Thanh 4 3 0 43 4 4 4 17000 60000 Linh D Xuan 4 3 0 37 10 4 5 26000 120000 Ban T Huong 4 3 1 26 3 3 4.5 0 120000 Ban S Vuong 4 3 0 48 2 5 10 40000 80000 Linh T Hoa 4 3 1 31 4 4 3 0 80000 Ban S Tuong 4 3 0 29 7 4 2 0 80000 Ban S Huong 4 3 0 36 7 4 2 20000 70000 Linh Q Duc 4 3 0 58 2 5 5 26000 100000 Ban T Sinh 4 3 1 28 0 5 5 0 60000 Tr T Phuong 4 3 1 39 0 7 6 30000 100000 Ban T Thuan 4 3 0 23 5 3 2 0 80000 Tr T Sau 4 3 1 54 2 5 7 30000 80000 Dg D Tho 4 3 0 27 3 5 3 0 80000 Tr T Tu 4 3 1 31 2 4 3 0 80000 Tr T Hoang 4 3 1 31 0 5 4 0 60000 Ban S Phuc 4 3 0 27 3 5 3 0 80000 Dg D Tai 4 3 0 25 3 4 4 10000 60000 Dg D Thanh 4 3 1 31 4 6 6 55000 100000 Ban T Thoa 4 3 1 26 6 6 5 20000 80000 L Q Phuc 4 3 0 49 3 8 9 30000 60000 Ban T Hoa 4 3 1 47 2 5 5 0 80000 Ban S Xuan 4 3 0 32 7 5 5 30000 60000 Vi T Lien 4 3 1 24 4 3 3 0 120000 Li Q Lam 4 3 0 53 2 3 4 45000 120000 Ban T Lam 4 3 1 29 0 4 1.5 0 70000 Li D Thinh 4 3 0 34 4 4 2 0 120000 Li Du Long 4 3 0 28 5 3 3 0 70000 58
  59. Ch−ơng 4 so sánh các kết quả thí nghiệm vμ quan sát 4.1. ý nghĩa Trong nghiên cứu thí nghiệm ta th−ờng phải so sánh kết quả giữa các công thức, các ph−ơng án để tìm ra những công thức, những ph−ơng án thí nghiệm nghiên cứu tốt nhất dựa vào các số liệu quan sát thực nghiệm ở mẫu. Ví dụ: Trong nông lâm nghiệp, ng−ời ta th−ờng so sánh tỷ lệ nảy mầm của 2 lô hạt giống đ−ợc xử lý bằng 2 cách khác nhau, so sánh tốc độ sinh tr−ởng của một loại cây trên những điều kiện khác nhau, so sánh sản l−ợng thu hoạch hoa màu trên những khu thí nghiệm khác nhau về l−ợng phân bón, so sánh sự tăng tr−ởng của gia súc trong những điều kiện cho ăn với những chế độ khác nhau Trong ch−ơng này sẽ trình bày một số ph−ơng pháp so sánh các mẫu độc lập, các mẫu liên hệ bằng nhiều tiêu chuẩn khác nhau 4.2. Tr−ờng hợp các mẫu độc lập 4.2.1. Khái niệm các mẫu độc lập Ng−ời ta gọi mẫu độc lập hay thí nghiệm độc lập nếu một quá trình thí nghiệm nào đó đ−ợc tiến hành một cách độc lập với những thí nghiệm khác theo nghĩa rộng. Trong ngành Lâm nghiệp những thí nghiệm độc lập là những thí nghiệm th−ờng bố trí xa nhau để có thể loại bỏ những tác động giống nhau về điều kiện đất đai, khí hậu . Với quan niệm nh− vậy tính độc lập đ−ợc nói ở đây cũng chỉ mang tính chất t−ơng đối. 4.2.2. Tr−ờng hợp hai mẫu độc lập 4.2.2.1. Kiểm tra giả thuyết H0: μ1 = μ2, H1: μ1 ≠ μ2 bằng tiêu chuẩn t của Student Tiêu chuẩn này th−ờng đ−ợc dùng khi biết tr−ớc luật phân bố của hai tổng thể mà đại biểu là hai mẫu có phân bố chuẩn với hai ph−ơng sai bằng nhau. Trong tr−ờng hợp này cần kiểm tra sự bằng nhau của hai trung bình tổng thể mà ta giả thuyết ở trên qua việc kiểm tra sai khác của hai trung bình mẫu với công thức X − X t = 1 2 (3.1) ()()n − 1 S 2 + n − 1 S 2 ⎛ 1 1 ⎞ 1 1 2 2 ⎜ + ⎟ n + n − 2 ⎜ n n ⎟ 1 2 ⎝ 1 2 ⎠ Trong đó : X 1 và ⎯X2 là trung bình của hai mẫu quan sát 1 và 2. 2 2 S1 và S2 là ph−ơng sai của hai mẫu quan sát 1 và 2. n1 và n2 là dung l−ợng của hai mẫu quan sát 1 và 2. 59
  60. Giá trị t đ−ợc xác định theo phân bố t với k =n1 + n2 - 2 bậc tự do. Ng−ời ta đã chứng minh rằng nếu ⎯x1 và ⎯x2 khác nhau một cách ngẫu nhiên thì trong 100 lần rút mẫu chỉ có không quá 5 lần trị tuyệt đối của t lớn hơn t tra bảng ứng với xác suất nhỏ α = 0.05. Nếu qua một lần rút mẫu mà trị tuyệt đối của t lớn hơn t tra bảng thì ta bác giả thuyết đã cho ,⎯x1 và ⎯x2 khác nhau một cách có ý nghĩa. Cũng tức là trung bình của 2 tổng thể là khác nhau và kết quả 2 thí nghiệm nào đó là khác nhau. Đó là tr−ờng hợp kiểm tra 2 chiều (two tails). Trong tr−ờng hợp kiểm tra một chiều (one tail) với giả thuyết H1: μ 1 > μ 2 đ−ợc công nhận nếu t tính theo (4.1) lớn hơn t tra bảng ứng với bậc tự do và xác suất α nói trên. Trong tr−ờng hợp này ta nói thí nghiệm 1 là trội hơn thí nghiệm 2. Trái lại tr−ờng hợp kiểm tra hai chiều ta nói 2 mẫu có trung bình khác nhau . Cần chú ý rằng việc kiểm tra giả thuyết H0 theo (4.1) đòi hỏi các ph−ơng sai của 2 tổng thể phải bằng nhau. Điều kiện này đ−ợc kiểm tra theo công thức: 2 S1 F = 2 (4.2) S 2 2 2 Với S 1 > S 2 . Nếu F tính theo (4.2) nhỏ hơn F05 tra bảng phân bố F với bậc tự do K1 = n1-1; K2 = n2-1 thì giả thiết ph−ơng sai của 2 tổng thể bằng nhau đ−ợc chấp nhận. Trong SPSS việc kiểm tra không dựa vào tiêu chuẩn F mà dựa vào tiêu chuẩn Levene rất thích hợp cho cả tr−ờng hợp 2 tổng thể không có phân bố chuẩn. Sau khi hoàn thành b−ớc kiểm tra trên với việc công nhận sự bằng nhau của 2 ph−ơng sai tổng thể ta tiến hành kiểm tra giả thuyết H0: μ1 = μ2 theo tiêu chuẩn t. Ví dụ 4.1: Số liệu đ−ờng kính và chiều cao của 107 cây rừng trên 6 khu vực địa hình đ−ợc cho ở bảng sau: Bảng 4.1: Chiều cao và đ−ờng kính của 107 cây rừng trên các địa hình khác nhau S H D Loài Địa ST H D Loài Địa T vn 1.3 vn 1.3 (m ) (c m ) cây hình T (m ) ( cm ) cây hinh T 1 10.1 10.2 1 1 54 16.9 18.7 5 4 2 10.5 10.4 3 1 55 16.2 18.9 3 4 3 10.7 10.5 2 1 56 16.4 19 2 4 4 11.8 10.6 5 1 57 16.3 19.2 5 4 5 12.5 10.4 4 1 58 16.5 18.9 2 4 6 12.5 12.5 5 1 59 16.4 19.4 4 4 7 13.2 12.4 2 1 60 16.5 18.9 1 4 8 14.5 12.3 1 1 61 16.7 20 2 4 9 13.9 13.5 3 1 62 16.8 20.4 1 4 10 13.4 13.4 2 1 63 16.5 21.1 5 5 11 13.8 12.8 5 2 64 17.5 20.8 2 5 12 13.6 13.5 4 2 65 16.8 20.6 1 5 13 12.6 13.4 2 2 66 16.5 21.4 3 5 14 14.5 13.4 5 2 67 18.9 21.3 2 5 15 15.2 15.4 4 2 68 18.7 21.6 5 5 16 13 15.4 3 2 69 19.8 21.5 2 5 60
  61. 17 15.4 15.4 5 2 70 18.6 21.4 2 5 18 15.8 14.5 2 2 71 19.8 21.6 1 5 19 14.7 14.6 1 2 72 18.7 21.5 2 5 20 14.8 14.5 5 3 73 19.8 21.8 2 5 21 15.7 15.7 4 3 74 18.9 22.1 1 5 22 13.8 14.5 3 3 75 18.5 22.1 2 5 23 17.5 16.8 2 3 76 18.7 22.3 4 5 24 15.6 15.4 2 3 77 18.9 22.5 5 5 25 15 14.5 5 3 78 18.2 22.6 2 5 26 15.4 15.4 4 3 79 18.1 22.8 1 5 27 17.5 17.8 1 3 80 18.4 22.9 3 5 28 17.5 17.6 5 3 81 21.5 23.5 2 5 29 16.5 15.8 2 3 82 20.8 23.4 2 5 30 16.8 16.8 1 3 83 21.5 23.6 2 5 31 18.5 18.7 4 3 84 21.5 23.8 1 5 32 16.4 17.8 3 3 85 20.6 23.9 5 5 33 16.7 18.4 2 3 86 20.4 23.7 1 5 34 17.8 17.9 5 3 87 20.7 25.4 2 5 35 17.6 17.8 2 3 88 21.4 24.5 1 5 36 18.6 18.9 2 3 89 23.5 24.6 4 5 37 17.5 18.7 1 4 90 23.5 25 2 5 38 17.6 19.8 4 4 91 21.5 25 1 5 39 16.8 17.6 2 4 92 21.5 25.1 2 5 40 16.9 15.8 2 4 93 23.5 25.8 1 6 41 17.5 19.5 5 4 94 23.6 26 5 6 42 18.4 18.4 1 4 95 23.8 26.2 2 6 43 17.8 18.2 3 4 96 23.5 26.3 1 6 44 18.4 17.9 5 4 97 21.5 26.8 2 6 45 16.7 18.3 2 4 98 20.8 26.8 4 6 46 16.8 18.4 1 4 99 20.6 26.9 2 6 47 17.8 18.7 4 4 100 21.5 26.5 1 6 48 16.9 18.7 5 4 101 14.8 26.8 3 6 49 16.8 18.4 2 4 102 15.8 27.1 2 6 50 17.8 19.1 3 4 103 15.6 27.2 1 6 51 16.8 18.4 1 4 104 15.7 27.3 5 6 52 16.8 19.8 4 4 105 14.7 27.5 4 6 53 17.5 18.5 2 4 106 15.6 27.9 2 6 107 15.7 28 1 6 Hãy sử dụng phần mềm SPSS để so sánh sinh tr−ởng chiều cao ở địa hình 2 và địa hình 5 ở đây ta có 2 biến cần lựa chọn đ−a vào là biến địa hình (Grouping variable) ở cột 5 của bảng (4.1) và biến so sánh là chiều cao Qui trình phân tính theo SPSS nh− sau: 61
  62. QT4.1 1. Analyze\ Compare means\ Independent samples T Test 2. Trong hộp thoại Independent samples T- Test đ−a Hvn vào Test variables và Dhinh vào Grouping variable 3. Trong hộp thoại Define groups: Group1: ghi 2 (địa hình 2), Group 2: ghi 5 (địa hình 5) 4. OK Hình 4.1: Hộp thoại Independent samples T Test Hình 4.2: Hộp thoại Define groups Group Statistics Std. Error Dia hinh N Mean Std. Deviation Mean Chieu cao 2.00 9 14.2889 1.10617 .36872 5.00 30 19.6567 1.85001 .33776 Hình 4.3 62
  63. Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Sig. Difference (2-ta Mean Std. Error F Sig. t df iled) Difference Difference Lower Upper Chieu cao Equal variances 3.026 .090 -8.227 37 .000 -5.3678 .65245 -6.69 -4.046 assumed Equal variances not -10.7 22.66 .000 -5.3678 .50004 -6.40 -4.332 assumed Hình 4.4 Giải thích Bảng thứ nhất (H 4.3) thống kê các đặc tr−ng mẫu cho địa hình 2 và 5 lần l−ợt: dung l−ợng quan sát, số trung bình, sai tiêu chuẩn mẫu, sai số của số trung bình. Bảng tiếp theo (H 4.4) trình bày kết quả kiểm tra sự sai khác của 2 mẫu hàng trên với giả thiết ph−ơng sai bằng nhau, hàng d−ới với giả thiết ph−ơng sai không bằng nhau. Nh− ví dụ của ta ph−ơng sai đ−ợc kiểm tra theo tiêu chuẩn Levene là có thể chấp nhận đ−ợc vì xác suất ở cột 4 lớn hơn 0,05. Những cột tiếp theo của hàng này là trị số t tính theo bậc tự do và xác suất của t. Xác suất này nhỏ hơn 0.05 nên 2 mẫu là khác nhau rõ rệt. Cột tiếp theo là mức chênh lệch giữa 2 số trung bình mẫu. Riêng tr−ờng hợp kiểm tra sai khác của hai trung bình tổng thể khi ph−ơng sai giả thuyết bằng nhau thì ng−ời ta còn cho thêm sai số của mức chênh lệch giữa 2 trung bình mẫu mà ph−ơng sai của nó là: 2 2 2 ()n −1 S + ()n −1 S ⎛ 1 1 ⎞ S = 1 1 2 2 ⎜ + ⎟ z ⎜ ⎟ (4.3) n1 + n2 − 2 ⎝ n1 n2 ⎠ với Z = ⎯x1 -⎯x2 Trong tr−ờng hợp có sự khác nhau rõ ng−ời ta có thể tính thêm khoảng −ớc l−ợng mức độ chênh lệch giữa 2 trung bình tổng thể theo công thức P((⎯X1 - ⎯X2 ) - tα/2 S z < μ1 - μ2 < (⎯X1 - ⎯X2) - tα/2 S z ) =1-α Với Sz là sai tiêu chuẩn của sai khác giữa 2 trung bình mẫu, là mẫu số của công thức ( 4.1). Trong ví dụ của ta kết quả đ−ợc cho ở 2 cột cuối cùng của bảng trên. Cần nói thêm rằng vấn đề kiểm tra sai khác 2 trung bình khi ph−ơng sai của chúng khác nhau gọi là vấn đề Berens – Fisher. Nó dựa vào một phân bố t của đại l−ợng: X − X T = 1 2 (4.4) S 2 S 2 1 + 2 n1 n2 63
  64. mà bậc tự do của nó là một hàm phụ thuộc vào các dung l−ợng và ph−ơng sai mẫu đ−ợc cho bởi công thức sau đây: 2 2 S1 S2 (n1 −1)(n2 −1)( + ) n1 n2 K = 2 2 (4.5) ⎛ S 2 ⎞ ⎛ S 2 ⎞ ⎜ 1 ⎟ ⎜ 2 ⎟ {n2 −1)⎜ ⎟ + (n2 −1)⎜ ⎟ ⎝ n1 ⎠ ⎝ n2 ⎠ Bậc tự do để tra bảng phân bố t là một số tròn không v−ợt quá trị số K tính theo (4.5). Kết quả kiểm tra theo công thức (4.4) đ−ợc cho ở hàng thứ 2 của bảng trên. Nh−ng trong ví dụ của ta 2 ph−ơng sai bằng nhau nên chỉ dùng kết quả của hàng thứ nhất. Nh− số liệu của ta ở trên nếu chọn địa hình 2 và 4 để so sánh thì kết quả là ph−ơng sai không bằng nhau (vì xác suất cho ở cột 4 hàng 1 ở bảng tính tiếp theo (H 4.5) ở d−ới nhỏ hơn 0,05) nên việc so sánh 2 mẫu phải dựa vào kết quả tính theo t ở công thức (4.4). Kết quả này đ−ợc cho ở hàng thứ 2 của bảng với việc bác bỏ giả thuyết H0 (vì xác suất của t nhỏ hơn 0.05 đ−ợc cho ở cột 6 hàng 2 ) Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference Sig. Mean Std. Error F Sig. t df (2-tailed) DifferenceDifference Lower Upper Chieu cao Equal variances assumed7.57 .010 9.325 33 .000 -2.7688 .29693 -3.37 -2.165 Equal variances not 7.129 9.808 .000 -2.7688 .38836 -3.64 -1.901 assumed Hình 4.5 4. 2.2.2. So sánh hai mẫu độc lập bằng tiêu chuẩn U của Mann-Whi tney Đây là một tiêu chuẩn phi tham số còn gọi là tiêu chuẩn Wilcoxon. Với tiêu chuẩn này việc kiểm tra sự thuần nhất của hai mẫu dựa vào ph−ơng pháp xếp hạng các trị số quan sát của hai mẫu mà không đòi hỏi tính trị số trung bình và ph−ơng sai của hai mẫu nh− khi ứng dụng tiêu chuẩn t. Vì vậy mà ng−ời ta cũng không cần biết gì về luật phân bố của hai tổng thể với những tham số của nó nên gọi là ph−ơng pháp phi tham số . Khi so sánh hai mẫu độc lập bằng ph−ơng pháp này cũng hàm ý là ta đã so 64
  65. sánh và kiểm tra cùng một lúc dạng phân bố và tham số của nó. Cho nên giả thuyết trong tr−ờng hợp này th−ờng đặt: Ho : F(x) = F(y) và H1 : F(x) ≠ F(y) Đây là một ph−ơng pháp rất thuận tiện và thích hợp với những chuyên gia không chuyên về thống kê toán học mặc dù độ hiệu nghiệm của ph−ơng pháp có hạn chế một ít so với ph−ơng pháp tham số. Theo E.Weber trong tr−ờng hợp so sánh hai mẫu nó bằng 95% độ hiệu nghiệm của tiêu chuẩn t. Điều khó khăn nhất của ph−ơng pháp này là việc xếp hạng khi mẫu quá lớn mà không có những ph−ơng tiện tính toán. Tuy nhiên trong điều kiện có máy tính cá nhân với các phần mềm chuyên dụng có thể thực hiện rất nhanh chóng. Ngoài ra ng−ời ta có thể dùng ph−ơng pháp chia tổ ghép nhóm và xây dựng một thuật toán xếp hạng cho nó cũng rất dễ thực hiện. Khi so sánh hai hay nhiều mẫu quan sát với nhau trong tr−ờng hợp các mẫu độc lập, nguyên tắc chung là sắp xếp các giá trị quan sát từ nhỏ đến lớn cho tất cả các mẫu và tính tổng hạng riêng cho từng mẫu. Việc kiểm tra thuần nhất của các mẫu đ−ợc thực hiện thông qua một số tiêu chuẩn thống kê. Chẳng hạn nếu so sánh hai mẫu thì ng−ời ta dựa vào tiêu chuẩn U của Mann - Whitney, nếu so sánh nhiều mẫu độc lập thì dựa vào tiêu chuẩn của Kruskal - Wallis (sẽ trình bày sau). Để tính đ−ợc theo tiêu chuẩn U của Mann - Whitney tr−ớc tiên cần tính các yếu tố nn()+ 1 Unn=+. 11 − R (4.6) XX12 2 nn()+ 1 Unn=+. 22 − R (4.7) Yy12 2 Trong đó Rx và Ry là tổng hạng từng mẫu. Ng−ời ta chứng minh đ−ợc rằng phân bố U (Ux hoặc Uy) tiến nhanh đến phân bố chuẩn với: nn EU()= 12 (4.8) 2 nn12( n 1+ n 2+1) DU()= (4.9) 12 Khi n1 và n2 đủ lớn (n1 ≥ 10, n2 ≥ 10). Nh− vậy việc kiểm tra giả thuyết H0 có thể thực hiện bằng công thức sau: nn12 U X − U = 2 (4.10) nn12() n 1++ n 2 1 12 Nếu U >1.96 giả thuyết H0 bị bác bỏ. Hai mẫu quan sát đ−ợc rút từ hai tổng thể khác nhau. Tr−ờng hợp ng−ợc lại ta chấp nhận giả thuyết. Ta thử so sánh chiều cao của cây ở địa hình 3 và địa hình 4 theo số liệu ở bảng (4.1) theo SPSS. Việc tổ chức các biến trong tr−ờng hợp này cũng giống nh− khi dùng tiêu chuẩn t 65
  66. QT4.2 1. Analyze\ Nonparametric tests\ 2 Independent samples 2. Trong hộp thoại 2 Independent samples đ−a Hvn vào Test variable và Dhinh vào Grouping variable 3. Nháy chuột trái vào Define groups và ghi: Group 1: 3 (địa hình 3), Group 2: 4 (địa hình 4) 4. Chọn Mann -Whitney 5. OK Hình 4.6: Hộp thoại two Independent samples Tests Hình 4.7: Hộp thoại Define groups Kết quả cho hai bảng sau: Ranks Dia hinh N Mean Rank Sum of Ranks Chieu cao 3.00 17 19.38 329.50 4.00 26 23.71 616.50 Total 43 Hình 4.8 66
  67. Test Statistics a Chieu cao Mann-Whitney U 176.500 Wilcoxon W 329.500 Z -1.110 Asymp. Sig. (2-tailed) .267 a. Grouping Variable: Dia hinh Hình 4.9 Giải thích Bảng thứ nhất (H4.8) chủ yếu là tính tổng hạng và hạng trung bình cho từng mẫu (địa hình) Rx= 329,50, Ry= 616,50. Bảng thứ 2 (H4.9) chủ yếu là kiểm tra H0 theo công thức (4.11) kết quả cho ở hàng 3 và 4, vì trị số Z <1,96 ( hoặc xác suất của Z lớn hơn 0,05) nên giả thuyết H0 đ−ợc chấp nhận. Có nghĩa là sinh tr−ởng chiều cao ở 2 địa hình là không khác nhau rõ rệt. Trong bảng hàng thứ 2 còn ghi trị số U của Mann - Whitney đ−ợc tính theo một trong 2 công thức (4.6 ) và ( 4.7 ) ứng với số hạng lớn; còn hàng thứ 3 cho số hạng nhỏ hơn của Wilcoxon. Nh−ng cả 2 tổng hạng này khi kiểm tra H0 theo công thức (4.10) đều cho kết quả nh− nhau về giá trị tuyệt đối của Z. 4.2.3. So sánh nhiều mẫu độc lập bằng tiêu chuẩn Kruskal - Wallis Đây là tr−ờng hợp gặp nhiều trong nghiên cứu khoa học. Ng−ời ta cần so sánh nhiều kết quả nghiên cứu từ các thí nghiệm độc lập. Chẳng hạn ta thử so sánh hàm l−ợng Các bon có trong các lô đất lấy mẫu từ những khu vực khác nhau có khác nhau hay không. Ph−ơng pháp này cũng giúp cho các nhà khoa học dùng để so sánh để quyết định xem có cần gộp các dữ liệu thu thập ở những khu vực lấy mẫu khác nhau hay không thông qua việc kiểm tra thuần nhất bằng những tiêu chuẩn thống kê khác nhau nh− tiêu chuẩn F trong phân tích ph−ơng sai một nhân tố hoặc tiêu chuẩn của Kruskal - Wallis. ở đây chỉ trình bày tiêu chuẩn Kruskal Wallis còn tiêu chuẩn F trong phân tích ph−ơng sai sẽ đ−ợc trình bày trong ch−ơng 5. Điều kiện áp dụng tiêu chuẩn của Kruskal - Wallis là số mẫu ≥ 3, các đại l−ợng quan sát ở các mẫu là những đại l−ợng liên tục. Tiêu chuẩn này chủ yếu là dựa vào ph−ơng pháp xếp hạng các số liệu quan sát ở các mẫu. Việc xếp hạng này đã đ−ợc trình bày ở tr−ờng hợp 2 mẫu nh−ng áp dụng cho tr−ờng hợp nhiều mẫu để ta có tổng hạng ở các mẫu R1, R2, R3, Rl. Cuối cùng ta dùng các tổng hạng trên để tính: 12 l Ri 2 H = ∑ 3(n+1) (4.11) n()n +1 i ni 2 Trong đó n = Σni. Nếu các mẫu là thuần nhất thì H có phân bố χ với bậc tự do K= l -1, l là số mẫu quan sát. 67
  68. 2 Nếu H > χ 05 thì các mẫu không thuần nhất. 2 Nếu H ≤χ05 thì các mẫu là thuần nhất, có nghĩa là các mẫu có nguồn gốc từ 1 tổng thể duy nhất. Trong tr−ờng hợp nếu các trị số có nhiều lần lặp lại ta có thể điều chỉnh theo công thức sau: H ' = H /(1− ∑T /(n3 − n)) (4.12) T = (t 3 − t )/12 nh− đã giải thích ở trên. Trong tr−ờng hợp không đòi hỏi độ chính xác cao và trị số có lần lặp lại không nhiều thì việc điều chỉnh theo công thức (4.12) có thể không cần đặt ra. Ta thử so sánh chiều cao của 3 địa hình 2, 3 và 4 cho ở bảng 4-1 trên theo SPSS Việc tổ chức các biến cũng t−ơng tự nh− 2 mẫu độc lập. Riêng biến phân nhóm ta ghi minimum cho mẫu có m∙ thấp nhất và maximum ghi cho mẫu có m∙ cao nhất. Nh−ng nếu giữa mã thấp nhất và mã cao nhất có số mẫu nhiều hơn số mẫu cần so sánh thì phải dùng thủ tục Selected cases để loại những mẫu đó ra QT4.3 1. Analyze\ Nonparametric Tests\ K - Independent samples 2. Trong hộp thoại Tests for several Independent samples Test đ−a Hvn vào variable List và Dhinh vào Grouping variable 3. Nháy chuột trái vào Define Range và ghi : minimum = 2, maximum = 4 4. Chọn Kruskal – Wallis – H 5. OK Hình 4.10 Hộp thoại Tests for Several Independent samples 68
  69. Hình 4.11 Hộp thoại Several Independent samples DefineRange Ranks Dia hinh N Mean Rank Chieu cao 2.00 9 6.67 3.00 17 27.50 4.00 26 32.71 Total 52 Hình 4.12 Test Statistics a,b Chieu cao Chi-Square 19.960 df 2 Asymp. Sig. .000 a. Kruskal Wallis Test b. Grouping Variable: Dia hinh Hình 4.13 Giải thích: Bảng thứ nhất (H 4.12) chỉ số hạng trung bình của các địa hình (Cột 3) . Bảng tiếp theo (H4.13) cho kết quả kiểm tra giả thuyết H0 theo công thức (4.12) của 2 Kruskal – Wallis. Do xác suất của χ nhỏ hơn 0,05 nên H0 bị bác bỏ. Có nghĩa chiều cao cây ở 3 địa hình là khác nhau rõ rệt. Nếu muốn biết địa hình nào có sinh tr−ởng chiều cao tốt hơn thì xem các hạng trung bình. Trong ví dụ của ta địa hình 4 có số hạng trung bình cao nhất nên đ−ợc xem là tốt nhất. Nếu muốn biết chính xác hơn thì cần so sánh từng cặp địa hình để tìm ra địa hình có sinh tr−ởng tốt nhất. 4.3 Tr−ờng hợp các mẫu liên hệ 4.3.1 Khái niệm về các mẫu liên hệ Ví dụ trong việc xác định thể tích của cây thông ngả ng−ời ta muốn thay thế ph−ơng pháp “giải tích thân cây” bằng ph−ơng pháp “tiết diện ngang trung bình” dựa vào sự so sánh giữa hai trị số về thể tích đ−ợc xác định bằng hai ph−ơng pháp nói trên cùng một cây xem sự chênh lệch có rõ rệt hay không. Nếu sự chênh lệch không rõ thì ng−ời ta có thể thay thế ph−ơng pháp giải tích bằng ph−ơng pháp tiết diện ngang trung 69
  70. bình, vì ph−ơng pháp này giản đơn hơn, gỗ không phải c−a ra từng đoạn nh− ph−ơng pháp giải tích. Tất nhiên chỉ nên dùng ở những tr−ờng hợp yêu cầu độ chính xác không cao. Cách bố thí nghiệm nh− trên gọi là bố trí thí nghiệm cặp đôi. Những kết quả quan sát ở ph−ơng pháp thứ nhất và ở ph−ơng pháp thứ hai có liên hệ nhau vì cùng đo trên một cây, những yếu tố nh− đ−ờng kính, chiều cao và hình dạng đều ảnh h−ởng nh− nhau đến kết quả đo. Chỉ có một yếu tố đ−a đến sự khác nhau của giá trị quan sát là ph−ơng pháp đo. Tất nhiên ở ph−ơng pháp này có thể cho phép sự khác nhau giữa các cây về những yếu tố nói trên. Ng−ời ta cũng có thể dựa vào ph−ơng pháp trên để bố trí các thí nghiệm lâm sinh ở nhiều địa ph−ơng khác nhau, nh−ng ở tại một địa ph−ơng nào đó thì các thí nghiệm (các công thức nghiên cứu) đều chịu ảnh h−ởng nh− nhau về điều kiện đất đai và điều kiện khí hậu.v.v Những mẫu quan sát đ−ợc cấu tạo nh− trên gọi là mẫu liên hệ. ở mục này tr−ớc tiên trình bầy 2 mẫu liên hệ (hay còn gọi là thí nghiệm cặp đôi) Giả sử ta có 2 dãy quan sát X và Y theo hai mẫu liên hệ nh− ví dụ sau: Ng−ời ta đo chiều cao của 26 cây thông bằng 2 loại th−ớc đo cao: th−ớc Blumeleiss và th−ớc Blumeleiss cải tiến. Ta quan niệm X và Y có mối liên hệ với nhau vì 2 ph−ơng pháp đo nh−ng trên cùng 1 cây. 4.3.2. Tiêu chuẩn t của Studen Ng−ời ta giả thuyết H0: μx = μy; H1: μx ≠ μy . Nếu giả thuyết H0 là đúng và d=X- Ycó phân bố chuẩn thì đại l−ợng: d T = n (4.13) Sd Có phân bố t với K= n-1 bậc tự do. Trong đó Sd là sai tiêu chuẩn của dãy quan sát d. Nếu tính toán theo công thức (4.13) mà t >tα / 2 thì giả thuyết H0 bị bác bỏ. Ng−ợc lại H0 đ−ợc chấp nhận. Việc kiểm tra giả thuyết H0 trong tr−ờng hợp này cũng thực hiện gần t−ơng tự nh− kiểm tra sai khác 2 trung bình mẫu trong tr−ờng hợp 2 mẫu độc lập. Ví dụ 4.2: Hãy so sánh kết quả đo chiều cao (m) của cây bằng 2 loại th−ớc khác nhau: th−ớc Blumeleiss (B) và Blumeleiss cải tiến (CT) qua số liệu ở bảng sau: Bảng 4.2: Kết quả đo chiều cao cây bằng th−ớc Blumeleiss và Blumeleiss cải tiến Thứ tự cây Th−ớc B(x) Th−ớc CT(y) d=x-y 1 18.30000 18.20000 0.1 2 17.20000 16.90000 0.3 3 17.60000 17.50000 0.1 4 15.30000 15.40000 -0.1 5 14.50000 14.60000 -0.1 6 15.00000 15.30000 -0.3 7 18.30000 18.60000 -0.3 8 17.30000 16.90000 -0.3 9 15.50000 15.60000 -0.1 10 14.30000 14.10000 0.2 70
  71. 11 15.80000 15.70000 0.1 12 19.50000 19.40000 0.1 13 18.20000 18.20000 0 14 17.50000 17.30000 0.3 15 14.80000 15.10000 -0.3 16 18.70000 18.50000 0.2 17 18.60000 18.40000 0.2 18 17.50000 17.40000 0.1 19 14.60000 14.40000 0.2 20 17.30000 17.20000 0.1 21 18.70000 18.50000 0.2 22 14.60000 14.40000 0.2 23 19.50000 19.40000 0.1 24 18.30000 18.20000 0.1 25 16.70000 16.80000 -0.1 26 18.50000 18.40000 0.1 Để tính theo SPSS ta lập 2 biến: Biến 1=X cho th−ớc B và biến 2 =Y cho th−ớc CT và áp dụng quy trình sau: QT 4.4 1. Analyze\ Compare means\ Paired samples T- Test 2. Trong hộp thoại Paired samples T- Test Chuyển cùng một lúc hai biến X và Y sang ô Paired Variables 3. OK Hình 4.14: Hộp thoại Paired Samples T -Tests 71
  72. Paired Samples Statistics Std. Error Mean N Std. Deviation Mean Pair thuoc blumeleiss 17.00385 26 1.68818975 .33108125 1 Thuoc blumeleiss 16.93846 26 1.64586194 .32278008 cai tien Hình 4.15 Paired Samples Correlations N Correlation Sig. Pair thuoc blumeleiss & 1 Thuoc blumeleiss 26 .994 .000 cai tien Hình 4.16 Paired Samples Test Paired Differences 95% Confidence Interval of the Std. Error Difference Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed) Pair thuoc blumeleiss - 1 Thuoc blumeleiss 6.54E-02 .18098024 3.55E-02 -7.7E-03 .13848412 1.842 25 .077 cai tien Hình 4.17 Giải thích: Bảng đầu tiên ( H 4.15) thống kê các đặc tr−ng mẫu lần l−ợt theo các nội dung sau: số trung bình, dung l−ợng quan sát, sai tiêu chuẩn, sai số của số trung bình. Bảng thứ 2( H 4.16) chỉ mối quan hệ giữa 2 mẫu liên hệ với độ đo là hệ số t−ơng quan Pearson. Cột cuối của bảng này chỉ xác suất tồn tại của r. Trong ví dụ của ta xác suất này rất bé ( 0,05 cho nên sai khác giữa 2 th−ớc là không có ý nghĩa. Có nghĩa th−ớc Blumeleiss và th−ớc Blumeleiss cải tiến, cho kết quả đo nh− nhau. Ng−ời ta có thể thay th−ớc Blumeleiss bằng th−ớc cải tiến, những cột còn lại của bảng này là mức độ chênh lệch trung bình d (cột 2) sai tiêu chuẩn của d (cột 3) sai số của số trung bình d, cột 5 và cột 6 chỉ giới hạn trên và d−ới của chênh lệch trung bình trong tổng thể, cột này chỉ có ý nghĩa sử dụng khi chỉ số t có ý nghĩa. Nh− ví dụ trên thì cột này là không cần thiết cho việc xác định khoảng −ớc l−ợng của⎯D trong tổng thể. 72
  73. 4.3.3. Tiêu chuẩn tổng hạng theo dấu của Wilcoxon Đây là tiêu chuẩn phi tham số cũng dùng để kiểm tra giả thuyết H0 trong tr−ờng hợp hai mẫu liên hệ nh− đã trình bày ở tiêu chuẩn t mục 4.3.2. Để kiểm tra theo tiêu chuẩn này ng−ời ta dựa vào việc xếp hạng giá trị tuyệt đối của d và tính tổng hạng cho những chênh lệch có dấu âm (R-) và tổng hạng của những chênh lệch có mang dấu + d−ơng (R ). Ng−ời ta chứng minh rằng nếu r đủ lớn (r ≥ 25, r là số di ≠ 0) thì: R = Min(R-, R+) có phân bố chuẩn với kỳ vọng và ph−ơng sai: r(r +1) E()R = (4.14) 4 rr( ++12)( r 1) DR()= (4.15) 24 Có nghĩa là nếu trị số tuyệt đối của: RER− ( ) U = (4.16) DR() lớn hơn 1,96 thì giả thuyết H0 bị bác bỏ. Tr−ờng hợp ng−ợc lại ta chấp nhận giả thuyết H0 . Thử tính ví dụ ở bảng 4-2 ở trên theo SPSS: QT4.5 1. Analyze\ Nonparametric Tests\ 2 Related samples 2. Trong hộp thoại Two Related samples chuyển cả 2 biến X và Y vào khung Test pair(s) list 3. Chọn Wilcoxon 4. OK Hình 4.18: Hộp thoại Two Related Samples Tests Ranks 73
  74. Ranks N Mean Rank Sum of Ranks Blumeless CT Negative Ranks 18a 12.75 229.50 - Blumeleiss Positive Ranks 7b 13.64 95.50 Ties 1c Total 26 a. Blumeless CT Blumeleiss c. Blumeless CT = Blumeleiss Hình 4.19 Test Statisticsb Blumeless CT - Blumeleiss Z -1.839a Asymp. Sig. (2-tailed) .066 a. Based on positive ranks. b. Wilcoxon Signed Ranks Test Hình 4.20 Giải thích: Bảng trên ( H 4.19) trình bày kết quả xếp hạng của d theo âm và d−ơng, kết quả này đ−ợc cho ở cột thứ 4. Bảng tiếp theo (H 4.20) cho kết quả kiểm tra theo công thức( 4.16). Kết quả cho thấy xác suất của Z (chính là U) > 0,05 nên giả thuyết đ−ợc chấp nhận. Kết quả này hoàn toàn phù hợp với tiêu chuẩn t đ−ợc cho ở mục 4.3.2 4.3.3 Tr−ờng hợp nhiều mẫu liên hệ. Tiêu chuẩn Friedman. Đây cũng là một tiêu chuẩn dùng để kiểm tra tính thuần nhất của các mẫu liên hệ đặc biệt là cho thí nghiệm theo khối ngẫu nhiên hoàn toàn (Randomized complete Blocks) với nhiều hơn hai công thức thí nghiệm. Việc kiểm tra đ−ợc thực hiện theo những b−ớc sau: - Xếp hạng các trị số quan sát của các thí nghiệm trong cùng một khối. - Tính tổng hạng cho mỗi thí nghiệm. - Kiểm tra giả thuyết H0 rằng thí nghiệm cho những kết quả thuần nhất, theo công thức: 2212 χ ni= ∑ Rba−+31() (4.17) ba() a + 1 i Trong đó: a là số thí nghiệm, b là số khối (số lần lặp lại). 74
  75. Ri là tổng hạng của thí nghiệm thứ i (i=1, 2, a). 2 2 Nếu χ n > χ 05. với K = a -1 bậc tự do thì giả thuyết H0 sẽ bị bác bỏ. Ví dụ 4.3: Sinh tr−ởng chiều cao (cm )của quế d−ới những điều kiện che bóng khác nhau đ−ợc cho ở bảng số (4-3) Bảng 4.3: Sinh tr−ởng chiều cao của Quế theo các công thức che bóng (nguồn: Phạm Xuân Quảng BM Trồng rừng ) Công thức Che Che Không che Che 25% Che 50% T.N 75% 100% CT1 CT2 CT3 Khối CT4 CT5 I 9.92(1) 9.93(2) 11.28(5) 1 0.1(3) 10.31(4) II 9.18(1) 10.15(3) 10.56(4) 10.95(5) 9.31(2) III 11.40(4) 10.93(2) 10.94(3) 11.44(5) 10.5(1) ∑Ri 6 7 12 13 7 Trong bảng trên các số trong ngoặc là những số xếp hạng theo từng khối. Cuối các cột là tổng hạng cho mỗi công thức. Th−ờng các công thức không nhiều nên việc xếp hạng trị số quan sát của các công thức là rất đơn giản. Thử kiểm tra các thí nghiệm ở bảng trên bằng SPSS với các biến liên hệ là các công thức CT1, CT2, CT3, CT4, CT5 ứng với các số đã xếp hạng . QT4.6 1. Analyze\ Nonparametric Tests \ K related samples 2. Chọn cả k biến (chú ý sau khi đã xếp hạng) và nhấp mũi tên bên cạnh để chuyển vào Test Varieables. 3. Chọn Friedman trong Test type 4. OK 75
  76. Hình 4.21: Hộp thoại Tests for sevral related samples Ranks Mean Rank CT1 2.33 CT2 2.33 CT3 4.17 CT4 3.83 CT5 2.33 Hình 4.22 Test Statistics a N 3 Chi-Square 5.600 df 4 Asymp. Sig. .231 a. Friedman Test Hình 4.23 Giải thích: Bảng thứ nhất (H4.22) cho kết quả các hạng trung bình của các biến (các công thức thí nghiệm). Bảng thứ 2 (H 4.23) tính chỉ tiêu χ2 với xác suất t−ơng ứng (cho ở hàng thứ 2 và thứ 4 cột 2). Theo kết quả này thì xác suất của χ2 > 0,05. Các mẫu thí nghiệm ch−a có cơ sở cho thấy sự khác nhau. 4.3.4 Tiêu chuẩn Q của Cochran Đây là một tiêu chuẩn rất đơn giản để kiểm tra sự thuần nhất của các mẫu liên hệ dựa vào kết quả quan sát đ−ợc chia thành 2 cấp 0 và 1 ( Ví dụ: Tốt = 1; Xấu = 0 ). Việc tính toán đ−ợc thực hiện theo bảng sau: Số lần TN1 TN2 TN3 TNk 2 l0 l0 lặp lại ( X1 ) ( X2 ) ( X3 ) ( Xk ) 1 0 0 1 . 0 2 1 0 1 0 3 0 1 0 1 n 0 1 0 . 1 2 ∑ G1 G2 G3 Gk ∑l0 ∑l0 Gi là tổng giá trị của l thí nghiệm đ−ợc lặp lại n lần. 76
  77. L0 là tổng giá trị của k thí nghiệm ở lần lặp lại thứ j k ∑ X ij = l 0 i = 1 Giả thuyết về sự thuần nhất của các kết quả thí nghiệm đ−ợc kiểm tra theo công thức: k k 2 2 (k −1)[k∑ Gi − (∑ Gi )] Q i=1 i=1 = n n 2 k∑ l0 − ∑ l0 j=1 j=1 (4.18) 2 Nếu Q > X 05 với k - 1 bậc tự do thì giả thuyết bị bác bỏ. Ph−ơng pháp trên đây có thể thực hiện những thí nghiệm lâm sinh lặp lại nhiều lần ở những địa ph−ơng khác nhau. Việc đánh giá chất l−ợng của các thí nghiệm do các nhà chuyên môn quyết định. Ví dụ 4.4: Chẳng hạn ta có 5 công thức thí nghiệm về trồng rừng hỗn giao đ−ợc lặp lại ở 4 địa điểm khác nhau cho ở bảng sau: Bảng 4-4: Chất l−ợng cây trồng ở 5 thí nghiệm 2 Địa điểm TN 1 TN 2 TN 3 TN 4 TN 5 L0 L0 1 1 0 1 0 1 3 9 2 1 1 0 1 1 4 16 3 0 1 0 1 1 3 9 4 1 1 0 1 0 3 9 2 Gi 3 3 1 3 3 ∑l0 = 13 ∑l0 = 43 để tính theo SPSS ta thành lập các biến liên hệ CT1, CT2, CT3, CT4 và CT5 ứng với các giá trị quan sát đã đ−ợc phân loại về chất l−ợng. Quy trình nh− sau: QT4.7 1. Analyze\ Nonparametric Tests\ K related samples 2. Chọn cả k biến và nhấp mũi tên bên cạnh để chuyển vào ô Test Varieables 3. Chọn Cochran, Q trong Test type, nếu muốn biết các đặc tr−ng mẫu thì chọn Descriptive trong Statistics (xem hình 4.21) 4. OK 77