Quản trị kinh doanh - Chương 5: Kiểm định

pdf 79 trang vanle 2050
Bạn đang xem 20 trang mẫu của tài liệu "Quản trị kinh doanh - Chương 5: Kiểm định", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfquan_tri_kinh_doanh_chuong_5_kiem_dinh.pdf

Nội dung text: Quản trị kinh doanh - Chương 5: Kiểm định

  1. CHƯƠNG 5 KIỂM ĐỊNH Ở chương 4, chúng ta đã nghiên cứu về điều tra chọn mẫu với mục đích thường là suy rộng trung bình, tỷ lệ theo một tiêu thức nào đó của tổng thể mẫu thành tham số tương ứng của tổng thể chung. Chương tiếp theo sẽ nói về cách sử dụng các thống kê của mẫu để kiểm định giả thiết về tổng thể chung, đó là một vấn đề quan trọng của thống kê. Kiểm định giả thiết bắt đầu từ giả thiết về một tham số của tổng thể chung, sau đó tiến hành chọn mẫu, tính toán các chỉ tiêu mẫu và sử dụng thông tin để xác định xem giả thiết về tham số của tổng thể chung có đúng hay không. Chẳng hạn, khi đưa ra giả thiết về số trung bình của tổng thể chung bằng một giá trị nào đó, để kiểm tra lại giả thiết đó ta thu thập các số liệu mẫu và xác định sự chênh lệch giữa giá trị giả thiết và giá trị tính được từ mẫu, sau đó đánh giá xem sự chênh lệch đó là có ý nghĩa hay không. Mức chênh lệch càng nhỏ giả thiết của chúng ta càng có khả năng đúng; mức chênh lệch càng lớn, khả năng đúng càng thấp. Nhưng thường thì mức chênh lệch giữa giá trị giả thiết và giá trị thực tế của mẫu không lớn đến mức ta có thể bác bỏ ngay giả thiết ban đầu và cũng không nhỏ đến mức ta có thể chấp nhận ngay giả thiết đó. Do đó, khi tiến hành kiểm định giả thiết (tiến hành những quyết định có ý nghĩa nhất trong cuộc sống thực tế) thì những giải pháp hoàn toàn rõ ràng là những trường hợp ngoại lệ, không phổ biến. Một thí dụ như sau: Kết cấu của một tổ hợp nhà thi đấu thể thao ở một thành phố do một Công ty thiết kế các công trình kiến trúc lớn CT đảm nhiệm. Theo kết cấu đó cần khoảng 10.000 tấm nhôm dầy 0,15cm. Các tấm nhôm này không được phép dầy hơn 0,15cm vì kết cấu không chịu được trọng lượng thừa đồng thời chúng cũng không được mỏng hơn 0,15cm vì khi đó mái lợp sẽ không đủ độ vững chắc. Do vậy mà CT tiến hành kiểm tra những tấm nhôm rất cẩn thận. CT không muốn phải kiểm tra từng tấm mà chỉ chọn mẫu 100 tấm. Những tấm nhôm trong mẫu có độ dầy trung bình là 0,153cm. Từ kinh nghiệm làm việc với chính người cung cấp tấm lợp này trước kia, CT biết rằng độ lệch tiêu chuẩn về độ dầy của các tấm lợp là 0,015cm. Trên cơ sở các số liệu đó, CT cần đi đến kết luận là 10.000 tấm lợp có thích hợp với công trình không. Phương pháp kiểm định giả thiết sẽ giúp cho CT quyết định cần từ chối hay chấp nhận lô tấm lợp đó. 1. Một số vấn đề chung về kiểm định 1.1. Giả thiết thống kê. Giả thiết thống kê là giả thiết về một vấn đề nào đó của tổng thể chung. Đó là các giả thiết về dạng của phân phối xác suất; về các tham số như trung bình, tỷ lệ, phương sai; về 113 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  2. tính độc lập Thí dụ như: phương pháp điều trị A chữa khỏi 90% bệnh nhân ; tuổi thọ của hai loại bóng đèn A và B là như nhau ; kết quả của 3 phương pháp là khác nhau hay một tổng thể chung nào đó có phân phối chuẩn Giả thiết mà ta muốn kiểm định gọi là “giả thiết không” và ký hiệu là H0. Giả thiết đối lập với nó được gọi là giả thiết đối (hay giả thiết thay thế) và được ký hiệu là H1. Vấn đề đặt ra là: chúng ta bác bỏ hay chấp nhận một giả thiết bằng cách nào. Giả thiết thống kê có thể được trình bày dưới nhiều dạng khác nhau. Tuỳ theo dạng của các giả thiết này mà có thể lựa chọn và áp dụng kiểm định hai phía hay kiểm định một phía : - Kiểm định 2 phía là bác bỏ giả thiết H0 khi tham số đặc trưng của mẫu cao hơn hoặc thấp hơn so với giá trị của giả thiết về tổng thể chung. Kiểm định 2 phía có 2 miền bác bỏ, biểu hiện ở hình 1.1. Miền chấp nhận Thí dụ: Giả thiết H0 : μ = μ0 Giả thiết H1 : μ ≠ μ0 Miền bác bỏ Hình 1.1 - Kiểm định phía trái là bác bỏ giả thiết H0 khi tham số đặc trưng của mẫu nhỏ hơn một cách đáng kể so với giá trị của giả thiết H0. Miền bác bỏ nằm ở phía trái của đường phân phối, biểu hiện ở hình 1.2 Thí dụ: Giả thiết H0 : μ = μ0 Giả thiết H1 : μ μ0 Hình 1.3 1.2. Sai lầm và mức ý nghĩa trong kiểm định. 114 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  3. Trong khi phải lựa chọn giữa hai giả thiết H0 và H1 ta có thể mắc phải hai loại sai lầm: Sai lầm loại 1 là bác bỏ giả thiết H0 khi nó đúng; ngược lại, thừa nhận H0 khi nó sai là sai lầm loại 2. Một kiểm định thống kê lý tưởng là kiểm định làm cực tiểu cả sai lầm loại 1 và sai lầm loại 2, nhưng không bao giờ tồn tại một kiểm định lý tưởng như vậy. Nếu chúng ta làm giảm sai lầm loại 1 thì sẽ làm tăng sai lầm loại 2 và ngược lại. Có 4 khả năng có thể xảy ra thể hiện trong bảng sau: Kết luận Thực tế Chấp nhận H0 Bác bỏ H0 nhận H1 H0 đúng Kết luận đúng Sai lầm loại 1 H0 sai sai lầm loại 2 Kết luận đúng Xác suất của việc mắc sai lầm loại 1 gọi là mức ý nghĩa, được ký hiệu là α. Xác suất mắc sai lầm loại 2 được ký hiệu là β. Trị số 1 - β được gọi là lực lượng của kiểm định. Lực lượng của kiểm định là xác suất bác bỏ H0 khi H0 sai. Giữa α và β cũng có mối liên hệ tương tự như mối liên hệ giữa hai loại sai lầm. Xác suất mắc sai lầm loại này có thể giảm đi nếu tăng xác suất mắc sai lầm loại kia. Sử dụng mối liên hệ này để ra quyết định cần chọn mức ý nghĩa thích hợp trên cơ sở xem xét những chi phí mất mát sẽ xảy ra đối với cả hai loại sai lầm. Chẳng hạn, nếu mắc sai lầm loại 1 thì sẽ phải trả lại lô tấm lợp (ở thí dụ trên) và phải mất chi phí để xử lý lại lô tấm lợp đó mà lẽ ra được chấp nhận. Còn nếu mắc sai lầm loại 2 thì sẽ dẫn đến mất an toàn cho hàng ngàn người tới nhà thi đấu thể thao. Rõ ràng người ta dễ nghiêng về phía sai lầm loại 1 hơn so với sai lầm loại 2, có nghĩa là chọn mức ý nghĩa cho kiểm định cao để có β thấp. Nhưng ngược lại, nếu mắc sai lầm loại 1 sẽ dẫn đến việc phải tháo rời toàn bộ một động cơ hoàn chỉnh tại nhà máy, và mắc sai lầm loại 2 sẽ chỉ dẫn đến phải tiến hành một số sửa chữa bảo hành không đắt lắm, thì nhà sản xuất sẽ nghiêng về phía sai lầm loại 2, thà mắc sai lầm loại 2 còn hơn mắc sai lầm loại 1 và do đó sẽ chọn mức ý nghĩa kiểm định thấp. Thông thường α được lấy là 0,01 ; 0,02 ; 0,05 hoặc 0,10. Từ mức ý nghĩa kiểm định α có thể xác định miền bác bỏ giả thiết H0 và miền thừa nhận. 1.3. Tiêu chuẩn kiểm định. Tiêu chuẩn kiểm định là quy luật phân phối xác suất nào đó được dùng để kiểm định. Trong tập hợp các kiểm định thống kê có cùng mức ý nghĩa α (tức là có xác suất mắc sai lầm loại 1 như nhau), kiểm định nào có xác suất mắc sai lầm loại 2 nhỏ nhất sẽ được xem là “tốt nhất”. Vì vậy sau khi chọn mức ý nghĩa của kiểm định, việc tiếp theo là lựa chọn dạng phân phối thích hợp. Tuỳ thuộc vào giả thiết thống kê cần kiểm định mà người ta có thể sử dụng một số quy luật phân phối thông dụng như: quy luật phân phối chuẩn, phân phối T-Student, phân phối χ2, phân phối Fisher 1.4. Các bước tiến hành một kiểm định giả thiết thống kê. 115 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  4. Để tiến hành một kiểm định giả thiết thống kê cần thực hiện tuần tự các bước sau: + Phát biểu giả thiết H0 và giả thiết đối H1. + Định rõ mức ý nghĩa α (xác suất mắc sai lầm loại 1) + Chọn tiêu chuẩn kiểm định. + Tính giá trị của tiêu chuẩn kiểm định từ mẫu quan sát. + Kết luận bác bỏ hay chấp nhận H0 tuỳ theo giá trị của tiêu chuẩn kiểm định rơi vào miền bác bỏ hay chấp nhận. Cụ thể : - Nếu giá trị của tiêu chuẩn kiểm định thuộc miền bác bỏ: H0 sai, bác bỏ giả thiết H0 , thừa nhận H1. - Nếu giá trị của tiêu chuẩn kiểm định thuộc miền chấp nhận: Trong trường hợp này không nên hiểu rằng H0 hoàn toàn đúng mà chỉ nên hiểu rằng qua mẫu cụ thể này chưa đủ cơ sở để bác bỏ H0, cần nghiên cứu thêm. 2. Kiểm định và so sánh số trung bình Nội dung phần này đề cập đến một số vấn đề: Kiểm định giả thiết về giá trị trung bình của một tổng thể chung; so sánh hai giá trị trung bình của hai tổng thể chung và so sánh nhiều trung bình thuộc nhiều tổng thể chung. 2.1. Kiểm định giả thiết về giá trị trung bình của một tổng thể chung. Giả sử lượng biến của tiêu thức X trong tổng thể chung phân phối theo theo quy luật chuẩn với trung bình (kỳ vọng) là μ và phương sai là σ2. Ký hiệu: N (μ,σ2).Ta chưa biết μ, nhưng nếu có cơ sở để giả thiết rằng nó bằng μ0, ta đưa ra giả thiết thống kê H0 : μ = μ0. Để kiểm định giả thiết này, từ tổng thể chung ta tiến hành điều tra chọn mẫu ngẫu nhiên n đơn vị và tính được trung bình mẫu là x . Để chọn tiêu chuẩn kiểm định thích hợp, ta xét các trường hợp sau: 2.1.1 Phương sai của tổng thể chung σ2 đã biết. Tiêu chuẩn kiểm định được chọn là thống kê Z : (x −μ 0 ) n Z = (5.1) σ Nếu giả thiết H0 đúng, ta có : ()x −μ 0 n (x −μ ) n Z = = σ σ Đại lượng Z phân phối theo quy luật chuẩn hoá N(0,1). Từ đó tuỳ thuộc vào dạng của giả thiết đối H1 mà miền bác bỏ được xây dựng theo các trường hợp sau: Kiểm định phía phải: Giả thiết H0: μ = μ0 116 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  5. H1: μ > μ0 Với mức ý nghĩa của kiểm định α cho trước, ta tra bảng N(0,1) tìm được Z0,5 - α . Nếu Z > Z0,5 - α , ta bác bỏ giả thiết H0, nhận H1 . Kiểm định phía trái: Giả thiết H0: μ = μ0 H1: μ Z0,5 - α ; ta bác bỏ giả thiết H0, nhận H1 . Kiểm định hai phía : Giả thiết H0: μ = μ0 H1: μ ≠ μ0 Với mức ý nghĩa của kiểm định α cho trước, ta tra bảng N(0,1) tìm được Z0,5 - α/2 . Nếu Z > Z0,5 - α/2 ; ta bác bỏ giả thiết H0, nhận H1 . 2.1.2 Phương sai của tổng thể chung σ2 chưa biết, mẫu lớn (n ≥ 30). Trong trường hợp này ta vẫn dùng tiêu chuẩn kiểm định như trên, trong đó độ lệch tiêu chuẩn σ được thay bằng độ lệch tiêu chuẩn mẫu . ()x − μ n Z = 0 (5.2) s Trong đó : s là độ lệch tiêu chuẩn mẫu Theo định lý giới hạn trung tâm, đại lượng Z có phân phối xấp xỉ chuẩn, cho dù tổng thể chung có phân phối như thế nào. Và cũng tương tự như trên, tuỳ thuộc vào giả thuyết đối H1 mà miền bác bỏ được xây dựng theo các trường hợp sau: Kiểm định phía phải: Giả thiết H0: μ = μ0 H1: μ > μ0 Với mức ý nghĩa của kiểm định α cho trước, ta tra bảng N(0,1) tìm được Z0,5 - α . Nếu Z > Z0,5 - α , ta bác bỏ giả thiết H0, nhận H1 . Kiểm định phía trái: Giả thiết H0: μ = μ0 H1: μ Z0,5 - α ; ta bác bỏ giả thiết H0, nhận H1 . Kiểm định hai phía : Giả thiết H0: μ = μ0 H1: μ ≠ μ0 117 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  6. Với mức ý nghĩa của kiểm định α cho trước, ta tra bảng N(0,1) tìm được Z0,5 - α/2 . Nếu Z > Z0,5 - α/2 ; ta bác bỏ giả thiết H0, nhận H1 . Thí dụ 1: Một công ty có hệ thống máy tính có thể xử lý 1200 hoá đơn trong 1 giờ. Công ty mới nhập một hệ thống máy tính mới. Hệ thống này khi chạy kiểm tra trong 40 giờ cho thấy số hoá đơn được xử lý trung bình trong 1 giờ là 1260 với độ lệch tiêu chuẩn là 215. Với mức ý nghĩa 5% hãy nhận định xem hệ thống mới có tốt hơn hệ thống cũ hay không? Ta cần kiểm định giả thiết: H0 : μ = 1200 (Hệ thống mới tốt bằng hệ thống cũ) H1 : μ > 1200 (Hệ thống mới tốt hơn hệ thống cũ) Đây là bài toán kiểm định giả thiết về giá trị trung bình của tổng thể chung khi chưa biết phương sai tổng thể chung nhưng mẫu lớn, kiểm định phải, tiêu chuẩn kiểm định được chọn là công thức 5.2; kết quả như sau: ()1260 −1200 40 Z = = 1,76 215 Tra bảng : Z0,5 - α = Z0,5 - 0,05 = Z0,45 = 1,64 Ta thấy : Z > Z0,5 - α nên bác bỏ H0 và kết luận hệ thống mới tốt hơn hệ thống cũ ở mức ý nghĩa 0,05. Cách tra bảng : Z = ? khi α = 0.05 0.5 - 0.05 = 0.45 Z .04 .05 .06 1.6 .4495 .4505 .5515 α = .05 1.7 .5591 .5599 .5608 0 1.645 Z 1.8 .5671 .5678 .5686 Giá trị tới hạn Z = 1.645 1.9 .5738 .5744 .5750 Thí dụ 2: Một nhà máy sản xuất săm lốp ô tô tuyên bố rằng tuổi thọ trung bình một chiếc lốp ôtô của họ là 30.000 dặm. Cơ quan giám định chất lượng nghi ngờ lời tuyên bố này đã kiểm 118 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  7. tra 100 chiếc lốp và tìm được trung bình mẫu là 29000 dặm với độ lệch tiêu chuẩn là 5000 dặm. Với mức ý nghĩa 0,05 cơ quan giám định có bác bỏ được lời quảng cáo của nhà máy trên không ? Trong trường hợp này cơ quan kiểm định nghĩ rằng tuổi thọ trung bình của một chiếc lốp ôtô không phải là 30.000 dặm, giả thiết cần kiểm định là: H0 : μ = 30000 H1 : μ < 30000 Đây là bài toán kiểm định giả thiết về giá trị trung bình của tổng thể chung khi chưa biết phương sai tổng thể chung nhưng mẫu lớn, kiểm định trái, tiêu chuẩn kiểm định được chọn là công thức 5.2; kết quả như sau: ()29000 − 30000 100 Ta có: Z = = −2 5000 Tra bảng : Z0,5 - α = Z0,5 - 0,05 = Z0,45 = 1,64 Ta thấy : Z < - Z0,5 - α nên ta bác bỏ H0 và kết luận quảng cáo của nhà máy là quá sự thật ở mức ý nghĩa 0,05. Thí dụ 3: Một nhóm nghiên cứu công bố rằng trung bình một người vào siêu thị A tiêu hết 140 ngàn đồng. Chọn ngẫu nhiên 50 người mua hàng ta tính được số tiền trung bình họ tiêu là 154 ng.đồng với độ lệch tiêu chuẩn là 62 ng.đồng. Với mức ý nghĩa 0,02 hãy kiểm định xem công bố của nhóm nghiên cứu có đúng không? Ta cần kiểm định giả thiết: H0 : μ = 140 H1 : μ ≠ 140 Đây là bài toán kiểm định giả thiết về giá trị trung bình của tổng thể chung khi chưa biết phương sai tổng thể chung nhưng mẫu lớn, kiểm định hai phía, tiêu chuẩn kiểm định được chọn là công thức 5.2; kết quả như sau: ()154 −140 50 Ta có: Z = = 1,59 62 Tra bảng : Z0,5 - α/2 = Z0,5 - 0,02/2 = Z0,49 = 2,33 Vì Z < Z0,5 - α/2 nên có thể kết luận rằng với mẫu đã điều tra chưa đủ cơ sở để bác bỏ H0 , ta tạm thời chấp nhận rằng báo cáo của nhóm nghiên cứu là đúng. 2.1.3. Phương sai của tổng thể chung σ2 chưa biết, mẫu nhỏ (n < 30). Trong trường hợp này tiêu chuẩn kiểm định được chọn là thống kê t : 119 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  8. ()x − μ n t = 0 (5.3) s Người ta đã chứng minh được rằng nếu H0 đúng thì t sẽ phân phối theo quy luật Student với (n - 1) bậc tự do, s là độ lệch tiêu chuẩn mẫu . Tuỳ thuộc vào giả thuyết đối H1 mà miền bác bỏ được xây dựng theo các trường hợp sau: Kiểm định phía phải: Giả thiết H0: μ = μ0 H1: μ > μ0 Với mức ý nghĩa của kiểm định α cho trước, ta tra bảng tìm giá trị của tα,(n -1) . Nếu t > tα,(n -1) , ta bác bỏ giả thiết H0 . Kiểm định phía trái: Giả thiết H0: μ = μ0 H1: μ tα,(n -1), ta bác bỏ giả thiết H0 . Kiểm định hai phía : Giả thiết H0: μ = μ0 H1: μ ≠ μ0 Với mức ý nghĩa của kiểm định α cho trước, ta tra bảng tìm giá trị của tα/2,(n -1) . Nếu t > tα/2,(n -1), ta bác bỏ giả thiết H0 . Thí dụ 4: Một bản nghiên cứu thông báo rằng mức tiêu dùng hàng tháng của một sinh viên là 420 nghìn đồng. Để kiểm tra người ta chọn ngẫu nhiên 16 sinh viên và tính được trung bình mỗi tháng họ tiêu 442 nghìn đồng với độ lệch tiêu chuẩn mẫu điều chỉnh là 60 nghìn đồng. Với mức ý nghĩa 5% nhận định xem kết luận của bản thông báo có thấp hơn sự thật hay không? Ta cần kiểm định giả thiết: H0 : μ = 420 H1 : μ > 420 ()442 − 420 16 Ta có : t = = 1,47 60 Tra bảng phân phối Student với 15 bậc tự do ta tìm được t0,05;15 = 1,753. Vì t < tα,(n -1) do đó không có cơ sở để bác bỏ H0. Bản thông báo đó được chấp nhận là đúng. 120 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  9. 2.2. Kiểm định hai giá trị trung bình của hai tổng thể chung. Trong phần này ta xét bài toán so sánh hai trung bình của hai tổng thể chung. Đây là vấn đề rất có ý nghĩa của thống kê. Trong thực tế chúng ta luôn phải làm phép so sánh: so sánh chất lượng của hai loại sản phẩm, của hai loại dịch vụ; so sánh hai cơ hội đầu tư; so sánh hai phương pháp dạy học Để giải quyết vấn đề trên ta có thể dùng các phương pháp kiểm định thống kê như kiểm định tham số trong các trường hợp hai mẫu độc lập và hai mẫu phụ thuộc ; kiểm định phi tham số. 2.2.1. Kiểm định hai giá trị trung bình của hai tổng thể chung - trường hợp hai mẫu độc lập Giả sử có hai tổng thể chung: Tổng thể chung thứ nhất có các lượng biến của tiêu 2 thức X1 phân phối theo quy luật chuẩn N (μ1, σ 1 ) và tổng thể chung thứ hai có các lượng 2 biến của tiêu thức X2 phân phối theo quy luật chuẩn N (μ2, σ 2 ) Nếu μ1 và μ2 chưa biết song có cơ sở để giả thiết rằng giá trị của chúng bằng nhau ta có giả thiết thống kê H0 : μ1 = μ2 . Để kiểm định giả thiết trên, từ hai tổng thể chung người ta rút ra hai mẫu ngẫu nhiên độc lập với kích thước mẫu tương ứng là n1 và n2 , từ đó tính các trung bình mẫu là x 1 và x 2 . Để chọn tiêu chuẩn kiểm định thích hợp, ta xét các trường hợp sau: 2 2 a) Đã biết phương sai của 2 tổng thể chung σ1 và σ 2 . Tiêu chuẩn kiểm định được chọn là: (x1 − x2 )− (μ 1 −μ 2 ) Z = 2 2 σ1 σ 2 + n1 n 2 Đại lượng Z phân phối theo quy luật chuẩn hoá N (0, 1). Nếu giả thiết H0 đúng thì : (x1 − x2 ) Z = cũng có phân phối N (0, 1) (5.4) 2 2 σ 1 σ 2 + n1 n 2 Với mức ý nghĩa của kiểm định α cho trước và tuỳ thuộc vào giả thiết đối H1 mà ta xây dựng các miền bác bỏ như sau : Kiểm định phía phải: Giả thiết H0: μ1 = μ2 121 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  10. H1: μ1 > μ2 Với mức ý nghĩa của kiểm định α cho trước, ta tra bảng N(0,1) tìm được Z0,5 - α . Nếu Z > Z0,5 - α , ta bác bỏ giả thiết H0 . Kiểm định phía trái: Giả thiết H0: μ1 = μ2 H1: μ1 Z0,5 - α ; ta bác bỏ giả thiết H0 . Kiểm định hai phía : Giả thiết H0: μ1 = μ2 H1: μ1 ≠ μ2 Với mức ý nghĩa của kiểm định α cho trước, ta tra bảng N(0,1) tìm được Z0,5 - α/2 . Nếu Z > Z0,5 - α/2 ; ta bác bỏ giả thiết H0 . 2 2 b) Chưa biết phương sai của hai tổng thể chung σ1 và σ 2 , mẫu lớn (n1 và n2 ≥ 30). Trong trường hợp này ta vẫn dùng thống kê Z làm tiêu chuẩn kiểm định như phần a) , 2 2 trong đó các phương sai σ1 và σ 2 được thay bởi các phương sai mẫu . Như vậy thống kê Z có dạng : (x − x ) Z = 1 2 s 2 s 2 (5.5) 1 + 2 n1 n 2 Nếu n1 và n2 ≥ 30 thì theo định lý giới hạn trung tâm, Z có phân phối xấp xỉ chuẩn N (0, 1). Với mức ý nghĩa của kiểm định α cho trước và tuỳ thuộc vào giả thiết đối H1 mà ta xây dựng các miền bác bỏ như sau : Kiểm định phía phải: Giả thiết H0: μ1 = μ2 H1: μ1 > μ2 Nếu Z > Z0,5 - α , ta bác bỏ giả thiết H0 . Kiểm định phía trái: Giả thiết H0: μ1 = μ2 H1: μ1 Z0,5 - α ; ta bác bỏ giả thiết H0 . Kiểm định hai phía : Giả thiết H0: μ1 = μ2 122 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  11. H1: μ1 ≠ μ2 Nếu Z > Z0,5 - α/2 ; ta bác bỏ giả thiết H0 . 2 2 c) Chưa biết phương sai của hai tổng thể chung σ1 và σ 2 , mẫu nhỏ (n1 và n2 μ2 Với mức ý nghĩa của kiểm định α cho trước, ta tra bảng tìm giá trị của t . α,()n1 +n2 −2 Nếu t > t , ta bác bỏ giả thiết H0 . α,()n1 +n2 −2 Kiểm định phía trái: Giả thiết H0: μ1 = μ2 H1: μ1 t , ta bác bỏ giả thiết H0 . α,()n1 +n2 −2 α,()n1 +n2 −2 Kiểm định hai phía : Giả thiết H0: μ1 = μ2 H1: μ1 ≠ μ2 Với mức ý nghĩa của kiểm định α cho trước, ta tra bảng tìm giá trị của t . α/2 ,()n1 +n2 −2 Nếu t > t , ta bác bỏ giả thiết H0 . α/2 ,()n1 +n2 −2 123 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  12. 2.2.2. Kiểm định hai giá trị trung bình của hai tổng thể chung - trường hợp hai mẫu phụ thuộc Trong phần trên hai mẫu được lấy ra một cách độc lập. Tuy nhiên, trong nhiều trường hợp việc chọn các mẫu phụ thuộc, liên hệ với nhau lại có ý nghĩa. Thường việc sử dụng các mẫu phụ thuộc (các mẫu theo cặp) sẽ cho phép phân tích chính xác hơn vì khi đó loại trừ được các yếu tố ngoại vi mà ta không nghiên cứu. Chẳng hạn ta chỉ muốn so sánh năng suất của giống lúa mới với giống lúa cũ và bỏ qua sự khác nhau về các yếu tố khác như phân bón, nước tưới, sâu bọ thì hai loại giống đó phải được trồng trên hai mảnh của mỗi thửa ruộng và ghi lại sản lượng thu được trên hai mảnh ở các thửa ruộng khác nhau đó Với các mẫu phụ thuộc, các bước kiểm định vẫn như trước. Điểm khác nhau chỉ ở chỗ quy mô mẫu phải bằng nhau và kiểm định sự khác nhau theo cặp (hay gọi là phương pháp so sánh từng cặp). Bài toán tổng quát như sau: Giả sử có hai tổng thể chung: Tổng thể chung thứ nhất 2 có các lượng biến của tiêu thức X1 phân phối theo quy luật chuẩn N (μ1, σ 1 ) và tổng thể 2 chung thứ hai có các lượng biến của tiêu thức X2 phân phối theo quy luật chuẩn N (μ2, σ 2 ). Muốn so sánh sự khác nhau giữa μ1 và μ2 ta xét độ lệch trung bình μd . Ta chưa biết μd nhưng nếu có cơ sở để giả thiết rằng giá trị của nó bằng μ0 , ta đua ra giả thiết thống kê H0 : μd = μ0 . Để kiểm định giả thiết trên, từ hai tổng thể chung người ta rút ra hai mẫu phụ thuộc được hình thành bởi các cặp n quan sát độc lập của hai mẫu, từ đó tính d là trung bình của các độ lệch giữa các cặp giá trị của hai mẫu di. Như vậy ta đưa bài toán so sánh về bài toán kiểm định giả thiết về giá trị trung bình đã xét ở phần I. Tuy nhiên ở đây thường không biết phương sai của các độ lệch của tổng thể chung nên thay bằng phương sai của các độ lệch của 2 tổng thể mẫu S d , và dùng tiêu chuẩn kiểm định t : (d − μ ) n t = 0 (5.8) Sd Với mức ý nghĩa α cho trước, tuỳ thuộc vào giả thiết đối H1 mà các miền bác bỏ được xây dựng tương tự như ở phần 1. Nhận xét: Phương pháp so sánh từng cặp như trên có ưu điểm hơn phương pháp so sánh hai mẫu độc lập ở chỗ: 2 2 - Nó không cần giả thiết gì về phương sai của hai tổng thể chung σ1 và σ 2 - Nó thường cho kết quả chính xác hơn vì đã bỏ được các nhân tố ngoại lai ảnh hưởng đến giá trị trung bình. Tuy nhiên nhược điểm của nó là việc bố trí thí nghiệm (điều tra) phức tạp hơn, chẳng hạn trong ví dụ trên phương pháp so sánh từng cặp đòi hỏi phải trồng lúa thí nghiệm trên hai mảnh của cùng một thửa ruộng với hai loại giống khác nhau. 124 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  13. Ta xét thí dụ sau để minh hoạ: Người ta quảng cáo là những người tham gia chương trình luyện tập giảm cân trung bình sẽ giảm trên 17 pound. Một người rất quan tâm đến chương trình này nhưng còn nghi ngờ về lời quảng cáo và đòi có bằng chứng. Người ta đã đồng ý cho anh ta phỏng vấn ngẫu nhiên 10 người để ghi lại cân nặng của họ trước và sau chương trình. Số liệu ghi trong bảng sau (đvị: Pound) 2 Thứ tự người Cân nặng Cân nặng Số cân giảm di được ĐT trước chương trình sau chương trình (di) 1 189 170 19 361 2 202 179 23 529 3 220 203 17 289 4 207 192 15 225 5 194 172 22 484 6 177 161 16 256 7 193 174 19 361 8 202 187 15 225 9 208 186 22 484 10 233 204 29 841 Cộng 2025 1828 197 4055 Anh ta muốn kiểm định lời quảng cáo về mức giảm cân trung bình ít nhất là 17 pound với mức ý nghĩa 5%. Giải: Ở đây có hai mẫu: một mẫu trước chương trình và một mẫu sau chương trình. Chúng rõ ràng có liên hệ với nhau vì vẫn chính là mười người được điều tra trong hai lần. Điều mà chúng ta thực sự quan tâm không phải là số cân nặng trước hay sau chương trình mà là sự khác nhau về số cân nặng. Nói cách khác, không phải chúng ta có hai mẫu về số cân nặng trước và sau chương trình mà đúng hơn là có một mẫu về số cân nặng giảm được sau chương trình tập luyện. Như vậy giả thiết cần kiểm định là: H0 : μd = 17 (Mức giảm cân trung bình là 17 pound) H1 : μd > 17 (Mức giảm cân trung bình lớn hơn 17 pound) Với mẫu là 10 người, tiêu chuẩn kiểm định được sử dụng là: 125 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  14. ()d − μ n t = 0 Sd Với số liệu tính toán trong bảng trên ta tính được d và sd như sau: ∑d i 197 d = = = 19,7 n 10 Sd = 4.4 ()d − μ n (19,7 −17) 10 Vậy : t = 0 = =1,94 Sd 4,4 Với mức ý nghĩa 0,05 và bậc tự do là 9, tra bảng ta có t0.05;9 = 1,833. Ta thấy t > tα,(n- 1) do đó có thể bác bỏ giả thiết H0 và kết luận rằng lời quảng cáo cho chương trình tập luyện về số cân giảm là đúng. 2.2.3. Kiểm định phi tham số Các tiêu chuẩn thống kê để kiểm định sự khác nhau giữa hai trung bình của hai tổng thể chung được trình bày ở trên gọi là kiểm định có tham số. Khi tiến hành các kiểm định này thường phải dựa trên giả thiết quan trọng là tổng thể chung đang xét có phân phối chuẩn và hoặc kích thước mẫu khá lớn. Nếu một trong các điều kiện trên bị vi phạm thì các tiêu chuẩn đó không thể thực hiện được. Trong tình huống như vậy ta phải sử dụng các tiêu chuẩn phi tham số. Tiêu chuẩn này không đòi hỏi phải có các giả thiết về các dạng phân phối của tổng thể chung và dùng trong các phương pháp kiểm định tự do (đối với dạng phân phối), đó là các phương pháp kiểm định phi tham số. Sau đây là một số phương pháp kiểm định thông dụng để kiểm định sự giống và khác nhau giữa hai trung bình của hai tổng thể (dùng trong hai trường hợp mẫu độc lập và mẫu phụ thuộc). 2.2.3.1. Kiểm định Mann - Whitney. Kiểm định Mann - Whitney được sử dụng khi chỉ có hai tổng thể nghiên cứu. Kiểm định này cho phép ta xác định xem có phải các mẫu độc lập được lấy ra từ cùng một tổng thể chung hoặc từ các tổng thể khác nhau nhưng có chung một phân phối hay không. Bài toán tổng quát như sau: Giả sử có hai tổng thể chung X và Y. Phân phối của hai tổng thể này chưa biết và không nhất thiết là phân phối chuẩn. Ta muốn biết liệu hai tổng thể chung này có khác nhau không, giả thiết cần kiểm định là: H0: μ1 = μ2 (không có sự khác nhau giữa hai tổng thể chung và do đó có cùng số trung bình) H1: μ1 ≠ μ2 (có sự khác nhau giữa hai tổng thể chung và chúng có số 126 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  15. trung bình khác nhau) Để kiểm định giả thiết này, từ tổng thể chung lấy ra 2 mẫu: Mẫu thứ nhất, gồm n1 đơn vị có các lượng biến (x1, x2 xn1) lấy ra từ tổng thể chung X. Mẫu thứ hai, gồm n2 đơn vị có các lượng biến (y1, y2 yn2) lấy ra từ tổng thể chung Y. Tiêu chuẩn kiểm định Mann - Whitney được xây dựng như sau: - Gộp 2 mẫu trên thành 1 mẫu với cỡ mẫu là (n1 + n2) - Sắp xếp (n1 + n2) lượng biến của 2 mẫu theo thứ tự tăng dần và xác định hạng của mỗi lượng biến đó. - Tính tổng hạng của các lượng biến thuộc mẫu thứ nhất là R1 và của mẫu thứ hai là R2. Như vậy tổng hạng chung R = R1 + R2 = 1 +2 + + (n1 + n2). Người ta đã chứng minh được rằng: nếu H0 đúng và n1, n2 ≥ 10 thì R1 có phân phối xấp xỉ chuẩn với trung bình là: n1 (n1 + n2 +1) μ = (5.9) R1 2 n1.n 2 (n1 + n 2 +1) và phương sai là σ 2 = (5.10) R1 12 ( Tương tự, ta có R2 có phân phối xấp xỉ chuẩn với giá trị trung bình là: n2 (n1 + n 2 +1) μ = (5.11) R2 2 n1.n 2 (n1 + n2 +1) và phương sai là σ 2 = ) (5.12) R 2 12 Thông thường chúng ta chọn số nhỏ nhất giữa R1 và R2 để tính tiêu chuẩn kiểm định. Giả sử R1 Z0,5−α / 2 ta bác bỏ giả thiết H0 . (Nếu thay R1 bằng R2 cũng sẽ cho ta cùng một kết luận) Chú ý: Nếu trong dãy (n1 + n2) các lượng biến của 2 mẫu có những giá trị trùng nhau thì ta quy ước hạng của các lượng biến trùng nhau đó đều được gán giá trị tính bằng trung bình cộng các số thứ tự của các lượng biến đó. Chẳng hạn có 4 lượng biến bằng nhau 127 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  16. có số thứ tự trong dãy số là 5, 6, 7, 8 thì hạng của 4 lượng biến đó đều được gán giá trị là (5 + 6 + 7 + 8)/ 2 = 6,5 còn lượng biến tiếp theo đó vẫn có hạng là 9 như cũ. Thí dụ: Có 1 người lái xe thường xuyên đi lại giữa hai điểm A và B. Có 2 đường nối A và B là đường X và đường Y. Anh ta muốn chọn con đường đi nào mất ít thời gian nhất. Chọn ngẫu nhiên 10 ngày đi trên đường X và 10 ngày đi trên đường Y, anh ta có số liệu sau (thời gian tính bằng phút): Đường X: 34 28 46 42 56 85 48 25 37 49 Đường Y: 45 49 41 55 39 45 65 50 47 51 Với mức ý nghĩa 5%, hãy nhận định xem có sự khác nhau về thời gian đi lại khi đi theo đường X và đường Y hay không. Giải: Đầu tiên ta tính được thời gian trung bình đi trên đường X là 45 phút và trên đường Y là 48,5 phút. Tuy nhiên ta không có cơ sở để cho rằng thời gian đi trên đường X và thời gian đi trên đường Y có phân phối chuẩn hay xấp xỉ chuẩn với phương sai bằng nhau. Do đó, việc áp dụng tiêu chuẩn kiểm định Student đã trình bày ở phần trước là không “hợp pháp” (phù hợp) . Vì vậy cần áp dụng phương pháp kiểm định Mann - Whitney. Trước hết ta lập bảng xếp hạng các số liệu như sau: Đường Thời gian Hạng Đường Thời gian Hạng X 25 1 Y 47 11 X 28 2 X 48 12 X 34 3 X 49 13,5 X 37 4 Y 49 13,5 Y 39 5 Y 50 15 Y 41 6 Y 51 16 X 42 7 Y 55 17 Y 43 8 X 56 18 Y 45 9 Y 65 19 X 46 10 X 85 20 Tổng các hạng của đường X là: R1 = 1 + 2 + 3 + 4 + 7 + 10 + 12 + 13,5 + 18 + 20 = 90,5 Vì n1 và n2 đều bằng 10 nên R1 có phân phối xấp xỉ chuẩn với : 128 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  17. n1 (n1 + n 2 + 1) 10.(10 + 10 + 1) μ = = = 105 R1 2 2 n1.n 2 (n1 + n 2 + 1) 10 ×10 × (10 + 10 + 1) và phương sai là σ 2 = = =175 R1 12 12 Ta tính tiêu chuẩn kiểm định: R1 −μ R 90,5 − 105 Z = 1 = = −1,1 σ R1 175 Với mức ý nghĩa 0,05, tra bảng ta được Z0,5 - α/2 = 1,96. Như vậy Z 5 tức n’ > 10 thì tần suất f = n+/n’ sẽ có phân phối xấp xỉ chuẩn với kỳ vọng 0,5 và độ lệch tiêu chuẩn là: 1 1 pq × 1 2 2 σ p = = = n′ n′ 2 n′ Như vậy tiêu chuẩn kiểm định được chọn là: 129 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  18. 2n + − n′ Z = (f − 0,5)2 n′ = (5.14) n′ Đại lượng Z trên sẽ có phân phối chuẩn. Với mức ý nghĩa α cho trước, tuỳ thuộc giả thiết đối mà ta có các trường hợp: - Kiểm định 2 phía: H1- “Có sự khác nhau”, ta bác bỏ H0 khi Z Z0,5 - α . Thí dụ : Một thầy giáo dạy toán cho rằng việc cho học sinh ôn tập 1 tiết cuối kỳ có tác dụng tốt đến kết quả học tập của các em. Một mẫu gồm 21 học sinh được chọn để theo dõi điểm thi của các em trước và sau khi ôn tập. Kết quả thu được ở 3 cột đầu của bảng sau: Học sinh Điểm thi trước Điểm thi sau Hiệu số di Dấu của di (1) (2) (3) (4) (5) 1 22 21 -1 - 2 26 29 3 + 3 17 15 -2 - 4 20 20 0 0 5 28 26 -2 - 6 31 32 1 + 7 23 25 2 + 8 13 14 1 + 9 19 19 0 0 10 25 27 2 + 11 28 27 -1 - 12 24 25 1 + 13 27 27 0 0 14 18 20 2 + 15 20 23 3 + 16 14 16 2 + 17 24 26 2 + 18 15 20 5 + 130 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  19. 19 19 20 1 + 20 18 17 -1 - 21 27 19 2 + Trên cơ sở khảo sát đó, với mức ý nghĩa 5% liệu có thể kết luận rằng sau khi được ôn tập kết quả thi của các em có tốt hơn không? Giải: Ký hiệu p là tỷ lệ học sinh có điểm thi sau cao hơn điểm thi trước. Ta cần kiểm định giả thiết H0 : p = 0,5 H1 : p > 0,5. Với tài liệu thu được qua điều tra, ta tính được các chênh lệch giữa số điểm thi sau và điểm thi trước khi ôn tập (di) và dấu của các chênh lệch đó biểu hiện ở cột 4 và 5 ở bảng trên. Theo đó ta có : n’ = 18 ; n+ = 13. Vậy f = 13 / 18 = 0,722. Và: 2n + − n′ 2 ×13 − 18 Z = (f − 0,5)2 n′ = = = 1,886 n′ 18 Với mức ý nghĩa 0,05 tra bảng ta có Z0,5 - α = 1,64. Như vậy Z > Z0,5 - α , ta bác bỏ giả thiết H0 nghĩa là việc cho học sinh ôn tập có tác dụng nâng cao kết quả học tập của các em. b) Kiểm định hạng có dấu của Wilcoxon. Trong khi kiểm định dấu chỉ quan tâm tới dấu của các hiệu số di thì kiểm định hạng có dấu của Wilcoxon còn tính đến độ lớn của d i . Như vậy kiểm định này sẽ có hiệu quả hơn kiểm định dấu. Các bước thực hiện như sau: - Xuất phát từ 2 mẫu ta tính các di - Bỏ qua các giá trị di = 0 - Tính hạng của d i (di ≠ 0) ’ Gọi: n là số các giá trị di = 0 + R là tổng các hạng của d i ứng với di > 0 - R là tổng các hạng của d i ứng với di < 0 + - Người ta đã chứng minh được rằng nếu H0 đúng thì R và R đều có cùng phân phối n′(n′ + 1) n′(n′ + 1)(2n′ + 1) với kỳ vọng là và phương sai là 4 24 131 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  20. Nếu n’ ≥ 8 thì R+ và R- có phân phối xấp xỉ chuẩn. Như vậy tiêu chuẩn kiểm định được chọn là: R − n′(n′ + 1) / 4 Z = (5.15) n′(n′ + 1)(2n′ + 1) 24 Đại lượng Z sẽ có phân phối N(0, 1). Trong đó R là R+ hoặc R- (thường lấy số nhỏ nhất trong 2 số đó). Giả thiết H0 sẽ bị bác bỏ ở mức ý nghĩa α nếu Z > Z0,5 - α/2 . Nhận xét về phương pháp phi tham số: Phương pháp phi tham số có những ưu, nhược điểm sau: Ưu điểm : - Chúng không đòi hỏi phải có giả thiết là tổng thể chung có phân phối chuẩn hoặc tuân theo một dạng phânphối cụ thể nào đó. - Nói chung các phương pháp này dễ hiểu và dễ thực hiện. Kiểm định phi tham số có thể được dùng thay thế cho kiểm định tham số bằng cách thay thế các giá trị số bằng các thứ hạng của chúng như đã làm ở trên. - Đôi khi ngay cả việc sắp xếp theo thứ tự hạng cũng không cần thiết. Thông thường cái cần làm chỉ là mô tả 1 kết quả là “tốt hơn” so với một kết quả khác. Gặp trường hợp đó hoặc khi việc đo lường không được chính xác, không đáp ứng được yêu cầu của kiểm định tham số thì ta có thể sử dụng các phương pháp phi tham số. Nhược điểm: - Kiểm định phi tham số bỏ qua một lượng thông tin nhất định chẳng hạn như việc thay giá trị số bằng thứ hạng. - Kiểm định phi tham số không hiệu quả hay “sắc bén” (nói cách khác là không mạnh) bằng kiểm định tham số. Cần nhớ rằng: Nếu điều kiện cho phép dùng kiểm định tham số được thoả mãn thì ta nên dùng kiểm định có tham số. 2.3. Kiểm định nhiều trung bình thuộc nhiều tổng thể chung Trong phần 2.2 chúng ta đã xét đến việc so sánh giá trị trung bình của hai tổng thể chung. ở đây chúng ta đề cập đến phương pháp so sánh đồng thời các trung bình của nhiều tổng thể chung (từ 3 trở lên), đó là phương pháp phân tích phương sai (ANOVA). Phân tích phương sai được vận dụng trong các trường hợp như: so sánh việc sử dụng 5 loại ống dẫn khí khác nhau; đánh giá hiệu quả của mỗi phương pháp trong 4 phương pháp học tập khác nhau hoặc so sánh hiệu quả của 4 loại phân bón khác nhau Có hai mô hình phân tích 132 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  21. phương sai: phân tích phương sai một nhân tố và phân tích phương sai hai nhân tố. Trong phần này chỉ trình bày phương pháp phân tích phương sai một nhân tố. Giả sử ta có k tổng thể chung X1, X2, , Xk có phân phối chuẩn, trong đó Xi ~ N( μi 2 , σ i ). Các giá trị trung bình μi chưa biết song có cơ sở giả thiết rằng là chúng bằng nhau, ta có giả thiết cần kiểm định là H0: μ1 = μ2 = = μk . Trong thống kê vấn đề trên thường được xem xét dưới góc độ sau đây: Giả sử chúng ta quan tâm tới một nhân tố X nào đó. Nhân tố X có thể xem xét ở k mức độ khác nhau. Ký hiệu Xi là hiệu quả của việc tác động của nhân tố X ở mức i . Như vậy μi là hiệu quả trung bình của nhân tố X ở mức i. Chúng ta muốn biết khi cho nhân tố X thay đổi ở các mức khác nhau thì điều đó có ảnh hương hay không tới hiệu quả trung bình. Chẳng hạn, chúng ta muốn nghiên cứu ảnh hưởng của giống tới năng suất cây trồng. Nhân tố ở đây là giống, các loại giống khác nhau là các mức của nhân tố. Hiệu quả của giống lên năng suất cây trồng được đo bằng sản lượng của cây trồng. Như vậy Xi chính là sản lượng của giống i và μi là sản lượng trung bình của giống i. Để kiểm định giả thiết này, từ các tổng thể chung các giá trị của Xi người ta rút ra k mẫu ngẫu nhiên, độc lập, với kích thước tương ứng là n1, n2, , nk. Các số liệu được trình bày thành bảng ở dạng sau: Các nhân tố 1 2 j k x11 x21 xi1 x1k x21 x22 x2k xi1 xik xn11 xn22 xnkk k n = ∑ n j j=1 Tổng số T1 T2 Tk k T = ∑ Tj j=1 Trung bình x1 x2 x j x k x = T / n Các bước phương pháp phân tích phương sai một nhân tố (ANOVA) được tiến hành theo trình tự sau đây: Bước 1: Tính các trung bình. ni ∑ x ji Ti j=1 + Trung bình của các mẫu: xi = = (5.16) n i n i 133 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  22. k k n j ∑ Tj ∑∑x ij T j=1 j==1 i 1 + Trung bình chung: x = = = (5.17) n n n Bước 2: Tính các tổng bình phương độ lệch. + Tổng bình phương chung, ký hiệu là SST (Total Sum of Squares): T 2 2 2 SST = ∑∑()x ij − x = ∑∑x ij − (5.18) ij ij n + Tổng bình phương do ảnh hưởng của nhân tố, ký hiệu là SSF (Sum of Squares for Factor): 2 2 2 k k Tj T SSF = ∑ ()x j − x .n j = ∑ − (5.19) j=1 j=1 n j n + Tổng bình phương do sai số, ký hiệu là SSE (Sum of Squares for Error): T 2 2 2 j SSE = ∑∑()x ij − x j = ∑∑x ij − ∑ (5.20) ij ij jn j Từ các công thức trên, ta thấy: SST = SSF + SSE (5.21) Bước 3: Tính các phương sai tương ứng. + Phương sai do ảnh hưởng của nhân tố (hay phương sai giữa các mẫu), ký hiệu là MSF (Mean Square for Factor): SSF MSF = , trong đó (k - 1) được gọi là bậc tự do của nhân tố. k − 1 + Phương sai do sai số (hay phương sai trong các mẫu), ký hiệu là MSE (Mean Square for Error): SSE MSE = , trong đó (n - k) được gọi là bậc tự do của sai số. n − k Bước 4: Kiểm định giả thiết. Giả thiết H0: μ1 = μ2 = = μk . ’ H1: Tồn tại ít nhất 1 cặp μj ≠ μj với j ≠ j . Các kết quả nói trên được trình bày trong bảng sau đây và được gọi là bảng ANOVA (Analysis of Variance : Phân tích phương sai). 134 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  23. Nguồn Tổng bình Bậc tự do Phương sai (TB Tỷ số F phương bình phương) Nhân tố SSF k - 1 MSF MSF F = MSE Sai số SSE n - k MSE Tổng SST n - 1 MSF Người ta chứng minh được rằng nếu giả thiết H0 đúng thì tỷ số F = MSE sẽ có phân phối Fisher với bậc tự do là (k - 1, n - k). Giả thiết H0 sẽ bị bác bỏ ở mức ý nghĩa α, nếu F > Fα, (k-1),( n-k) . Thí dụ: Điểm thi của 12 sinh viên học các giáo sư A, B, C được cho trong bảng sau (thang điểm 100) : Giáo sư A Giáo sư B Giáo sư C 79 71 82 86 77 68 94 81 70 89 83 76 Với mức ý nghĩa 5%, kiểm định xem liệu điểm thi trung bình của các sinh viên theo học các giáo sư A, B, C có giống nhau không. Giải: Kết quả tính toán cho ta bảng ANOVA như sau: Nguồn Tổng bình Bậc tự do Phương sai (TB Tỷ số F phương bình phương) Nhân tố 354,67 2 177,34 4,96 Sai số 322 9 35,78 Tổng 676,67 11 Với mức ý nghĩa 5%, tra bảng phân phối Fisher với bậc tự do (2, 9) ta tìm được giá trị bằng 4,26. Vì F = 4,96 >4,26 nên ta bác bỏ H0, nghĩa là điểm thi trung bình của các sinh viên theo học 3 giáo sư nói trên là khác nhau ở mức ý nghĩa 5%. 135 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  24. 3. Kiểm định tỷ lệ Nội dung phần này đề cập đến một số vấn đề: Kiểm định giả thiết về tỷ lệ của một tổng thể chung; so sánh hai tỷ lệ của hai tổng thể chung và so sánh nhiều tỷ lệ thuộc nhiều tổng thể chung. 3.1. Kiểm định giả thiết về tỷ lệ của tổng thể chung. Giả sử ở tổng thể chung, tỷ lệ theo một tiêu thức A nào đó là p. Nếu p chưa biết song có cơ sở để giả thiết rằng giá trị của nó bằng p0, ta đưa ra giả thiết: H0 : p = p0 Để kiểm định giả thiết đó ta lấy mẫu ngẫu nhiên kích thước n và thấy có nA đơn vị có biểu hiện của tiêu thức A và (n - nA) đơn vị không có biểu hiện đó. Như vậy ta có tỷ lệ mẫu : ps = nA/ n. Với n đủ lớn (n.p0 ≥ 5 và n(1- p0) ≥ 5) ta chọn tiêu chuẩn kiểm định Z: (p − p ) n Z = s 0 (5.22) p0 (1− p0 ) Tuỳ thuộc vào dạng của giả thiết đối H1 mà ta có miền bác bỏ được xây dựng theo các trường hợp sau: Kiểm định phía phải: Giả thiết H0: p = p0 H1: p > p0 Với mức ý nghĩa của kiểm định α cho trước, ta tra bảng N(0,1) tìm được Z0,5 - α . Nếu Z > Z0,5 - α , ta bác bỏ giả thiết H0 . Kiểm định phía trái: Giả thiết H0: p = p0 H1: p Z0,5 - α ; ta bác bỏ giả thiết H0 . Kiểm định hai phía : Giả thiết H0: p = p0 H1: p ≠ p0 Với mức ý nghĩa của kiểm định α cho trước, ta tra bảng N(0,1) tìm được Z0,5 - α/2 . Nếu Z > Z0,5 - α/2 ; ta bác bỏ giả thiết H0. Thí dụ: Một báo cáo nói rằng 18% gia đình ở thành phố A có máy tính cá nhân ở nhà. Để kiểm tra, người ta chọn ngẫu nhiên 80 gia đình trong thành phố có trẻ em đang đi học và 136 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  25. thấy có 22 gia đình có máy tính.Với mức ý nghĩa α = 2% hãy kiểm định xem liệu trong các gia đình có trẻ em đang đi học, tỷ lệ gia đình có máy tính có cao hơn tỷ lệ chung không? Giải: Gọi p là tỷ lệ gia đình có máy tính trong các gia đình có trẻ em đang đi học ở thành phố A. Ta cần kiểm định giả thiết: H0: p = 0,18 H1: p > 0,18 Ta có np0 = 80.0,18 = 14,4 ≥ 5 và n(1- p0) = 80.0,82 = 65,6 ≥ 5 do đó điều kiện kiểm định được thoả mãn. Ta tính được tỷ lệ mẫu: ps = 22/ 80 = 0,275 và tiêu chuẩn kiểm định: (p − p ) n (0,275 − 0,18) 80 Z = s 0 = = 2,21 p0 (1− p0 ) 0,18(1 − 0,18) Tra bảng ta được Z0,5 - α = Z0,5 - 0,02 = 2,05. Vì Z > Z0,5 - α do đó bác bỏ giả thiết H0, và kết luận trong các gia đình có trẻ đi học, tỷ lệ gia đình có máy tính cao hơn tỷ lệ chung. 3.2. So sánh hai tỷ lệ của hai tổng thể chung. Giả sử có hai tổng thể chung, tỷ lệ theo một tiêu thức A nào đó của tổng thể chung thứ nhất là p1 và của tổng thể chung thứ hai là p2. Nếu p1 và p2 chưa biết, song có cơ sở để giả thiết rằng chúng bằng nhau, ta có giả thiết cần kiểm địnhlà: H0 : p1 = p2 . Để kiểm định giả thiết này, từ hai tổng thể chung ta rút ra hai mẫu ngẫu nhiên với kích thước tương ứng là n1 và n2 ; thấy có n1A và n2A đơn vị có biểu hiện của tiêu thức A. n1 n2 Tính các tỷ lệ mẫu p = A và p = A . s1 s2 n1 n2 Khi n1 vμ n2 kh¸ lín ( n1ps1 ; n1(1- ps1) ; n2ps2 ;n2(1- ps2) ≥ 5 ) th× Z ph©n phèi xÊp xØ chuÈn N(0, 1). NÕu gi¶ thiÕt H0 ®óng th× tiªu chuÈn kiÓm ®Þnh cã d¹ng: ps − ps Z = 1 2 (5.23) ⎛ 1 1 ⎞ ps (1− ps )⎜ + ⎟ ⎝ n1 n2 ⎠ Trong đó : ps là tỷ lệ chung của cả hai mẫu và được tính bằng: n p + n p 1 s1 2 s2 n1A + n2A ps = = (5.24) n1 + n2 n1 + n2 Đại lượng Z vÉn cã ph©n phèi xÊp xØ chuÈn N(0, 1). Với mức ý nghĩa α cho trước, tuỳ thuộc vào dạng của giả thiết đối H1 mà ta có miền bác bỏ được xây dựng theo các trường hợp tương tự như trên. 137 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  26. Kiểm định phía phải: Giả thiết H0: p1 = p2 H1: p1 > p2 Nếu Z > Z0,5 - α , ta bác bỏ giả thiết H0 . Kiểm định phía trái: Giả thiết H0: p1 = p2 H1: p1 Z0,5 - α ; ta bác bỏ giả thiết H0 . Kiểm định hai phía : Giả thiết H0: p1 = p2 H1: p1 ≠ p2 Nếu Z > Z0,5 - α/2 ; ta bác bỏ giả thiết H0. Thí dụ: Công ty nước giải khát Côca - Côla đang nghiên cứu việc đưa vào một công thức mới để cải tiến sản phẩm của mình. Với công thức cũ khi cho 500 nguời dùng thử thì có 120 người ưa thích nó. Với công thức mới khi cho 1000 người khác dùng thử thì có 300 người tỏ ra ưa thích nó. Hãy kiểm định xem liệu công thức mới đưa vào có làm tăng tỷ lệ những người ưa thích Côca hay không với mức ý nghĩa là 2%? Giải: Gọi p1 là tỷ lệ những người ưa thích Côca với công thức mới, p2 là tỷ lệ những người ưa thích Côca với công thức cũ. Ta cần kiểm định giả thiết: H0: p1 = p2 H1: p1 > p2 Với các số liệu đã có ta tính được: Ps1 = n1A/ n1 = 300/ 1000 = 0,3 ; ps2 = n2A/ n2 = 120/ 500 =0,24 300 +120 420 Và tỷ lệ chung: p = = = 0,28 s 500 +1000 1500 Trong trường hợp này n1 và n2 đủ lớn, tiêu chuẩn kiểm được tính như sau: ps − ps 0,3 − 0,24 0,06 Z = 1 2 = = = 2,4 ⎛ ⎞ ⎛ 1 1 ⎞ 0,025 1 1 0,28(1− 0,28) + ps (1− ps )⎜ + ⎟ ⎜ ⎟ ⎝ n1 n2 ⎠ ⎝1000 500 ⎠ Vì Z = 2,4 > Z0,5 - α = 2,06 , nên ta bác bỏ giả thiết H0 . Kết luận: Tỷ lệ những người ưa thích Côca với công thức mới cao hơn tỷ lệ những người ưa thích Côca với công thức cũ. Như vậy Công ty có thể quyết định sử dụng công thức mới để tăng thị phần của mình. 3.3. Kiểm định nhiều tỷ lệ thuộc nhiều tổng thể chung 138 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  27. Trong phần trên ta đã sử dụng tiêu chuẩn kiểm định Z (phân phối chuẩn) để so sánh hai tỷ lệ của hai tổng thể chung. Để kiểm định ba (hay nhiều hơn) tỷ lệ người ta sử dụng tiêu chuẩn kiểm định là phân phối Khi bình phương. Chúng ta xuất phát từ thí dụ sau: Để nghiên cứu tỷ lệ phụ nữ có từ 3 con trở lên ở 3 địa phương A, B, C xem có khác nhau không, từ mỗi địa phương người ta chọn ngẫu nhiên một số phụ nữ, kết quả như sau: Địa phương (j) A B C Tổng dòng i Số con (i) Từ 2 con trở xuống 140 240 60 440 Hơn 2 con 60 160 60 280 Tổng cột j 200 400 120 720 Bảng trên gọi là bảng ngẫu nhiên 2 dòng (i = 1, 2) và 3 cột (j = 1, 2, 3). Gọi tỷ lệ phụ nữ có hơn 2 con của A, B, C lần lượt là p1, p2, p3. Ta cần kiểm định giả thiết H0 : p1 = p2 = p3 (tỷ lệ ở 3 địa phương là như nhau) H1 : p1 ≠ p2 ≠ p3 (tỷ lệ ở 3 địa phương khác nhau) Các bước được tiến hành như sau: + Gọi nij là số phụ nữ có số con i ở địa phương j (ví dụ: số phụ nữ có từ 2 con trở xuống của địa phương A là n11 = 140 ). nˆ ij là tần số thực nghiệm (do điều tra) + Từ bảng ngẫu nhiên, tính tần số lý thuyết như sau: Tæng cña dßng i × Tæng cña cét j ) n ij = ; với n = ∑∑n ij n ij + Tính tiêu chuẩn χ2 : ) 2 2 (nij − nij ) χ = ∑∑ ) ij nij χ2 là một đại lượng ngẫu nhiên (vì giá trị của nó thay đổi từ mẫu này qua mẫu khác) và có số bậc tự do (df) = (số dòng - 1).(số cột - 1 ). 2 Ta có nhận xét rằng nếu giả thiết H0 đúng thì nij càng gần với nˆ ij và do đó giá trị χ nhỏ và ngược lại. 2 2 2 Với mức ý nghĩa α cho trước, tra bảng tìm χ α,df , nếu χ > χ α,df ta bác bỏ giả thiết H0 . 139 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  28. Trở lại thí dụ trên, ta tính χ2 qua bảng tính sau: Địa phương(j) A B C Tổng dòng i Số con (i) 140 240 60 Từ 2 con trở xuống 122,222 244,44 73,333 440 2,586 0,081 2,424 60 160 60 Hơn 2 con 77,777 155,555 46,666 280 4,063 0,127 3,81 Tổng cột j 200 400 120 720 (Chú thích : Trong mỗi ô có 3 dòng : Dòng 1là tần số thực nghiệm Dòng 2 là tần số lý thuyết Dòng 3 là giá trị χ2 của mỗi ô). Ta tính được tiêu chuẩn χ2 như sau: χ2 = 2,586 + 0,081 + 2,424 + 4,063 + 0,127 + 3,81 = 13,091 2 Với mức ý nghĩa 0,05 và bậc tự do df = (2 - 1).(3 - 1) = 2, tra bảng ta có giá trị của χ α,df = 2 2 2 χ 0,05; 2 = 5,991. Vì χ > χ α,df nên bác bỏ giả thiết H0, nhận H1 và kết luận tỷ lệ nữ có từ 2 con trở lên ở 3 địa phương là thực sự khác nhau (hay nói cách khác : tỷ lệ nữ có từ 2 con trở lên phụ thuộc vào từng địa phương). Những điểm cần chú ý khi sử dụng tiêu chuẩn χ2 : + Sử dụng cỡ mẫu lớn: Nếu cỡ mẫu nhỏ thì giá trị χ2 quá lớn dẫn đến loại bỏ quá nhiều giả thiết cần kiểm định. Cần tuân theo một nguyên tắc chung là không nên sử dụng tần số lý thuyết nhỏ hơn 5 đơn vị trong 1 ô của bảng phân phối ngẫu nhiên. + Sử dụng cẩn thận số liệu thu thập: Số liệu thu thập được phải đúng, nếu có nghi ngờ phải kiểm tra lại cách thu thập hoặc phương pháp tính toán, đo lường hoặc cả hai. Khi giá trị χ2 = 0, phải thận trọng đặt câu hỏi không có sự chênh lệch tuyệt đói giữa tần số thực nghiệm và tần số lý thuyết? Và kiểm tra lại số liệu. 140 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  29. BÀI TẬP 5.1. Một nhà sản xuất ô tô thay thế một động cơ khác cho các ô tô có tỉ lệ miles-per-gallon bình quân (số dặm đường/ 1 gallon nhiên liệu) là 31.5 trên đường cao tốc. Nhà sản xuất muốn kiểm tra xem liệu động cơ mới có làm thay đổi tỉ lệ miles-per-gallon của mô hình ô tô đó hay không. Một mẫu ngẫu nhiên gồm 100 cuộc chạy thử nghiệm cho x =29.8 dặm/gallon và s=6.6 dặm/gallon. Với mức ý nghĩa là 0.05, liệu tỉ lệ miles-per-gallon trên đường cao tốc của các ô tô dùng động cơ mới có khác so với các ô tô dùng động cơ cũ hay không? 5.2. Một loại thuốc chữa bệnh chứa bình quân 247 parts per million (ppm) của một loại hoá chất xác định. Nếu mức độ tập trung lớn hơn 247 ppm, loại thuốc này có thể gây ra một số phản ứng phụ; nếu mức độ tập trung nhỏ hơn 247 ppm, loại thuốc này có thể sẽ không có hiệu quả. Nhà sản xuất muốn kiểm tra xem liệu mức độ tập trung bình quân trong một lô hàng lớn có đạt mức 247 ppm yêu cầu hay không. Một mẫu ngẫu nhiên gồm 60 đơn vị được kiểm nghiệm và người ta thấy rằng trung bình mẫu là 250 ppm và độ lệch chuẩn của mẫu là 12 ppm. Hãy kiểm định rằng mức độ tập trung bình quân trong toàn bộ lô hàng là 247 ppm với mức ý nghĩa α=0.05. Thực hiện điều đó với α=0.01. Kết luận của bạn như thế nào? Bạn có quyết định gì đối với lô hàng này? Nếu lô hàng đã được bảo đảm rằng nó chứa đựng mức độ tập trung bình quân là 247 ppm, quyết định của bạn sẽ như thế nào căn cứ vào việc kiểm định giả thiết thống kê? 5.3. Một cuộc nghiên cứu được thực hiện nhằm xác định sự thoả mãn của khách hàng trong thị trường ô tô Canada sau khi đã có một số thay đổi về dịch vụ khách hàng. Giả sử rằng trước khi thay đổi, mức độ thoả mãn bình quân của khách hàng là 77 (trong thang điểm 0- 100). Một bảng câu hỏi điều tra được gửi tới một mẫu ngẫu nhiên gồm 350 người dân, những người này đã mua xe mới sau khi có sự thay đổi dịch vụ khách hàng, và mức độ thoả mãn bình quân của mẫu này là x =84, độ lệch chuẩn mẫu tìm được là s=28. Hãy lựa chọn mức ý nghĩa α và xác định liệu rằng có bằng chứng thống kê chứng tỏ có sự thay đổi trong mức độ thoả mãn của khách hàng hay không? Nếu bạn xác định rằng có sự thay đổi, hãy cho biết, theo bạn, sự thoả mãn của khách hàng được cải thiện hay giảm sút? 5.4. Một công ty dịch vụ đầu tư cho rằng mức thu nhập hằng năm bình quân của các cổ phiếu trong một ngành là 11.5%. Một nhà đầu tư muốn kiểm định xem đánh giá này có đúng hay không. Nhà đầu tư chọn một mẫu ngẫu nhiên gồm 50 cổ phiếu trong ngành. Ông ta thấy rằng mức thu nhập hằng năm bình quân của mẫu là 10.8%, và độ lệch chuẩn mẫu là 3.4%. Liệu nhà đầu tư có đủ chứng cớ để bác bỏ nhận định của công ty đầu tư đó hay không? (sử dụng α=0.05) 5.5. Tara Pearl tìm thấy một cơ hội kinh doanh đồ nội thất trị giá nhiều triệu đô la trong lĩnh vực sản xuất futon. Giá bán lẻ của futon thay đổi giữa các cửa hàng khác nhau, và người ta nhận thấy mức giá bình quân là $210 cho một futon đôi. Để kiểm định giả thiết này, giám đốc marketing của Tara lựa chọn một mẫu ngẫu nhiên gồm 120 cửa hàng và thấy rằng mức 141 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  30. giá bình quân là $225 và độ lệch chuẩn là $82. Hãy thực hiện kiểm định với α=0.05 và α=0.01. 5.6. Người ta biết rằng số ngày bình quân các khách du lịch ở trong các khách sạn của Hồng Kông là 3.4 đêm. Một nhà phân tích ngành du lịch muốn kiểm định liệu những thay đổi gần trong đặc thù ngành du lịch Hồng Kông có làm thay đổi mức bình quân này hay không. Nhà phân tích có một mẫu ngẫu nhiên về số đêm các khách du lịch ở lại các khách sạn của Hồng Kông: 5, 4, 3, 2, 1, 1, 5, 7, 8, 4, 3, 3, 2, 5, 7, 1, 3, 1, 1, 5, 3, 4, 2, 2, 2, 6, 1, 7 Hãy thực hiện kiểm định. Sử dụng mức ý nghĩa 0.05. 5.7. Một cuộc điều tra các trường kinh doanh cho thấy rằng 16% tổng số chỗ trong các trường này đang trống. Một công ty dịch vụ muốn kiểm định liệu nhận định này có đúng hay không. Họ thu thập thông tin trên một mẫu ngẫu nhiên gồm 300 chỗ lựa chọn từ các trường đại học khác nhau trong nước. Kết quả cho thấy rằng 51 trong 300 chỗ được điều tra là chỗ trống. Hãy thực hiện kiểm định. Sử dụng α=0.05. 5.8. Giả sử Công ty Goodyear Tire nắm giữ 42% thị trường bánh xe ô tô của Mỹ. Những thay đổi gần đây trong hoạt động của công ty, đặc biệt là việc đa dạng hoá lĩnh vực kinh doanh, cũng như sự thay đổi trong chính sách cạnh tranh của công ty đã đòi hỏi công ty cần kiểm định căn cứ của nhận định cho rằng nó vẫn kiểm soát 42% thị trường. Một mẫu ngẫu nhiên gồm 550 ô tô trên đường cho thấy có 219 xe có bánh xe của Goodyear. Hãy thực hiện kiểm định. Sử dụng α=0.01. 5.9. Thị phần của một công ty rất nhạy cảm với cả mức độ quảng cáo của nó và mức độ quảng cáo của các đối thủ cạnh tranh. Một công ty có thị phần là 56% muốn kiểm định liệu con số đó có còn giá trị trong bối cảnh có những chiến dịch quảng cáo mới của các đối thủ cạnh tranh và sự tăng cường hoạt động quảng cáo của chính nó. Một mẫu ngẫu nhiên gồm 500 người tiêu dùng cho thấy rằng có 298 người đang sử dụng sản phẩm của công ty. Với mức ý nghĩa là 0.01, liệu đó có phải là bằng chứng để kết luận rằng thị phần của công ty không còn là 56%? 5.10. LINC là một phần mềm do công ty Burroughs phát triển nên. Chương trình sẽ tự động viết một số mã (coding) mà người lập trình thường phải làm. Người ta cho rằng LINC sẽ giúp tiết kiệm thời gian lập trình và cho phép người lập trình làm việc hiệu quả hơn. Trong một cuộc kiểm tra, 45 người lập trình (nhóm 1) được yêu cầu viết một chương trình mà không dùng LINC và sau đó chạy chương trình cho đến khi nó có thể chạy mà không bị lỗi. Thời gian từ khi bắt đầu cho đến khi kết thúc được ghi lại. Nhóm 2 bao gồm 32 người lập trình cũng được yêu cầu viết chương trình với sự hỗ trợ của LINC. Trước khi thu thập dữ liệu, người ta người ta quyết định thực hiện one-tailed test để chứng tỏ rằng phần mềm này làm giảm thời gian lập trình bình quân. Kết quả thu thập dữ liệu là x 1=26 phút, x 2=21 142 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  31. phút, s1=8 phút, s2=6 phút. Thực hiện kiểm định và đưa ra kết luận. Liệu LINC có hiệu quả trong việc giảm thời gian lập trình hay không? 5.11. Ikarus, một hãng sản xuất xe buýt của Hungari vừa bị mất thị trường CIS quan trọng của họ. Hiện nay, công ty đang thử nghiệm một loại động cơ mới cho xe buýt của họ. Họ đã tiến hành thu thập các mẫu ngẫu nhiên sau về số dặm trên mỗi gallon đối với loại động cơ cũ và mới: Đ/cơ cũ: 8, 9, 7.5, 8.5, 6, 9, 9, 10, 7, 8.5, 6, 10, 9, 8, 9, 5, 9.5, 10, 8. Đ/cơ mới: 10, 9, 9, 6, 9, 11, 11, 8, 9, 6.5, 7, 9, 10, 8, 9, 10, 9, 12, 11.5, 10, 7, 10, 8.5 Liệu đây có phải là bằng chứng khẳng định động cơ mới có hiệu quả kinh tế hơn động cơ cũ? 5.12. Một công ty có hệ thống máy tính có thể xử lý 1200 hoá đơn trong 1 giờ. Công ty mới nhập một hệ thống máy tính mới. Hệ thống này khi chạy kiểm tra trong 40 giờ cho thấy số hoá đơn được xử lý trung bình trong 1 giờ là 1260 với độ lệch tiêu chuẩn là 215. Với mức ý nghĩa 5% hãy nhận định xem hệ thống mới có tốt hơn hệ thống cũ hay không? 5.13. Một nhà máy sản xuất săm lốp ô tô tuyên bố rằng tuổi thọ trung bình một chiếc lốp ôtô của họ là 30000 dặm. Cơ quan giám định chất lượng nghi ngờ lời tuyên bố này đã kiểm tra 100 chiếc lốp và tìm được trung bình mẫu là 29000 dặm với độ lệch tiêu chuẩn là 5000 dặm. Với mức ý nghĩa 0,05 cơ quan giám định có bác bỏ được lời quảng cáo của nhà máy trên không ? 5.14. Một nhóm nghiên cứu công bố rằng trung bình một người vào siêu thị A tiêu hết 140 ngàn đồng. Chọn ngẫu nhiên 50 người mua hàng ta tính được số tiền trung bình họ tiêu là 154 ng.đồng với độ lệch tiêu chuẩn là 62 ng.đồng. Với mức ý nghĩa 0,02 hãy kiểm định xem công bố của nhóm nghiên cứu có đúng không? 5.15. Một bản nghiên cứu thông báo rằng mức tiêu dùng hàng tháng của một sinh viên là 420 nghìn đồng. Để kiểm tra người ta chọn ngẫu nhiên 16 sinh viên và tính được trung bình mỗi tháng họ tiêu 442 nghìn đồng với độ lệch tiêu chuẩn mẫu điều chỉnh là 60 nghìn đồng. Với mức ý nghĩa 5% nhận định xem kết luận của bản thông báo có thấp hơn sự thật hay không? 5.16 Tỷ lệ khách tiêu dùng 1 loại sản phẩm ở địa phương A là 60%. Sau chiến dịch quảng cáo người ta cho rằng tỷ lệ đã tăng lên. Để kiểm tra ý kiến này người ta phỏng vấn ngẫu nhiên 400 người và thấy có 250 người tiêu dùng loại sản phẩm đó. Với mức ý nghĩa 0,05 hãy kết luận về ý kiến trên. 5.17 Người ta đưa ra giả thiết là thu nhập bình quân đầu người của địa phương A là không vượt quá 150 ng.đ/tháng và độ lệch tiêu chuẩn về thu nhập là 20ng.đ. Để kiểm định giả thiết trên người ta chọn ngẫu nhiên 100 hộ và tính được thu nhập bình quân của một người một tháng là 153 ng.đ . Với mức ý nghĩa 0,05, hãy kiểm tra giả thiết trên. 143 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  32. 5.18 Tuổi thọ trung bình của một loại bóng đèn theo quy định là 2000 giờ và độ lệch tiêu chuẩn là 36 gì. Nghi ngờ về tuổi thọ của lô bóng đèn mới sản xuất không đạt theo quy định, người ta lấy mẫu ngẫu nhiên kích thước n = 25 và kiểm tra thì thấy tuổi thọ trung bình là 1975 giờ. Với mức ý nghĩa của kiểm định là 0,01 hãy kiểm định điều nghi ngờ trên. 5.19 Một máy sản xuất bi, theo tiêu chuẩn kỹ thuật thì đường kính trung bình là 5 mm và độ lệch tiêu chuẩn là 0,025 mm. Nghi ngờ về độ chính xác của những viên bi được sản xuất ra không đảm bảo tiêu chuẩn trên, người ta chọn ngẫu nhiên 100 viên bi vừa được sản xuất ra và tính được đường kính trung bình là 4,995 mm. Hãy kiểm định về điều nghi ngờ trên với mức ý nghĩa là 0,01. 5.20 Theo quy định, trọng lượng trung bình các bao gạo trong kho là 50kg. Nghi ngờ gạo bị đóng thiếu, người ta chọn ngẫu nhiên 25 bao đem cân và thu được các kết quả sau: Trọng lượng (kg) Số bao 48,0 - 48,5 2 48,5 - 49,0 5 49,0 - 49,5 10 49,5 - 50,0 6 50,0 - 50,5 2 Với mức ý nghĩa 0,05 hãy kết luận điều nghi ngờ trên. 5.21 Tại 1 doanh nghiệp người ta xây dựng hai phương án sản xuất một loại sản phẩm. Để đánh giá xem chi phí trung bình theo hai phương án ấy có khác nhau hay không người ta tiến hành sản xuất thử và thu được các kết quả sau:(đvị: ng.đ) Phương án 1 25 32 35 38 35 Phương án 2 20 27 25 29 23 26 Chi phí theo cả hai phương án trên phân phối theo quy luật chuẩn với σ = 1,5; σ = 1,2. Với mức ý nghĩa 0,05 hãy rút ra kết luận về hai phương án trên. 5.22 Có 2 doanh nghiệp cùng sản xuất một loại sản phẩm. Người ta nghi ngờ rằng năng suất lao động bình quân của 2 DN đó khác nhau thực sự và chọn ngâũ nhiên từ mỗi DN một số công nhân để điều tra năng suất của họ. Gọi số công nhân được chọn ra ở DN thứ nhất là nhóm 1 (8 người), của DN thứ hai là nhóm 2 (10 người), ta có kết quả điều tra như sau: (sản phẩm) Nhóm 1 29 27 24 30 28 22 32 26 Nhóm 2 23 22 32 25 29 24 27 31 30 26 Với mức ý nghĩa 0,05 hãy rút ra kết luận. 144 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  33. 5.23 Công ty nước giải khát Côca - Côla đang nghiên cứu việc đưa vào một công thức mới để cải tiến sản phẩm của mình. Với công thức cũ khi cho 500 nguời dùng thử thì có 120 người ưa thích nó. Với công thức mới khi cho 1000 người khác dùng thử thì có 300 người tỏ ra ưa thích nó. Hãy kiểm định xem liệu công thức mới đưa vào có làm tăng tỷ lệ những người ưa thích Côca hay không với mức ý nghĩa là 2%? 5.24 Một bà quản lý muốn biết xem hàng hóa của mình có được bán rộng rãi trong cả nước không nên đã làm một cuộc điều tra. Bà ta chia nước thành 4 vùng, trong từng vùng chọn một mẫu ngẫu nhiên 100 người tiêu dùng để điều tra. Kết quả như sau: Đông Bắc Tây Nam Đông Nam Tây Bắc Tổng cộng Mua hàng 40 55 45 50 190 Không mua 60 45 55 50 210 hàng Cộng 100 100 100 100 400 Yêu cầu: a. Lập bảng ngẫu nhiên dự đoán và thực nghiệm cho vấn đề này b. Tính λ2 c. Kiểm định H1 và H0 d. Cho mức ý nghĩa là 0,05. Giả thuyết thay thế có bị bác bỏ không? 5.25 Một chủ toà báo muốn biết độc giả của mình nhiều hay ít có quan hệ đến trình độ học vấn của họ hay không. Ông ta tổ chức một cuộc điều tra những người lớn ở trong vùng theo hai nội dung: trình độ học vấn và việc thường xuyên đọc báo. Kết quả như bảng sau: Trình độ học vấn Sau Đại Đại họcTốt Chưa Tổng Việc học nghiệp tốt nghiệp số thường xuyên đọc báo PTTH PTTH Không đọc 7 14 13 16 50 Thỉnh thoảng đọc 13 17 7 7 44 Chỉ đọc buổi sáng hoặc chiều 39 41 10 5 95 Đọc cả hai buổi 22 23 8 12 65 Tổng cộng 81 95 38 40 254 Với mức ý nghĩa 0,1, việc thường xuyên đọc báo có phải do trình độ học vấn quyết định không? 145 THỐNG KÊ TRONG KINH DOANH Chương 5 – Kiểm định
  34. CHƯƠNG 6 KIỂM SOÁT QUÁ TRÌNH BẰNG THỐNG KÊ 1. Thế nào là kiểm soát quá trình bằng thống kê Những công cụ thống kê như là bảng thống kê, biểu đồ Pareto, biểu đồ tần số, biểu đồ quan hệ là một số trong rất nhiều công cụ quản lý chất lượng. Việc làm đó rất quan trọng để đánh giá sản phẩm và chọn quyết định đúng đắn. Nếu nhận thấy sản phẩm phù hợp thì tốt nhưng nếu sản phẩm không phù hợp thì đã muộn rồi: tình trạng không có chất lượng đã xảy ra. Tránh cho tình trạng không có chất lượng xảy ra là mục đích của mọi “chính sách sản xuất không sai sót”. Để thực hiện chính sách đó thì chúng ta phải giải quyết ba vấn đề: - Chọn một quy trình sản xuất có khả năng tạo ra toàn là những sản phẩm phù hợp với quy định kỹ thuật. - Một khi đã chọn quy trình có khả năng thì việc điều khiển nó để sản xuất một sản phẩm hay một dịch vụ phải luôn luôn phù hợp với quy định kỹ thuật. - Trong khi sản xuất thì cần cải tiến liên tục quy trình và sản phẩm. Biểu đồ kiểm soát là một công cụ có thể giải quyết những vấn đề này. Công cụ này là một loại bảng thống kê với một hay hai biểu đồ. Người ta gọi nó là phương pháp điều khiển quy trình bằng thống kê hay là SPC (Statistical Process Control). 2. Các loại khác biệt trong quá trình Điều mà ai cũng biết là hai sản phẩm không bao giờ giống nhau một cách tuyệt đối cả. Sản phẩm có thể khác nhau nhiều, khác nhau ít, nhưng thế nào cũng khác nhau vì đó là một định luật của thiên nhiên. Nếu chỉ khác biệt rất ít thì chúng ta có thể coi chúng là giống nhau. Nhưng nếu khác biệt nhiều thì chúng ta bắt buộc phải coi chúng là khác nhau. Những khác biệt có thể chia ra làm 3 loại: - Khác biệt trong cùng một đơn vị: một chiếc bánh có nơi ngọt ít và có nơi ngọt nhiều, tình trạng sần sùi của cùng một tờ giấy khác nhau từ điểm đo này đến điểm đo khác. - Khác biệt giữa hai đơn vị được sản xuất theo cùng một quy trình: khi thời tiết biến đổi đôi chút là hai thước vải cùng một loại có trọng lượng khác nhau, gió thổi hay không thổi khi chúng ta mở cửa lò là hai mẻ bánh mì sẽ ngon dòn khác nhau. - Khác biệt một cách chu kỳ: chúng ta nhận thấy nồng độ mỡ trong sữa chua khác nhau nếu vắt bò buổi sáng hay vắt bò buổi chiều, độ chua nước cốt những quả dừa khác nhau tùy mùa hái quả. 146 THỐNG KÊ TRONG KINH DOANH Chương 6 – Kiểm soát quá trình bằng thống kê
  35. Những khác biệt đó thể hiện bằng sự phân bố của những số liệu. Định luật phân bố thống kê thông thường được xác định bởi trung bình và khoảng biến thiên. Vì thế thông thường chúng ta dùng trung bình hay khoảng biến thiên hay cả hai thông số đó để theo dõi những biến động trong quy trình sản xuất. Chỉ cần một trong hai thông số đó biến đổi một cách đáng kể là chúng ta có thể nói rằng quy trình đã biến động. 3. Biểu đồ kiểm soát 3.1. Tác dụng của biểu đồ kiểm soát: Biểu đồ kiểm soát là biểu đồ mô tả ghi nhận sự thay đổi của quá trình dựa trên cơ sở mối quan hệ giữa các tham số đo xu hướng trung tâm và độ biến thiên của quá trình. Nó có tác dụng sau: + Căn cứ vào biểu đồ đó cho phép xác định vấn đề cần thay đổi, cần cải tiến. + Căn cứ vào biểu đồ cho phép nhận dạng quá trình hoạt động ổn định hay không ổn định, trên cơ sở phân biệt các nguyên nhân ảnh hửng đến sự biến thiên của quá trình. 3.2. Đặc điểm phân tích biểu đồ + Là để đánh giá xem quá trình có nằm trong phạm vi kiểm soát hay không, khi quá trình được đánh giá là nằm trong phạm vi kiểm soát, có nghĩa là những biến thiên theo đặc tính chất lượng sản phẩm là tương đối ổn định và nằm trong giới hạn đã được thiết lập. + Có 2 loại nguyên nhân gây nên biến thiên của quá trình bao gồm: - Nguyên nhân chung là những nhân tố vốn có trong điều kiện bình thường và phản ánh bản chất của quá tình. - Nguyên nhan đặc biệt hình thành do những yếu tố bất thường ngoài hệ thống. + Kiểm soát quá trình dựa vào biểu đồ được tuân thủ theo nguyên tắc cơ bản của kiểm định giả thiết. 3.3. Các bước lập và phân tích biểu đồ kiểm soát + Bước 1 : Điều tra thu thập số liệu. Lập phiếu kiểm tra, ghi chép số liệu vào phiếu kiểm tra. + Bước 2 : Tính giá trị trung bình để vẽ đường đường trung tâm CL (Central line). Đường trung tâm được xác định dựa trên cơ sở vận dụng tham số trung tâm (trung bình). + Bước 3 : Tính giá trị và vẽ các đường giới hạn kiểm soát dưới (LCL) và giới hạn kiểm soát trên (UCL). + Bước 4 : Vẽ biểu đồ kiểm soát theo các vùng kiểm soát: - Vùng A tương ứng với phạm vi chênh lệch ± 3 lần độ lệch chuẩn tính từ đường trung tâm (tương ứng với xác suất 99%) 147 THỐNG KÊ TRONG KINH DOANH Chương 6 – Kiểm soát quá trình bằng thống kê
  36. - Vùng B tương ứng với phạm vi chênh lệch ± 2 lần độ lệch chuẩn tính từ đường trung tâm với xác suất 95% - Vùng C tương ứng với phạm vi ±1 lần độ lệch chuẩn tính từ đường trung tâm với xác suất 68% UCL A B C CL CL C B A LCL Chú ý : Thông thường giá trị của đường giới hạn kiểm soát dưới và trên được tính trên cơ sở sử dụng các hằng số tính sẵn cho từng loại biểu đồ. 3.4. Phân tích biểu đồ kiểm soát: Dựa trên cơ sở vận dụng quy tắc ngoài vùng kiểm soát với 5 quy tắc cụ thể sau: - Bất kỳ giá trị nào nằm ngoài giới hạn kiểm soát Giới hạn kiểm soát trên (UCL) Đường trung tâm (CL) Giới hạn kiểm soát dưới (LCL) - Bất kỳ 2/3 điểm liên tiếp rơi vào vùng A cùng 1 phía của đường tâm hoặc nằm ngoài vùng 2δ 148 THỐNG KÊ TRONG KINH DOANH Chương 6 – Kiểm soát quá trình bằng thống kê
  37. 3δ 2δ CL 2δ 3δ - Bất kỳ 4/5 điểm liên tiếp rơi vào vùng B cùng 1 phía của đường tâm - Bất kỳ ≥ 8 điểm liên tiếp nằm cùng 1 phía của đường tâm CL 7 điểm liên tục 10 trong 11 điểm - Bất kỳ ≥ 8 điểm liên tiếp có xu hướng tăng hoặc giảm 149 THỐNG KÊ TRONG KINH DOANH Chương 6 – Kiểm soát quá trình bằng thống kê
  38. CL 3.5. Các loại biểu đồ kiểm soát: + Biểu đồ kiểm soát biến số: dựa trên số liệu theo tiêu thức số lượng: đặc tính kỹ thuật của sản phẩm Bao gồm các biểu đồ: - Biểu đồ trung bình: ví dụ trọng lượng trung bình - Biểu đồ độ lệch chuẩn (s) và biểu đồ khoảng biến thiên (R) - Biểu đồ kết hợp trung bình và khoảng biến thiên ( X - R), biểu đồ kết hợp trung bình và độ lệch chuẩn ( X - s) + Biểu đồ kiểm soát thuộc tính: căn cứ vào dữ liệu theo tiêu thức thuộc tính: biểu đồ kiểm soát tỷ lệ (biểu đồ p) và b/đồ kiểm soát sai sót (biểu đồ c). Sau đây trình bày một số dạng đơn giản, cơ bản và thường dùng: 4. Biểu đồ kiểm soát trung bình (Biểu đồ X ) - Tác dụng: sử dụng để kiểm soát đặc tính chất lượng có thể đo lường được bằng trị số cụ thể. - Phương pháp lập biểu đồ kiểm soát trung bình: dựa trên giả thiết giá trị trung bình mẫu X có đặc điểm phân phối chuẩn công thức tổng quát để xác định giới hạn kiểm soát. - Các giới hạn kiểm soát: LCL = μ − z.σx UCL = μ + z.σx (z = 3) 150 THỐNG KÊ TRONG KINH DOANH Chương 6 – Kiểm soát quá trình bằng thống kê
  39. 4.1. Trường hợp đã biết trung bình (μ)và độ lệch chuẩn (σ ) của quá trình: Đường trung tâm của biểu đồ: CL xác định tại giá trị μ σ Với σ = x n Ta có 2 giới hạn kiểm soát: σ Giới hạn kiểm soát dưới: LCL = μ − 3 n σ Giới hạn kiểm soát trên: UCL = μ + 3 n 4.2. Trường hợp chưa biết trung bình (μ)và độ lệch chuẩn (σ ) của quá trình - Căn cứ vào dữ liệu mẫu, xác định trung bình của các trung bình mẫu và sử dụng làm ước lượng cho trung bình của quá trình X X = ∑ i k là số mẫu k - Xác định trung bình của các độ lệch chuẩn mẫu Σs s = k (X − X)2 Trong đó s là các độ lệch chuẩn mẫu: s = ∑ i n −1 Trung bình của độ lệch chuẩn s là ước lượng chệch của độ lệch chuẩn của quá trình nên phải sử dụng hằng số C4 để điều chỉnh và thiết lập giới hạn kiểm soát. Các giới hạn kiểm soát được xác định như sau: s LCL = X − 3 C4 n s UCL = X + 3 C4 n Xác định hằng số C4 bằng cách tra bảng. Trong bảng tính sẵn các hằng số có thể tra 3 giá trị A3 vì : A 3 = C 4 n Khi đó: CLC = X − A3.s 151 THỐNG KÊ TRONG KINH DOANH Chương 6 – Kiểm soát quá trình bằng thống kê
  40. UCL = X + A3.s 5. Biểu đồ kiểm soát độ lệch chuẩn của quá trình (Biểu đồ s) 5.1. Trường hợp biết độ lệch chuẩn của quá trình (σ ) - Đường trung tâm CL: E(s) = C5σ Kỳ vọng độ lệch chuẩn mẫu không đảm bảo là không chệch so với độ lệch chuẩn của quá trình do vậy là cơ sở để xác định đường trung tâm của quá trình và xác định các độ lệch chuẩn của quá trình σ s = C5σ - Các giới hạn kiểm soát: LCL = C4σ − 3C5σ UCL = C4σ + 3C5σ 5.2. Trường hợp chưa biết độ lệch chuẩn của quá trình (σ ) Σs Xác định trung bình độ lệch chuẩn của các mẫu: s = k Đó là căn cứ để thiết lập biểu đồ kiểm soát: - Đường trung tâm CL: CL = s - Các giới hạn kiểm soát: C5s ⎛ C5 ⎞ LCL = s - 3 = ⎜1− 3 ⎟s = B3s C4 ⎝ C4 ⎠ C5s ⎛ C5 ⎞ UCL = s + 3 = ⎜1+ 3 ⎟s = B4s C4 ⎝ C4 ⎠ 6. Biểu đồ kiểm soát khoảng biến thiên (Biểu đồ R) - Đường trung tâm CL: ∑ R CL = R = k - Các giới hạn kiểm soát: d 3 ⎛ d 3 ⎞ R ± 3 R = ⎜1 ± 3 ⎟R d 2 ⎝ d 2 ⎠ 152 THỐNG KÊ TRONG KINH DOANH Chương 6 – Kiểm soát quá trình bằng thống kê
  41. d 3 d 3 Mà 1 − 3 = D3 và 1 − 3 = D 4 d 2 d 2 Vì vậy: LCL = D3 R UCL = D4 R 7. Biểu đồ kiểm soát tỷ lệ (Biểu đồ p) 7.1. Tác dụng + Vận dụng để lập biểu đồ kiểm soát phân tích chất lượng quá trình đối với các tiêu thức thuộc tính. + Thông thường kiểm soát: tỷ lệ phế phẩm, tỷ lệ sản phẩm không hợp chuẩn 7.2. Cách xây dựng - Trường hợp đã biết tỷ lệ của quá trình (p): Đường trung tâm được xác định bởi giá trị tỷ lệ của quá trình. CL = p p()1 − p Do σ = nên các đường giới hạn kiểm soát được xác định bằng: p n p(1− p) p ± 3 σ = p ± 3 p n - Trường hợp chưa biết tỷ lệ của quá trình (p) Với giả định các mẫu gần đây được lấy từ 1 quá trình ổn định. + Đường trung tâm CL: p CL = p = ∑ s s k Trong đó: ps là tỷ lệ từng mẫu + Các đường giới hạn kiểm soát được xác định bằng: p (1− p ) p ± 3 s s s n 153 THỐNG KÊ TRONG KINH DOANH Chương 6 – Kiểm soát quá trình bằng thống kê
  42. CÁC HẰNG SỐ CỦA BIỂU ĐỒ KIỂM SOÁT n A2 A3 B3 B4 C5 C4 d2 d3 D3 D4 2 1.88 2.659 0 3.267 0.6028 0.7979 1.128 0.853 0 3.267 3 1.023 1.954 0 2.568 0.4633 0.8862 1.693 0.888 0 2.574 4 0.729 1.628 0 2.266 0.3889 0.9213 2.509 0.880 0 2.282 5 0.577 1.427 0 2.089 0.3412 0.9400 2.326 0.864 0 2.114 6 0.483 1.287 0.029 1.970 0.3076 0.9515 2.534 0.848 0 2.004 7 0.419 1.182 0.113 1.882 0.2820 0.9594 2.704 0.833 0.076 1.924 8 0.373 1.000 0.179 1.815 0.2622 0.9650 2.847 0.820 0.136 1.864 9 0.337 1.032 0.232 1.761 0.2459 0.9693 2.970 0.808 0.184 1.816 10 0.300 0.075 0.276 1.716 0.2321 0.9727 3.078 0.797 0.223 1.777 11 0.285 0.927 0.313 1.679 0.9754 3.173 0.787 0.258 1.744 12 0.266 0.886 0.346 1.646 0.9776 3.258 0.778 0.283 1.717 13 0.294 0.850 0.374 1.618 0.9794 3.336 0.770 0.307 1.693 14 0.235 0.817 0.399 1.594 0.9810 3.407 0.763 0.328 1.672 15 0.223 0.789 0.421 1.572 0.9823 3.472 0.756 0.347 1.653 16 0.212 0.763 0.440 1.552 0.9835 3.532 0.750 0.363 1.637 17 0.203 0.739 0.458 1.534 0.9845 3.588 0.744 0.378 1.622 18 0.194 0.718 0.475 1.518 0.9854 3.640 0.739 0.391 1.608 19 0.187 0.698 0.490 1.503 0.9862 3.689 0.734 0.403 1.597 20 0.180 0.680 0.504 1.490 0.9869 3.735 0.729 0.415 1.585 154 THỐNG KÊ TRONG KINH DOANH Chương 6 – Kiểm soát quá trình bằng thống kê
  43. BÀI TẬP 6.1 Một nhà máy sản xuất loại vòng bi dùng cho một loại đông cơ có đường kính lồng trục là 5cm với độ lệch chuẩn là 0,04cm. Cán bộ phụ trách quy trình sản xuất đã điều tra trong 10 ngày các mẫu gồm 5 vòng bi và xác định được kết quả như sau: Đường kính đo được của các vòng bi (cm) Mẫu số 1 2 3 4 5 1 5.02 5.01 4.94 4.99 4.96 2 5.01 5.03 5.07 4.95 4.96 3 4.99 5.00 4.93 4.92 4.99 4 5.03 4.91 5.01 4.98 4.89 5 4.95 4.92 5.03 5.05 5.01 6 4.97 5.06 5.06 4.96 5.03 7 5.05 5.01 5.10 4.96 4.99 8 5.09 5.10 5.00 4.99 5.08 9 5.14 5.10 4.99 5.08 5.09 10 5.01 4.98 5.08 5.07 4.99 a. Xác định các giới hạn kiểm soát, vẽ biểu đồ trung bình và phân tích tình trạng của quá trình b. Lập biểu đồ khoảng biến thiên và phân tích biến động của quá trình 6.2. Một công ty sản xuất kem đánh răng muốn khắc phục vấn đề về tình trạng rò rỉ các tuýp kem đánh răng. Công ty thường đóng thành từng thùng chứa 100 tuýp kem đánh răng. Công ty đã chọn kiểm tra 10 thùng và xác định được số lượng tuýp bị rò rỉ như sau: Mẫu Số bị rò rỉ Mẫu Số bị rò rỉ 1 4 6 6 2 8 7 10 3 12 8 9 4 11 9 5 5 12 10 8 a. Loại biểu đồ kiểm soát nào có thể sử dụng thích hợp để phân tích biến động quá trình dựa vào dữ liệu trên? Tại sao? b. Lập biểu đồ và phân tích tình trạng của quá trình 155 THỐNG KÊ TRONG KINH DOANH Chương 6 – Kiểm soát quá trình bằng thống kê
  44. 6.3 Một công ty dệt thực hiện kiểm soát chất lượng sản xuất của một loại vải. Hàng ngày, kiểm tra viên thực hiện đếm số lỗi xuất hiện. Trong giai đoạn ba tuần lễ kiểm tra viên kiểm tra từ 15 cuộn vải và ghi được kết quả như sau: Mẫu Số sai sót Mẫu Số sai sót Mẫu Số sai sót 1 12 6 11 11 12 2 8 7 9 12 10 3 16 8 14 13 14 4 14 9 13 14 17 5 10 10 15 15 15 Công ty tin rằng khoảng chừng 99% các sai sót là do các biến thiên ngẫu nhiên trong quá trình dệt gây ra, chỉ có 1% biến thiên là do nguyên nhân không ngẫu nhiên. Hãy lập biểu đồ kiểm soát và phân tích tình trạng của quá trình trên 156 THỐNG KÊ TRONG KINH DOANH Chương 6 – Kiểm soát quá trình bằng thống kê
  45. CHƯƠNG 7 HỒI QUY VÀ TƯƠNG QUAN Trên thực tế, chúng ta thường xuyên phải đưa ra những quyết định trong quản trị kinh doanh. Đó là những quyết định về một vấn đề mà nó có mối quan hệ tới nhiều yếu tố xung quanh và chịu ảnh hưởng bới sự tác động của những yếu tố đó. Chẳng hạn: Một công ty quyết định tăng chi phí quảng cáo và muốn dự đoán mức doanh thu tương ứng; hoặc một giám đốc bán hàng muốn dự đoán mức bán hàng của từng nhân viên dựa trên số khách hàng từng nhân viên hiện đang có. Người vượt mức sẽ được thưởng và người không đạt sẽ được đào tạo thêm Một trong những phương pháp đáp ứng được yêu cầu đó là phương pháp phân tích hồi quy và tương quan. Nội dung chương này sẽ đề cập đến các nội dung chủ yếu sau: - Mối liên hệ giữa các hiện tượng kinh tế xã hội và nhiệm vụ của phương pháp hồi quy tương quan - Xác định mô hình hồi quy tuyến tính đơn. - Đánh giá cường độ của mối liên hệ. - Ước lượng các giá trị trong tương lai dựa vào mô hình hồi quy. - Mô hình Hồi quy bội 1. Mối liên hệ giữa các hiện tượng và phương pháp hồi quy tương quan. 1.1. Liên hệ hàm số và liên hệ tương quan Các hiện tượng tồn tại trong mối liên hệ phụ thuộc lẫn nhau. Phương pháp phân tích hồi quy và tương quan là một trong những phương pháp thường được sử dụng trong thống kê để nghiên cứu mối liên hệ phụ thuộc đó. Khi nghiên cứu mối liên hệ phụ thuộc, nếu xét theo mức độ chặt chẽ của mối liên hệ, có thể phân thành hai loại : liên hệ hàm số và liên hệ tương quan . a. Liên hệ hàm số Liên hệ hàm số là mối liên hệ hoàn toàn chặt chẽ (khi hiện tượng này thay đổi có tác dụng quyết định đến sự thay đổi của hiện tượng có liên quan theo một tỷ lệ nhất định) giữa tiêu thức nguyên nhân - ký hiệu là x và tiêu thức kết quả - ký hiệu là y. Dạng tổng quát của liên hệ hàm số : y= f(x) . Điều đó có nghĩa là cứ mỗi giá trị của tiêu thức nguyên nhân sẽ có một giá trị tương ứng của tiêu thức kết quả. Mối liên hệ này có thể thấy được không những ở toàn bộ tổng thể, mà cả trên từng đơn vị cá biệt. Liên hệ hàm số thường gặp khi nghiên cứu các hiện tượng tự nhiên như trong vật lý, hoá học, v.v Chẳng hạn: S = v.t (quãng đường bằng vận tốc nhân với thời gian). b. Liên hệ tương quan 157 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  46. Liên hệ tương quan là mối liên hệ không hoàn toàn chặt chẽ giữa tiêu thức nguyên nhân (biến độc lập) và tiêu thức kết quả (bến phụ thuộc): cứ mỗi giá trị của tiêu thức nguyên nhân sẽ có nhiều giá trị tương ứng của tiêu thức kết quả. Thí dụ: mối liên hệ giữa số lượng sản phẩm và giá thành đơn vị sản phẩm. Không phải khi khối lượng sản phẩm tăng lên thì giá thành đơn vị sản sẽ giảm theo một tỷ lệ tương ứng. Cũng như mối liên hệ giữa số lượng phân bón và năng suất cây trồng, mối liên hệ giữa vốn đầu tư và kết quả sản xuất v.v Các mối liên hệ này là các mối liên hệ không hoàn toàn chặt chẽ, không được biểu hiện một cách rõ ràng trên từng đơn vị cá biệt. Do đó, để phản ảnh mối liên hệ tương quan thì phải nghiên cứu hiện tượng số lớn - tức là thu thập tài liệu về tiêu thức nguyên nhân và tiêu thức kết quả của nhiều đơn vị. Liên hệ tương quan thường gặp khi nghiên cứu các hiện tượng kinh tế - xã hội. 1.2 Nhiệm vụ của phân tích hồi quy và tương quan Phân tích hồi quy và tương quan giải quyết hai nhiệm vụ cơ bản sau đây: 1.2.1. Xác định mô hình hồi quy phản ánh mối liên hệ Căn cứ vào nhiệm vụ nghiên cứu cụ thể để chọn ra một, hai, ba, v.v tiêu thức nguyên nhân và một tiêu thức kết quả. Các tiêu thức nguyên nhân được chọn là các tiêu thức có ảnh hưởng lớn đến tiêu thức kết quả. Để giải quyết vấn đề này đòi hỏi phải có sự phân tích một cách sâu sắc bản chất của mối liên hệ trong điều kiện lịch sử cụ thể. Đây là vấn đề trước tiên quyết định sự thành công của nghiên cứu hồi quy. Từ đó có thể xây dựng mô hình hồi quy giữa một tiêu thức nguyên nhân và một tiêu thức kết quả và được gọi mô hình hồi quy đơn. Mô hình hồi quy đơn có thể là mô hình tuyến tính (mô hình đường thẳng) hoặc mô hình phi tuyến tính (mô hình đường cong). Việc xác định dạng cụ thể mô hình hồi quy đơn có thể dựa vào đồ thị kết hợp với kinh nghiệm nghiên cứu. Hoặc có thể xây dựng mô hình hồi quy giữa hai, ba, v.v tiêu thức nguyên nhân và một tiêu thức kết quả. Mô hình này thường được xây dựng dưới dạng tuyến tính và được gọi là mô hình hồi quy tuyến tính bội. Các bước tiến hành để giải quyết nhiệm vụ thứ nhất như sau: - Giải thích sự tồn tại thực tế và bản chất của mối liên hệ bằng phân tích lý luận (đặt vấn đề). - Thăm dò (mô tả) mối liên hệ bằng các phương pháp thống kê. - Xác định phương trình hồi quy. - Giải thích ý nghĩa của các tham số. 1.2.2. Đánh giá mức độ chặt chẽ của mối liên hệ tương quan 158 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  47. Việc đánh giá mức độ chặt chẽ của mối liên hệ tương quan được thực hiện thông qua việc tính toán hệ số tương quan, tỷ số tương quan, hệ số tương quan bội, hệ số tương quan riêng phần. Dựa vào kết quả tính toán có thể kết luận về mức độ chặt chẽ của mối liên hệ, giúp cho việc nhận thức hiện tượng được sâu sắc, từ đó đề ra những giải pháp cụ thể. 1.2.3. Đánh giá sự phù hợp của mô hình Đánh giá sự phù hợp của mô hình qua hệ số xác định. Đồng thời còn giúp ta quyết định xem có thể sử dụng mô hình đã có để dự đoán hay không. 1.3. Ý nghĩa phân tích hồi quy và tương quan - Phương pháp phân tích hồi quy và tương quan là phương pháp thường được sử dụng trong thống kê để nghiên cứu mối liên hệ giữa các hiện tượng, như mối liên hệ giữa các yếu tố đầu vào của quá trình sản xuất với kết quả sản xuất, mối liên hệ giữa thu nhập và tiêu dùng, mối liên hệ giữa phát triển kinh tế và phát triển xã hội, v.v - Phương pháp phân tích hồi quy và tương quan còn được vận dụng trong một số phương pháp nghiên cứu thống kê khác như phân tích dãy số thời gian, dự đoán thống kê, v.v 2. Xác định mô hình hồi quy tuyến tính đơn (Liên hệ tương quan tuyến tính giữa hai tiêu thức số lượng) 2.1. Giải thích mô hình tuyến tính - Mô hình hồi quy tuyến tính của tổng thể chung. Yμx = β0 + β1Xi - Mô hình tuyến tính của tổng thể mẫu. ˆ Yi = b0 + b1Xi Trong đó: b0 là hệ số chặn của Y được dùng để ước lượng β0 b1 là độ dốc (hệ số hồi quy) dùng để ước lượng β1 2.2. Tính toán các tham số - Dùng phương pháp bình phương nhỏ nhất: Tối thiểu hoá tổng bình phương các độ lệch giữa giá trị thực tế và giá trị dự đoán của biến phụ thuộc. 2 ∑()yi − yˆ = min - Tính toán các tham số: + Giải hệ phương trình: 159 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  48. ⎪⎧∑ y = b 0 .n + b1.∑ x ⎨ 2 ⎩⎪∑ xy = b 0 .∑ x + b1.∑ x + Tính trực tiếp: xy − x.y b1 = 2 σ x b0 = y − b1.x Thí dụ: Có tài liệu về số lao động và giá trị sản xuất (GO) của mười doanh nghiệp công nghiệp như sau: Lao động GO (người) (tỷ đ) 60 9,25 78 8,73 90 10,62 115 13,64 126 10,93 169 14,31 198 22,10 226 19,17 250 25,20 300 27,50 Trong mối liên hệ giữa số lượng lao động và giá trị sản xuất thì số lượng lao động là tiêu thức nguyên nhân - ký hiệu là x, giá trị sản xuất là tiêu thức kết quả - ký hiệu là y. Tài liệu trên cho thấy nhìn chung cùng với sự tăng lên của số lượng lao động thì giá trị sản xuất cũng tăng lên, nhưng cũng có trường hợp không hẳn như vậy - như doanh nghiệp thứ hai so với doanh nghiệp thứ nhất : số lao động nhiều hơn nhưng giá trị sản xuất lại thấp hơn. Điều này chứng tỏ giữa số lượng lao động và giá trị sản xuất có mối liên hệ không hoàn toàn chặt chẽ - tức là liên hệ tương quan. Có thể dùng đồ thị để biểu hiện mối liên hệ trên với trục hoành là số lao động (x), trục tung là giá trị sản xuất (y) như sau : y . . . . 160 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  49. . . . . 0 x Trên đồ thị có mười chấm, mỗi chấm biểu hiện số lao động và giá trị sản xuất của từng doanh nghiệp. Các chấm trên đồ thị tạo thành một băng đường thẳng, từ đó có thể xây dựng mô hình hồi quy tuyến tính như sau : yˆ x = b 0 + b1 x Trong đó : yˆ x là giá trị của tiêu thức kết quả được tính từ mô hình hồi quy. b 0 là hệ số tự do , phản ảnh yˆ x không phụ thuộc vào x . b1 là hệ số góc , phản ảnh sự thay đổi của yˆ x khi x tăng một đơn vị. 2 Để tìm b 0 và b1 cần tính Σ x , Σ y , Σ xy , Σx bằng cách lập bảng sau : x y xy x 2 y 2 60 9,25 555,00 3600 85,5625 78 8,73 680,94 6084 76,2129 90 10,62 955,80 8100 112,7844 115 13,64 1568,60 13225 186,0496 126 10,93 1377,18 15876 119,4649 169 14,31 2418,39 28561 204,7761 198 22,10 4375,80 39204 488,4100 226 19,17 4332,42 51076 367,4889 250 25,20 6300,00 62500 635,0400 300 27,50 8250,00 90000 756,2500 Σ x=1612 Σ y=161,45 Σ xy= Σ x 2 = Σ y 2 = 30814,13 318226 3032,039 Thay số liệu vào hệ phương trình trên : 161 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  50. 161,45 = 10 b 0 + 1612 b 1 30814,13 = 1612 b 0 + 318226 b 1 Giải hệ phương trình, sẽ được: b 0 =2,927 , b 1 = 0,082 Mô hình hồi quy tuyến tính phản ảnh mối liên hệ giữa số lượng lao động và giá trị sản xuất là : yˆ x = 2,927 + 0,082 x Hoặc có thể tính b 0 và b 1 theo công thức : xy − x * y b1 = 2 σx b0 = y − b1x Với : xy = ( Σ xy) /n = 30814,13/10 =3081,413 x = ( Σ x)/n =1612 /10 = 161,2 y = (Σ y) / n = 161,45 / 10 = 16,145 2 2 2 2 σ x = x - ( x ) = (318226 /10) - 161,2 = 5837,16 Từ đó tính được : 3081,413 −161,2 *16,145 b = = 0,082 1 5837,16 b 0 = 16,145 - 0,082 * 161,2 = 2,927 Thí dụ trên đây nhằm trình bày phương pháp xây dựng mô hình hồi quy nên số lượng đơn vị được nghiên cứu không nhiều. Trong thực tế, số lượng đơn vị được nghiên cứu có thể hàng trăm đơn vị, khi đó các chấm trên đồ thị sẽ rất nhiều và tạo thành như một “ đám mây “. Nhiều kinh nghiệm nghiên cứu cho thấy nếu “đám mây” có dạng hình elíp hoặc hình bình hành thì có thể xây dựng mô hình hồi quy tuyến tính. 2.3. Giải thích ý nghĩa các tham số - Tham số b0 : Phản ánh ảnh hưởng của tất cả các nhân tố khác ngoài nhân tố đang nghiên cứu tới biến kết quả. - Tham số b1 : Phản ánh ảnh hưởng của nhân tố đang nghiên cứu tới biến kết quả. Cụ thể mỗi khi biến giải thích thay đổi (tăng lên) 1 đơn vị thì biến kết quả thay đổi (tăng lên) b1 đơn vị. 162 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  51. Trở lại thí dụ trên: b 0 =2,927 , nói lên các nguyên nhân khác, ngoài x, ảnh hưởng đến GO. b 1 = 0,082 , nói lên khi thêm một lao động thì GO tăng bình quân 0,082 tỷ đồng 2.4. Kiểm định hệ số hồi quy - Dùng tiêu chuẩn kiểm định T-Student để kiểm định hệ số hồi quy β1 với ý nghĩa “liệu thực sự có mối liên hệ tuyến tính giữa x và y hay không?”. - Cặp giả thiết không và giả thiết đối là: H0 : β1 =0 (không có mối liên hệ tuyến tính) H1 : β1 ≠ 0 (có mối liên hệ tuyến tính) - Tiêu chuẩn kiểm định: b − β Syx t = 1 1 Trong đó: S = b1 n Sb1 ∑()X i − X i=1 Với n-2 bậc tự do. 2.5. Sai số chuẩn của mô hình Dùng trong dự đoán các giá trị tương lai. n ()y − yˆ 2 SSE ∑ i i S = = i=1 yx n − 2 n − 2 (Độ lệch chuẩn của sự biến thiên của các quan sát xung quanh đường hồi quy). 3. Đánh giá cường độ của mối liên hệ, sự phù hợp của mô hình 3.1. Đánh giá cường độ của mối liên hệ Hệ số tương quan: là chỉ tiêu đánh giá trình độ chặt chẽ của mối liên hệ tương quan tuyến tính giữa hai tiêu thức. - Công thức: xy − x.y r = σx .σy σ r = b x σy Từ thí dụ trên: 163 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  52. 3081,413 −161,2 *16,145 r = = 0,961 5837,16 * 42,54 Hoặc: 5837,16 r = 0,082 = 0,961 42,54 - Tính chất của hệ số tương quan: - r nằm trong khoảng []−1;1 , tức là : -1 ≤ r ≤ 1 . Cụ thể: - nếu r = 1 ( hoặc r = -1) : giữa x và y có mối liên hệ hàm số. - nếu r = 0 : giữa x và y không có mối liên hệ tương quan tuyến tính. - nếu r → 1 ( hoặc r →-1) giữa x và y có mối liên hệ càng chặt chẽ. - nếu r dương : giữa x và y có mối liên hệ thuận, nếu r âm : giữa x và y có mối liên hệ nghịch. Trong ví dụ trên, r = 0,961 cho thấy : mối liên hệ giữa số lượng lao động và giá trị sản xuất rất chặt chẽ và đây là mối liên hệ thuận. 3.2. Đánh giá sự phù hợp của mô hình Dùng hệ số xác định: r2 Phản ánh tỷ lệ % sự thay đổi của Y được giải thích bởi mô hình (hay bởi sự thay đổi của X). 4. Ước lượng giá trị trong tương lai dựa vào mô hình hồi quy 4.1. Khoảng tin cậy của dự đoán - Ước lượng khoảng tin cậy cho μyx (trung bình của tổng thể chung với một giá trị cá biệt Xi nào đó): 2 ˆ 1 (X i − X ) Yi ± tα / 2;n−2 ⋅ S yx ⋅ + n n 2 ∑()X i − X i=1 - Ước lượng khoảng tin cậy cho từng giá trị riêng biệt của Y với mỗi giá trị cá biệt Xi : 2 ˆ 1 (X i − X ) Yi ± tα / 2;n−2 ⋅ S yx ⋅ 1+ + n n 2 ∑()X i − X i=1 4.2. Các nhân tố ảnh hưởng đến khoảng tin cậy 164 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  53. - Độ tin cậy (1 - α) - Quy mô mẫu. 5. Mô hình hồi quy bội • Mô hình hồi quy bội biểu diễn mối liên hệ giữa một biến phụ thuộc (biến kết quả) với hai hay nhiều biến độc lập (hay biến giải thích, biến nguyên nhân) bằng một hàm tuyến tính. - Mô hình hồi quy bội của tổng thể chung Yi = β0 + β1X1i + β2 X 2i + ⋅⋅⋅ + βp X pi + εi - Mô hình hồi quy bội của tổng thể mẫu ˆ Yi = b0 + b1X1i + b2X 2i + ⋅⋅⋅ + bp X pi • Các tham số của mô hình cũng được xác định bằng phương pháp bình phương nhỏ nhất (SPSS) • Có thể dùng mô hình để dự đoán giá trị của biến phụ thuộc khi biết các giá trị trong tương lai của các biến độc lập. • Hệ số xác định bội r2 (= SSR/ SST) cũng dùng để đánh giá sự phù hợp của mô hình. • Kiểm định mô hình: - Kiểm định mức ý nghĩa chung: Dùng tiêu chuẩn kiểm định F để kiểm định sự phụ thuộc của Y với tất cả các biến độc lập Xi. Cặp giả thiết: H0 : β1 = β2 = • • • = βp = 0 (không có mối liên hệ tuyến tính) H1 : Tồn tại ít nhất một βi ≠ 0 (có ít nhất một biến độc lập ảnh hưởng tới Y) - Kiểm định các hệ số hồi quy: Dùng kiểm định t để xem liệu có mối liên hệ thực sự giữa từng biến độc lập Xi với biến phụ thuộc Y hay không. Cặp giả thiết: H0 : βi = 0 (không có mối liên hệ tuyến tính) H1 : βi ≠ 0 (có mối liên hệ tuyến tính giữa Xi và Y) • Xây dựng mô hình: - Lựa chọn biến giải thích (nguyên nhân): Vấn đề đặt ra khi xây dựng mô hình hồi quy bội là chọn bao bao nhiêu biến giải thích. Về lý thuyết, có thể nói rằng: nếu số biến giải thích được chọn ra càng nhiều thì càng phản ánh một cách đầy đủ mối liên hệ, song việc thu thập tài liệu và tính toán càng trở nên phức tạp. Do vậy chỉ nên chọn những biến có tác 165 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  54. động lớn, dễ giải thích và không hoặc ít có liên hệ với nhau (tránh hiện tượng đa cộng tuyến). - Dùng phương pháp hồi quy từng bước (stepwise) để lựa chọn mô hình tốt nhất (SPSS). - Lựa chọn mô hình tốt nhất: Là mô hình có r2 lớn nhất, và sai số của mô hình nhỏ nhất. 166 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  55. BÀI TẬP 7.1. Mô hình thống kê là gì? 7.2. Các bước xây dựng mô hình? 7.3. Các giả thiết của mô hình hồi quy tuyến tính đơn? (simple linear regression) 7.4. Xác định các tham số của mô hình hồi quy tuyến tính đơn? 7.5. Các tác dụng của mô hình hồi quy 7.6. Mục đích và ý nghĩa của sai số trong hồi quy? 7.7. Đưa ra ví dụ về các tình huống kinh doanh mà bạn cho rằng có một mối quan hệ đường thẳng giữa hai biến số. Tác dụng của mô hình hồi quy trong từng trường hợp là gì? 7.8. Hãy giải thích những ưu điểm của phương pháp bình phương nhỏ nhất? Cho biết cách thực hiện. 7.9. Gần đây, một nhóm nghiên cứu đã tập trung vào vấn đề dự đoán thị phần của nhà sản xuất bằng cách sử dụng thông tin về chất lượng sản phẩm của họ. Giả sử rằng các số liệu sau là thị phần đã có tính theo đơn vị phần trăm (%) (Y) và chất lượng sản phẩm theo thang điểm 0-100 được xác định bởi một quy trình định giá khách quan (X). X: 27, 39, 73, 66, 33, 43, 47, 55, 60, 68, 70, 75, 82. Y: 2, 3, 10, 9, 4, 6, 5, 8, 7, 9, 10, 13, 12. Hãy ước lượng mối quan hệ hồi quy tuyến tính đơn giữa thị phần và chất lượng sản phẩm. 7.10. Số liệu sau so sánh chỉ số Standard & Poor 500 và tỷ giá đồng đô la Mỹ so với Mark Đức từ tháng 12/1995 đến tháng 6/1997. Có mối quan hệ tuyến tính giữa hai biến số hay không? Bạn có thể nói rằng một biến là nguyên nhân của biến kia hay không? Tháng Chỉ số Standard & Poor 500 Tỷ giá đồng đô la Mỹ so với Mark Đức 12/95 610 110 1/96 620 111 2 660 109 3 640 109 4 640 108 5 670 107 6 665 107 7 640 107 8 670 108 9 690 107 10 725 108 11 745 107 12 740 105 167 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  56. 1/97 760 104 2 785 104 3 810 104 4 760 104 5 840 103 6 900 102 Hãy tính toán hệ số tương quan. 7.11. Đối với tình huống trong bài tập 6.9, tìm sai số chuẩn (standard errors) của các ước lượng trong các tham số hồi quy (regression parameters). Đồng thời đưa ra khoảng tin cậy 95% cho hệ số hồi quy thực tế. Liệu rằng 0 có phải là giá trị đáng tin cậy cho hệ số góc hồi quy thực tế (true regression slope) với độ tin cậy 95% hay không? 7.12. Sự khác nhau cơ bản giữa phân tích tương quan (correlation) và phân tích hồi quy là gì? 7.13. Dữ liệu sau là giá so sánh của vàng và đồng trong giai đoạn 10 năm. Giả sử giá so sánh này thu được từ một mẫu ngẫu nhiên của một tổng thể các giá trị có thể có. Kiểm định sự tồn tại của tương quan tuyến tính giữa hai giá trị so sánh của hai kim loại này. Vàng: 76, 62, 70, 59, 52, 53, 53, 56, 57, 56 Đồng: 80, 68, 73, 63, 65, 68, 65, 63, 65, 66 7.14. Một phân tích hồi quy giữa hiệu quả sử dụng nhiên liệu (X) và doanh thu bán các loại máy bay khác nhau (Y) của một công ty chứa đựng các kết quả sau: b1 = 2.435, s(b1) = 1.567 và n = 12. Bạn có cho rằng tồn tại mối quan hệ tuyết tính giữa doanh số bán máy bay của công ty và hiệu quả sự dụng nhiên liệu của máy bay? 7.15. Với tình huống trong bài 6.9, hãy kiểm định sự tồn tại của mối quan hệ tuyến tính giữa hai biến số. 7.16. Kết quả một cuộc nghiên cứu được đăng trên tạp chí Phân tích Tài chính bao gồm một phân tích hồi quy tuyến tính đơn giữa mức chi cho quỹ hưu trí (Y) và lợi nhuận của doanh nghiệp. Hệ số xác định là r2 = 0.02. (kích thước mẫu là 515) a. Bạn có sử dụng mô hình hồi quy để dự báo mức chi cho quỹ hưu trí hay không? b. Mô hình có giải thích nhiều lắm sự biến đổi của mức chi cho quỹ hưu trí theo mức lợi nhuận hay không? c. Theo bạn, kết quả hồi quy đó có đủ giá trị để báo cáo hay không? Giải thích? 7.17. Trong vài năm gần đây, Mita, một nhà sản xuất máy copy đã chi thêm một khoản tiền vào việc quảng cáo trên đài và truyền hình. Một nhà phân tích của công ty Mita muốn ước lượng hồi quy tuyến tính đơn giữa doanh số bán máy copy với chi phí quảng cáo. Kết quả hồi quy bao gồm: SSE = 12,745 và SSR = 87,691. 168 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  57. Xác định coefficient of determination của hồi quy này. Bạn có cho rằng mô hình này có thể là một công cụ hữu ích để dự đoán doanh số dựa trên chi phí quảng cáo? Giải thích? 7.18. Một người muốn xem xét ảnh hưởng của diện tích (feet vuông) và khoảng cách từ trung tâm thành phố (dặm) tói giá trị của các ngôi nhà (ngàn đô la) tại một vùng nhất định. 9 ngôi nhà được lựa chọn ngẫu nhiên và dữ liệu thu được như sau: Y (giá trị): 345, 238, 452, 422, 328, 375, 660, 466, 290 X1 (diện tích): 1650, 1870, 2230, 1740, 1900, 2000, 3200, 1860, 1230 X2 (khoảng cách): 3.5, 0.5, 1.5, 4.5, 1.8, 0.1, 3.4, 3.0, 1.0 Tính toán các ước lượng của các hệ số hồi quy và giải thích ý nghĩa của chúng. 169 THỐNG KÊ TRONG KINH DOANH Chương 7 – Hồi quy và tương quan
  58. CHƯƠNG 8 PHÂN TÍCH DÃY SỐ THỜI GIAN Mặt lượng của hiện tượng thường xuyên biến động qua thời gian, việc nghiên cứu sự biến động này được thực hiện trên cơ sở phân tích dãy số thời gian. Qua dãy số thời gian có thể phân tích đặc điểm biến động của hiện tượng qua thời gian, phân tích tính quy luật của sự phát triển hiện tượng bằng các mô hình. Trên cơ sở nhận thức đặc điểm và tính quy luật biến động của hiện tượng có thể thực hiện các dự đoán cho mức độ của hiện tượng trong tương lai. Có rất nhiều các phương pháp phân tích và dự đoán khác nhau được sử dụng với dãy số thời gian, trong phạm vi chương này đề cập đến một số phương pháp cơ bản, phổ biến, hiệu quả và được trình bày thành các nội dung sau : - Khái niệm chung về dãy số thời gian - Phân tích đặc điểm biến động của hiện tượng qua thời gian - Phân tích các thành phần của dãy số thời gian - Dự đoán dựa trên cơ sở dãy số thời gian. 1. Khái niệm chung về dãy số thời gian. 1.1 Khái niệm dãy số thời gian Dãy số thời gian là dãy các số liệu thống kê của hiện tượng nghiên cứu được sắp xếp theo thứ tự thời gian . Thí dụ 1: Có tài liệu về giá trị sản xuất (GO) của doanh nghiệp A qua một số năm như sau. Dãy số thời gian này phản ánh GO của doanh nghiệp từ năm 2003 đến năm 2007: Năm 2002 2003 2004 2005 2006 2007 GO (tỷ đồng) 10,0 12,5 15,4 17,6 20,2 22,9 Thí dụ 2: Có tài liệu về giá trị hàng hóa tồn kho của cửa hàng B vào các ngày đầu của 4 tháng đầu năm 2007 như sau: Thời gian 1 - 1 1 - 2 1 - 3 1 - 4 Lượng hàng hoá 356 364 370 352 tồn kho (Trđ) Dãy số trên phản ánh giá trị hàng hóa tồn kho tại ngày đầu mỗi tháng năm 2007, các ngày khác trong tháng thì giá trị hàng hoá tồn kho có thể thay đổi do việc xuất, nhập hàng hoá thường xẩy ra trong quá trình kinh doanh. Qua hai thí dụ trên cho thấy một dãy số thời gian gồm hai thành phần: Thời gian và chỉ tiêu về hiện tượng nghiên cứu. 170 THỐNG KÊ TRONG KINH DOANH Chương 8 – Phân tích dãy số thời gian
  59. - Thời gian có thể là ngày, tuần, tháng, quý, năm Độ dài giữa hai thời gian liền nhau gọi là khoảng cách thời gian. Dãy số thời gian ở trên có khoảng cách thời gian là một năm. - Chỉ tiêu về hiện tượng nghiên cứu gồm tên chỉ tiêu và trị số của chỉ tiêu với đơn vị tính thích hợp. Các trị số của chỉ tiêu có thể được biểu hiện bằng số tuyệt đối, số tương đối , số bình quân và được gọi là các mức độ của dãy số (y1, y2, . Yn) 1.2 Các loại dãy số thời gian Tùy theo hình thức biểu hiện của các mức độ trong dãy số thời gian mà có thể phân loại như sau: - Dãy số tuyệt đối: Là dãy mà các mức độ được biểu hiện bằng số tuyệt đối. Tuỳ theo ý nghĩa phản ánh của các mức độ mà dãy số tuyệt đối được chia ra làm hai loại: + Dãy số thời kỳ: Dãy số thời kỳ là dãy số mà các mức độ là những số tuyệt đối thời kỳ, phản ánh quy mô (khối lượng) của hiện tượng trong từng khoảng thời gian nhất định. Thí dụ 1 ở trên là một dãy số thời kỳ, mỗi mức độ của dãy số phản ánh kết quả sản xuất của doanh nghiệp trong khoảng thời gian từng năm. Từng mức độ của dãy số có sự tích luỹ về lượng qua thời gian do đó có thể cộng dồn các mức độ qua thời gian để có mức độ trong khoảng thời gian dài hơn. +Dãy số thời điểm: Dãy số thời điểm là dãy số mà các mức độ là những số tuyệt đối thời điểm, phản ánh quy mô (khối lượng) của hiện tượng tại những thời điểm nhất định hay nó phản ánh trạng thái của hiện tượng tại thời điểm đó (thí dụ 2). Các mức độ của dãy số thời điểm không phải là sự cộng dồn của các mức độ trước đó (sẽ không có ý nghĩa nếu cộng các mức độ liền nhau). - Dãy số tương đối: Dãy số mà các mức độ biểu hiện bằng số tương đối. Chẳng hạn dãy số của chỉ tiêu tốc độ phát triển doanh thu của một doanh nghiệp hoặc cơ cấu kinh tế thay đổi theo thời gian, - Dãy số bình quân: Là dãy số mà các mức độ của nó biểu hiện bằng số bình quân. Chẳng hạn dãy số của chỉ tiêu năng suất lao động qua thời gian, thu nhập bình quân đầu người . 1.3. Tác dụng của dãy số thời gian - Cho phép thống kê phân tích và nhận thức được các đặc điểm về sự biến động của hiện tượng qua thời gian - Cho phép nhận thức về xu hướng và tính quy luật của sự phát triển hiện tượng, trong đó bao gồm cả việc phân tích các thành phần của dãy số thời gian. - Dựa trên cơ sở những phân tích đặc điểm và tính quy luật ở trên có thể dự đoán các mức độ của hiện tượng trong tương lai (trong thống kê gọi là dự đoán có điều kiện). 1.4. Yêu cầu chung khi xây dựng dãy số thời gian 171 THỐNG KÊ TRONG KINH DOANH Chương 8 – Phân tích dãy số thời gian
  60. Để phân tích dãy số thời gian được chính xác thì yêu cầu cơ bản khi xây dựng dãy số thời gian là phải đảm bảo tính chất có thể so sánh được giữa các mức độ trong dãy số. Cụ thể : - Nội dung và phương pháp tính chỉ tiêu qua thời gian phải thống nhất. - Phạm vi hiện tượng nghiên cứu qua thời gian phải nhất trí. - Các khoảng cách thời gian trong dãy số nên bằng nhau, nhất là đối với dãy số thời kỳ thì phải bằng nhau. Trong thực tế, do những nguyên nhân khác nhau, các yêu cầu trên có thể bị vi phạm, khi đó đòi hỏi có sự chỉnh lý phù hợp để tiến hành phân tích. 2. Phân tích đặc điểm biến động của hiện tượng qua thời gian Các chỉ tiêu sau đây thường được sử dụng để phân tích những đặc điểm biến động của hiện tượng qua thời gian. 2.1. Mức độ bình quân theo thời gian: Chỉ tiêu này phản ánh mức độ đại diện cho các mức độ tuyệt đối của dãy số thời gian. Tuỳ theo dãy số thời kỳ hay dãy số thời điểm mà công thức tính khác nhau. - Đối với dãy số thời kỳ, mức độ bình quân qua thời gian được tính theo công thức sau đây : n y y + y + + y + y ∑ i y = 1 2 n−1 n = i=1 n n Trong đó y i (i = 1, 2, , n ) là các mức độ của dãy số thời kỳ . Từ thí dụ 1, ta có : 10,0 + 12,5 + 15,4 + 17,6 + 20,2 + 22,9 y = = 16,433 tỷ đồng 6 Như vậy, giá trị sản xuất bình quân hàng năm của doanh nghiệp từ 2002 đến 2007 đạt 16,433 tỷ đồng. - Đối với dãy số thời điểm: Có 3 trường hợp + Trường hợp dãy số biến đổi tương đối đều đặn: áp dụng khi biến động của các mức độ trong dãy số thời điểm là tương đối đồng đều và có số liệu ở đầu kỳ và cuối kỳ. y + y y = DK CK 2 + Trường hợp khoảng cách thời gian bằng nhau: áp dụng khi biến động của các mức độ trong dãy số thời điểm là không đồng đều và có số liệu tại các thời điểm có khoảng cách thời gian bằng nhau. 172 THỐNG KÊ TRONG KINH DOANH Chương 8 – Phân tích dãy số thời gian
  61. Trở lại thí dụ 2 ở trên, để tính giá trị hàng hoá tồn kho bình quân của từng tháng, cần phải giả thiết: sự biến động về giá trị hàng hoá tồn kho của các ngày trong tháng xẩy ra tương đối đều đặn. Từ đó, dựa vào giá trị hàng hoá tồn kho của ngày đầu tháng và ngày cuối tháng - tức của đầu tháng sau, để tính giá trị hàng hoá tồn kho bình quân của tháng . Giá trị hàng hoá tồn kho bình quân của từng tháng được tính như sau : 356 + 364 Tháng 1- 2007 : y = = 360 triệu đồng 1 2 364 + 370 Tháng 2- 2007 : y = = 367 triệu đồng 2 2 370 + 352 Tháng 3 - 2007 : y = = 361 triệu đồng 3 2 Giá trị hàng hoá tồn kho bình quân của quý I năm 2004 (ký hiệu yI ) tính được bằng cách bình quân cộng giá trị hàng hoá tồn kho bình quân của tháng1, tháng 2, tháng 3 năm 2007 . Tức là : 356 352 + 364 + 370 + y + y + y 360 + 367 + 361 y = 1 2 3 = = 2 2 I 3 3 4 −1 = 362,666 triệu đồng. Từ đó, công thức để tính mức độ bình quân qua thời gian từ dãy số thời điểm có các khoảng cách thời gian bằng nhau là: y1 yn + y2 + + yn −1 + y = 2 2 n −1 + Trường hợp khoảng cách thời gian không bằng nhau: sử dụng khi biến động của các mức độ trong dãy số là không đồng đều và khoảng cách thời gian không bằng nhau. Tính theo công thức bình quân cộng gia quyền: n ∑ yiti y = i=1 n ∑ ti i=1 Trong đó: yi – các mức độ của dãy số thời gian ti - độ dài thời gian có các mức độ yi tương ứng. Thí dụ 3: Có tài liệu về số lượng lao động của một doanh nghiệp trong tháng 4/2007 như sau: Ngày 1- 4 có 400 người 173 THỐNG KÊ TRONG KINH DOANH Chương 8 – Phân tích dãy số thời gian