Thống kê ứng dụng trong kinh doanh - Chương 11: Hồi quy và tương quan đơn biến

pdf 30 trang vanle 3350
Bạn đang xem 20 trang mẫu của tài liệu "Thống kê ứng dụng trong kinh doanh - Chương 11: Hồi quy và tương quan đơn biến", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfthong_ke_ung_dung_trong_kinh_doanh_chuong_11_hoi_quy_va_tuon.pdf

Nội dung text: Thống kê ứng dụng trong kinh doanh - Chương 11: Hồi quy và tương quan đơn biến

  1. Chương 11 HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN Ths. Nguyễn Tiến Dũng Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội Email: dung.nguyentien3@hust.edu.vn
  2. MỤC TIÊU CỦA CHƯƠNG ● Sau khi học xong chương này, người học sẽ ● Nĩi được phạm vi ứng dụng của phương pháp phân tích hồi quy và tương quan đơn biến ● Biết cách thực hiện một phân tích hồi quy dựa trên dữ liệu mẫu ● Nĩi được những điều kiện và giả định cần thiết khi phân tích hồi quy ● Biết được cách tính và ý nghĩa của hệ số tương quan Pearson và hệ số tương quan hạng Spearman © Nguyễn Tiến Dũng Thống kê ứng dụng 2
  3. CÁC NỘI DUNG CHÍNH 11.1 Làm quen với hồi quy 11.2 Mơ hình hồi quy tuyến tính đơn 11.3 Tương quan tuyến tính 11.4 Tương quan giữa các biến định tính © Nguyễn Tiến Dũng Thống kê ứng dụng 3
  4. 11.1 LÀM QUEN VỚI HỒI QUY ● 11.1.1 Khái niệm hồi quy ● Regression, Regression to mediority: quy các điểm DL đã biết về một đường lý thuyết ● Đ/nghĩa của TK: ● NC mối liên hệ phụ thuộc giữa một biến phụ thuộc (biến đầu ra) và một hay nhiều biến độc lập (biến đầu vào), ● nhằm ước tính hoặc dự báo giá trị trung bình tổng thể của biến phụ thuộc dựa trên các giá trị biết trước của biến độc lập ● Hồi quy đơn biến (simple regression): 1 biến PT và 1 biến ĐL, DL định lượng ● TD: ● KQ học tập = f(thời gian tự học) ● KQ học tập = f(thời gian tự học, yêu thích chuyên ngành) ● Lượng tiêu thụ = f(P1, P2, P3, P4) ● Chất lượng sản phẩm = f(NVL, thiết bị, cơng nghệ, con người, quản lý) © Nguyễn Tiến Dũng Thống kê ứng dụng 4
  5. 11.1.2 Phân biệt liên hệ TK và liên hệ hàm số khi phân tích hồi quy ● Liên hệ hàm số: Y = b0 + b1X ● Với 1 giá trị của X, cĩ 1 giá trị xác định và duy nhất của Y ● Liên hệ TK: Y = b0 + b1.X ● X = thời gian tự học; Y = điểm GPA ● DL về X: dữ liệu mẫu ● Một X, cĩ thể cĩ nhiều Y ● DL mẫu xác định đường HQ mẫu dự đốn đường HQ tổng thể © Nguyễn Tiến Dũng Thống kê ứng dụng 5
  6. 11.1.3 Quy ước về ký hiệu và tên gọi ● Biến số: Y = b0 + b1.X1 + b2X2 ● Biến độc lập, biến đầu vào, biến giải thích: X1, X2 ● Biến phụ thuộc, biến đầu ra, biến được giải thích: Y ● Xki: giá trị của quan sát thứ i của biến Xk. ● b0, b1, b2: các hệ số của phương trình hồi quy ● Hồi quy đơn biến và hồi quy đa biến (HQ bội) ● HQ đơn biến (simple regression): 1 biến ĐL ● HQ đa biến (multiple regression): nhiều biến ĐL © Nguyễn Tiến Dũng Thống kê ứng dụng 6
  7. 11.1.4 Các dạng liên hệ giữa biến độc lập và biến phụ thuộc © Nguyễn Tiến Dũng Thống kê ứng dụng 7
  8. 11.2 MƠ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN ● 11.2.1 Mở đầu ● NC mối liên hệ giữa thu nhập (X) và chi tiêu (Y) ● Lấy mẫu n hộ gia đình ● Đường hồi quy lý thuyết ● E(y|xi) = b0 + b1.xi ● yi = b0 + b1xi + ei ● b0: hệ số tung độ gốc (hệ số chặn) ● b1: hệ số dốc (hệ số gĩc) ● ei: sai số, thể hiện yếu tố nhiễu © Nguyễn Tiến Dũng Thống kê ứng dụng 8
  9. 11.2.2 Các giả định liên quan đến yếu tố nhiễu ● Các ei tại mỗi xi cĩ phân phối bình thường ● Khơng cĩ sự tương quan giữa các nhiễu, hay các ei độc lập với nhau © Nguyễn Tiến Dũng Thống kê ứng dụng 9
  10. 11.2.3 Ý nghĩa và cách xác định các hệ số hồi quy ● b1: hệ số độ dốc, đo lường lượng thay đổi TB trong biến phụ thuộc Y khi X thay đổi 1 đơn vị. ● b0: hệ số tung độ gốc cho biết giá trị của Y khi X = 0, cĩ thể coi là ảnh hưởng TB của các yếu tố khác mà khơng cĩ mặt trong mơ hình © Nguyễn Tiến Dũng Thống kê ứng dụng 10
  11. Dữ liệu mẫu Bảng 11.1 Trang 311 Stt Số năm (X) Doanh số (Y) 1 3 487 2 5 445 3 2 272 4 8 641 5 2 187 6 6 440 7 7 346 8 1 238 9 4 312 10 2 269 11 9 655 12 6 563 © Nguyễn Tiến Dũng Thống kê ứng dụng 11
  12. Xác định các hệ số hồi quy ● Phương pháp Cực tiểu hố tổng bình phương của các phần dư nn 22 minei min ( y i b01 b y i ) ii 11 n n n1 n n (xxyyi )( i )  xynxy i i . .  xy i i  xy i  i i 1 i 1 i 1n i 1 i 1 b1 nnnn2 ().x x2 x 2 n x 2 2 1 iixxii ii 11ii 11n b01 y b x © Nguyễn Tiến Dũng Thống kê ứng dụng 12
  13. Mẫu số của b1 Tử số của b1 © Nguyễn Tiến Dũng Thống kê ứng dụng 13
  14. 11.2.4 Tính tốn các kết quả hồi quy bằng Excel ● Vẽ đồ thị Scatter Chart + Add Trendline © Nguyễn Tiến Dũng Thống kê ứng dụng 14
  15. Sử dụng Data Analysis: Regression © Nguyễn Tiến Dũng Thống kê ứng dụng 15
  16. 11.2.5 Vấn đề cần chú ý khi dự đốn với mơ hình hồi quy ● Chỉ nên dự đốn 푌푖 với những giá trị Xi nằm giữa Xmin và Xmax, hoặc khơng quá xa Xmin và Xmax ● Lý do: với những giá trị Xi nằm càng xa Xtb, thì sai số khi ước lượng Yi càng lớn. ● = 4,583 chỉ nên dự báo y quanh giá trị TB này. ● TD: Nếu một NVBH cĩ 5 năm kinh nghiệm, thì doanh số người này cĩ thể đạt là: yˆ 175,829 49,910 5 425,379 (tr.đ .) © Nguyễn Tiến Dũng Thống kê ứng dụng 16
  17. 11.2.6 Hệ số xác định của PTHQ ● Hệ số xác định (Coefficient of Determination) SST SSR SSE n 2 SST  () yi y i 1 n ˆ 2 SSR  () yi y i 1 n ˆ 2 SSE  () yii y i 1 SSR R 2 SST © Nguyễn Tiến Dũng Thống kê ứng dụng 17
  18. 11.2.7 Sai số chuẩn của hồi quy ● Sai số chuẩn của hồi quy sY/X: Thể hiện độ lệch của các giá trị ŷi xung quanh yi n ()yy ˆ 2 SSE  ii s i 1 Y /X nn 22 84.834, 295 s 92,1055 Y /X 12 2 © Nguyễn Tiến Dũng Thống kê ứng dụng 18
  19. © Nguyễn Tiến Dũng Thống kê ứng dụng 19
  20. 11.2.8 Suy diễn TK về hệ số độ dốc ● 11.2.8.1 Định lý Gauss-Markov ● Giả định: PP của Y là bình thường thì PP của b0 và b1 cũng là PP bình thường ● Đ/lý Gauss-Markov ● Trong các ƯL tuyến tính khơng chệch cho hệ số hồi quy tổng thể, ƯL tìm được bằng PP bình phương bé nhất cĩ PS cực tiểu. © Nguyễn Tiến Dũng Thống kê ứng dụng 20
  21. 11.2.8.2 Khoảng tin cậy cho hệ số độ dốc © Nguyễn Tiến Dũng Thống kê ứng dụng 21
  22. 11.2.8.3 KĐ ý nghĩa của hệ số độ dốc ● Cặp giả thuyết KĐ H 01:0 H :0 ● Chỉ tiêu KĐ tính: t = b1/sb1 11 Bác bỏ H nếu ● Quy tắc bác bỏ H0: 0 tt n 2; /2 tt ● TD: n 2; /2 ● b1 = 49,910 ● sb1 = 10,502 (xem Trang 323 về cách tính) ● tStat = 4,752 p-value = 0,008 ● t tra bảng: tn-2;α/2 = t10; 0,025=2,228 ● Bác bỏ H0. © Nguyễn Tiến Dũng Thống kê ứng dụng 22
  23. 2 2 sYX/ 8.483, 429 sb1 n 110, 294 2 76,917  ()xxi i 1 sb1 110,294 10,502 © Nguyễn Tiến Dũng Thống kê ứng dụng 23
  24. 11.2.9 Phân tích phần dư (residuals/ errors) ● Mục đích: Kiểm tra tính đúng đắn của các giả định (assumptions) của phương trình hồi quy 1. Quan hệ giữa X và Y thực sự là quan hệ tuyến tính trung bình của các phần dư ei = 0 2. Các phần dư ei cĩ PP normal 3. PS của các phần dư là khơng đổi 4. Các phần dư là độc lập với nhau (khơng cĩ hiện tượng tự tương quan giữa các phần dư) © Nguyễn Tiến Dũng Thống kê ứng dụng 24
  25. 11.2.10 Sử dụng PT hồi quy để dự đốn giá trị TB và giá trị cá biệt của Y E(y | x ) yˆ e ● Giá trị TB 00y yˆ0 b 0 b 1 x 0 2 1 ()xx0 ey t n 2; /2 s Y | X n n 2  ()xxi i 1 ● Giá trị cá biệt y00 yˆ ey yˆ0 b 0 b 1 x 0 2 1 ()xx0 ey t n 2; /2 s Y | X 1 n n 2  ()xxi i 1 © Nguyễn Tiến Dũng Thống kê ứng dụng 25
  26. 11.3 TƯƠNG QUAN TUYẾN TÍNH ● 11.3.1 Hệ số tương quan tổng thể rho ● 11.3.2 Hệ số tương quan mẫu rXY cov(XY , ) XY var(XY ) var( )  XY XY XY. n (x x )( y y ) s  ii r XY i 1 XY nn ssXY. 22 ()()xii x y y ii 11 © Nguyễn Tiến Dũng Thống kê ứng dụng 26
  27. Giá trị và ý nghĩa của hệ số tương quan Pearson ● r 0: cĩ mối liên hệ TQTT thuận ● |r| > 0,8 : TQTT rất mạnh ● |r| = 0,6 – 0,8 : TQTT mạnh ● |r| = 0,4 – 0,6 : TQTT vừa phải ● |r| = 0,2 – 0,4 : TQTT yếu ● |r| < 0,2 : TQTT rất yếu © Nguyễn Tiến Dũng Thống kê ứng dụng 27
  28. KĐ ý nghĩa của hệ số tương quan tuyến tính ● Cặp giả thuyết KĐ H 0 :0 ● Chỉ tiêu KĐ H1 :0 ● Quy tắc bác bỏ H0 ● Bác bỏ H0 nếu |t| > tn-2;α/2 ● TD: Trang 345 rn 2 tr 2 1 r 2 1 r ● tStat = 4,7057 n 2 ● tn-2; /2 = 2,228 ● Bác bỏ H0 hệ số TQ tổng thể thực sự khác 0 © Nguyễn Tiến Dũng Thống kê ứng dụng 28
  29. 11.4 TƯƠNG QUAN GIỮA CÁC BIẾN ĐỊNH TÍNH 11.4.1 Hệ số tương quan hạng Spearman 11.4.2 Hệ số Kendall Tau 11.4.3 Hệ số tương quan khác đối với DL thứ bậc © Nguyễn Tiến Dũng Thống kê ứng dụng 29
  30. KĐ theo hệ số tương quan hạng Spearman rS ● Biến x1 và x2 cĩ dữ liệu thứ bậc (hoặc DL khoảng, nhưng đã biến thành DL thứ bậc bằng cách xếp hạng trong từng mẫu), mẫu n cặp quan sát ● Tính chênh lệch hạng di = x1i – x2i (i = 1, 2, n) ● Tính hệ số tương quan hạng rS ● H0: Khơng cĩ liên hệ giữa 2 biến (Hệ số tương quan hạng của tổng thể = 0) ● Nếu số trường hợp cĩ di = 0 nhiều, thì cần thêm một hệ số hiệu chỉnh ● Nếu n > 10, PP của hệ số TQ hạng trên mẫu xấp xỉ PP bình thường với độ lệch chuẩn là 1/(n – 1). Chỉ tiêu KĐ sẽ là z n 2 6 di rS  i 1 z rS n 1 r 1 1 /n 1 S nn( 1) © Nguyễn Tiến Dũng Thống kê ứng dụng 30