Bài giảng Kinh tế lượng - Cao Tấn Bình

pdf 131 trang Đức Chiến 05/01/2024 1090
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Kinh tế lượng - Cao Tấn Bình", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_kinh_te_luong.pdf

Nội dung text: Bài giảng Kinh tế lượng - Cao Tấn Bình

  1. TRƢỜNG ĐẠI HỌC QUY NHƠN KHOA KINH TẾ & KẾ TỐN CAO TẤN BÌNH BÀI GIẢNG KINH TẾ LƢỢNG Quy Nhơn, 9/2017 1
  2. Chƣơng 1 KHÁI QUÁT VỀ KINH TẾ LƢỢNG 1.1 Giới thiệu về mơn học kinh tế lƣợng Kinh tế lượng cĩ tên tiếng Anh là Econometrics, do nhà kinh tế học người Na uy A. K Ragnar Frisch sử dụng lần đầu tiên vào khoảng 1930. Kinh tế lượng là một mơn khoa học về đo lường các mối quan hệ kinh tế diễn ra trong thực tế, là sự kết hợp giữa các lý thuyết kinh tế hiện đại, thống kê tốn học và máy vi tính nhằm định lượng các mối quan hệ kinh tế, dự báo khả năng phát triển của hiện tượng kinh tế và phân tích các chính sách kinh tế. Nền tảng của kinh tế lượng: Lý thuyết kinh tế: Nêu lên bản chất các mối quan hệ kinh tế dưới dạng định tính. Chẳng hạn mối quan hệ giữa lượng cầu và giá cả, sản lượng và số lượng cơng nhân, thu nhập và chi tiêu, năng suất cây trồng và lượng phân bĩn, doanh thu và chi phí quảng cáo, giá nhà và hướng nhà, sự chi tiêu và sự giàu cĩ, Mơ hình tốn kinh tế: Sử dụng cơng cụ tốn học để mơ hình hĩa lý thuyết kinh tế dưới dạng mơ hình tốn học, chưa quan tâm đến việc kiểm chứng xem liệu những mơ hình tốn học này cĩ đúng đắn về mặt thực nghiệm hay khơng. Thống kê: Cĩ vai trị quan trọng trong việc thu thập, xử lý số liệu, và những số liệu sơ cấp ban đầu này khơng thể thiếu cho một nhà kinh tế lượng. Mục đích của kinh tế lượng Thiết lập mơ hình tốn học để nêu ra các giả thiết cũng như các giả định về mối quan hệ giữa các biến số kinh tế với nhau. Thực hiện việc ước lượng tham số để xem xét mức độ ảnh hưởng giữa các biến số. Kiểm định giả thuyết. Đưa ra dự báo và mơ phỏng hiện tượng kinh tế. Đề xuất giải pháp, chính sách dựa trên kết quả của được phân tích từ mơ hình kinh tế lượng. 1.2 Phƣơng pháp luận nghiên cứu của kinh tế lƣợng Nêu vấn đề nghiên cứu và các giả thuyết: Nghiên cứu quan hệ giữa thu nhập và tiêu dùng, mức lãi suất thay đổi và cầu về tiền, năng suất lao động với vốn, lao động và khoa học cơng nghệ, Thiết lập mơ hình: Dựa vào lý thuyết kinh tế để định dạng các mơ hình cụ thể cho các bài tốn cụ thể. Chẳng hạn, người ta cĩ thể sử dụng hàm tuyến tính để mơ tả mối quan hệ giữa thu nhập Y và tiêu dùng X như sau: 2
  3. YX  Tuy nhiên trong thực tế, với cùng một mức thu nhập thì chi tiêu tiêu dùng cĩ thể khác nhau. Do vậy mơ hình tốn học thuần túy như trên chưa phản ánh được tình huống kinh tế này. Mơ hình kinh tế lượng được đề xuất một cách hợp lý với nhiễu ngẫu nhiên U như sau: YXU  Thu thập và xử lý số liệu: Quan tâm đến số liệu của mẫu và số liệu của tổng thể. Ước lượng các tham số của mơ hình: Sử dụng các phương pháp như phương pháp bình phương tối thiểu OLS (Ordinary Least Squares), phương pháp ước lượng hàm hợp lý tối đa MLE (Maximum Likelihood Estimation), Chẳng hạn, phương trình mơ tả quan hệ giữa tiêu dùng Y và thu nhập X từ chuỗi số liệu của Mỹ giai đoạn 1982-1996 bằng phương pháp OLS là: YX 184.078 0.706408 Nhìn vào kết quả hồi quy này, ta thấy xu hướng tiêu dùng cận biên của nền kinh tế Mỹ giai đoạn 1982-1996 là  2 0.706408. Kiểm định mơ hình: Mục đích của kiểm định là kiểm chứng lại mơ hình hoặc lý thuyết kinh tế. Theo ví dụ trên, ta cĩ trị số về xu hướng tiêu dùng cận biên là  2 0.706408 0phù hợp với lý thuyết kinh tế của Keynes về Thu nhập-Tiêu dùng. Tuy nhiên, ta cũng cần xác định thêm giá trị này cĩ thỏa mãn 01  2 với ý nghĩa thống kê hay khơng. Dự báo và sử dụng mơ hình để quyết định chính sách: Dựa vào kết quả của mơ hình trên, cĩ thể dự báo tác động của chính sách kinh tế. Ngồi ra, kết quả hồi quy này cĩ thể giúp ích cho Chính phủ trong việc phân tích chính sách đầu tư, chính sách thuế (giảm thuế -> tăng thu nhập khả dụng -> tăng tiêu dùng -> tăng tổng cầu). 1.3 Số liệu cho nghiên cứu kinh tế lƣợng Cĩ ba dạng dữ liệu kinh tế cĩ bản: Dữ liệu theo thời gian (Time Series Data), dữ liệu theo khơng gian (dữ liệu chéo) (Cross Data) và dữ liệu hỗn hợp (dữ liệu bảng) (Panel Data). Nguồn số liệu: Các cơ quan nhà nước: Tổng cục thống kê, Uỷ ban Nhân dân thành phố, Các cơ quan quốc tế: Ngân hàng thế giới (WB), Qũy tiền tệ thế giới (IMF), 3
  4. Các cơ quan và tổ chức tư nhân. Wedsite. 1.4 Chất lƣợng của số liệu Chất lượng của số liệu kinh tế-xã hội thường khơng tốt bởi các nguyên nhân sau đây: Bỏ sĩt số liệu. Sai sĩt về kỹ thuật thu thập thơng tin (bảng câu hỏi khơng phù hợp, nội dung câu hỏi khơng chính xác, ). Nhầm lẫn khi quan sát, ghi nhận thơng tin. Sai số do dụng cụ đo lường. Sai số khi chọn mẫu khơng cĩ tính đại diện cao. Mức độ tổng hợp và bảo mật của số liệu sử dụng. Đối tượng cung cấp thơng tin thiếu trung thực, khơng đầy đủ hoặc từ chối trả lời. 1.5 Vai trị của máy vi tính và phần mềm chuyên dụng Hầu hết các bài tốn trong kinh tế lượng liên quan đến việc xử lý một khối lượng số liệu rất lớn, do đĩ cần đến sự trợ giúp của máy vi tính và các chương trình hỗ trợ tính tốn, chẳng hạn như: Excel, EVIEWS, SPSS, STATA, R, 4
  5. Chƣơng 2 MƠ HÌNH HỒI QUY TUYẾN TÍNH HAI BIẾN 2.1 Mơ hình và một số khái niệm 2.1.1 Mơ hình hồi quy Mơ hình hồi quy tuyến tính hai biến: YXU 12 (2.1.1) Y: Biến phụ thuộc hay biến được giải thích (explained variable) X: Biến độc lập hay biến giải thích (explanatory variable) U: Sai số ngẫu nhiên, giả thiết EUX( | ) 0 12, : Các hằng số 2.1.2 Hàm hồi quy tổng thể Khi EUX( | ) 0, từ (2.1.1) ta cĩ EYXX( | ) 12 (2.1.2) Phương trình (2.1.2) được gọi là hàm hồi quy tổng thể PRF (Population Regression Function). 1 : Hệ số chặn, bằng giá trị trung bình của biến Y khi X = 0. 2 : Hệ số gĩc, thể hiện quan hệ giữa và EYX( | ) . 2 0: Khi tăng (giảm) một đơn vị thì tăng (giảm) 2 đơn vị. 2 0: Khi tăng (giảm) một đơn vị thì giảm (tăng) đơn vị. 2.1.3 Hàm hồi quy mẫu Để phản ánh hàm hồi quy tổng thể cho tổng thể, cần xây dựng hàm hồi quy mẫu trên mẫu. Nếu hàm hồi quy tổng thể mơ tả xu thế biến động về mặt trung bình của biến phụ thuộc theo biến độc lập trong tổng thể, thì hàm hàm hồi quy mẫu là hàm số mơ tả xu thế biến động đĩ nhưng trong mẫu. Vì hàm hồi quy mẫu dùng để phản ánh cho hàm hồi quy tổng thể nên phải cĩ dạng giống hàm hồi quy tổng thể. Giả sử (Xii , Y ), i 1, n là mẫu ngẫu nhiên kích thước n của (,)XY . Khi đĩ ta cĩ biểu diễn dưới đây được gọi là hàm hồi quy mẫu SRF (Sample Regression Function) YX 12 (2.1.3) 5
  6. Trong đĩ 1 , 2 được gọi là các hệ số số hồi quy mẫu hay hệ số ước lượng, là các ước lượng điểm lần lượt của 1 , 2 thơng qua mẫu kích thước n ở trên. Dạng hàm hồi quy mẫu cho từng quan sát: YXi 12i (2.1.4) Dạng ngẫu nhiên: YXU 12 (2.1.5) YXUi 12 i i (2.1.6) Nhận xét: Hàm hồi quy mẫu cĩ các tính chất sau đây n Ui 0 i 1 cov(XU , ) 0 cov(YU , ) 0 YY Đường hồi quy mẫu đi qua điểm XY, 2.1.4 Tính tuyến tính trong mơ hình hồi quy Tính tuyến tính của mơ hình hồi quy được hiểu là tuyến tính theo tham số. Dưới đây là một số mơ hình hồi quy dạng tuyến tính thường gặp: 1 YXU  2 YU  12 12X YXU 12 ln lnYXU 12 ln 1 lnYXU  lnYU  12 12X Ví dụ về dạng khơng tuyến tính (phi tuyến): 12 X 2 U Y e U Y 1 X e 6
  7. 1 1 YXU 2 YU 0 1 12 X Trong một số trường hợp, sử dụng phép biến đổi phù hợp, ta cĩ thể biến đổi mơ hình hồi quy phi tuyến về mơ hình hồi quy tuyến tính. 2.2 Phƣơng pháp ƣớc lƣợng OLS (Ordinary Least Squares) Xét mơ hình hồi quy tổng thể: YXU 12 (2.2.1) Để ước lượng các hệ số 12, ta cần rút ra một mẫu ngẫu nhiên kích thước n từ tổng thể: (Xii , Y ), i 1, n . Khi đĩ ta cĩ YXUi 12 i i (2.2.2) YXi 12i (2.2.3) Ký hiệu phần dư (Residuals): UYYi i i (2.2.4) Chúng ta muốn xác định 1 , 2 sao cho tổng bình phương các phần dư là bé nhất, cĩ nghĩa là n2 n 2 n 2 f 1,  2  Ui  Y i Y i  Y i  1  2 X i Min i 1 i 1 i 1 Đây là bài tốn cực trị hai biến khơng cĩ điều kiện ràng buộc, do đĩ , sẽ là nghiệm của hệ phương trình sau: f , nn 12 X X Y Y X Y nXY 0  i i i i   ii 11 1 2 nn22 X X X2 n X  i i f 12, ii 11 0 2 12 YX với 7
  8. nn XYii XY ii 11, nn Ví dụ 2.2.1: Xét mẫu số liệu sau đây Thu nhập 8 9 10 11 12 15 15 16 17 20 (triệu đồng/tháng) Chi tiêu 7 8 9 9 10 12 11 13 14 15 (triệu đồng/tháng) Dependent Variable: CHITIEU Method: Least Squares Date: Time: 09:51 Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. THUNHAP 0.673035 0.042320 15.90340 0.0000 C 1.848641 0.584110 3.164883 0.0133 R-squared 0.969339 Mean dependent var 10.80000 Adjusted R-squared 0.965506 S.D. dependent var 2.658320 S.E. of regression 0.493715 Akaike info criterion 1.603140 Sum squared resid 1.950037 Schwarz criterion 1.663657 Log likelihood -6.015701 Hannan-Quinn criter. 1.536753 F-statistic 252.9182 Durbin-Watson stat 2.400147 Prob(F-statistic) 0.000000 Ta cĩ kết quả hồi quy YXi 1.848641 0.673035 i . Ý nghĩa các hệ số ước lượng:  1 1.848641: Chi tiêu dự định trung bình của mẫu gồm 10 hộ gia đình khi khơng cĩ thu nhập.  2 0.673035: Khuynh hướng tiêu dùng trung bình bằng 0.673035, cĩ nghĩa là khi thu nhập tăng thêm 1 triệu đồng thì chi tiêu trung bình tăng thêm khoảng triệu đồng. 8
  9. 2.3 Tính khơng chệch và độ chính xác của ƣớc lƣợng OLS 2.3.1 Các giả thiết của phƣơng pháp OLS Xét mơ hình hồi quy tuyến tính hai biến (2.1.1): YXU 12 thỏa mãn các giả thiết sau đây: Giả thiết 1: Mơ hình được ước lượng trên mẫu ngẫu nhiên (X , Y ), i 1, n ii  Giả thiết 2: Kỳ vọng cĩ điều kiện bằng 0 E( U | Xi ) 0,  i 1, n Giả thiết 3: Phương sai cĩ điều kiện khơng đổi 2 Var( U | Xi )  ,  i 1, n 2.3.2 Tính khơng chệch Giả sử mơ hình hồi quy tuyến tính hai biến (2.1.1) cĩ hàm hồi quy mẫu là YX  12 Ta cĩ định lý sau đây: Định lý: Khi giả thiết 2 được thỏa mãn thì các ước lượng điểm 1 , 2 lần lượt là các ước lượng khơng chệch của 1 , 2 , cĩ nghĩa là EE ,   1 1 2 2 2.3.3 Độ chính xác của các ƣớc lƣợng Độ chính xác của các ước lượng được đo bởi phương sai của các ước lượng đĩ. Khi phương sai càng bé thì độ chính xác của ước lượng càng cao. Phương sai của các ước lượng được thể hiện qua định lý dưới đây. 9
  10. Định lý: Khi các giả thiết 1, giả thiết 2 và giả thiết 3 được thỏa mãn thì phương sai của các hệ số ước lượng được xác định bởi n 2  X i Var  i 1 2 1 n 2 n Xi X i 1  2 Var  2 n 2  XXi i 1 Trong thực tế ta thường khơng biết  2 , do đĩ ta thay  2 bởi ước lượng điểm khơng chệch, tốt nhất  2 của nĩ trong các cơng thức ở trên: n 2 U i  2 i 1 n 2 Như vậy các sai số chuẩn (Standard error) của 1 , 2 là n 2  X i Se Var i 1  2 11 n 2 n Xi X i 1  2 Se Var 22 n 2  XXi i 1 Trở lại ví dụ 2.2.1, ta cĩ n 2 n 2 2 1.950036738 U i 1.950036738,  0.243754592,  XXi 136.1 i 1 10 - 2 i 1  2 0.243754592 Var  0.001790996 2 n 2 136.1  XXi i 1 10
  11. n 2  X i Var  i 1 2 190.5 0.001790996 0.341184789 1 n 2 n Xi X i 1 Do đĩ Se 11 Var = 0.341184789 0.584110254 . Se 22 Var 0.001790996=0.04232 2.4 Độ phù hợp của hàm hồi quy mẫu Hàm SRF được gọi là phù hợp tốt với số liệu mẫu quan sát nếu Yi gần Yi . Quan sát hai hình vẽ dưới đây, nhận thấy rằng hàm hồi quy mẫu trong Hình 2.4.1 tốt hơn so với hàm hồi quy mẫu trong Hình 2.4.2. Hình 2.4.1 Hình 2.4.2 Ký hiệu n 2 TSS  Yi Y (Total sum of squares) i 1 n 2 ESS  Yi Y (Explained sum of squares) i 1 n 2 RSS  Yii Y (Residual sum of squares) i 1 11
  12. Ta cĩ TSS ESS RSS Với một mẫu cụ thể và sử dụng phương pháp OLS, TSS là giá trị cố định, nhưng ESS và RSS cĩ giá trị thay đổi tùy thuộc vào dạng hàm hồi quy. Ký hiệu n 2 U i ESS RSS  R2 11 i 1 01 R2 TSS TSS n 2  YYi i 1 R2 được gọi là hệ số xác định (Coefficient of determination) của hàm hồi quy. Vì 01 R2 nên thường đổi thành tỷ lệ % cho thuận tiện trong phân tích. Chẳng hạn, khi tính được hệ số xác định bằng 0,8 thì cĩ thể nĩi rằng mơ hình và biến độc lập giải thích được 80% sự biến động của biến phụ thuộc và 20% là do yếu tố ngẫu nhiên khác giải thích. Nhận xét: Nếu hàm hồi quy mẫu thích hợp tốt với số liệu quan sát thì ESS càng lớn hơn RSS (Yi càng gần Yi ), cĩ nghĩa là càng gần 1. Nếu hàm hồi quy mẫu kém thích hợp với số liệu quan sát thì ESS càng nhỏ hơn RSS ( càng xa ), cĩ nghĩa là càng gần 0. 2 Nếu R 1, tức là RSS=0 Yii Y,  i thì đường hồi quy thích hợp hồn hảo, biến độc lập giải thích tồn bộ cho biến phụ thuộc, khơng cịn yếu tố ngẫu nhiên. 12
  13. Nếu R2 0, tức là RSS=TSS Y Y,  i thì SRP khơng thích hợp, biến độc lập i khơng giải thích được cho biến phụ thuộc. 2 2 Trong thực tế rất hiếm khi R 1 hay mà chỉ cĩ R gần 0 hay gần 1. 2 Theo kinh nghiệm, với số liệu chuỗi thời gian thì R 0,9 được xem là tốt, với số 2 liệu chéo thì R 0,7 được xem là tốt. Để xem xét một mơ hình tốt hay khơng ta khơng nên chỉ căn cứ vào mà cịn dựa trên các yếu tố khác như: dấu của hệ số hồi quy, kinh nghiệm thực tế, khả năng dự báo chính xác, Đối với hai mơ hình hồi quy tuyến tính hai biến, mơ hình nào cĩ hệ số xác định lớn hơn sẽ được coi là tốt hơn. Xét ví dụ 2.2.1, ta cĩ n 2 n 2 U i 1.950036738,  YYi 63.6 i 1 i 1 Như vậy n 2 U i ESS RSS  1.950036738 R2 1 1 i 1 1 0.969339 TSS TSS n 2 63.6  YYi i 1 Vì chuỗi số liệu thời gian đang xét cĩ R2 0.969339 0.9 nên mơ hình được sử dụng là tốt. 2.5 Mơ hình hồi quy qua gốc tọa độ Khi 1 0 , mơ hình hồi quy tổng thể (2.1.1) YXU  12 trở thành YXU 2 (2.5.1) và được gọi là mơ hình hồi quy qua gốc tọa độ. Khi đĩ, các hàm hồi quy tổng thể, hàm hồi quy mẫu được viết lại như sau: EYXX( | ) 2 (2.5.2) 13
  14. YX 2 (2.5.3) Sử dụng phương pháp OLS, ta tính được n n XY U 2  ii  2  i RSS  i 1 , Var  ,  2 i 1 2 n 2 n 2 2 nn 11  X i  X i i 1 i 1 Đối với mơ hình hồi quy qua gốc tọa độ, nếu áp dụng cơng thức tính hệ số xác định RSS R2 1 TSS 2 thì R hay cĩ thể âm, khơng cĩ ý nghĩa. Do vậy người ta đưa ra các hệ số mới, chẳng hạn 2 n  XYii 2 i 1 Rthơ nn 22 XYii ii 11 để thay thế cho mà vẫn thỏa mãn điều kiện 01 R2 . Thơng thường người ta hay sử dụng mơ hình hồi quy cĩ hệ số chặn, sau đĩ kiểm định hệ số chặn. Ví dụ 2.5.1: Trong lý thuyết danh mục đầu tư hiện đại, mơ hình định giá tài sản vốn (CAPM-Capital Asset Pricing Model) cĩ dạng mơ hình hồi quy tuyến tính qua gốc tọa độ: ERi r f  i ER m r f Trong đĩ ERi là suất sinh lợi kỳ vọng của chứng khốn i, là suất sinh lợi của danh mục đầu tư thị trường, rf là suất sinh lợi của đầu tư khơng rủi ro, i là hệ số Beta, cơng cụ đo lường rủi ro cĩ tính hệ thống (những rủi ro khơng thể loại trừ bằng cách đa dạng hĩa danh mục đầu tư). 2.6 Đơn vị đo lƣờng trong phân tích hồi quy Với mơ hình hồi quy tổng thể ban đầu 14
  15. YXU  12 cĩ hàm hồi quy mẫu YX 12 Khi nhân các biến với hằng số, ta thu được các biến mới X mXY X, Y m Y Xét mơ hình mới như sau: YXU  12 YX  12 Khi đĩ m * Y , * m , Y* m Y , *2 m 2 2 2 2 11Y Y Y mX * mY * Se Se 2 , Se m Se 2 1 Y 1 mX Khi cộng các biến với hằng số, ta thu được các biến mới X aXY X, Y a Y Xét mơ hình mới: YXU  12 YX  12 Khi đĩ  ,  aa   , Y a Y ,  22 2 2 1 YX 2 1 Y 15
  16. n  aXXi 2 i 1 Se Se 2 , Se  2 1 n 2 n Xi X i 1 2.7 Hồi quy với phần mềm Eviews Dưới sự hỗ trợ của phần mềm Eviews, bài tốn về mơ hình hồi quy được giải quyết một cách nhanh chĩng và gọn nhẹ. Từ ví dụ 2.2.1, sử dụng phần mềm Eviews, ta cĩ bảng sau đây: Dependent Variable: CHITIEU Method: Least Squares Date: Time: 08:27 Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. THUNHAP 0.673035 0.042320 15.90340 0.0000 C 1.848641 0.584110 3.164883 0.0133 R-squared 0.969339 Mean dependent var 10.80000 Adjusted R-squared 0.965506 S.D. dependent var 2.658320 S.E. of regression 0.493715 Akaike info criterion 1.603140 Sum squared resid 1.950037 Schwarz criterion 1.663657 Log likelihood -6.015701 Hannan-Quinn criter. 1.536753 F-statistic 252.9182 Durbin-Watson stat 2.400147 Prob(F-statistic) 0.000000 Chú thích cho bảng kết quả như sau: Dependent Variable: Biến phụ thuộc Y. Method: Least Squares: Sử dụng phương pháp bình phương tối thiểu OLS. Date, Time: Ngày, giờ thực hiện. Sample: Phạm vi của mẫu quan sát. Included observations: Tống số quan sát (cỡ mẫu). Variable: Danh sách các biến độc lập trong mơ hình hồi quy, trong đĩ C chính là hệ số 1 . Coefficient: Các ước lượng hệ số của mơ hình (  1 1.848641,  2 0.673035). Std. Error: Sai số chuẩn của  1 và  2 ( Se  1 0.584110 , Se  2 0.042320). t-Statistic: Giá trị (quan sát) của thống kê T. 16
  17. Prob.: Giá trị p-value của thống kê T. R-squared: Hệ số xác định (hệ số tương quan tồn phần) R2 ( R2 0.969339 ). 2 2 Adjusted R-squared: Hệ số xác định đã được hiệu chỉnh R ( R 0.965506 ). 2 S.E. of regression: Sai số tiêu chuẩn của hàm hồi quy ( 0.493715). Sum squared resid: Tổng bình phương sai số RSS ( RSS 1.950037). Log likelihood: Logarit cơ số e của hàm hợp lý. F-statistic: Giá trị thống kê của thống kê F ( F 252.9182 ). Prob(F-statistic): P() F F statistic . Mean dependent var: Trung bình của biến phụ thuộc (Y 10.80000). S.D. dependent var: Độ lệch chuẩn của biến phụ thuộc. Akaike info criterion: Tiêu chuẩn Akaike. Schwarz criterion: Tiêu chuẩn Schwarz. Hannan-Quinn criter.: Tiêu chuẩn Hannan-Quinn. Durbin-Watson stat: Thống kê Durbin-Watson. 17
  18. Chƣơng 3 MƠ HÌNH HỒI QUY BỘI Trong thực tế, các mối quan hệ kinh tế thường phức tạp, một biến số kinh tế cĩ thể chịu sự tác động của nhiều biến số kinh tế khác nhau. Chẳng hạn, khi nghiên cứu nhu cầu về một loại hàng hĩa nào đĩ thì nhu cầu này phụ thuộc đồng thời vào nhiều yếu tố như thu nhập của người tiêu dùng, giá bán của hàng hĩa đĩ, thị hiếu người tiêu dùng, Do đĩ cần thiết phải nghiên cứu mơ hình hồi quy nhiều hơn hai biến, cịn gọi là mơ hình hồi quy bội (multiple regression). 3.1 Mơ hình hồi quy bội tuyến tính Dạng mơ hình: YXXU 1  2 2 kk (3.1.1) Y: Biến phụ thuộc Xj , j 2, k : Biến độc lập  j ,jk 1, : Hệ số hồi quy bội U : Sai số ngẫu nhiên, đại diện cho các yếu tố khác ngồi X j cĩ tác động đến Y nhưng khơng được đưa vào mơ hình với lý do chúng ta khơng cĩ quan sát về nĩ, hoặc khơng muốn đưa nĩ vào mơ hình, hoặc khơng thể đưa nĩ vào mơ hình. Các giả thiết cho mơ hình (3.1.1): Giả thiết 1: Mơ hình được ước lượng trên mẫu ngẫu nhiên (X , Y ) : i 1, n , j 2, k ji i  Giả thiết 2: Kỳ vọng cĩ điều kiện bằng 0 E( U | X2i , , X ki ) 0,  i 1, n Giả thiết 3: Phương sai cĩ điều kiện khơng đổi 2 Var(U | X2i , , X ki )  ,  i 1, n 18
  19. Giả thiết 4: Giữa các biến độc lập Xj , j 2, k khơng cĩ mối quan hệ đa cộng tuyến hồn hảo, cĩ nghĩa là khơng tồn tại các hằng số  j ,jk 2, khơng đồng thời bằng khơng k sao cho  jjX 0 . j 2 Ví dụ 3.1.1: Để xem tác động của các hình thức đầu tư lên GDP, người ta sử dụng hàm hồi quy bội tuyến tính GDP 1  2 GI  3 PI  4 FDI  5 I U với GI, DI, FDI, I lần lượt là đầu tư của khu vực nhà nước, đầu tư từ khu vực tư nhân, đầu tư trực tiếp từ nước ngồi và tổng đầu tư. Vì I GI PI FDI GI PI FDI I 0nên mơ hình này vi phạm Giả thiết 4 do giữa các biến độc lập GI, DI, FDI, I cĩ quan hệ đa cộng tuyến hồn hảo. Với Giả thiết 2 được thỏa mãn thì từ mơ hình (3.1.1) ta được EYXXXX( |2 , ,k )  1  2 2  k k 12 EYXX |0 k : Hệ số chặn EYXX |2 , , k  j ,jk 2, : Hệ số hồi quy riêng (partial coefficient), cho biết X j khi thay đổi một đơn vị, các biến khác cố định thì trung bình của Y thay đổi  j ,jk 1, đơn vị. Nếu cĩ  j nào đĩ bằng 0, ta nĩi biến Y khơng phụ thuộc vào biến độc lập X j , cĩ nghĩa là biến khơng giải thích cho Y. Nếu tất cả đều bằng 0, ta nĩi các biến độc lập đều khơng giải thích cho biến phụ thuộc Y, và hàm hồi quy trong trường hợp này được gọi là khơng phù hợp. Ngược lại, chỉ cần cĩ ít nhất một biến độc lập giải thích cho biến phụ thuộc Y thì hàm hồi quy được gọi là phù hợp. Ví dụ 3.1.2: Giả sử ta cĩ mơ hình hồi quy bội về lạm phát như sau LP 0,01 0,2 m 0,15 gdp U Trong đĩ LP, m, gdp lần lượt là tỷ lệ lạm phát, mức tăng trưởng cung tiền và mức tăng trưởng GDP (đơn vị %). Khi đĩ ta cĩ phiên giải từ mơ hình trên như sau: 19
  20. Khi mức tăng trưởng cung tiền và GDP bằng 0 thì mức lạm phát trung bình là 0,01. Khi cung tiền tăng (giảm) 1% và mức tăng trưởng GDP khơng thay đổi thì lạm phát trung bình sẽ tăng (giảm) 0,2 đơn vị. Nếu GDP tăng 1% và cung tiền khơng thay đổi thì lạm phát trung bình sẽ giảm 0,15 đơn vị. 3.2 Phƣơng pháp ƣớc lƣợng OLS (Ordinary Least Squares) Xét mơ hình hồi quy tổng thể: YXXU 1  2 2 kk (3.2.1) Để ước lượng các hệ số 1, , k ta cần rút ra một mẫu ngẫu nhiên kích thước n từ tổng thể: (X2i , Y ki ), i 1, n . Khi đĩ ta cĩ YXXUi 1  2 2 i  k ki i (3.2.2) YXXi 1  2 2i  k ki (3.2.3) Ký hiệu phần dư (Residuals): UYYi i i (3.2.4) Chúng ta muốn xác định 1 , , k sao cho tổng bình phương các phần dư là bé nhất, cĩ nghĩa là n2 n 2 n 2 f 1, , k  U i  Y i Y i  Y i  1  2 X 2 i  k X ki Min i 1 i 1 i 1 Từ đĩ cĩ được 1  XXXYTT (3.2.5) 20
  21. với  1XXX21 31 k 1 Y1 1 1XXXY 22 32k 2 2 2 XY ,,  1XXX23n n kn Yn k n n n n n X23i  X i  X ki Yi i 1 i 1 i 1 i 1 n n n n n XXXXXX2 XY XXT 2i 2i  2 i 3 i  2 i ki , XYT  2ii i 1 i 1 i 1 i 1 i 1 n n n n n XXXXXX 2 XY ki  ki23 i  ki i  ki  ki i i 1 i 1 i 1 i 1 i 1 Ví dụ 3.2.1: Cĩ số liệu quan sát của 15 cửa hàng khác nhau thuộc cùng một cơng ty kinh doanh cùng loại sản phẩm về lượng hàng bán được Y (tấn/tháng), chi phí quảng cáo X 2 (triệu đồng/tháng) và giá bán X 3 (ngàn đồng/kg) như sau: Yi 14 21 20 18 19 18 17 17 16 15 13 12 18,5 19 22 X 2i 5 9 8 7 8 8 6 6 5.7 5.5 4 3 7 8.2 9.5 X 3i 4 2.2 2.4 2.8 2.8 3 3.1 3.3 3.7 3.9 4.1 4.3 2.7 2.5 2 Khi đĩ 15 15 15 XX23ii ii 11 15 99.9 46.8 15 15 15 XXXXXXT 2 99.9 713.23 293.64 2i 2i  2 i 3 i i 1 i 1 i 1 46.8 293.64 153.52 15 15 15 XXXX 2 3i  2 i 3 i  3i i 1 i 1 i 1 21
  22. 46.06 3.12 8.01 259.5 19.87 1 T , T XX 3.12 0.22 0.54 XY 1801  0.67 8.01 0.54 1.42 780.65 2.25 Vậy hàm hồi quy mẫu là YXXi 19.87 0.6723ii 2.25 Từ đĩ cĩ nhận xét về ý nghĩa kinh tế của các tham số hồi quy: 1 19.87 : Khi doanh nghiệp khơng quảng cáo và ngay cả khi bán giá cực thấp ( X3 0) thì lượng hàng bán được tối thiểu bình quân khoảng 19.87 tấn/tháng. 2 0.67 0: Nếu giữ nguyên giá bán, khi tăng (giảm) mức quảng cáo một triệu đồng/tháng thì sản lượng tiêu thụ tăng (giảm) bình quân khoảng 0.67 tấn/tháng. 3 2.25 0: Nếu giữ nguyên chi phí quảng cáo, khi tăng (giảm) giá bán một ngàn đồng/kg thì sản lượng hàng bán được giảm (tăng) bình quân khoảng 2.25 tấn/tháng. Sử dụng phần mềm Eviews, ta cĩ bảng như sau: Dependent Variable: Y Method: Least Squares Date: Time: Sample: 1 15 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. C 19.86862 2.694140 7.374756 0.0000 X2 0.669642 0.187374 3.573835 0.0038 X3 -2.252705 0.473382 -4.758751 0.0005 R-squared 0.983684 Mean dependent var 17.30000 Adjusted R-squared 0.980965 S.D. dependent var 2.877251 S.E. of regression 0.396969 Akaike info criterion 1.166937 Sum squared resid 1.891008 Schwarz criterion 1.308547 Log likelihood -5.752028 Hannan-Quinn criter. 1.165429 F-statistic 361.7403 Durbin-Watson stat 1.755206 Prob(F-statistic) 0.000000 22
  23. Để đo mức độ dao động và tương quan giữa các hệ số ước lượng được, sử dụng ma trận hiệp phương sai của hệ số hồi quy dạng tổng quát: VarCC ov  ,  ov  ,  1 1 2 1 k CCov ,  Var  ov  ,  1 CXXov  2 1 2 2 k 2 T CCov ,  ov  ,  Var  k12 k k Trong thực tế, thường khơng biết  2 , do đĩ thay  2 bởi ước lượng điểm khơng chệch, tốt nhất  2 của nĩ trong các cơng thức ở trên: n 2 U i 2  RSS  i 1 n k n k Các sai số chuẩn của  ,jk 1, là j Se jj Var . Từ số liệu của Ví dụ 3.2.1, dễ dàng tính được: n 2 2 TSS  Yi nY 11.5 i 1 T 2 ESS  XT Y nY 9.6 RSS 1.9 2 RSS  1.9/12 0.16 nk Ma trận hiệp phương sai của  là: 7.27 0.5 1.26 C ov  0.5 0.04 0.08 1.26 0.08 0.22 Cũng cĩ Var 1 7.27,VV ar  2 0.04, ar  3 0.22. 23
  24. Sử dụng Eviews, ta được C X2 X3 C 7.25838 -0.49728 -1.26153 X2 -0.49728 0.03510 0.08444 X3 -1.26153 0.08444 0.22409 Định lý Gauss-Markov: Khi các giả thiết 1-4 được thỏa mãn thì các ước lượng thu được từ phương pháp OLS là các ước lượng tuyến tính, khơng chệch và cĩ phương sai nhỏ nhất trong lớp các ước lượng tuyến tính khơng chệch (tính chất BLUE-Best Linear Unbiased Estimator). 3.3 Độ phù hợp của hàm hồi quy mẫu Tương tự như hồi quy hai biến, ta cĩ định nghĩa các tổng bình phương độ lệch và hệ số xác định như sau: Ký hiệu nn2 2 22T TSS  Yi Y Yi nY Y Y nY ii 11 n 2 T T 2 ESS  Yi Y  X Y nY i 1 n 2 T TT RSS  Yii Y Y Y  X Y i 1 Ta cĩ TSS ESS RSS Hệ số xác định của hàm hồi quy bội cũng được định nghĩa là: T 2  XT Y nY 2 ESS RSS R 1 2 TSS TSS YT Y nY 01 R2 Chú ý rằng hệ số xác định trong mơ hình hồi quy tuyến tính k biến là một hàm tăng theo số biến độc lập. Thật vậy, TSS khơng phụ thuộc vào số biến độc lập trong mơ hình với bậc tự do là (n-1), RSS là hàm giảm theo số biến độc lập trong mơ hình với bậc tự do là 24
  25. (n-k), do đĩ khi số biến độc lập càng tăng thì hệ số xác định càng lớn và mơ hình sẽ phức tạp hơn, khĩ phân tích hơn. Ngồi ra, khi số biến độc lập tăng lên sẽ làm tăng mối tương quan giữa các biến độc lập, đồng thời làm giảm bậc tự do của ESS, RSS. Do vậy cần cân nhắc cẩn thận trước khi thêm biến độc lập vào mơ hình. Với những chú ý trên, người ta điều chỉnh hệ số xác định bằng cách đưa thêm bậc tự do 2 của các tổng bình phương vào cơng thức để được hệ số xác định hiệu chỉnh R (Adjustted R-Squared) sau đây: RSS 2 nk 11 RRRR 1 nk 1 1 2 2 1 2 TSS n k n k n 1 Người ta sử dụng để xem xét cĩ nên đưa thêm biến độc lập vào mơ hình hay khơng. Việc đưa thêm biến độc lập vào mơ hình là cần thiết khi trị số của trong mơ hình mới tăng lên, đồng thời hệ số hồi quy của biến độc lập đưa vào khác 0 và cĩ ý nghĩa thống kê. Trở lại Ví dụ 3.2.1, sử dụng phần mềm Eviews để kiểm tra sự thay đổi của hệ số xác định trong hai trường hợp: (a) Lượng hàng bán được Y (tấn/tháng) chỉ phụ thuộc vào giá bán (ngàn đồng/kg) X (triệu đồng/tháng), (b) Lượng hàng bán được (tấn/tháng) phụ thuộc 3 vào cả chi phí quảng cáo X (triệu đồng/tháng) và giá bán X (ngàn đồng/kg): 2 3 Dependent Variable: Y Method: Least Squares Date: Time: Sample: 1 15 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. X3 -3.863273 0.200042 -19.31231 0.0000 C 29.35341 0.639968 45.86703 0.0000 R-squared 0.966318 Mean dependent var 17.30000 Adjusted R-squared 0.963727 S.D. dependent var 2.877251 S.E. of regression 0.547984 Akaike info criterion 1.758423 Sum squared resid 3.903718 Schwarz criterion 1.852830 Log likelihood -11.18817 Hannan-Quinn criter. 1.757417 F-statistic 372.9654 Durbin-Watson stat 1.411550 Prob(F-statistic) 0.000000 Trư ờng hợp (a) 25
  26. Dependent Variable: Y Method: Least Squares Date: Time: Sample: 1 15 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. C 19.86862 2.694140 7.374756 0.0000 X2 0.669642 0.187374 3.573835 0.0038 X3 -2.252705 0.473382 -4.758751 0.0005 R-squared 0.983684 Mean dependent var 17.30000 Adjusted R-squared 0.980965 S.D. dependent var 2.877251 S.E. of regression 0.396969 Akaike info criterion 1.166937 Sum squared resid 1.891008 Schwarz criterion 1.308547 Log likelihood -5.752028 Hannan-Quinn criter. 1.165429 F-statistic 361.7403 Durbin-Watson stat 1.755206 Prob(F-statistic) 0.000000 Trư ờng hợp (b) 2 2 Ta cĩ R()a 0.963727 < R()b 0.980965. Do đĩ để xem việc đưa thêm biến X2 vào mơ hình cĩ phù hợp hay khơng, ta cần kiểm tra liệu cĩ bác bỏ giả thuyết H02:0 hay khơng. 3.4 Một số dạng mơ hình hồi quy tuyến tính nhiều biến 3.4.1 Mơ hình logarit kép (log-log) Xét mơ hình hồi quy mũ (cho từng quan sát ): 2 U Y 1 X e (3.4.1.1) Vì mơ hình (3.4.1.1) khơng tuyến tính theo cả tham số và biến số nên ta khơng thể ước lượng nĩ theo phương pháp OLS. Để ước lượng được các tham số của mơ hình này, ta cần chuyển về dạng tuyến tính theo tham số như sau: Lấy logarit hai vế của (3.4.1.1), ta được lnYXU ln12 ln (3.4.1.2) * Đặt 11 ln , (3.4.1.2) trở thành * lnYXUi 12 ln i i , 26
  27. * gọi là mơ hình log-log hay logarit kép. Đây là mơ hình tuyến tính theo các tham số 1 và 2 nên cĩ thể ước lượng chúng bằng phương pháp OLS. Nếu đặt YYXX ln , ln thì YXU 12 Đặc điểm: Độ co giãn của Y đối với X được định nghĩa là dY/ Y dY X  . YX/ dX/ X dX Y Lấy vi phân hai vế của (3.4.1.2), khi đĩ dY// Y 2 dX X YX/2 . Như vậy 2 biểu thị hệ số co giãn của đối với , do đĩ mơ hình logarit kép cịn được gọi là mơ hình hệ số co giãn khơng đổi. Mộ cách tổng quát, mơ hình hồi quy dạng logarit kép cĩ dạng như sau: lnYXXU   ln  ln 1 2 2 kk Y Y Với mỗi jk 2,3, , , ta cĩ  j , cĩ nghĩa là nếu X j tăng (giảm) 1% và các yếu tố dX j X j khác trong mơ hình khơng đổi thì trung bình Y tăng (giảm)  j %, và  j được gọi là hệ số co giãn của theo Ví dụ 3.4.1.1: Chẳng hạn cĩ hàm cầu về thịt lợn như sau lnQPU 1.5 0.6ln Khi đĩ hệ số co giãn về nhu cầu thịt lợn theo giá là -0.6, điều này cĩ nghĩa là khi giá thịt lợn tăng 1% thì cầu trung bình về thịt lợn giảm 0.6%. 3.4.2 Mơ hình bán logarit 27
  28. Trong thực tế, cĩ những trường hợp mơ hình logarit kép khơng cịn phù hợp, chẳng hạn quan hệ giữa tiền lương và số năm kinh nghiệm của người lao động, hoặc tiền lương và trình độ học vấn, Khi đĩ người ta cĩ thể sử dụng các mơ hình bán logarit dưới đây: Mơ hình log-lin Dạng mơ hình: lnYXU 12 (3.4.2.1) Trong mơ hình này, hệ số 2 được giải thích như sau: Khi X tăng 1 đơn vị thì Y trung bình tăng 2 %. Trong nghiên cứu thực nghiệm, mơ hình log-lin thích hợp với những tình huống như khảo sát tốc độ tăng trưởng hay giảm sút của các biến kinh tế tầm vĩ mơ như: Dân số, lượng lao động, GDP, GNP, lượng cung tiền, năng suất, thâm hụt thương mại, Chú ý thêm rằng mơ hình log-lin chỉ thích hợp nếu số liệu chuỗi thời gian là dừng. Ví dụ 3.4.2.1: Giả sử quan hệ giữa thu nhập (TN) và trình độ học vấn (Ed) là lnTN 2.5 5.6 Ed U Khi đĩ ta cĩ thể nĩi rằng cứ thêm mỗi năm đi học, mức thu nhập trung bình tăng 5.6%. Ví dụ 3.4.2.2: Từ cơng thức tính lãi gộp t Yt Y0 (1 r ) Lấy logarit hai vế lnYt ln Y0 t ln(1 r ) Đặt 1 lnYr 0 , 2 ln(1 ) . Hơn nữa, nếu cĩ thêm yếu tố ngẫu nhiên vào, ta được mơ hình log-lin là lnYtt 12 t U Mơ hình lin-log Dạng mơ hình: YXU 12 ln (3.4.2.2) 28
  29. Trong mơ hình này, hệ số 2 được giải thích như sau: Khi X tăng 1% thì Y trung bình tăng 2 đơn vị. Trong nghiên cứu thực nghiệm, ta cĩ thể vận dụng mơ hình này để khảo sát một số quan hệ như: lượng cung tiền ảnh hưởng tới GDP, diện tích trồng trọt tác động tới sản lượng cây trồng, diện tích sử dụng của căn nhà tác động tới giá nhà, Ví dụ 3.4.2.3: Cĩ mơ hình lin-log về quan hệ giữa số giờ mà người lao động muốn làm (L) và mức trả cho một giờ lao động (TL) như sau: L 7 0.6ln TL U Kết quả trên cho thấy rằng khi mức trả cho một giờ lao động tăng 1% thì người lao động sẽ vui lịng làm thêm 0.6 giờ. Nhận xét: Dạng hàm logarit thường được lựa chọn khi cĩ gợi ý từ lý thuyết kinh tế về mối quan hệ giữa các biến số, chẳng hạn như dạng hàm Cobb-Douglas, Dạng hàm logarit cũng thường được sử dụng khi các biến số đều nhận giá trị dương, hoặc biến số cĩ phân phối đuơi lệch (thu nhập, mức lương, giá cổ phiếu, ). Việc lấy logarit giúp làm cho phân phối của sai số ngẫu nhiên gần với phân phối chuẩn, và do đĩ giúp tăng tính đối xứng của phân phối. Việc sử dụng mơ hình dạng logarit cĩ ưu thế là kết quả của ước lượng khơng phụ thuộc vào đơn vị đo của các biến số. Tuy nhiên, với những biến số mang cả giá trị âm (lợi nhuận cơng ty, lợi nhuận cổ phiếu) thì việc lấy logarit một cách trực tiếp là khơng thực hiện được. 3.4.3 Mơ hình nghịch đảo Dạng mơ hình: 1 YU  . (3.4.3.1) 12X Đặc điểm: 1 Khi biến độc lập X tăng ra vơ hạn thì dần về 0, và khi đĩ biến phụ thuộc Y sẽ X dần về 1 , gọi là tiệm cận ngang. 29
  30. Nếu 2 0 thì Y là hàm giảm theo X ; nếu 2 0 thì là hàm tăng theo ;  cịn khi Y 0 thì X 2 . 1 Một số áp dụng: Quan hệ giữa đường chi phí sản xuất cố định trung bình AFC (Average Fixed Cost) và sản lượng: Theo lý thuyết kinh tế, khi sản lượng tăng thì chi phí sản xuất cố định trung bình trên một sản phẩm cĩ khuynh hướng giảm dần nhưng khơng vượt quá mức tối thiểu. Y (AFC)  1 12 0, 0 X(Sản lượng) Quan hệ giữa tỷ lệ thay đổi tiền lương Y và tỷ lệ thất nghiệp X biểu diễn bằng đường cong Phillips: Khi tỷ lệ thất nghiệp tăng nhưng vẫn ở dưới mức tỷ lệ thất nghiệp tự nhiên U N thì tiền lương tăng (Y>0) nhưng mức tăng lương cĩ khuynh hướng giảm dần. Khi tỷ lệ thất nghiệp tăng vượt quá mức tỷ lệ thất nghiệp tự nhiên thì tiền lương sẽ giảm (Y<0) nhưng mức giảm của tiền lương cĩ khuynh hướng tăng dần, và tỷ lệ giảm sút tiền lương khơng vượt quá 1 . % thay đổi tiền lương Y 12 0, 0 U N 0 % thất nghiệp X 30
  31. Quan hệ chi tiêu của người tiêu dùng đối với một loại hàng Y với tổng chi tiêu hay tổng thu nhập X biểu diễn bằng đường cong Engel: Lý thuyết kinh tế khẳng định rằng chi tiêu hàng hĩa tăng khi thu nhập hoặc tổng chi tiêu tăng. Tuy nhiên, đối với một số loại hàng hĩa thì thu nhập của người tiêu dùng phải đạt ở mức tối thiểu 21/ mà ta gọi là thu nhập tới hạn hay ngưỡng thu nhập thì người tiêu dùng mới sử dụng loại hàng này. Mặt khác nhu cầu về loại hàng này là hữu hạn, ta xác định mức tiêu dùng bảo hịa của loại hàng này lập độc lập 1 . Chi tiêu của một loại hàng Y Bão hịa 12 0, 0  12/ Thu nhập X 3.4.4 Mơ hình hồi quy đa thức Dạng mơ hình: 2 k YXXXU 0  1  2 k (3.4.4.1) Đây là mơ hình tuyến tính theo các tham số  j nên nĩ được ước lượng bằng phương pháp OLS. Mơ hình hồi quy dạng đa thức thường được dùng để nghiên cứu hàm chi phí hoặc tiền lương. 3.4.5. Ví dụ Ví dụ 3.4.5.1: Để tìm hiểu giá bán thịt lợn (ngàn) và giá bán thịt gà (ngàn) cĩ ảnh hưởng lên mức tiêu thụ thịt lợn hay khơng (kg/ngày), người ta khảo sát về mức tiêu thụ thịt lợn bình quân một ngày tại một siêu thị như sau: Giá thị lợn Giá thịt gà Thịt lợn tiêu thụ 45 85 1200 49 81 1176 54 76 1152 31
  32. 58 73 1087 63 70 1045 69 72 1023 72 68 985 73 63 942 76 59 915 80 55 845 83 54 810 86 52 759 Ước lượng hàm hồi quy dạng: + Tuyến tính: Dependent Variable: LUONGLONTIEUTHU Method: Least Squares Date: Time: Sample: 1 12 Included observations: 12 Variable Coefficient Std. Error t-Statistic Prob. GIATHITLON -5.174643 1.989065 -2.601546 0.0287 GIATHITGA 6.969852 2.480846 2.809466 0.0204 C 874.0393 298.9491 2.923706 0.0169 R-squared 0.983099 Mean dependent var 994.9167 Adjusted R-squared 0.979344 S.D. dependent var 145.5125 S.E. of regression 20.91355 Akaike info criterion 9.130989 Sum squared resid 3936.388 Schwarz criterion 9.252216 Log likelihood -51.78594 Hannan-Quinn criter. 9.086107 F-statistic 261.7614 Durbin-Watson stat 0.999101 Prob(F-statistic) 0.000000 + Mơ hình lin-log: Dependent Variable: LUONGLONTIEUTHU Method: Least Squares Date: Time: Sample: 1 12 Included observations: 12 Variable Coefficient Std. Error t-Statistic Prob. LOGX1 -213.3038 89.26039 -2.389680 0.0406 LOGX2 618.5673 116.0147 5.331799 0.0005 C -707.8697 849.9657 -0.832822 0.4265 R-squared 0.984665 Mean dependent var 994.9167 32
  33. Adjusted R-squared 0.981257 S.D. dependent var 145.5125 S.E. of regression 19.92154 Akaike info criterion 9.033798 Sum squared resid 3571.810 Schwarz criterion 9.155025 Log likelihood -51.20279 Hannan-Quinn criter. 8.988916 F-statistic 288.9389 Durbin-Watson stat 1.227190 Prob(F-statistic) 0.000000 + Mơ hình log-log: Dependent Variable: LOGY Method: Least Squares Date: Time: Sample: 1 12 Included observations: 12 Variable Coefficient Std. Error t-Statistic Prob. LOGX1 -0.111773 0.118087 -0.946533 0.3686 LOGX2 0.768074 0.153482 5.004325 0.0007 C 4.136796 1.124465 3.678903 0.0051 R-squared 0.974658 Mean dependent var 6.892549 Adjusted R-squared 0.969027 S.D. dependent var 0.149752 S.E. of regression 0.026355 Akaike info criterion -4.221979 Sum squared resid 0.006251 Schwarz criterion -4.100753 Log likelihood 28.33188 Hannan-Quinn criter. -4.266862 F-statistic 173.0717 Durbin-Watson stat 1.072395 Prob(F-statistic) 0.000000 33
  34. Chƣơng 4 SUY DIỄN THỐNG KÊ VÀ DỰ BÁO TỪ MƠ HÌNH HỒI QUY 4.1 Quy luật phân phối xác suất của một số thống kê mẫu Xét mơ hình hồi quy tuyến tính: YXXU 1  2 2 kk (4.1.1) Để ước lượng các hệ số 1, , k ta cần rút ra một mẫu ngẫu nhiên kích thước n từ tổng thể: (X2i , Y ki ), i 1, n . Khi đĩ ta cĩ YXXUi 1  2 2 i  k ki i (4.1.2) YXXi 1  2 2i  k ki (4.1.3) Từ kết quả ước lượng, để đưa ra các suy diễn thống kê cho các hệ số hồi quy tổng thể, ta cần biết quy luật phân phối của các  j , và do đĩ cần giả thiết sau đây: 2 Giả thiết 5: Sai số ngẫu nhiên tuân theo quy luật chuẩn, tức là UNi 0, . Khi giả thiết 1-5 thỏa mãn thì phương pháp OLS là phương pháp ước lượng tốt nhất (BLUE) cho mơ hình hồi quy (4.1.1). Định lý: Khi các giả thiết 1-5 được thỏa mãn, các tính chất sau đây đúng (i)  N , Var  (4.1.4) j j j  (ii) t jj T() n k (4.1.5) Se  j a b  a  b  (iii) t j s j s T() n k (4.1.6) Se ajs b với a, b khơng đồng thời bằng 0. 4.2 Khoảng tin cậy cho các hệ số hồi quy 4.2.1 Khoảng tin cậy cho một hệ số hồi quy 34
  35. Thừa hưởng kết quả của mơn học Lý thuyết xác suất và thống kê tốn, với độ tin cậy 1 cho trước, ta cĩ các khoảng tin cậy của  j như sau: Khoảng tin cậy đối xứng:  Se  t()()n k,  Se  t n k j j / 2 j j / 2 Ý nghĩa: với độ tin cậy , khi biến X j tăng 1 đơn vị và các yếu tố khác khơng đổi thì trung bình của biến Y tăng trong khoảng này. Khoảng tin cậy trên trái: , Se t()nk jj Khoảng tin cậy bên phải:  Se t()nk , jj Khoảng tin cậy bên trái và bên phải được sử dụng để ước lượng giá trị lớn nhất và nhỏ nhất tương ứng cho . Ví dụ 4.2.1.1: Giả sử cĩ số liệu về doanh số bán hàng Y (triệu đồng/tháng), chi phí chào hàng X 2 (triệu đồng/tháng) và chi phí quảng cáo X 3 (triệu đồng/tháng) tại 12 doanh nghiệp của một cơng ty như sau: Quan sát Doanh số bán hàng Chi phí chào hàng Chi phí quảng cáo 1 1269 100 181 2 1490 102 246 3 1058 60 191 4 1625 160 235 5 1020 72 154 6 1805 175 262 7 1610 142 260 8 1285 118 161 9 1390 116 171 10 1442 120 230 11 1590 140 221 12 1383 154 147 35
  36. Từ Eviews, ta cĩ bảng kết quả: Dependent Variable: DOANHSOBANHANG Method: Least Squares Date: Time: 07:15 Sample: 1 12 Included observations: 12 Variable Coefficient Std. Error t-Statistic Prob. CHIPHIQUANGCAO 2.571877 0.395324 6.505743 0.0001 CHIPHICHAOHANG 4.554520 0.479784 9.492861 0.0000 C 333.1426 77.32351 4.308425 0.0020 R-squared 0.962815 Mean dependent var 1413.917 Adjusted R-squared 0.954552 S.D. dependent var 232.4824 S.E. of regression 49.56187 Akaike info criterion 10.85664 Sum squared resid 22107.41 Schwarz criterion 10.97787 Log likelihood -62.13983 Hannan-Quinn criter. 10.81176 F-statistic 116.5173 Durbin-Watson stat 2.307457 Prob(F-statistic) 0.000000 Hàm hồi quy mẫu: YXX 333.1426 4.55452023 2.571877 với 1 333.1426,  2 4.554520,  3 2.571877 Ngồi ra, Se 2 0.479784 và Se 3 0.395324 . + Ý nghĩa kinh tế của các hệ số hồi quy: 23 4.554520 0, 2.571877 0: Cho biết biến DOANHSOBANHANG đồng biến với các biến CHIPHIQUANGCAO và CHIPHICHAOHANG.  1 333.1426 : Cho biết khi doanh nghiệp khơng chào hàng và thực hiện quảng cáo ( XX23 0 ) thì doanh số bán hàng bình quân của một doanh nghiệp là 333.1426 triệu đồng/tháng.  2 4.554520: Cho biết khi chi phí quảng cáo khơng đổi, doanh số bán hàng bình quân của một doanh nghiệp sẽ tăng (giảm) 4.554520 triệu đồng/tháng nếu chi phí chào hàng tăng (giảm) 1 triệu đồng/tháng. 36
  37.  3 2.571877 : Khi chi phí chào hàng khơng đổi, doanh số bán hàng bình quân của một doanh nghiệp sẽ tăng (giảm) 2.571877 nếu chi phí quảng cáo tăng (giảm) 1 triệu đồng/tháng. Khoảng tin cậy cho các hệ số hồi quy: (nk ) (12 3) (9) Với độ tin cậy 1 95% , ta cĩ 0.05, / 2 0.025 và t / 2 t 0.025 t 0.025 2.262. Khoảng tin cậy cho  2 : 4.554520 0.479784 2.262  4.554520 0.479784 2.262 2 Hay (3.469248592 2 5.639791408) Ý nghĩa kinh tế: Khi chi phí quảng cáo khơng đổi, doanh số bán hàng bình quân của một cửa hàng tăng trong khoảng từ 3.469 đến 5.640 triệu đồng khi chi phí chào hàng tăng 1 triệu đồng/tháng. Khoảng tin cậy cho  3 : 2.571877 0.395324 2.262  2.571877 0.395324 2.262 3 Hay (1.677654112 3 3.466099888) Ý nghĩa kinh tế: Khi chi phí chào hàng khơng đổi, doanh số bán hàng bình quân của một cửa hàng tăng trong khoảng từ 1.678 đến 3.466 triệu đồng khi chi phí quảng cáo tăng 1 triệu đồng/tháng. 4.2.2 Khoảng tin cậy cho biểu thức của hai hệ số hồi quy Trong nhiều tình huống, ta muốn biết tác động đồng thời hai biến độc lập lên biến phụ thuộc, chẳng hạn như doanh nghiệp muốn biết sự gia tăng trong sản lượng đầu ra khi mua thêm 1 máy sản xuất và thuê thêm 5 lao động để vận hành máy này. Khi đĩ chúng ta cần xây dựng khoảng tin cậy cho tác động tổng hợp của hai biến số. 37
  38. Với mơ hình (4.1.1), giả sử X 2 và X 3 cùng tăng (giảm) 1 đơn vị, khi đĩ giá trị trung bình của Y tăng (giảm) 23 đơn vị, do đĩ để ước lượng mức tăng của trung bình của ta cần xây dựng khoảng tin cậy cho . Với độ tin cậy 1 cho trước, khoảng tin cậy cho là:   Se   t()()n k,   Se   t n k 23 23/223 23/2 Với a, b là là hai số thực bất kỳ, khoảng tin cậy cho mức tăng của trung bình của khi tăng a đơn vị và tăng b đơn vị là: a b  Sea  bt ()()n k, a  b  Sea  bt  n k 23 23/223 23/2 với 22 Se a2 b  3 a Var  2 b V ar  3 2 ab cov  2 ,  3 Ví dụ 4.2.2.1: Cũng với số liệu trong ví dụ 4.2.1.1, khi chi phí chào hàng giảm 2 triệu đồng và chi phí quảng cáo tăng 7 triệu đồng thì doanh số bán hàng bình quân thay đổi như thế nào với độ tin cậy 95%? Để trả lời cho câu hỏi trên, ta cần tìm khoảng tin cậy cho hệ số 2723 sau đây: 2 7 Se 2  7  t()()n k 2  7  2  7  Se 2  7  t n k 23 23/2 23 23 23/2 với  4.554520, 2.571877 23, cov 23 , 0.084107 2 Var Se 0.4797842 0.230192687 22 2 Var Se 0.3953242 0.156281065 33 Se 2 7 3.306590228 23 Vậy 1.414591905 2 7 16.37360609 23 38
  39. Cĩ nghĩa là với độ tin cậy 95%, doanh số bán hàng bình quân của một cửa hàng tăng lên trong khoảng từ 1.415 đến 16.374 triệu đồng khi chi phí quảng cáo tăng 7 triệu đồng và chi phí chào hàng giảm 2 triệu đồng/tháng. 4.2.3 Khoảng tin cậy của phƣơng sai nhiễu (sai số ngẫu nhiên) 2 Với giả thiết UNi 0, , ta cĩ 2 ()nk  22 ()nk  2 Với độ tin cậy 1 , ta cĩ các khoảng tin cậy của phương sai như sau: 22 ()()n k n k Khoảng tin cậy hai phía: , 22()()n k n k / 2 1 / 2 2 ()nk  Khoảng tin cậy bên trái: 0,  2 ()nk 1 2 ()nk  Khoảng tin cậy bên phải: ,  2 ()nk 2 Với  là ước lượng điểm của  2 -phương sai của sai số ngẫu nhiên U. Ví dụ 4.2.3.1: Từ kết quả hồi quy trong ví dụ 4.2.1.1, ta được 2  49.561872 2456.378958 Với độ tin cậy 95%, giá trị tới hạn của phân phối  2 với nk 12 9 3 là 2 2  /2(9) 19.02 và 1 / 2 (9) 2.7 Do đĩ khoảng tin cậy hai phía của  2 là 9 2456.3789582 9 2456.378958  19.02 2.7 Hay 1162.324428  2 8187.92986 . 39
  40. 4.2.4 Ý nghĩa của khoảng tin cậy Với độ tin cậy 1 .100 %, khoảng tin cậy của  j được hiểu như sau: Nếu lấy nhiều lần các mẫu một cách ngẫu nhiên từ cùng một tổng thể thì cĩ khoảng % số khoảng tin cậy được xây dựng từ các mẫu này cĩ chứa . Trong thực tế phân tích hồi quy, thường chỉ lấy một mẫu duy nhất và thu được một khoảng tin cậy cụ thể tương ứng, ta hy vọng rằng khoảng tin cậy này nằm trong số % khoảng tin cậy cĩ chứa . Khi độ tin cậy 1 càng lớn thì xác suất để mẫu được chọn cĩ khoảng tin cậy tương ứng chứa càng lớn, tuy nhiên đổi lại là độ chính xác càng giảm. Khi độ tin cậy 100% , tức 0, thì khoảng tin cậy là , , và nĩ khơng cĩ giá trị thơng tin nào cả. Trong thực tế, ta thường lấy = 95%. Khi độ tin cậy được cố định, ta quan tâm đến độ dài khoảng tin cậy đối xứng ()nk ()nk 2Se  j t /2 . Khi số bậc tự do (n-k) càng bé, t /2 càng lớn và khoảng tin cậy càng rộng. Do vậy với cùng một kích thước mẫu n, số biến độc lập đưa vào mơ hình càng nhiều thì sẽ làm giảm độ chính xác của ước lượng. Tuy nhiên tác động này sẽ giảm dần và trở nên khơng đáng kể khi kích thước mẫu khá lớn. Ngồi ra, mối tương quan tuyến 2 tính giữa X j và các biến độc lập cịn lại trong mơ hình được đo bởi R j ; mối tương quan tuyến tính càng chặt thì càng cao, làm cho Se  j lớn và khoảng tin cậy đối xứng sẽ rộng ra; khi gần 1, khoảng tin cậy sẽ rất rộng và trở nên mất ý nghĩa thực tế của việc ước lượng. 4.3 Kiểm định giả thuyết thống kê về hệ số hồi quy Việc kiểm định các giả thuyết liên quan tới mức độ tác động của biến độc lập lên biến phụ thuộc trong mơ hình hồi quy cũng là bài tốn thường được quan tâm trong phân tích hồi quy. Chẳng hạn liệu chi phí quảng cáo cĩ giúp tăng lợi nhuận hay khơng, số năm kinh nghiệm cĩ ảnh hưởng đến năng suất lao động hay khơng, 4.3.1 Kiểm định giả thuyết một hệ số hồi quy Xét mơ hình hồi quy: YXXU 1  2 2 kk (4.3.1.1) 40
  41. Giả định rằng các giả thiết 1-5 được thỏa mãn. Vấn đề đặt ra: liệu cĩ biến X j nào đĩ khơng tác động đến biến Y hay khơng, cĩ nghĩa là liệu cĩ  j nào đĩ bằng 0 hay khơng. Để trả lời câu hỏi này, người ta xét cặp giả thuyết thống kê như sau: H0 :0 j H1 :0 j Nếu bác bỏ H0 thì ta thừa nhận H1 , cĩ nghĩa là cĩ tác động đến biến . Nếu ngược lại chưa cĩ cơ sở bác bỏ thì tạm thời vẫn chấp nhận và xem như khơng hề tác động đến . Trong nhiều trường hợp, ta cũng muốn kiểm định các giả thuyết về độ lớn của để giúp ra quyết định trong các hoạt động kinh tế và sản xuất kinh doanh. Khi đĩ với mỗi jk 1,2, , , xét thống kê tốn  t jj T() n k Se  j 0 jj Ký hiệu t0 và giá trị xác suất p value P t t0 . Se  j Khi đĩ ta cĩ quy tắc kiểm định như sau: Loại Giả thuyết Phương pháp Quy tắc bác bỏ kiểm định Hai phía 0 Khoảng tin cậy 0 (n k ) ( n k ) H0 : jj   Se  t,  Se  t j j j / 2 j j / 2 0 H1 : jj Giá trị tới hạn ()nk tt0 / 2 Giá trị p-value p value Một phía 0 Khoảng tin cậy 0 (nk ) H0 : jj   Se  t , j j j 0 H1 : jj Giá trị tới hạn ()nk tt0 Giá trị p-value p value/2 Một phía 0 Khoảng tin cậy 0 (nk ) H0 : jj  ,  Se  t j j j 0 H1 : jj Giá trị tới hạn ()nk tt0 Giá trị p-value 41
  42. Ví dụ 4.3.1.1: Cũng với số liệu của ví dụ 4.2.1.1, ta tiến hành kiểm định các cặp giả thuyết sau đây: H02:0 ()a H :0 12 Và H03:0 ()b H :0 13  0 Ta cĩ thống kê t j T(9), j 2,3. Se  j  4.554520 t 2 9.492855118 0 2 Se  0.479784 2  2.571877 t 3 6.505744655 0 3 Se  0.395324 3 Với độ tin cậy 95%, (9) (9) tt 9.492855118 0.025 2.262 và tt 6.505744655 0.025 2.262 0 2 0 3 Vậy trong cả hai cặp giả thuyết (a) và (b), giả thuyết H0 bị bác bỏ, cĩ nghĩa là chi phí chào hàng và chi phí quảng cáo thực sự ảnh hưởng đến doanh số bán hàng. Chúng ta cũng cĩ những kết luận như trên nếu sử dụng giá trị xác suất p-value từ bảng kết quả hồi quy, cả hai giá trị xác suất này đều bé hơn mức ý nghĩa 0.05. 4.3.2 Kiểm định giả thuyết về một ràng buộc các hệ số hồi quy Xét mơ hình hồi quy: YXXU 1  2 2 kk (4.3.2.1) 42
  43. Bài tốn đặt ra: Hãy kiểm định xem liệu tác động của các biến X l và X s nào đĩ trong mơ hình lên biến Y cĩ khác nhau hay khơng. Để làm điều này, người ta xét cặp giả thuyết thống kê H :0 0 ls H1 :0ls Nếu bác bỏ H0 thì ta thừa nhận H1 , cĩ nghĩa là và tác động khác nhau lên biến . Nếu ngược lại chưa cĩ cơ sở bác bỏ thì tạm thời vẫn chấp nhận và cĩ thể xem và tác động như nhau lên . Một cách tống quá, các bài tốn kiểm định giả thuyết về ràng buộc giữa hai hệ số hồi quy cĩ thể được tĩm tắt trong bảng sau: Loại kiểm định Giả thuyết Quy tắc bác bỏ Hai phía H: a b c 0 ls tt ()nk H1 : als b c 0 / 2 Một phía H: a b c 0 ls tt ()nk H1 : als b c 0 Một phía H: a b c 0 ls tt ()nk H1 : als b c 0 Trong đĩ als b c t0 Se als b Ví dụ 4.3.2.1: Tiếp tục xét ví dụ 4.2.1.1, với độ tin cậy 95%, cĩ thể cho rằng chi phí chào hàng hiệu quả hơn chi phí quảng cáo đối với doanh số bán hàng hay khơng? Xét cặp giả thuyết thống kê: HH0: 2  3 0 :  2  3 0 HH1: 2  3 1 :  2  3 0 43
  44. Ta cĩ thống kê 23 0 tT (9) Se  23 (nk ) (9) Se 23 0.744773625, tt 0.05 1.833 23 1.982643 (9) tt0 2.662074669 0.05 1.833 Se  0.744773625 23 Kết luận: Bác bỏ giả thuyết H0 , thừa nhận H1 , cĩ nghĩa là thơng tin của mẫu đủ cơ sở để cho rằng chi phí chào hàng hiệu quả hơn chi phí quảng cáo đối với doanh thu bán hàng. 4.3.3 Kiểm định giả thuyết về nhiều ràng buộc các hệ số hồi quy (kiểm định Wald) Xét hai mơ hình hồi quy: (U) YXXXXXU 1  2 2  3 3 m m  m 1 m 1  k k (4.3.2.1) (R) YXXXXV 1  2 2  3 3 m 1 m 1  m m (4.3.2.2) (U) được gọi là mơ hình khơng ràng buộc hay mơ hình khơng giới hạn (Unrestricted Model), cịn (R) được gọi là mơ hình ràng buộc hay mơ hình giới hạn (Restricted Model). Điều kiện ràng buộc trong mơ hình (R) chính là hệ số hồi quy của các biến độc lập XXXm 12, m , , k đồng thời bằng 0. Để kiểm định điều kiện ràng buộc trên, ta lập giả thuyết như sau: H :0   0m 1 m 2 k H1 : j 0, j m 1, , k Các bước thực hiện kiểm định Wald: Hồi quy mơ hình (U) gồm k tham số, tính RSSU cĩ (n-k) bậc tự do. Hồi quy mơ hình (R) gồm m tham số, tính RSSR cĩ (n-m) bậc tự do. Sử dụng thống kê tốn 44
  45. 22 RSS RSS / k m RUR R / k m F RU F k m, n k . W 2 RSSU / n k 1/ RU n k Với mức ý nghĩa , tra bảng ta cĩ giá trị tới hạn f (,) k m n k . Nếu FW f (,) k m n k hoặc p value P F FW thì bác bỏ H0 . Chú ý rằng, nếu giả thuyết là H0 :0 j thì kết luận của kiểm định Wald tương đương với kết luận theo kiểm định T. Kiểm định Wald được sử dụng với nhiều mục đích khác nhau liên quan đến hệ số hồi quy như kiểm định tổ hợp tuyến tính, kiểm định thừa biến. Ví dụ 4.3.3.1: Giả sử cĩ mẫu số liệu về 12 doanh nghiệp về lợi nhuận rịng Y, chi phí NVL A ( X 2 ), chi phí NVL B ( X 3 ) và chi phí NVL C ( X 4 ) của một cơng ty cùng sản xuất một loại sản phẩm như sau: Quan sát Chi phí NVL A Chi phí NVL B Chi phí NVL C Lợi nhuận rịng (ngàn đồng/sp) (ngàn đồng/sp) (ngàn đồng/sp) (ngàn đồng/sp) 1 16 15 12 11 2 15 15 13 12 3 17 13 13 13 4 13 16 11 10 5 11 17 15 12 6 12 14 17 11 7 20 17 15 15 8 22 18 16 16 9 24 19 18 18 10 19 25 19 19 11 21 27 20 21 12 22 29 19 23 Xét hai mơ hình hồi quy: (U) YXXXU 1  2 2  3 3  4 4 (R) YXV 1 2 2 Kiểm định Wald cho cặp giả thuyết: H0:0 3 4 Hj: 0, 3,4 1 j 45
  46. Kết quả hồi quy cho (U): Dependent Variable: LOINHUANRONG Method: Least Squares Date: Time: Sample: 1 12 Included observations: 12 Variable Coefficient Std. Error t-Statistic Prob. CHIPHINVLA 0.375454 0.067634 5.551292 0.0005 CHIPHINVLB 0.434309 0.074023 5.867202 0.0004 CHIPHINVLC 0.307119 0.130729 2.349275 0.0467 C -4.504498 1.309052 -3.441038 0.0088 R-squared 0.977016 Mean dependent var 15.08333 Adjusted R-squared 0.968398 S.D. dependent var 4.316108 S.E. of regression 0.767277 Akaike info criterion 2.569264 Sum squared resid 4.709715 Schwarz criterion 2.730900 Log likelihood -11.41559 Hannan-Quinn criter. 2.509421 F-statistic 113.3583 Durbin-Watson stat 2.196034 Prob(F-statistic) 0.000001 Kết quả hồi quy cho (R): Dependent Variable: LOINHUANRONG Method: Least Squares Date: Time: Sample: 1 12 Included observations: 12 Variable Coefficient Std. Error t-Statistic Prob. CHIPHINVLA 0.807818 0.186722 4.326304 0.0015 C 0.811889 3.387694 0.239658 0.8154 R-squared 0.651773 Mean dependent var 15.08333 Adjusted R-squared 0.616950 S.D. dependent var 4.316108 S.E. of regression 2.671282 Akaike info criterion 4.954006 Sum squared resid 71.35749 Schwarz criterion 5.034824 Log likelihood -27.72404 Hannan-Quinn criter. 4.924084 F-statistic 18.71691 Durbin-Watson stat 0.751064 Prob(F-statistic) 0.001498 Nhận thấy các hệ số hồi quy đều cĩ ý nghĩa thống kê (trừ hằng số C trong mơ hình (R)). Ta cĩ 22 RRUR 0.977016, 0.651773 46
  47. 22 RUR R / k m 0.977016 0.651773 / 4 2 F 56.60337626 W 1/ R2 n k 1 0.977016 / 12 4 U Với mức ý nghĩa 5%, ta cĩ FFW 56.60337626 0.05 (2,8) 4.459 . Bác bỏ giả thuyết H0 , nghĩa là  j 0,j 3,4. 4.3.4 Kiểm định sự phù hợp của mơ hình hồi quy Xét một trường hợp đặc biệt của kiểm định giả thuyết về nhiều ràng buộc của các hệ số hồi quy như sau: H0:0 2  3 k 2 2 2 H1:0 2  3 k Nếu H0 đúng thì mơ hình được gọi là khơng phù hợp. Tương tự như các bước kiểm định F ở mục 4.3.3, ta lần lượt ước lượng hai mơ hình sau: Mơ hình gốc khơng cĩ điều kiện ràng buộc: YXXU    1 2 2 kk Ta sẽ thu được R2 . Mơ hình với điều kiện ràng buộc: YU  1 Mơ hình này khơng cĩ biến độc lập nên hệ số xác định bằng 0. Vì hai mơ hình trên đều cùng biến phụ thuộc nên giá trị quan sát được tính theo cơng thức Rk2 /( 1) F qs 1 R2 /( n k ) Với mức ý nghĩa cho trước , tra giá trị tới hạn của phân phối F là f( k 1, n k ). Nếu Ff thì bác bỏ giả thuyết , và hàm hồi quy khi đĩ được gọi là phù hợp. qs Ngược lại, hàm hồi quy được gọi là khơng phù hợp. 47
  48. Nhận xét: Khi kiểm định cặp giả thuyết dạng 0 H0 : jj , 0 H1 : jj ta cĩ thể sử dụng cả hai loại kiểm định F và kiểm định T và cho kết luận hồn tồn giống nhau. Khi kiểm định giả thuyết đồng thời bằng 0 của nhiều hệ số, việc sử dụng kiểm định T cho từng hệ số thay vì sử dụng kiểm định F là khơng đáng tin cậy trong một số trường hợp. 4.4 Kiểm định giả thuyết về phƣơng sai của nhiễu 2 2 ()nk  22 Ký hiệu 0 2 và p value P  0 . Khi đĩ ta cĩ bảng tĩm tắt về quy  0 tắc kiểm định giả thuyết về phương sai của nhiễu như sau: Loại Giả thuyết Phƣơng pháp Quy tắc bác bỏ H0 kiểm định Hai phía H :22 Khoảng tin cậy 22 00 ()()n k n k 2 22  0 22, H10:  / 2 1 / 2 Giá trị tới hạn 22 22 0 / 2 ()nk hoặc 0 1 / 2 ()nk Giá trị p-value p value /2 hoặc p value 1 / 2 Một phía H :22 Khoảng tin cậy 2 00 ()nk  2 22  0 2 , H10:  Giá trị tới hạn 22 0 ()nk Giá trị p-value p value Một phía H :22 Khoảng tin cậy 2 00 ()nk  2 22  0 , 2 H10:  1 Giá trị tới hạn 22 01 ()nk Giá trị p-value p value 1 48
  49. 4.5. Một số kiểm định khác Khi Giả thiết 5 thỏa mãn, các kiểm định T và F là đủ để thực hiện các kiểm định cần thiết và điều này đúng cho mọi cỡ mẫu. Trong trường hợp Giả thiết 5 bị vi phạm thì các thống kê T và F như đã sử dụng sẽ khơng tuân theo quy luật phân phối Student và quy luật Fisher tương ứng. Tuy nhiên, người ta đã chỉ ra rằng khi cõ mẫu lớn thì các thống kê T và F xấp xỉ quy luật phân phối Student và quy luật phân phối Fisher tương ứng. Như vậy khi cỡ mẫu lớn, nếu nhiễu khơng tuân theo quy luật chuẩn thì các kết luận nhận được từ các mục 4.2 và 4.3 vẫn cĩ giá trị. Khi cỡ mẫu lớn, ngồi các kiểm định T và F, người ta cịn cĩ thể sử dụng các kiểm định khác như kiểm định Wald, kiểm định tỷ số hợp lý LR, kiểm định nhân tử Lagrange LM. Các kiểm định T và F chỉ được sử dụng cho mơ hình hồi quy tuyến tính, cịn các kiểm định Wald, LR, và LM đều cĩ thể áp dụng được cho cả mơ hình tuyến tính lẫn phi tuyến. Với các mơ hình tuyến tính, các kết luận thu được từ các kiểm định này trùng với kiểm định F. 4.6 Dự báo giá trị của biến phụ thuộc và sai số dự báo 4.6.1 Dự báo giá trị của biến phụ thuộc Dự báo giá trị trung bình cĩ điều kiện: Giả sử ta quan tâm mơ hình hồi quy: YXXU 1  2 2 kk T 0 0 0 Với XXXX0 1 2 3 k , giá trị dự báo của YEYXX00 / sẽ là 00 YEYXXXX0 / 0  1  2 2 kk Khi đĩ Dự báo điểm (ước lượng điểm) của EYXX / 0 là Y0 , tức là 00 YXX0  1  2 2 kk Dự báo khoảng (ước lượng khoảng) của với độ tin cậy 1 là 49
  50. Y Se Y t()()n k, Y Se Y t n k 0 0 / 2 0 0 / 2 Với 2 1 , T T Se Y00 Var Y Var Y0  X 0 X X X 0 Dự báo giá trị riêng biệt Với độ tin cậy 1 , khoảng tin cậy của Y khi XX 0 là Y SeY Yt()()n k, Y SeY Yt n k 0 0 0 / 2 0 0 0 / 2 Với 2 , VYYVYar ar  Se Y0 Y 0 Var Y 0 Y 0 0 0 0 Ví dụ 4.6.1.1: Với số liệu của ví dụ 4.2.1.1, hãy dự báo giá trị bình quân và giá trị riêng biệt cho doanh số bán hàng của một doanh nghiệp khi chi phí chào hàng là 150 triệu đồng/tháng và chi phí quảng cáo là 220 triệu đồng/tháng với độ tin cậy 95%? Ta cĩ YXX 333.1426 4.554520 2.571877 , Y 1582.13354, t(9) 2.262 230 0.025 Se Y Y 53.013346 , Se Y 18.8158 00 0 Dự báo khoảng cho doang số bán trung bình: 1539.572 EYXX | 0 1624.695 Dự báo giá trị riêng biệt: 1462.217 Y0 1702.050 4.6.2 Đánh giá sai số dự báo Với mơ hình hồi quy, độ chính xác của dự báo được phản ánh thơng qua sai số dự báo, được xác định bằng các cách sau đây: Căn bậc hai của trung bình bình phương sai số 50
  51. n 2  YYii RMSE i 1 n Sai số trung bình tuyệt đối n  YYii MAE i 1 n Sai số trung bình tuyệt đối theo phần trăm n YY  ii i 1 Y MAPE i n Trong nghiên cứu thực nghiệm với các số liệu kinh tế, sai số dự báo được yêu cầu nhỏ hơn 5%. Một vài loại chỉ số được yêu cầu sai số phải khá bé, chẳng hạn như chỉ số VN- index hay chỉ số giá CPI theo tháng. 51
  52. Chƣơng 5 MƠ HÌNH HỒI QUY VỚI BIẾN ĐỊNH TÍNH 5.1 Khái niệm biến định tính, biến giả Biến định tính (categorical variable) hay biến chỉ tiêu là những biến kinh tế xã hội khơng cĩ giá trị đo lường cụ thể bằng các con số, khơng lượng hĩa qua các đại lượng đo lường thơng thường được. Biến định tính thường cĩ một số thuộc tính mà một cá thể sẽ cĩ một trong các thuộc tính đĩ. Do đĩ biến định tính khơng cĩ đơn vị đo. Một biến định tính cĩ ít nhất hai thuộc tính khác nhau, một cá thể cĩ thể cĩ một và chỉ một trong các thuộc tính đĩ. Do đĩ cĩ thể phân chia tổng thể thành những phần gọi là trạng thái tương ứng với những thuộc tính của biến định tính. Chẳng hạn, với tổng thể là người lao động, biến định tính giới tính cĩ hai thuộc tính nam và nữ, do đĩ phân chia tổng thể thành hai trạng thái là lao động nam và lao động nữ; biến định tính tình trạng hơn nhân gồm các thuộc tính: chưa cĩ gia đình, đang cĩ gia đình, đã ly hơn, do đĩ phân chia tổng thể này thành ba trạng thái; đánh giá mức độ hài lịng của khách hàng với giá trị 0 nếu khơng hài lịng, 1 nếu ít hài lịng, 2 nếu hài lịng, 3 nếu rất hài lịng, thì đại lượng này khơng cĩ đơn vị đo lường và mức độ chênh lệch giữa hai giá trị bằng số thể hiện sự hài lịng hơn, tuy nhiên ta khơng đo lường cụ thể được, do đĩ các phép tốn tổng và hiệu khơng cĩ ý nghĩa, và yếu tố hài lịng được xem là biến định tính. Biến định tính cĩ thể là biến độc lập cũng cĩ thể là biến phụ thuộc. Chẳng hạn, với người lao động, biến thu nhập phụ thuộc vào giới tính, trình độ, chuyên ngành, do đĩ biến độc lập là định tính; với doanh nghiệp, mối quan hệ giữa đã cổ phần hĩa và chưa cổ phần hĩa phụ thuộc vào lượng vốn, thị phần, quy mơ, do đĩ phụ thuộc là định tính. Trong mơ hình hồi quy cĩ chứa biến định tính D , khi ta xét từng trạng thái cụ thể của nĩ thì biến này khơng cịn xuất hiện nữa. Biến định tính D chỉ tạm thời xuất hiện và khơng thể mơ tả trực tiếp qua các biến định lượng thơng thường, do đĩ là biến thay thế, và được gọi là biến giả (dummy variable). Chẳng hạn, muốn khảo sát lương của giáo viên theo trình độ cử nhân hay thạc sỹ, ta đặt Y là biến phụ thuộc biểu thị lương của giáo viên, biến độc lập biểu thị cho trình độ của giáo viên được lượng hĩa bằng biến giả D như sau: D 0 nếu là cử nhân, và D 1 nếu là thạc sĩ. Khi đĩ mơ hình hồi quy cĩ dạng: YDU 12 , và nếu ta xét từng trạng thái cụ thể cho D thì khơng cịn chưa biến này nữa. 5.2 Mơ hình cĩ chứa biến độc lập là biến giả Xét tình huống: Để xem tác động của phân bĩn lên sản lượng lúa ở 1 vùng, người ta thu thập số liệu từ các mảnh ruộng khác nhau gồm năng suất lúa, lượng phân bĩn sử dụng và 52
  53. các yếu tố khác liên quan. Ta biết rằng sản lượng lúa khơng chỉ phụ thuộc vào lượng phân bĩn mà cịn phụ thuộc vào giống lúa sử dụng gieo trồng: cao sản hay khơng cao sản. Khi đĩ người ta sử dụng mơ hình hồi quy thể hiện mối liên hệ giữa năng suất lúa NS với giống lúa GL và lượng phân bĩn PB như sau: NS 1  2 GL  3 PB U Trong đĩ 1 nếu giống cao sản GL 0 nếu giống không cao sản Vì GL là biến định tính nên khơng thể giải thích như phương pháp thơng thường đã làm ở những chương trước, mà lý luận như sau: Với ruộng lúa thuộc giống cao sản: NS 1  2  3 PB U Với ruộng lúa thuộc giống khơng cao sản: NS 13 PB U Vẫn với giả thiết E( U | GL ) 0, ta cĩ các kết luận là: Khi lượng phân bĩn bằng 0 thì năng suất trung bình của giống lúa khơng phải cao sản là 1 đơn vị; khi lượng phân bĩn trên 1ha tăng 1 đơn vị thì năng suất lúa trung bình của giống lúa khơng phải cao sản tăng 3 đơn vị; khi lượng phân bĩn như nhau thì năng suất lúa trung bình của giống lúa cao sản cao hơn so với giống lúa khơng cao sản là 2 đơn vị; nếu 2 0 thì năng suất lúa trung bình của giống cao sản cao hơn so với giống khơng cao sản khi cùng lượng phân bĩn; nếu 2 0 thì yếu tố giống lúa khơng tác động tới năng suất lúa; cịn nếu 2 0 thì yếu tố giống lúa cĩ tác động tới năng suất lúa. Một cách tổng quát, giả sử biến định tính Z cĩ hai phạm trù và cĩ tác động đến biến phụ thuộc Y. Gọi D là biến giả thể hiện biến định tính Z được xác định như sau: 1 nếu quan sát thuộc nhóm 1 của Z D 0 nếu quan sát thuộc nhóm còn lại của Z Xét mơ hình hồi quy bội với biến giả D như sau: YDXXU 1  2  3 3 kk 53
  54. Khi đĩ hệ số 2 thể hiện sự khác biệt giữa giá trị trung bình của Y trong nhĩm các quan sát thuộc nhĩm 1 với giá trị này trong nhĩm các quan sát thuộc nhĩm cịn lại khi các biến X j là như nhau. Chú ý rằng mơ hình trên vẫn tuyến tính theo các biến số (bao gồm D) nên phương pháp OLS vẫn cho các ước lượng tốt nhất khi các giả thiết được thỏa mãn. Ví dụ 5.2.1: Cĩ số liệu khảo sát ngẫu nhiên tại 12 của hàng thuộc các điểm bán hàng ở vùng nơng thơn và thành phố như sau Giá bán (1000 đ) Địa điểm bán hàng Số lượng hàng bán (kg sản phẩm/tháng) 42 TP 1 1350 46 NT 0 750 41 NT 0 820 44 TP 1 1540 40 NT 0 890 45 NT 0 780 43 TP 1 1280 40 TP 1 1420 42 TP 1 1400 44 TP 1 1500 45 NT 0 780 43 NT 0 850 Hỏi với cùng mức giá, doanh số bán hàng cĩ khác nhau hay khơng giữa thành thị và nơng thơn? Ta đưa vào biến giả D như sau: 1 nếu bán ở thành thị D 0 nếu bán ở nông thôn (phạm trù cơ sở) Bảng kết quả hồi quy từ phần mềm Eviews: Dependent Variable: SOLUONGHANGBAN Method: Least Squares Date: Time: Sample: 1 12 Included observations: 12 Variable Coefficient Std. Error t-Statistic Prob. DIEMBAN 597.4490 47.10327 12.68381 0.0000 GIABAN -7.061224 12.45371 -0.566998 0.5846 54
  55. C 1117.653 540.6377 2.067287 0.0687 R-squared 0.950483 Mean dependent var 1113.333 Adjusted R-squared 0.939479 S.D. dependent var 323.4848 S.E. of regression 79.58039 Akaike info criterion 11.80373 Sum squared resid 56997.35 Schwarz criterion 11.92496 Log likelihood -67.82238 Hannan-Quinn criter. 11.75885 F-statistic 86.37791 Durbin-Watson stat 1.591562 Prob(F-statistic) 0.000001 Mơ hình hồi quy từ số liệu mẫu: YXD 1117.653-7.0612242 597.4490 Kết quả hồi quy cho thấy: Hệ số xác định R2 0.950483chứng tỏ mơ hình cĩ mức độ phù hợp cao, các giá trị p-value chỉ ra rằng chỉ cĩ biến DIEMBAN ảnh hưởng lên SOLUONGHANGBAN, biến GIABAN khơng tác động lên biến phụ thuộc SOLUONGHANGBAN.  3 597.4490: Cho thấy với cùng mức giá, lượng hàng bán được bình quân ở thành thị cao hơn ở nơng thơn 597.4490 kg/tháng. Giả sử ứng với cùng một mức giá X 45000 đồng/kg, lượng hàng bán được bình quân trong một tháng như sau: - Điểm bán ở thành thị: Y TT 1117.653-7.061224 45 597.4490 1 1397.34692 - Điểm bán ở nơng thơn: Y NT 1117.653-7.061224 45 597.4490 0 799.89792 5.3 Mơ hình với biến độc lập bao gồm biến định lƣợng và định tính 5.3.1 Mơ hình với một biến định lƣợng và một biến định tính Trƣờng hợp biến định tính cĩ hai phạm trù (xem mục 5.2) Trƣờng hợp biến định tính cĩ nhiều hơn hai phạm trù Giả sử muốn ước lượng mức thu nhập của nhân viên được quyết định bởi số năm kinh nghiệm cơng tác và trình độ học vấn, ta làm như sau: Gọi Y là tiền lương, X là số năm kinh nghiệm, D là trình độ học vấn (học vấn được phân loại thành 3 phạm trù: tốt nghiệp phổ thơng, tốt nghiệp đại học và tốt nghiệp sau đại học). 55
  56. Đặt bộ biến giả: DD34ii 0, 0 : Phổ thơng, DD34ii 1, 0 : Đại học DD34ii 0, 1 : Sau đại học Mơ hình hồi quy: YXDDUi 1  2 2 i  3 3 i  4 4 i i Đối với nhân viên tốt nghiệp phổ thơng: EYXDDX i|2 i , 3 i 0, 4 i 0  1 2 2 i Đối với nhân viên cĩ trình độ đại học: EYXDDXX i|23 i , i 1, 4 i 0  12231322  i     i Đối với nhân viên cĩ trình độ sau đại học: EYXDDXX i|23 i , i 0, 4 i 1  12241422  i     i So sánh tung độ gốc, ta cĩ mức chênh lệch về thu nhập của các nhân viên cĩ cùng số năm kinh nghiệm, cụ thể như sau: Chệnh lệch giữa nhân viên cĩ bằng đại học so với người tốt nghiệp phổ thơng là 1  3  1  3 Chênh lệch giữa nhân viên cĩ bằng sau đại học so với người tốt nghiệp phổ thơng là 1  4  1  4 Chênh lệch giữa nhân viên cĩ bằng sau đại học so với người cĩ bằng đại học là 1  4  1  3  4  3 So sánh hệ số gĩc: Hệ số gĩc bằng nhau trong mọi trường hợp và bằng 2 . Điều này cho thấy số năm kinh nghiệm tăng lên như nhau dẫn đến mức tăng thu nhập như nhau từ lương. 5.3.2 Hồi quy với một biến định lƣợng và hai biến định tính Cũng với ví dụ trên và câu hỏi đặt ra là liệu cĩ sự phân biệt đối xử mức lương giữa nam và nữ khơng. Để giải quyết bài tốn này, ta đặt thêm biến giới tính: 56
  57. 1 nếu quan sát là nam D5i 0 nếu quan sát là nữ Mơ hình hồi quy là: YXDDDUi 1  2 2 i  3 3 i  4 4 i  5 5 i i Thu nhập của nữ: Cĩ trình độ phổ thơng: EYXDDDX i|2 i , 3 i 0, 4 i 0, 5 i 0  1 2 2 i Cĩ trình độ đại học: EYXDDDXX i|23 i , i 1, 4 i 0, 5 i 0  12231322  i     i Cĩ trình độ sau đại học: EYXDDDXX i|23 i , i 0, 4 i 1, 5 i 0  12241422  i     i Thu nhập của nam: Cĩ trình độ phổ thơng: EYXDDDXX i|23 i , i 0, 4 i 0, 5 i 1  12251522  i     i Cĩ trình độ đại học: EYXDDDXX i|23 i , i 1, 4 i 0, 5 i 1  1223513522  i       i Cĩ trình độ sau đại học: EYXDDDXX i|23 i , i 0, 4 i 1, 5 i 1  1224514522  i       i Như vậy, ta cĩ 3 trường hợp so sánh như sau: So sánh cùng giới tính, khác trình độ văn hĩa: Giữa nhân viên nữ cĩ bằng đại học so với nhân viên nữ tốt nghiệp phổ thơng, chênh lệch 1  3  1  3 ; Giữa nhân viên nam cĩ trình độ sau đại học so với nhân viên nam cĩ trình độ đại học, chênh lệch 1  4  5  1  3  5  4  3 . So sánh khác giới tính, cùng trình độ văn hĩa: Giữa nhân viên nữ và nhân viên nam cĩ cùng trình độ đại học, chênh lệch 57
  58. 1  4  5  1  4  5 ; Giữa nhân viên nam và nhân viên nữ cùng cĩ bằng đại học, chênh lệch 1  3  5  1  3  5 . So sánh khác giới tính, khác trình độ văn hĩa: Giữa nhân viên nam cĩ bằng sau đại học với nhân viên nữ cĩ bằng đại học, chênh lệch 1  4  5  1  3  4  3  5 Trong đĩ chênh lệch do trình độ là 43 , do giới tính là 5 . Chú ý: a/ Nếu biến định tính cĩ m phạm trù thì ta đưa vào mơ hình m-1 biến giả làm biến giải thích. b/ Quy ước gọi phạm trù được gán giá trị 0 là phạm trù cơ sở. c/ Những trường hợp được trình bày trong các mục 5.3.1 và 5.3.2 cho thấy chỉ cĩ tung độ gốc giữa các mơ hình khác nhau, hệ số gĩc luơn bằng nhau. Thực tế, cĩ những trường hợp (a) tung độ gốc giữa các mơ hình khơng đổi và hệ số gĩc khác nhau hoặc (b) cả tung độ gốc và hệ số gĩc khác nhau. Ví dụ xảy ra trƣờng hợp (a): Giả sử hồi quy thu nhập Y của nhân viên nam và nữ cĩ cùng mức lương khởi điểm 1 và thâm niên cơng tác X, trong đĩ thâm niên cơng tác như nhau nhưng tốc độ tăng lương cĩ thể khác nhau giữa nam và nữ. Để khảo sát xem mức thu nhập cĩ khác nhau hay khơng giữa nam và nữ, ta đưa thêm vào biến giả D mơ tả cho biến định tính giới tính như sau: Mơ hình hồi quy cĩ dạng: YXUi 1 2 2 i i Trong đĩ * 2  2  3D 3i với 1 nếu quan sát là nam D3i 0 nếu quan sát là nữ 58
  59. Mơ hình trên trở thành * YDXUi 1  2  3 3 i 2 i i Với nhân viên nam: * YXUi 1  2  3 2 i i Với nhân viên nữ: * YXUi 1 2 2 i i Nhận thấy cĩ sự khác nhau giữa hệ số gĩc của hai mơ hình đối với nam và nữ, chênh lệch 2  3  2  3 Kết luận: Nếu 3 0 thì tốc độ tăng thu nhập của nhân viên nam nhanh hơn nhân viên nữ; ngược lại thì tốc độ tăng thu nhập của nhân viên nam chậm hơn nhân viên nữ; đặc biệt nếu 3 0 thì khơng cĩ sự khác nhau về tốc độ tăng thu nhập của nam và nữ. Ví dụ xảy ra trƣờng hợp (b): Giả sử mức lương khởi điểm và tốc độ tăng lương của nhân viên nam và nữ đều khác nhau. Khi đĩ mơ hình hồi quy sẽ là: YXUi 1 2 2 i i Trong đĩ *1 *2 1  1  3D 3i và 2  2  3D 3i với 1 nếu quan sát là nam D3i 0 nếu quan sát là nữ Mơ hình trên trở thành * 1 * 2 YDDXUi 1  3 3 i  2  3 3 i 2 i i Với nhân viên nam: 59
  60. * 1 * 2 YXUi 1  3  2  3 2 i i Với nhân viên nữ: YXUi 1 2 2 i i Nhận thấy cĩ sự khác nhau giữa hệ số gĩc và tung độ gốc của hai mơ hình đối với nam và 2 1 nữ, chênh lệch 3 về hệ số gĩc và 3 về tung độ gốc. 1 Kết luận: Nếu 3 0 thì lương khởi điểm của nam cao hơn nữ; ngược lại thì lương khởi 2 điểm của nam thấp hơn nữ; nếu 3 0 thì tốc độ tăng lương của nam nhanh hơn nữ, ngược lại tốc độ tăng lương của nam chậm hơn nữ. Cần chú ý rằng, khi khai triển các mơ hình trên thấy xuất hiện biến tích DX. gọi là biến tương tác, thể hiện tác động đồng thời của biến D và X lên biến Y . YX 1  2  3 YX 1  3  2 YX 12 Tung độ lệch 3 , hệ số gĩc bằng nhau 2 Tung độ bằng nhau 1 , hệ số gĩc khác nhau YX 1  3  2  4 Tung độ lệch 3 , hệ số gĩc lệch 4 60
  61. 5.3.3 Kiểm định sự khác biệt giữa hàm hồi quy của hai nhĩm Nhiều khi ta muốn biết các hệ số hồi quy của hai nhĩm của một tổng thể cĩ đặc tính khác nhau (nam/nữ, thành thị/nơng thơn, ) cĩ bằng nhau hay khơng? Nếu các hệ số bằng nhau, ta nĩi các hệ số là ổn định. Để kiểm tra về tính ổn định này, cĩ thể sử dụng hai phương pháp: Kiểm định Chow và kiểm định sử dụng biến giả. Kiểm định Chow Giả sử muốn khảo sát hành vi chi tiêu Y theo thu nhập X của nam giới giữa hai thời kỳ trước khi lập gia đình và sau khi lập gia đình cĩ sự khác nhau hay khơng, ta lập luận như sau: Nếu việc chi tiêu giữa hai thời kỳ khơng cĩ sự khác biệt thì ta chỉ cần sử dụng một hàm hồi quy; cịn nếu cĩ sự khác biệt thì sử dụng hai hàm hồi quy cho thời kỳ trước khi lập gia đình (PRF1) và sau khi lập gia đình (PRF2) theo các bước dưới đây: Y Y PRF12 PRF PRF1 PRF2 X Quan hệ giữa chi tiêu và thu nhập qua hai thời kỳ của nam giới Bước 1: Hồi quy riêng từng thời kỳ với thời kỳ trước khi lập gia đình cĩ n1 quan sát và thời kỳ sau khi lập gia đình cĩ n2 quan sát. + Trước khi lập gia đình, hàm hồi quy dạng: YXUi 1 2 2 i i Tính RSS1 với nk1 bậc tự do. + Sau khi lập gia đình, hàm hồi quy dạng: YXVi 1 2 2 i i Tính RSS2 với nk2 bậc tự do. Khí đĩ RSSU RSS12 RSS cĩ n12 n k bậc tự do. 61
  62. Bước 2: Kết hợp các quan sát của cả hai thời kỳ ta được n n12 n và ước lượng mơ hình sau: YXRi 1 2 2 i i Tính RSSR của mơ hình này cĩ nk bậc tự do. Bước 3: + Xét cặp giả thuyết H0 : Hồi quy của hai thời kỳ là như nhau H1 : Hồi quy của hai thời kỳ là khác nhau + Tính giá trị quan sát của phân phối F RSSRU RSS / k FC RSSU /( n 2 k ) + Với mức ý nghĩa cho trước, nếu FC f ( k , n 2 k ) thì bác bỏ giả thuyết , cịn ngược lại chưa cĩ cơ sở bác bỏ . Chú ý: Cĩ thể mở rộng kiểm định Chow cho nhiều thời kỳ. Ví dụ 5.3.3.1: Cĩ số liệu của Mexico giai đoạn 1955-1974, trong đĩ sản lượng Y đo bằng GDP thực (đơn vị tính Pesos của năm 1960), X được đo bằng tổng lao động (ngàn người), X được đo bằng vốn cố định (triệu Pesos của năm 1960). Năm GDP Lượng lao động Vốn cố định 1955 114043 8310 182113 1956 120410 8529 193749 1957 129187 8738 205192 1958 134705 8952 215130 1959 139960 9171 225021 1960 150511 9569 237026 1961 157897 9527 248897 1962 165286 9662 260661 1963 178491 10334 275466 1964 199457 10981 295378 1965 212323 11746 315715 1966 226977 11521 337642 1967 241194 11540 363599 1968 260881 12066 391847 1969 277498 12297 422382 1970 296530 12955 455049 62
  63. 1971 306712 13338 484677 1972 329030 13738 520553 1973 354057 15924 561531 1974 374977 14154 609825 Thực hiện thủ tục kiểm định Chow cho hai giai đoạn 1955-1964 và 1965-1974, được kết quả như sau: + Giai đoạn 1955-1964: Dependent Variable: LOG(GDP) Method: Least Squares Date: Time: Sample: 1955 1964 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. LOG(LUONGLAODONG) 0.711856 0.189157 3.763313 0.0070 LOG(VONCODINH) 0.742188 0.104530 7.100261 0.0002 C -3.777963 0.528148 -7.153231 0.0002 R-squared 0.997701 Mean dependent var 11.89745 Adjusted R-squared 0.997044 S.D. dependent var 0.176759 S.E. of regression 0.009610 Akaike info criterion -6.208638 Sum squared resid 0.000647 Schwarz criterion -6.117862 Log likelihood 34.04319 Hannan-Quinn criter. -6.308218 F-statistic 1518.806 Durbin-Watson stat 1.719946 Prob(F-statistic) 0.000000 Giai đoạn 1965-1974: Dependent Variable: LOG(GDP) Method: Least Squares Date: Time: Sample: 1965 1974 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. LOG(LUONGLAODONG) 0.013197 0.067314 0.196047 0.8501 LOG(VONCODINH) 0.856308 0.032029 26.73541 0.0000 C 1.308925 0.316382 4.137168 0.0044 R-squared 0.998224 Mean dependent var 12.55465 Adjusted R-squared 0.997716 S.D. dependent var 0.189885 S.E. of regression 0.009075 Akaike info criterion -6.323336 Sum squared resid 0.000576 Schwarz criterion -6.232561 Log likelihood 34.61668 Hannan-Quinn criter. -6.422917 F-statistic 1966.811 Durbin-Watson stat 1.698737 Prob(F-statistic) 0.000000 63
  64. + Cả thời kỳ 1955-1974: Dependent Variable: LOG(GDP) Method: Least Squares Date: 10/28/17 Time: 16:59 Sample: 1955 1974 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. LOG(LUONGLAODONG) 0.339732 0.185692 1.829548 0.0849 LOG(VONCODINH) 0.845997 0.093352 9.062488 0.0000 C -1.652419 0.606198 -2.725873 0.0144 R-squared 0.995080 Mean dependent var 12.22605 Adjusted R-squared 0.994501 S.D. dependent var 0.381497 S.E. of regression 0.028289 Akaike info criterion -4.155221 Sum squared resid 0.013604 Schwarz criterion -4.005861 Log likelihood 44.55221 Hannan-Quinn criter. -4.126064 F-statistic 1719.231 Durbin-Watson stat 0.425667 Prob(F-statistic) 0.000000 Xét cặp giả thuyết H0 : Hồi quy của hai thời kỳ là như nhau H1 : Hồi quy của hai thời kỳ là khác nhau Ta cĩ: RSSU RSS12 RSS 0.000647 0.000576 0.001223, RSSR 0.013604 RSSRU RSS / k 0.013604 - 0.001223 /3 FC 47.24284546 RSSU /( n 2 k ) 0.001223/ 20 2 3 Với mức ý nghĩa 5%, f ( k , n 2 k ) f0.05 (3,14) 3.344 FC . Bác bỏ giả thuyết , cĩ nghĩa là sản lượng GDP thực ở hai thời kỳ là khác nhau. Kiểm định sử dụng biến giả Gộp tất cả các quan sát của hai thời kỳ và đặt biến giả D như sau: 64
  65. 1 nếu quan sát là sau khi lập gia đình Di 0 nếu quan sát là trước khi lập gia đình Mơ hình hồi quy: YXDDXUi   i  i  i i i Trong đĩ  biểu thị sự chênh lệch về tung độ gốc,  biểu thị sự chênh lệch về độ dốc . Việc kiểm định giả thuyết H0 :0 chính là kiểm định giả thuyết khơng cĩ sự khác nhau về mặt cấu trúc hồi quy giữa hai thời kỳ. Ví dụ 5.3.3.2: Cĩ bảng số liệu về thu nhập X và tiết kiệm Y của Mỹ giai đoạn 1970-1995 như sau: Quan sát Tiết kiệm Thu nhập Quan sát Tiết kiệm Thu nhập 1970 61.0 727.1 1983 167.0 2522.4 1971 68.6 790.2 1984 235.7 2810.0 1972 63.6 855.3 1985 206.2 3002.0 1973 89.6 965.0 1986 196.5 3187.6 1974 97.6 1054.2 1987 168.4 3363.1 1975 104.4 1159.2 1988 189.1 3640.8 1976 96.4 1273.0 1989 187.8 3894.5 1977 92.5 1401.4 1990 208.7 4166.8 1978 112.6 1580.1 1991 246.4 4343.7 1979 130.1 1769.5 1992 272.6 4613.7 1980 161.8 1973.3 1993 214.4 4790.2 1981 199.1 2200.2 1994 189.4 5021.7 1982 205.5 2347.3 1995 249.3 5320.8 + Vào năm 1982, Mỹ rơi vào khủng hoảng kinh tế, do đĩ để kiểm định về cấu trúc trong mối quan hệ giữa tiết kiệm và thu nhập, ta cĩ thể đưa vào biến giả với mốc thời gian là năm 1982. 1 nếu quan sát từ năm 1982 trở về sau Di 0 nếu quan sát là trước năm 1982 Mơ hình hồi quy với biến giả dạng: 65
  66. Cặp giả thuyết thống kê: H0 : Hồi quy của hai thời kỳ là như nhau H1 : Hồi quy của hai thời kỳ là khác nhau Kết quả hồi quy bằng Eviews: Dependent Variable: CHITIEU Method: Least Squares Date: Time: Sample: 1970 1995 Included observations: 26 Variable Coefficient Std. Error t-Statistic Prob. BIENGIA 152.4786 33.08237 4.609058 0.0001 BIENGIA*THUNHAP -0.065469 0.015982 -4.096340 0.0005 THUNHAP 0.080332 0.014497 5.541347 0.0000 C 1.016117 20.16483 0.050391 0.9603 R-squared 0.881944 Mean dependent var 162.0885 Adjusted R-squared 0.865846 S.D. dependent var 63.20446 S.E. of regression 23.14996 Akaike info criterion 9.262501 Sum squared resid 11790.25 Schwarz criterion 9.456055 Log likelihood -116.4125 Hannan-Quinn criter. 9.318238 F-statistic 54.78413 Durbin-Watson stat 1.648454 Prob(F-statistic) 0.000000 Từ kết quả hồi quy, ta nhận thấy các hệ số hồi quy  và  đều khác 0 và cĩ ý nghĩa thống kê. Do vậy cĩ sự khác biệt về cấu trúc của mơ hình giữa hai giai đoạn. + Ngồi ra, ta cĩ thể kiểm định Chow với mốc 1982 (Mỹ khủng hoảng kinh tế) bằng Eviews như sau: Chow Breakpoint Test: 1982 Null Hypothesis: No breaks at specified breakpoints Varying regressors: All equation variables Equation Sample: 1970 1995 F-statistic 10.69006 Prob. F(2,22) 0.0006 Log likelihood ratio 17.65293 Prob. Chi-Square(2) 0.0001 Wald Statistic 21.38012 Prob. Chi-Square(2) 0.0000 Kết quả kiểm định cho thấy giá trị xác suất Prob. F(2,22)=0.006 < 0.05, bác bỏ , cĩ nghĩa là cuộc khủng hoảng kinh tế 1982 cĩ ảnh hưởng đến cấu trúc của hàm hồi quy. 66
  67. 5.4 Hồi quy tuyến tính từng khúc Khi khảo sát nghiên cứu một số hiện tượng kinh tế, nhận thấy rằng giá trị của biến độc cĩ mức biến động nhanh chậm khác nhau. Do đĩ, người ta chia tập giá trị của biến độc lập này thành nhiều khoảng, trong đĩ mỗi khoảng tương ứng với một hàm hồi quy khác nhau. Chẳng hạn, trong quá trình sản xuất, ta xem biến phụ thuộc Y là tổng chi phí, biến độc lập X là sản lượng sản xuất. Theo quy luật lợi suất giảm dần, sản lượng sản xuất sẽ tăng đều đặn cùng với sự tăng đều đặn của tổng chi phí. Tuy nhiên, đến một lúc nào đĩ, tốc độ tăng của sản lượng sẽ chậm hơn so với tốc độ tăng tổng chi phí. Ta gọi giá trị của X mà tại đĩ bắt đầu làm thay đổi tốc độ tăng của nĩ là điểm giới hạn, ký hiệu X * . Khi đĩ mơ hình hồi quy cĩ dạng: YXXXDU    () * i1 2 2 i 3 2 i i i Với biến giả Di được xác định như sau: * 0 nếu X2i X Di 1 X * nếu X2i Với phân khúc đầu tiên, ta cĩ YXU  và EYXDX| , 0  i1 2 2 i i i2 i i 1 2 2 i Với phân khúc thứ hai, ta cĩ YXXU  *   và EYXDXX| , 1  *   i1 3 2 3 2 i i i2 i i 1 3 2 3 2 i Qua phân tích ở trên, hệ số gĩc của mơ hình phân khúc đầu tiên là 2 , mơ hình phân khúc thứ hai là 23 . Ngồi ra, tung độ gốc của hai mơ hình trên từng phân khúc là khác nhau. Trong trường hợp cĩ hai điểm tới hạn X * và X , ta xác định mơ hình hồi quy dạng: YXXXDXXDU   ()() *  i1 2 2 i 3 2 i 3 i 4 2 i 4 i i Với biến giả D3i , D4i được xác định như sau: 67
  68. * 0 nếu X2i X 0 nếu X2i X D và D 3i * 4i 1 nếu X2i X 1 nếu X2i X Y X * X X * Với phân khúc đầu tiên 0 XX2i , ta cĩ YXU  và EYXDDX| , 0, 0  i1 2 2 i i i2 i 3 i 4 i 1 2 2 i * Với phân khúc thứ hai XXX 2i , ta cĩ * YXXUi 1  3  2  3 2 i i và EYXDDXX| , 1, 0  *   i2 i 3 i 4 i 1 3 2 3 2 i Với phân khúc cịn lại XX2i , ta cĩ * YXXXUi 1  3  4  2  3  4 2 i i và EYXDDXXX| , 1, 1  *     i2 i 3 i 4 i 1 3 4 2 3 4 2 i 5.5 Sử dụng biến giả trong phân tích mùa Thực tế nhiều chuỗi thời gian trong kinh tế cĩ tính chất thời vụ, biểu hiện theo tháng, theo quý hoặc theo mùa trong năm. Chẳng hạn số lượng máy điều hịa bán ra thường tăng cao vào mùa hè; nhu cầu về bánh mứt và quần áo tăng mạnh vào tháng kề tết; áo mưa bán 68
  69. chạy vào mùa mưa; số lượng vé tàu xe, vé máy bay bán ra tăng đáng kể trong những dịp lễ, tết Dữ liệu chuỗi thời gian TS của một chỉ tiêu nghiên cứu được thu thập qua thời gian, cĩ thể được kết hợp từ bốn thành phần: Thành phần xu thế T (Trend), thành phần mùa S (Season), thành phần chu kỳ C (Cyclical), và thành phần ngẫu nhiên U (Random). Do vậy ta cĩ biểu diễn: TS S C T U Giả sử ta tiến hành nghiên cứu về lượng điện tiêu thụ theo nhiệt độ bằng cách sử dụng mơ hình hồi quy: YXU 12 Khi nhiệt độ mơi trường thấp (mùa đơng) người ta vẫn cĩ thể phải sử dụng nhiều năng lượng điện (sưởi ấm), cũng như thế khi nhiệt độ mơi trường cao (mùa hè) người ta sử dụng quạt hay máy lạnh. Điều này cĩ thể dẫn đến mâu thuẫn về dấu của hệ số gĩc 2 . Nghĩa là, trong phương trình hồi quy trên, ngồi biến X 2 nĩ cịn phải chứa thêm biến thể hiện yếu tố mùa nữa và cĩ dạng như sau: YXDDDU 1  2  2 2  3 3  4 4 Trong đĩ 1 nếu mùa đông 1 nếu mùa xuân 1 nếu mùa hè D2 , D3 , D4 0 nếu mùa khác 0 nếu mùa khác 0 nếu mùa khác Tuy nhiên mơ hình trên vẫn chưa tỏ ra thuyết phục vì nhiệt độ và mùa cĩ thể liên hệ chặt chẽ với nhau nên ảnh hưởng của nhiệt độ đối với lượng điện tiêu thụ giữa các mùa khác nhau cũng cĩ thể khác nhau. Do vậy mơ hình sau đây là phù hợp: YDDDXDDDU 1  1223344     22  33  44 Vậy hàm hồi quy ước lượng điện tiêu thụ theo nhiệt độ ứng với từng mùa như sau: Mùa thu: YX 11 Mùa đơng: 69
  70. YX 1  2  1  2 Mùa xuân: YX 1  3  1  3 Mùa hè: YX 1  4  1  4 Sử dụng mơ hình trên cĩ thể giúp ta tiến hành kiểm định nhiều giả thuyết khác nhau về sự ảnh hưởng của yếu tố mùa đối với lượng điện tiêu thụ. H0:0 3 3 là giả thuyết cho rằng khơng cĩ sự khác nhau về lượng điện tiêu thụ giữa mùa xuân và mùa thu. Nếu chưa cĩ cơ sở để bác bỏ giả thuyết này thì yếu tố mùa chỉ cịn ba thuộc tính, khi đĩ mơ hình được thu gọn chỉ cịn hai biến giả. H0:0 2  3  2  3 là giả thuyết cho rằng khơng cĩ gì khác biệt về lượng điện tiêu thụ giữa ba mùa đơng, xuân và thu. Hay nĩi cách khác, ta chỉ chú ý đến ảnh hưởng của mùa hè đến lượng điện tiêu thụ. Để biết mùa hè cĩ thực sự tác động đến lượng điện tiêu thụ hay khơng, ta cần kiểm định giả thuyết về hệ số 4 và  4 . 5.6 Hồi quy với biến giả 5.6.1 Mơ hình tuyến tính Giả sử xét mơ hình về khảo sát lương giáo viên Y theo trình độ và số năm giảng dạy X dạng: Y 1  2 X  2 D  3 XD U Trong đĩ 1 nếu thạc sĩ D 0 nếu cử nhân 1 : Biểu thị lương khởi điểm trung bình của giáo viên cĩ bằng cử nhân.  2 : Biểu thị chênh lệch về lương khởi điểm trung bình của giáo viên cĩ bằng thạc sĩ so với cử nhân. 70
  71. 2 : Biểu thị mức thay đổi tiền lương trung bình của giáo viên cĩ bằng cử nhân theo số năm giảng dạy.  3 : Biểu thị chênh lệch về mức thay đổi tiền lương trung bình theo số năm giảng dạy của giáo viên cĩ bằng thạc sĩ so với cử nhân. 5.6.2 Mơ hình log-lin Nếu mơ hình về khảo sát lương giáo viên Y theo trình độ và số năm giảng dạy X dạng: lnY 1  2 X  2 D U Trong đĩ 1 nếu thạc sĩ D 0 nếu cử nhân e1 : Biểu thị lương khởi điểm trung bình của giáo viên cĩ bằng cử nhân. e 2 1: Biểu thị phần trăm chênh lệch về tiền lương trung bình của giáo viên cĩ bằng thạc sĩ so với cử nhân. 1002 : Biểu thị % thay đổi tiền lương trung bình theo số năm giảng dạy. 5.6.3 Mơ hình lin-log Giả sử cĩ nhu cầu khảo sát lượng cầu của hai loại trà xanh Thái Nguyên và trà Ơ long Lâm Đồng theo giá với mơ hình hồi quy: YXDU 1  2ln  2 2 /100: Biểu thị sự thay đổi lượng cầu trung bình của trà khi giá thay đổi 1%.  2 : Biểu thị sự chênh lệch về lượng cầu giữa hai loại trà trà xanh Thái Nguyên và trà Ơ long Lâm Đồng tại cùng một mức giá. 71
  72. Chƣơng 6 PHÂN TÍCH ĐẶC TRƢNG VÀ LỰA CHỌN MƠ HÌNH 6.1 Các thuộc tính của mơ hình tốt Tính đơn giản (Parsimony): Mơ hình càng đơn giản càng tốt nhưng phải chứa các biến chủ yếu liên quan với biến phụ thuộc nhằm giải thích bản chất của vấn đề cần nghiên cứu. Tính phù hợp (Goodness of fit): Hệ số xác định càng cao càng tốt. Tuy nhiên khơng nên chỉ căn cứ vào hệ số này để kết luận mơ hình cĩ phù hợp hay khơng, bởi vì trong nhiều trường hợp hệ số xác định rất lớn nhưng mơ hình khơng phù hợp do thiếu biến quan trọng hoặc xảy ra các khuyết tật (đa cộng tuyến, tự tương quan, ). Tính nhất quán về mặt lý thuyết (Theoretical consistency): Mơ hình phải phù hợp với cơ sở lý thuyết khoa học. Tính đồng nhất (Identifiability): Với một tập dữ liệu cho trước, các tham số ước lượng phải duy nhất. Cĩ khả năng dự báo tốt (Predictive power): Một mơ hình được đánh giá là tốt nếu cho kết quả dự báo sát với thực tế. 6.2 Phƣơng pháp chọn lựa mơ hình Các bước để chọn lựa được mơ hình tốt và phù hợp: Bước 1: Xác định số biến độc lập trong mơ hình Từ đơn giản đến tổng quát: Bổ sung dần dần biến độc lập vào mơ hình nhằm tránh việc bỏ sĩt biến quan trọng (cĩ thể sử dụng kiểm định Wald). Từ tổng quát đến đơn giản: Thiết lập mơ hình hồi quy với các biến độc lập đã được xác định. Tiếp theo tiến hành lọc những biến khơng quan trọng ra khỏi mơ hình (cĩ thể sử dụng kiểm định t hoặc giá trị xác suất p-value). Bước 2: Kiểm tra xem mơ hình cĩ khuyết tật hay khơng (cĩ vi phạm ít nhất các giả thiết đảm bảo thực hiện được phương pháp OLS hay khơng) và tìm cách khắc phục chúng. Bước 3: Chọn dạng hàm hồi quy (dựa vào cơ sở lý thuyết kinh tế). Bước 4: Các tiêu chuẩn thơng dụng để chọn mơ hình tốt. Hệ số xác định R2 . Giá trị hàm hợp lý log-likelihood L: 72
  73. n nn221 LU ln ln(2 )  i 2 2 2 i 1 L càng lớn mơ hình càng phù hợp. Tiêu chuẩn AIC (Akaike info criterion): RSS AIC . e2/kn n Giá trị AIC càng bé mơ hình càng phù hợp. Tiêu chuẩn SIC (Schwarz Information Criterion): RSS SIC . nkn/ n Giá trị SIC càng bé mơ hình càng phù hợp. Ngồi việc căn cứ vào các tiêu chuẩn để xem xét việc chọn lựa một mơ hình tốt, tính chất tốt của một mơ hình đơi khi phụ thuộc nhiều vào quan điểm của nhà kinh tế lượng. 6.3 Hậu quả khi chọn mơ hình khơng phù hợp Ước lượng chệch các hệ số hồi quy, sai dấu các hệ số hồi quy. Cĩ rất ít hệ số hồi quy cĩ ý nghĩa thống kê. R2 thấp. Phần dư của các quan sát cĩ giá trị tuyệt đối lớn. Các ước lượng bị chệch, phương sai của các ước lượng khơng phải là tốt nhất. Phương pháp kiểm định thơng thường khơng cịn hiệu lực. 6.4 Cách phát hiện các sai số đặc trƣng của mơ hình Kiểm định biến bị bỏ sĩt: Giả sử cần thực hiện mơ hình hồi quy tuyến tính dạng YXU 1 2 2 (6.4.1) Một câu hỏi tự nhiên được đặt ra là: Ngồi biến độc lập X, cịn cĩ biến nào khác cũng giải thích cho Y. Khi đĩ ta nghĩ đến việc kiểm tra xem liệu biến X 3 nào đĩ bị bỏ sĩt trong mơ hình sau đây hay khơng: YXXV 1  2 2  3 3 (6.4.2) Trường hợp 1: Cĩ số liệu về biến Cách 1: Hồi quy mơ hình (6.4.2), kiểm định cặp giả thuyết H03:0 , H13:0 , 2 và so sánh giá trị R của hai mơ hình. 73
  74. Cách 2: Sử dụng kiểm định Wald để đưa dần dần các biến độc lập vào mơ hình. Trường hợp 2: Khơng cĩ số liệu về biến X 3 Sử dụng kiểm định RESET (Regression Specification Error Test) của RAMSEY: Bước 1: Hồi quy mơ hình (6.4.1) (old), được Y . Bước 2: Hồi quy mơ hình (new) 2 3 4 YXYYYV 1  2 2  3  4  5 Bước 3: Kiểm định giả thuyết H0:0 3  4  5 22 Rnew R old / m F F(,) m n k H Nếu 2 thì bác bỏ 0 . 1 Rnew /( n k ) Trong đĩ m: số biến độc lập mới được đưa thêm vào mơ hình (m = 3), k: số hệ số của mơ hình mới (k = 5). Kiểm định Durbin-Watson: Bước 1: Hồi quy mơ hình old. Bước 2: Giả sử nghi ngờ biến bị bỏ sĩt. Sắp xếp phần dư U theo thứ tự tăng của . Nếu số liệu của chưa cĩ thì sắp xếp theo thứ tự tăng của một biến độc lập. Bước 3: Tính (khơng phải là thống kê Durbin-Watson) n 222  UUii 1 d i 2 n 2 U i i 1 Bước 4: Dựa vào bảng tra Durbin-Watson để kiểm định giả thuyết H0 : Dạng hàm đúng (khơng cĩ ). Kiểm định thừa biến: Cĩ thể thực hiện một trong các cách sau Cách 1: Kiểm định t (bỏ bớt một biến). Cách 2: Kiểm định Wald (được sử dụng để kiểm định bỏ một hay nhiều biến). Kiểm định dạng hàm của mơ hình hồi quy: Việc lựa chọn giữa dạng hàm tuyến tính và tuyến tính dạng logarit trong nghiên cứu thực nghiệm là vấn đề quan trọng. Ta cĩ thể kiểm định việc lựa chọn này theo J. Mackinnon, H. White, R. Davidson (MWD test). 74
  75. 6.5 Các ví dụ Ví dụ 6.5.1: Cĩ số liệu về GNP thực Y (triệu $ Đài Loan), lượng lao động X 2 (người người), lượng vốn thực X 3 (triệu $ Đài Loan) và xu hướng thời gian X 4 từ năm 1958 đến 1972 của Đài Loan như sau: Năm Y X 2 X 3 X 4 1958 8911.4 281.5 120753 1 1959 10873.2 284.4 122242 2 1960 11132.5 289.0 125263 3 1961 12086.5 375.8 128539 4 1962 12767.5 375.2 131427 5 1963 16347.1 402.5 134267 6 1964 19542.7 478.0 139038 7 1965 21075.9 553.4 146450 8 1966 23052.0 616.7 153714 9 1967 26128.2 695.7 164783 10 1968 29563.7 730.3 176864 11 1969 33373.6 816.0 188146 12 1970 38354.3 848.4 205814 13 1971 46868.3 873.1 221748 14 1972 54308.0 999.2 239715 15 Theo lý thuyết kinh tế, hàm hồi quy cĩ dạng Cobb-Douglas: lnYXXXUt 1  2 ln 2 t  3 ln 3 t  4 ln 4 t t + Trước hết ta tiến hành hồi quy GNP chỉ theo lượng lao động : Dependent Variable: LOG(Y) Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. LOG(X2) 1.257567 0.066516 18.90615 0.0000 C 2.069560 0.417743 4.954143 0.0003 R-squared 0.964907 Mean dependent var 9.949171 Adjusted R-squared 0.962207 S.D. dependent var 0.566287 S.E. of regression 0.110088 Akaike info criterion -1.451508 Sum squared resid 0.157552 Schwarz criterion -1.357101 75
  76. Log likelihood 12.88631 Hannan-Quinn criter. -1.452513 F-statistic 357.4424 Durbin-Watson stat 1.146262 Prob(F-statistic) 0.000000 Từ giá trị xác suất Prob., ta thấy các hệ số hồi quy đều cĩ ý nghĩa thống kê, hơn nữa R- squared = 0.964907 cho thấy mức độ phù hợp của mơ hình hồi quy khá cao. Tuy nhiên theo lý thuyết kinh tế thì GNP khơng chỉ phụ thuộc vào lượng lao động X 2 mà cịn phụ thuộc nhiều yếu tố khác. Do vậy mơ hình hồi quy hai biến dạng log-log như trên cĩ thể bị bỏ sĩt biến quan trọng. + Kiểm định bỏ sĩt biến: Omitted Variables Test Null hypothesis: LOG(X3) are jointly significant Equation: UNTITLED Specification: LOG(Y) LOG(X2) C Omitted Variables: LOG(X3) Value df Probability t-statistic 3.722689 12 0.0029 F-statistic 13.85842 (1, 12) 0.0029 Likelihood ratio 11.51594 1 0.0007 Nhận thấy p-value của thống kê F và tỷ số log-likelihood đều bé, nên bác bỏ giả thuyết H0 : khơng bỏ sĩt biến, thừa nhận bỏ sĩt biến LOG(X3). + Giả sử khơng cĩ số liệu của X3, sử dụng kiểm định RESET của Ramsey: Ramsey RESET Test Equation: UNTITLED Specification: LOG(Y) LOG(X2) C Omitted Variables: Squares of fitted values Value df Probability t-statistic 2.223393 12 0.0462 F-statistic 4.943477 (1, 12) 0.0462 Likelihood ratio 5.174644 1 0.0229 Unrestricted Test Equation: Dependent Variable: LOG(Y) Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. LOG(X2) -5.007947 2.818599 -1.776751 0.1009 76
  77. C 16.38886 6.450680 2.540641 0.0259 FITTED^2 0.251211 0.112985 2.223393 0.0462 R-squared 0.975146 Mean dependent var 9.949171 Adjusted R-squared 0.971003 S.D. dependent var 0.566287 S.E. of regression 0.096430 Akaike info criterion -1.663150 Sum squared resid 0.111584 Schwarz criterion -1.521540 Log likelihood 15.47363 Hannan-Quinn criter. -1.664659 F-statistic 235.4070 Durbin-Watson stat 1.382327 Prob(F-statistic) 0.000000 Với mức ý nghĩa 5%, bác bỏ giả thuyết H0 , thừa nhận bỏ sĩt biến. + Kết quả hồi quy cho cả hai biến X 2 và X 3 : Dependent Variable: LOG(Y) Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. LOG(X2) 0.714716 0.153259 4.663444 0.0005 LOG(X3) 1.113655 0.299153 3.722689 0.0029 C -7.845616 2.679864 -2.927618 0.0127 R-squared 0.983714 Mean dependent var 9.949171 Adjusted R-squared 0.981000 S.D. dependent var 0.566287 S.E. of regression 0.078057 Akaike info criterion -2.085904 Sum squared resid 0.073114 Schwarz criterion -1.944294 Log likelihood 18.64428 Hannan-Quinn criter. -2.087412 F-statistic 362.4251 Durbin-Watson stat 1.416595 Prob(F-statistic) 0.000000 + Kết quả hồi quy cho cả ba biến , và X 4 : Dependent Variable: LOG(Y) Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. LOG(X2) -0.121776 0.256286 -0.475155 0.6440 LOG(X3) 0.403551 0.289230 1.395261 0.1905 X4 0.118095 0.032785 3.602141 0.0042 C 4.941959 4.024545 1.227955 0.2451 77
  78. R-squared 0.992528 Mean dependent var 9.949171 Adjusted R-squared 0.990490 S.D. dependent var 0.566287 S.E. of regression 0.055223 Akaike info criterion -2.731704 Sum squared resid 0.033545 Schwarz criterion -2.542891 Log likelihood 24.48778 Hannan-Quinn criter. -2.733716 F-statistic 487.0638 Durbin-Watson stat 1.496257 Prob(F-statistic) 0.000000 + Nhận xét về các kết quả hồi quy: Giá trị của hệ số hồi quy thay đổi đáng kể khi sử dụng các mơ hình khác nhau. Điều này cho dấu hiệu nhận biết việc bỏ sĩt biến quan trọng. Mặt khác, hệ số xác định của các mơ hình vẫn rất cao, điều này cho biết cĩ hiện tượng đa cộng tuyến rất cao trong mơ hình, các biến độc lập cũng chịu tác động của biến xu hướng. Hồi quy phụ giữa X , X và X để chỉ ra hiện tượng đa cộng tuyến: 2 3 4 Dependent Variable: X4 Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. LOG(X2) 7.083219 0.954714 7.419203 0.0000 LOG(X3) 6.012992 1.863547 3.226638 0.0073 C -108.2822 16.69395 -6.486313 0.0000 R-squared 0.989867 Mean dependent var 8.000000 Adjusted R-squared 0.988178 S.D. dependent var 4.472136 S.E. of regression 0.486247 Akaike info criterion 1.572657 Sum squared resid 2.837236 Schwarz criterion 1.714267 Log likelihood -8.794930 Hannan-Quinn criter. 1.571149 F-statistic 586.1255 Durbin-Watson stat 1.414452 Prob(F-statistic) 0.000000 Nhìn vào kết quả hồi quy thấy cĩ hiện tượng đa cộng tuyến khá cao. 2 Sự phù hợp của mơ hình: Ta sử dụng R để xem xét mức độ phù hợp của các mơ hình. Mơ hình chứa cả 4 biến cĩ cao nhất, tuy nhiên ta khơng chọn mơ hình này vì trong kết quả hồi quy, các hệ số hồi quy của LOG(X2) và LOG(X3) khơng cĩ ý nghĩa thống kê (p-value > 0,05), và dấu hệ số hồi quy của LOG(X2) âm- khơng phù hợp với cơ sở lý thuyết kinh tế. Mơ hình hai biến Y và LOG(X2) lại thiếu biến nghiêm trọng. Vậy mơ hình chứa 3 biến Y, LOG(X2) và LOG(X3) là phù hợp nhất. 78
  79. Dựa trên một số tiêu chuẩn khác: 2 R Log-likelihood AIC SIC Mơ hình 2 biến 0.962207 12.88631 -1.451508 -1.357101 Mơ hình 3 biến 0.980997 18.64294 -2.085725 -1.944115 Mơ hình 4 biến 0.990489 24.48686 -2.731582 -2.542769 Nhìn vào bảng tĩm tắt trên, nhận thấy mơ hình ba biến tỏ ta phù hợp nhất. 79
  80. Chƣơng 7 MƠ HÌNH VI PHẠM CÁC GIẢ THIẾT Trong những chương trước, khi nghiên cứu mơ hình hồi quy tuyến tính cổ điển, ta luơn giả định rằng các mơ hình này thỏa mãn 5 giả thiết cổ điển. Vậy câu hỏi tự nhiên được đặt ra là khi những giả thiết này khơng được thỏa mãn thì sẽ ảnh như thế nào đến kết quả hồi quy? Nội dung chương này sẽ trình bày bản chất, nguyên nhân, hậu quả, cách phát hiện cũng như biện pháp khắc phục các giả thiết bị vi phạm. Tuy nhiên, cần lưu ý rằng khơng cĩ cách tổng quát để khắc phục sự vi phạm đồng thời các giả thiết mà chỉ cĩ thể giải quyết từng vi phạm một. Trong một số trường hợp, khi khắc phục vi phạm này thì vi phạm khác lại phát sinh. Do vậy ta phải cân nhắc mức độ nghiêm trọng của các giả thiết vi phạm mà chọn hướng khắc phục cho phù hợp. 7.1 Đa cộng tuyến 7.1.1 Bản chất của đa cộng tuyến Xét mơ hình hồi quy: YXXU 1  2 2 kk (7.1.1.1) Như đã biết, khi các biến X k được giả định là khơng tương quan nhau (độc lập nhau), ảnh hưởng riêng lên biến phụ thuộc Y , ta nĩi mơ hình khơng cĩ hiện tượng đa cộng tuyến. Tùy theo mức độ tương quan giữa các biến độc lập mà xảy ra đa cộng tuyến hồn hảo hay đa cộng tuyến khơng hồn hảo. Các biến XX1, , k được gọi là đa cộng tuyến khơng hồn hảo nếu tồn tại các số thực 1, , k khơng đồng thời bằng 0 sao cho 11XXV kk 0, với V là nhiễu ngẫu 2 k 1 nhiên. Điều này cĩ nghĩa là XXXV12 k (giả sử 1 0 ). 1  1  1 Vậy hiện tượng đa cộng tuyến khơng hồn hảo xảy ra khi cĩ một biến biểu diễn tuyến tính qua các biến cịn lại và một nhiễu ngẫu nhiên. 7.1.2 Nguyên nhân gây ra hiện tƣợng đa cộng tuyến Cĩ một số nguyên nhân chủ yếu như sau: a/ Các biến độc lập cĩ quan hệ tương quan cao vì cùng phụ thuộc vào một điều kiện khác: Ví dụ như các biến thu nhập và mức độ giàu cĩ sẽ gây ra hiện tượng đa cộng tuyến hồn hảo vì một cá nhân cĩ thu nhập càng cao đồng nghĩa với càng giàu cĩ và ngược lại. 80
  81. b/ Khi kích thước mẫu quá bé: Ví dụ như số quan sát nhỏ hơn số biến độc lập. c/ Mẫu thu thập được khơng cĩ tính đại diện cao cho tổng thể: Chẳng hạn như khảo sát thu nhập của cơng nhân thuộc một xí nghiệp lớn cĩ nhiều chi nhánh, mỗi chi nhánh cĩ nhiều phân xưởng nhưng ta chỉ thu thập số liệu tại một vài phân xưởng. d/ Chọn các biến X k cĩ độ biến động nhỏ. 7.1.3 Hậu quả của đa cộng tuyến a/ Phương sai và hiệp phương sai của các ước lượng bằng phương pháp OLS cĩ giá trị lớn, cĩ nghĩa là các giá trị ước lượng của hệ số hồi quy biến động mạnh qua các mẫu khác nhau. Điều này khiến cho các ước lượng bằng OLS vẫn cĩ tính chất BLUE nhưng khơng hiệu quả. Thật vậy, xét mơ hình hồi quy với hai biến độc lập dạng: YXXU    i1 2 i 2 3 i 3 i Khi đĩ  2 Var  2 22 1 rx23  2i  2 Var  3 22 1 rx23  3i r  2 cov , 23 23 2 2 2 1. r23  x 2ii x 3 Từ các cơng thức trên, nhận thấy rằng khi r23 càng dần về 1 thì hiện tượng đa cộng tuyến càng tăng mạnh dần và phương sai sẽ càng tăng theo. Khi r23 1, xảy ra hiện tượng đa cộng tuyến hồn hảo. Tốc độ gia tăng của phương sai và hiệp phương sai khi cĩ hiện tượng đa cộng tuyến được mơ tả qua thừa số phĩng đại phương sai VIF (Variance-inflating factor), được xác định bởi 1 VIF 2 . 1-r23 1 Nếu r23 1thì VIF 2 Cộng tuyến cao. 1-r23 81