Bài giảng về môn học Kinh tế lượng

112 trang vanle 5570

Download

Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng về môn học Kinh tế lượng", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

bai_giang_ve_mon_hoc_kinh_te_luong.pdf

Nội dung text: Bài giảng về môn học Kinh tế lượng

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - Khoa Kinh tế và quản lý - BÀI GIẢNG MÔN HỌC KINH TẾ LƯỢNG Người biên soạn: TS. Phạm Cảnh Huy
KINH TẾ LƯỢNG 1. Tên học phần: Kinh Tế Lượng (Econometrics) 2. Mô tả vắn tắt nội dung học phần: Mục đích của Kinh Tế Lượng là giúp học viên nắm rõ và vận dụng được các mô hình hồi qui để ước lượng, dự đoán giá trị trung bình của tổng thể của các biến phụ thuộc theo giá trị của biến giải thích nhằm xác định mức độ quan hệ giữa các biến, từ đó thấy được bản chất của các hiện tượng và tìm được các biện pháp khắc phục. Môn học còn nhằm trang bị cho các học viên cách thức vận dụng các công cụ phân tích định lượng vào việc xử lý phân tích các vấn đề kinh tế cụ thể. 3. Nhiệm vụ của học viên: Dự giờ giảng trên lớp và đọc giáo trình, làm bài tập theo nhóm về xử lý dữ liệu bằng ít nhất một phần mềm được môn học trang bị, tham dự thảo luận dưới sự hướng dẫn của giảng viên. Tham dự kiểm tra hết môn học theo lịch nhà trường qui định. 4. Tài liệu tham khảo thêm: − Basic Econometrics, tác giả Damodar N. Gujarati, 1995. − Introductory Econometrics, tác giả Craig A. Depken, 2006 − Econometric Analysis, tác giả William H . Greene, 2000. 5. Tiêu chuẩn đánh giá: − Dự giờ đủ trên lớp theo yêu cầu của môn học − Hoàn thành và đạt yêu cầu các bài tập về môn học trước khi thi hết môn − Thi hết môn 6. Mục tiêu của học phần: Nắm vững các mô hình kinh tế lượng để có thể lượng hoá các quan hệ kinh tế vĩ mô và vi mô được trang bị trước đây. Liên kết được các mô hình kinh tế lượng với các lý thuyết kinh tế vĩ mô và vi mô bằng các dữ liệu thực tế. Đề xuất chính sách và dự báo dựa trên việc phân tích, kiểm định các mối quan hệ kinh tế vi mô và vĩ mô qua kết quả của mô hình khi ứng dụng số liệu thực tế. 1
7. Nội dung học phần: − Chương I: Cơ bản về Kinh tế lượng và phân tích hồi qui − Chương II: Mô hình hồi qui hai biến, ước lượng và kiểm định − Chương III: Mô hình hồi qui đa biến − Chương IV: Đa cộng tuyến − Chương V: Hồi qui với biến giả − Chương VI: Phương sai sai số thay đổi − Chương VII: Tương quan chuỗi 2
CHƯƠNG I CƠ BẢN VỀ KINH TẾ LƯỢNG VÀ PHÂN TÍCH HỒI QUI 1.1. Vài nét cơ bản về kinh tế lượng: 1.1.1. Giới thiệu về kinh tế lượng Thuật ngữ tiếng Anh là Econometrics, nó được ghép từ 2 từ “Econo” có nghĩa là kinh tế và “Metrics” có nghĩa là đo lường- Vậy đó là “đo lường kinh tế”. Theo nghĩa đơn giản, kinh tế lượng, liên quan đến việc áp dụng các phương pháp thống kê trong kinh tế. Không như thống kê kinh tế, trong đó các dữ liệu thống kê là chính yếu, kinh tế lượng được phân biệt bằng sự hợp nhất của lý thuyết kinh tế, công cụ toán học và các phương pháp luận thống kê. Mở rộng hơn, kinh tế lượng quan tâm đến (1) ước lượng các mối quan hệ kinh tế, (2) đối chiếu lý thuyết kinh tế với thực tế và kiểm định các giả thuyết liên quan đến hành vi kinh tế, và (3) dự báo các hành vi của các biến số kinh tế. Người ta có để định nghĩa như sau: + Kinh tế lượng bao gồm việc áp dụng thống kê toán cho các số liệu kinh tế để củng cố về mặt thực nghiệm cho các mô hình do các nhà kinh tế toán đề xuất và để tìm ra lời giải bằng số. + Kinh tế lượng có thể được định nghĩa như là sự phân tích về lượng các vấn đề kinh tế hiện thời, dựa trên việc vận dụng đồng thời lý thuyết và thực tế được thực hiện bằng các phương pháp suy đoán thích hợp. Ví dụ về ứng dụng của kinh tế lượng trong: Ước lượng các mối quan hệ kinh tế Kinh tế học thực nghiệm cung cấp rất nhiều ví dụ nhằm ước lượng các mối quan hệ kinh tế như: 1. Ước lượng cầu/cung của các sản phẩm, dịch vụ. 2. Ước lượng ảnh hưởng của chi phí bán hàng/quảng cáo đến doanh thu và lợi nhuận. 3. Giá của cổ phiếu với các đặc trưng của công ty phát hành cổ phiếu đó, cũng như với tình hình chung của nền kinh tế. 4. Đánh giá tác động của các chính sách tiền tệ và tài chính đến các biến như việc làm hoặc thất nghiệp, thu nhập, xuất khẩu và nhập khẩu, lãi suất, tỷ lệ lạm phát, và thâm hụt ngân sách. Kiểm định giả thuyết Cũng như bất kỳ ngành khoa học nào, một ưu điểm của kinh tế lượng là quan tâm đến việc kiểm định giả thuyết về các hành vi kinh tế. Ví dụ như: 3
1. Một doanh nghiệp có thể muốn xác định xem chiến dịch quảng cáo của mình có tác động làm tăng doanh thu hay không. 2. Các nhà phân tích có thể quan tâm xem nhu cầu co giãn hay không co giãn theo giá và thu nhập. 3. Công ty muốn biết lợi nhuận có tăng hay giảm theo qui mô hoạt động không. 4. Các nhà kinh tế học vĩ mô có thể muốn đánh giá hiệu quả của các chính sách nhà nước. Dự báo Khi các biến số được xác định và chúng ta đánh giá được tác động cụ thể của chúng đến chủ thể nghiên cứu, chúng ta có thể muốn sử dụng các mối quan hệ ước lượng để dự đoán các giá trị trong tương lai. Ví dụ: 1. Các công ty dự báo doanh thu, lợi nhuận, chi phí sản xuất, và lượng tồn kho cần thiết. 2. Dự đoán có nhu cầu về năng lượng nhằm phục vụ việc hoạch định các chính sách có liên quan. 3. Dự báo các chỉ số thị trường chứng khoán và giá của một số cổ phiếu. 4. Dự đoán thu nhập, chi tiêu, lạm phát, thất nghiệp, và thâm hụt ngân sách và thương mại. 5. Các thành phố dự báo định kỳ mức tăng trưởng của địa phương qua các mặt như: dân số; việc làm; số nhà ở, nhu cầu về trường học, và dịch vụ công cộng; v.v 1.1.2. Mục đích của kinh tế lượng Mục đích của kinh tế lượng là giải thích sự biến thiên của biến và các mối quan hệ của các biến, ví dụ: Có 1 biến (chỉ tiêu) thay đổi (do lệch khỏi trung bình) mà chúng ta cần phải giải thích, ví dụ khi chúng ta nghiên cứu lượng bán một loại sản phẩm nào đó (Q) biến động, vậy cái gì tác động đến nó và các chỉ tiêu tác động lẫn nhau như thế nào. 1.1.3. Phương pháp luận của kinh tế lượng Nêu ra các giả thuyết hay giả thiết về các mối quan hệ giữa các biến kinh tế: chẳng hạn kinh tế vĩ mô khẳng định rằng mức tiêu dùng của các hộ gia đình phụ thuộc theo quan hệ cùng chiều với thu nhập khả dụng của họ. Thiết lập mô hình toán học để mô tả mối quan hệ giữa các biến số này Các phương trình này mô tả mối quan hệ giữa các biến số kinh tế với nhau. Một phương trình sẽ bao gồm một biến phụ thuộc và một hoặc nhiều biến giải thích. Sự tác động của một biến giải thích lên biến phụ thuộc được đo lường bằng hệ số của nó và hình thức hàm của phương trình. Một phương trình tiêu biểu như sau: 4
Y(t) = f{x1(t), x2 (t), xn(t), u(t)} Y(t) là biến phụ thuộc tại thởi điểm t, biểu trưng cho chỉ tiêu cần nghiên cứu hay dự báo (ví dụ như GDP, việc làm, lạm phát, ). x1(t), x2 (t), xn(t) là các biến giải thích tại thời điểm t, biểu trưng cho các nhân tố tác động lên biến phụ thuộc. Sự thay đổi của một hay nhiều biến này sẽ dẫn tới sự thay đổi của biến phụ thuộc. u(t) là sai số ngẫu nhiên, biểu trưng cho các nhân tố không xác định được tác động lên biến phụ thuộc tại thời điểm t. Số hạng sai số u(t), chúng ta cũng có thể ký hiệu là ui (hay còn gọi là số hạng nhiễu ngẫu nhiên) là thành phần ngẫu nhiên không quan sát được và là sai biệt giữa Yi và phần xác định β1 + β2Xi . Sau đây một tổ hợp của bốn nguyên nhân ảnh hưởng khác nhau: 1. Biến bỏ sót. Giả sử mô hình thực sự là Yi = β1 + β2Xi + β3Zi+vi trong đó, Zi là một biến giải thích khác và vi là số hạng sai số thực sự, nhưng nếu ta sử dụng mô hình là Yi = β1 + β2Xi + ui thì ui = β3Zi+vi. Vì thế, ui bao hàm cả ảnh hưởng của biến Z bị bỏ sót. 2. Phi tuyến tính. ui có thể bao gồm ảnh hưởng phi tuyến tính trong mối quan hệ giữa Y 2 và X. Vì thế, nếu mô hình thực sự là Yi = β1 + β2Xi + β3X i+vi, nhưng lại được giả định 2 bằng phương trình Yi = β1 + β2Xi + ui , thì ảnh hưởng của X i sẽ được bao hàm trong ui. 3. Sai số đo lường. Sai số trong việc đo lường X và Y có thể được thể hiện thông qua u. 4. Những ảnh hưởng không thể dự báo. Dù là một mô hình kinh tế lượng tốt cũng có thể chịu những ảnh hưởng ngẫu nhiên không thể dự báo được. Những ảnh hưởng này sẽ luôn được thể hiện qua số hạng sai số ui. Việc xây dựng hệ thống các phương trình, với các biến giải thích lựa chọn thường được dựa trên nền tảng của lý thuyết kinh tế. Ví dụ như hàm tiêu dùng phải dựa trên lý thuyết về tiêu dùng, hàm đầu tư phải dựa trên lý thuyết về đầu tư, Điều này dẫn đến hệ quả là các nhà mô hình khác nhau có thể sẽ xây dựng các phương trình với các biến giải thích khác nhau, tùy thuộc vào việc áp dụng lý thuyết kinh tế nào. Điều đó cũng lý giải về sự đa dạng của các mô hình kinh tế lượng hiện nay. Ví dụ, Giả sử chúng ta điều tra tất cả các hộ trong thành phố và tính thu nhập hàng tháng của họ (X) và tổng chi tiêu vào hàng hóa và dịch vụ (Y). Vì các hộ gia đình có cùng thu nhập sẽ có những mức chi tiêu khác nhau (có lẽ do khác biệt về các đặc điểm khác như số thành viên trong gia đình), một quan sát cụ thể (Y, X) sẽ không hoàn toàn chính xác nằm trên đường thẳng. Do vậy, mô hình hồi qui tuyến tính tương ứng với ví dụ này sẽ có dạng Y = β1 + β2X + u Trong thực tế, chúng ta sẽ không điều tra tất cả các hộ gia đình mà chỉ chọn một mẫu ngẫu nhiên từ tổng thể và sử dụng các quan sát này để ước lượng những tham số β1 và β2 cũng như thực hiện các kiểm định và kiểm tra tính phù hợp của giả định về mối liên hệ trung bình giữa chi tiêu và thu nhập là tuyến tính. 5
Sau khi xây dựng xong hệ thống các phương trình, chúng ta phải tập hợp đủ các số liệu cho các biến và tiến hành ước lượng các hệ số của các phương trình. Kỹ thuật hồi quy (regression) được áp dụng để ước lượng các hệ số của các phương trình. Sau khi ước lượng xong toàn bộ các phương trình của mô hình, chúng ta sẽ tiến hành mô phỏng (simulation) tác động của các thay đổi chính sách trong tương lai lên các biến kinh tế mà mình quan tâm (ví dụ như tăng trưởng, việc làm, lạm phát, ). Trên cơ sở đó, chúng ta có thể đánh giá tác động của chúng hoặc/và đề xuất ra các kịch bản dự báo. Các bước thực hiện Lý thuyếtkinhtế hoặctàichính Nêu ra các giả thuyết Thu thậpsố liệu Thiếtlậpmôhình Ướclượng các tham số-sự phù hợpcủamôhình? No Yes Tìm mô hình khác Dự báo Ra quyết định 1.2. Phân tích hồi qui 1.2.1. Các ví dụ trong lĩnh vực kinh tế về mối quan hệ nhân quả Trong phân tích hồi qui, chúng ta cần ước lượng quan hệ toán học giữa các biến. Những mối quan hệ này còn được gọi là mối quan hệ hàm số. Chúng cố gắng mô tả các biến giải thích tác động lên biến phụ thuộc như thế nào. – Biến giải thích là biến xảy ra. – Biến phụ thuộc là biến kết quả. Ví dụ: Khi chúng ta cố gắng giải thích chi tiêu dùng của mọi người, chúng ta có thể sử dụng các biến giải thích là thu nhập và độ tuổi. Khi giải thích giá của một chiếc ô tô, các biến giải thích có thể là kích cỡ, động cơ máy, độ tin cậy của hãng sản xuất cũng như độ an toàn của chiếc ô tô. Để giải thích giá của một ngôi nhà các biến giải thích có thể là kích cỡ, số phòng, tỷ lệ tội phạm của khu dân cư cũng như độ tuổi của ngôi nhà. Để dự đoán khả năng một học sinh cuối cấp trung học phổ thông vào đại học, chúng ta có thể 6
xem xét đến điểm các bài kiểm tra, trình độ giáo dục của cha mẹ cũng như thu nhập của gia đình anh ta. Vậy phân tích hồi qui chính là nghiên cứu mối liên hệ phụ thuộc của một biến (gọi là biến phụ thuộc hay biến được giải thích) với một hay nhiều biến khác (được gọi là biến độc lập hay giải thích). 1.2.2. Mục đích của phân tích hồi qui: Tưởng tượng rằng chúng ta có thông tin về thu nhập và chi tiêu tiêu dùng, chúng ta tin tưởng rằng chi tiêu tiêu dùng phụ thuộc vào thu nhập và chúng ta biểu diễn cả 2 biến này lên đồ thị. Biểu diễn biến phụ thuộc lên trục tung, còn biến giải thích (biến độc lập) lên trục hoành. Mục đích của phân tích hồi quy là qua những điểm dữ liệu, chúng ta có thể kẻ ra một đường phù hợp nhất, sát nhất với các quan sát để sao cho có thể biểu diễn mối quan hệ giữa hai biến thu nhập và chi tiêu tiêu dùng một cách đáng tin cậy nhất. 1.2.3. Giới thiệu mô hình hồi qui tuyến tính đơn giản: Để mô hình hóa quan hệ tuyến tính trong đó diễn tả sự thay đổi của biến Y theo biến X cho trước người ta sử dụng mô hình hồi qui tuyến tính đơn giản. Mô hình hồi qui tuyến tính đơn giản có dạng sau: Yi = β1 + β2 Xi + ui + Yi : Giá trị của biến phụ thuộc Y trong lần quan sát thứ i. + Xi : Giá trị của biến độc lập X trong lần quan sát thứ i . + ui : Giá trị đối với sự dao động ngẫu nhiên (nhiễu ngẫu nhiên) hay sai số trong lần quan sát thứ i. + β1 : là thông số diễn tả tung độ gốc (hệ số chặn) của đường hồi qui tổng thể, hay β1 là giá trị trung bình của biến phụ thuộc Y khi biến độc lập X thay đổi 1 đơn vị. + β2 : là thông số diễn tả độ dốc (hệ số góc) của đường hồi qui tổng thể, hay β2 diễn tả sự thay đổi của giá trị trung bình của biến phụ thuộc Y khi biến độc lập X thay đổi 1 đơn vị. Chúng ta có thể ước lượng các tham số (β1, β2) của phương trình hồi qui tổng thể bằng cách sử dụng số liệu của mẫu ngẫu nhiên thu thập được. Dựa vào số liệu của mẫu ta có phương trình hồi qui tuyến tính của mẫu. ˆ ˆ yˆ i = β1 + β2X2i Trong đó: yˆ là ước lượng của giá trị trung bình của Y đối với biến X đã biết 7
ˆ β1 là ước lượng của β1 ˆ β2 là ước lượng của β2 1.3. Hồi qui và tương quan Khi định mô hình ở dạng Yi = β1 + β2Xi + ui , chúng ta ngầm giả định rằng X gây ra sự thay đổi của Y. Việc X và Y tương quan chặt với nhau không có nghĩa rằng sự thay đổi X dẫn đến sự thay đổi Y hay ngược lại. Ví dụ, hệ số tương quan giữa số lượng kănguru của Úc và tổng dân số nước này có thể là rất cao. Phải chăng điều này có nghĩa rằng sự thay đổi một biến sẽ làm cho biến kia thay đổi? Rõ ràng là không, vì ở đây chúng ta có một trường hợp tương quan giả tạo. Nếu chúng ta hồi quy một trong các biến với biến còn lại, chúng ta sẽ có sự hồi qui giả tạo. Lấy một ví dụ khác thực tế hơn, giả sử chúng ta hồi quy số lượng vụ trộm trong một thành phố với số hạng hằng số và số nhân viên cảnh sát (X) và sau đó quan sát thấy hệ số góc ước lượng có giá trị dương, có nghĩa rằng có tương quan thuận giữa X và Y. Phải chăng điều này có nghĩa rằng việc tăng số lượng cảnh sát sẽ làm tăng số vụ trộm, do đó ngầm kéo theo phải có chính sách giảm lực lượng cảnh sát? Rõ ràng kết luận này là không thể chấp nhận được. Điều xảy ra có thể là mối quan hệ nhân quả là ngược lại, có nghĩa là thành phố nên thuê thêm cảnh sát vì số vụ trộm tăng lên, và như vậy việc hồi quy X theo Y là hợp lý hơn. Từ những ví dụ trên ta thấy rằng Hồi qui và tương quan khác nhau về mục đích và kỹ thuật. Phân tích tương quan xem xét mức độ kết hợp tuyến tính giữa hai biến, nhưng phân tích hồi qui lại ước lượng hoặc dự báo một biến trên cơ sở giá trị đã cho của các biến khác. Về mặt kỹ thuật, trong phân tích hồi qui các biến không có tính chất đối xứng, biến phụ thuộc là biến ngẫu nhiên, các biến giải thích giá trị của chúng đã được xác định. Trong phân tích tương quan, không có sự phân biệt giữa các biến, chúng có tính chất đối xứng. 1.4. Các dạng hàm trong kinh tế lượng Giả sử ta có một mô hình kinh tế tiên đoán mối quan hệ giữa một biến phụ thuộc Y và một biến độc lập X. Trong nhiều trường hợp, mô hình này sẽ không cho chúng ta biết dạng hàm mà mối quan hệ này có trong dữ liệu, mặc dù mô hình này sẽ thường cho thấy một số ý niệm về dạng có thể có của mối quan hệ. Giải pháp thông thường là quyết định xem dạng hàm nào có khả năng mô tả tốt dữ liệu nhất, điều này hoặc phụ thuộc vào suy luận kinh tế hoặc phụ thuộc vào việc khảo sát dữ liệu. Sau đó, chúng ta thử xây dựng một số dạng hàm khác nhau và xem chúng có cho ra các kết quả tương tự hay không, và nếu không, thì phải xem dạng hàm nào cho ra các kết quả hợp lý nhất. Phần này liệt kê một số dạng hàm được sử dụng phổ biến nhất, cho biết chúng biểu hiện như thế nào, mô tả các tính chất của chúng, và cho chúng ta một số ý tưởng về cách chọn lựa giữa các dạng hàm này. 1.4.1. Dạng Hàm Tuyến tính. Dạng hàm này có phương trình: YX=+β01βε +. 8
Dạng hàm tuyến tính có thể được mô tả ở dạng như sau: Ưu điểm của dạng hàm tuyến tính là tính đơn giản của nó. Mỗi lần X tăng thêm một đơn vị thì Y tăng thêm β 1 đơn vị, và điều này đúng bất kể các giá trị của X và Y là bao nhiêu. Nhược điểm của dạng hàm tuyến tính cũng chính là tính đơn giản của nó, bất cứ lúc nào tác động của X phụ thuộc vào các giá trị của X hoặc Y, thì dạng hàm tuyến tính không thể là dạng hàm phù hợp. Thí dụ, nếu ta có đường biểu diễn chi phí có dạng CQ=+β01βε +, thì dạng hàm tuyến tính ám chỉ là khi Q tăng thêm một đơn vị thì chi phí C tăng thêm β 1 đơn vị. Điều này chỉ có thể đúng trong trường hợp chi phí biên không đổi; nó không thể đúng trong trường hợp chi phí biên tăng dần (hay giảm dần). Nếu chúng ta nghĩ rằng chi phí biên tăng dần, chúng ta sẽ không muốn sử dụng dạng hàm tuyến tính. 1.4.2. Dạng Hàm Bậc hai. Dạng hàm này cho phép giải thích tác động của X lên Y phụ thuộc vào giá trị hiện hành của X. Nó có phương trình: 2 YXX=+β01ββ + 2 + ε. Dạng hàm bậc hai có thể được mô tả ở dạng như sau: 9
Ưu điểm của dạng hàm bậc hai là khi X tăng thêm một đơn vị thì Y tăng thêm β12+ 2β X đơn vị. (Dễ dàng thấy được điều này bằng cách tính dY/ dX từ phương trình nói trên.) Nếu β 2>0, thì khi X tăng lên, tác động bổ sung của X đến Y cũng tăng lên; nếu β 2 0, thì ta có chi phí biên tăng dần; nếu β 2 0 (hay β 2 = 0) để kiểm định lý thuyết này. 1.4.3. Dạng Hàm Logarít. Dạng hàm này có phương trình: logYX=+β01βε log + . Đồ thị của dạng hàm này có thể được mô tả ở dạng như sau: Có hai cách để nghĩ về dạng hàm này. Một cách để giải thích dạng hàm này là nếu X thay đổi 1% thì Y sẽ thay đổi β 1%; đây là tính chất đặc biệt của quan hệ lôgarít. Cách giải thích thứ hai về dạng hàm này là β 1 là độ co giãn của Y theo X; điều này suy ra từ định nghĩa của độ co giãn (chúng ta dễ dàng chứng minh điều này bằng một số biến đổi, bắt đầu từ dYdX(log ) / (log ) bằng với (/)(/)dY dX X Y và sắp xếp các số hạng lại). Dạng hàm này thường được sử dụng khi chúng ta quan tâm đến việc ước lượng một loại độ co giãn nào đó. Người ta cũng sử dụng dạng hàm này phổ biến khi chúng ta sử dụng hàm Cobb Douglas; hàm Cobb-Douglas có dạng YAXe= β1 ε . và nếu lấy log ở cả hai vế, chúng ta được: LnY = Ln(A) + β1LnX + ε (Trong Eviews hàm này được viết dưới dạng logY = log(A) + β1 log X + ε ) và ta có thể đặt β 0 = log(A) . Vì thế cho nên dạng hàm lôgarít thường được sử dụng cho các hàm chi phí, các hàm sản xuất, các hàm hữu dụng, và các hàm khác mà chúng thường được mô tả dưới dạng hàm Cobb-Douglas. 10
Ví dụ về Hàm sản xuất Cobb-Douglas β2 β3 ε Y = β1 K L e Y = sản lượng K = nhập lượng vốn L = nhập lượng lao động Đây là mối quan hệ phi tuyến, nhưng chúng ta có thể biến đổi quan hệ này: Như thế: lnY = ln β1+ β2lnK + β3lnL+e Đây là mô hình tuyến tính trong các tham số nhưng không tuyến tính trong các biến số. Mô hình này tuyến tính theo lôgarít của các biến số. Mô hình này được gọi là mô hình lôgarít-lôgarít, lôgarít kép hay tuyến tính lôgarít Hệ số độ dốc của một mô hình tuyến tính lôgarít đo lường độ co giãn của Y theo X. Như thế, hệ số nói trên là độ co giãn. Độ co giãn này không đổi đối với X&Y + β2+ β3 đo lường hiệu quả theo qui mô. Đáp ứng của sản lượng đối với thay đổi tương xứng trong các nhập lượng. + Nếu β2 + β3 =1: hiệu quả không đổi. Tăng gấp đôi nhập lượng thì sản lượng sẽ tăng gấp đôi. + Nếu β2 + β3 1: hiệu quả tăng dần Ví dụ khi hồi qui theo dạng hàm này với dữ liệu về nông nghiệp của Đài Loan từ 16 quan sát, người ta thu được kết quả nhe sau: lnY = -3.34 + 0.49 lnK + 1.50 lnL t (-1.36) (4.80) (0.54) R2 = 0.89 Y GNP tính bằng triệu đô la K là vốn thực tính bằng triệu đô la L tính bằng triệu ngày công lao động Độ co giãn của sản lượng theo vốn là 0,49. Giữ nhập lượng lao động không đổi, gia tăng 1% nhập lượng vốn dẫn đến gia tăng 0,49% sản lượng. Độ co giãn của sản lượng theo lao động là 1,50. Giữ nhập lượng vốn không đổi, gia tăng 1% nhập lượng lao động dẫn đến gia tăng 1,5% sản lượng. Hiệu quả tăng theo qui mô bởi vì β2 + β3 = 1,99. 11
R2 có nghĩa là 89% biến thiên trong lôgarít của sản lượng được giải thích bởi lôgarít của lao động và vốn. Hay ví dụ chúng ta có thể lập mô hình cầu như một mô hình tuyến tính lôgarít và từ đó ước lượng độ co giãn của cầu tiêu dùng cà phê mỗi ngày: Giả sử kết quả thu được như sau: lnQ=0.78 -0.25lnPCoffee+ 0.38lnPtea + Q là mức tiêu dùng cà phê mỗi ngày + Pcoffee là giá cà phê mỗi cân Anh + Ptea là giá trà mỗi cân Anh Độ co giãn theo giá riêng là – 0,25. + Giữ các yếu tố khác không đổi, nếu giá gia tăng 1% thì lượng cầu sẽ giảm 0,25%. + Đây là không co giãn - giá trị tuyệt đối nhỏ hơn 1. Độ co giãn theo giá-chéo là 0,38. + Giữ các yếu tố khác không đổi, nếu giá trà gia tăng 1%, thì lượng cầu cà phê sẽ gia tăng 0,38% + Nếu độ co giãn theo giá-chéo dương, thì cà phê và trà là các sản phẩm thay thế. + Nếu độ co giãn theo giá-chéo âm, thì đó là các sản phẩm bổ trợ. 1.4.4. Dạng Hàm Translog. Phương trình của dạng hàm này là: 2 logYXX=+β01ββ log + 2 (log ) + ε . Dạng hàm này có mối quan hệ với dạng hàm lôgarít giống như mối quan hệ giữa hàm bậc hai và hàm tuyến tính; nó đưa thêm một số hạng bình phương vào phương trình. Trong dạng hàm này, độ co giãn của Y theo X là β 1 + 2 β 2 log X. 1.4.5. Dạng Hàm bán-lôgarít (Semilog). Dạng hàm này có phương trình sau: logYX=+β01βε + . Sử dụng mô hình này khi chúng ta quan tâm đến tốc độ tăng trưởng của biến nào đó như GNP hay mức việc làm. 12
Dạng hàm bán-lôgarít có tính chất là nếu X tăng thêm 1 đơn vị thì Y tăng thêm [ β 1*100] %. Đây không phải là một tính chất được mong muốn một cách phổ biến, nhưng có một số ứng dụng hữu ích cho dạng hàm này. Ví dụ, quan hệ giữa tiền lương và trình độ giáo dục hầu như luôn luôn được biểu hiện dưới dạng hàm này như là log(SAL ) = β01++βε ED . Điều này có nghĩa là nếu trình độ giáo dục của một người tăng 1 năm thì tiền lương của người đó tăng [ β 1*100] %. Thí dụ, nếu β 1= 0,08, nó có nghĩa là một năm tăng thêm trong trình độ giáo dục làm tăng tiền lương thêm 8%. Khi X tăng lên thì độ dốc của đường biểu diễn sẽ trở nên rất lớn, bởi vì khi X tăng lên thì tỷ lệ phần trăm gia tăng của X cũng lớn hơn. Chúng ta cũng có thể đặt lôgarít cho X, nghĩa là dạng hàm trên trở thành, Y = β 0 + β 1* log X+ ε và điều này có nghĩa là khi X tăng 1%, thì Y tăng [ β 1/100] đơn vị. Trong trường hợp này, khi X càng lớn thì độ dốc càng nhỏ, bởi vì X cần gia tăng nhiều hơn mới tạo ra được 1% gia tăng. Dạng hàm này không được sử dụng rộng rãi; dưới đây là đồ thị của nó. 1.4.6. Dạng Hàm Nghịch đảo. Dạng hàm này có phương trình như sau: 1 Y =+β βε() + . 01X Đồ thị của dạng hàm này có thể được mô tả ở dạng như sau: 13
Dạng hàm nghịch đảo thường được sử dụng khi Y và X đều dương và khi đường biểu diễn quan hệ giữa chúng có lẽ dốc xuống (nghĩa là, β 0>0 và β 1>0). Trong trường hợp này, dạng hàm tuyến tính không được tốt bởi vì đường biểu diễn sẽ cắt trục tọa độ và Y sẽ trở nên âm đối với các giá trị X đủ lớn. Dạng hàm này thường được sử dụng cho các đường (cong) như đường cầu hay đường chi phí cố định (chi phí cố định trung bình trong sản xuất giảm xuống liên tục khi sản lượng tăng lên) cần có tính chất này. Nếu chúng ta có nhiều biến độc lập, thì dạng quan hệ giữa Y và mỗi biến có thể giống nhau hoặc có thể khác nhau. Chúng ta có thể sử dụng cùng một dạng hàm như nhau cho mỗi biến; ví dụ, nếu chúng ta nghĩ rằng sản lượng phụ thuộc vào ba nhập lượng khác nhau thì có thể sử dụng dạng hàm tuyến tính cho mỗi nhập lượng: YXXX=+β0112233ββ + + βε +. Hay dạng hàm translog cho mỗi nhập lượng: 22 logYXXXX=+β01ββ log 12 + (log 1 ) + β 3 log 24 + β (log 2 ) + ε . Hay tổng quát hơn: kkk logYX=+β0 ∑∑∑βγii + ij (log XX i )(log j ) + ε . iij===111 Chúng ta cũng có thể kết hợp vài dạng hàm khác nhau trong một hồi qui, thí dụ: 2 1 YXXX=+β01ββββεlog + 22324 + + ( ) + . X 3 mặc dù, nếu làm thế, chúng ta thường phải có các lý do thỏa đáng để nghĩ rằng hình dạng của quan hệ giữa Y và X1 là khác với các hình dạng của quan hệ giữa Y và X 2 , và Y và X 3 . 14
1.5. Các loại dữ liệu cho phân tích kinh tế lượng Để ước lượng mô hình kinh tế đã đưa ra, cần có mẫu dữ liệu về các biến phụ thuộc và biến độc lập. Có 3 loại số liệu được sử dụng để phân tích: 1. Các số liệu theo thời gian (chuỗi thời gian) 2. Các số liệu chéo 3. Các số liệu hỗn hợp của hai loại trên. Các số liệu có thể dạng số lượng (như. GDP, tỷ giá hối đoái, Giá chứng khoán), hay dạng chất lượng (như. Nam/ nữ; có gia đình/ chưa có gia đình; Quá trình sản xuất A/qúa trình sản xuất B). 1.5.1. Số liệu theo thời gian: Là số liệu được thu thập trong một thời kỳ, như: − Quan sát mức lạm phát và thất nghiệp của Mỹ từ 1962-1995 − Quan sát GDP của Mỹ từ 1960-1992 − Quan sát khả năng sinh lời của một công ty trong hơn 20 năm − Quan sát giá vàng hàng ngày lúc đóng cửa trong hơn 30 năm. Ví dụ, giả sử một thành phố muốn dự báo nhu cầu nhà ở cho năm hoặc mười năm trong tương lai. Việc này đòi hỏi phải xác định các biến có ảnh hưởng đến nhu cầu nhà ở của thành phố đó trong quá khứ, có được chuỗi dữ liệu theo thời gian trong nhiều năm ở quá khứ, và sử dụng chúng vào một mô hình thích hợp để tạo các giá trị dự báo của nhu cầu tương lai. Khoảng thời gian hoặc thời đoạn của chuỗi thời gian sẽ là hàng năm, hàng quý hoặc hàng tháng, tùy theo thành phố đó muốn xem xét thay đổi trong nhu cầu nhà ở hàng năm, hàng quý hay hàng tháng. Loại dữ liệu sẵn có thường sẽ quyết định thời đoạn của dữ liệu thu thập. 1.5.2. Số liệu chéo: Là số liệu về một hay nhiều biến được thu thập tại một thời điểm ở nhiều địa phương, đơn vị khác nhau. − Quan sát chiều cao và cân nặng của 1000 người − Quan sát thu nhập, trình độ học vấn, và cân nặng của 1000 người − Quan sát khả năng sinh lời của 20 công ty − Quan sát GDP trên đầu người, dân số, và chi phí quốc phòng thực tế của 80 quốc gia. 15
Ví dụ, khi chúng ta muốn xem xét thu nhập ảnh hưởng như thế nào đến tiêu dùng của một người. Việc này đòi hỏi phải quan sát thu nhập và tiêu dùng của nhiều người trong một khoảng thời gian xác định. 1.5.3. Số liệu hỗn hợp: Số liệu hỗn hợp theo không gian và thời gian, ví dụ như: − Quan sát tỷ lệ lạm phát và mức tăng trưởng của 15 quốc gia trong khoảng thòi gian từ 1970-1995 − Quan sát mức sản lượng và mức giá của 100 ngành trong hơn 12 quý − Quan sát khả năng sinh lời của 20 công ty trong hơn 20 năm Số liệu chuỗi thời gian thường người ta ký hiệu là t và tổng số quan sát là T, còn đối với số liệu chéo ta ký hiệu quan sát là i và tổng số quan sát là N. Dữ liệu có thể thu thập được tại những nguồn sẵn có. Tuy nhiên, trong nhiều trường hợp những nguồn này không đủ để giải quyết vấn đề đặt ra hoặc những dữ liệu này không có sẵn. Trong trường hợp như vậy, cần tiến hành những khảo sát để thu thập các thông tin cần thiết. Ví dụ, chúng ta muốn quan tâm đến việc nghiên cứu xem người tiêu dùng sẽ phản ứng như thế nào đối với chính sách giá điện. Chính sách giá điện trong ngày là giá điện sẽ thay đổi theo những giờ khác nhau trong ngày, với giá cao trong những giờ cao điểm và giá thấp trong những giờ thấp điểm. Để có được dữ liệu phù hợp người ta chọn một số khách hàng và lắp đặt đồng hồ để ghi lại lượng điện sử dụng từng giờ trong ngày. Lượng điện tiêu thụ được thu thập trong vòng một năm, như vậy có được dữ liệu theo chuỗi thời gian cho một nhóm các hộ tiêu thụ nào đó. TÓM TẮT Kinh tế lượng liên quan đến ước lượng các mối liên hệ kinh tế, kiểm định giả thuyết các lý thuyết kinh tế, và dự báo các biến kinh tế hoặc các biến số khác. Khi nghiên cứu, chúng ta thường phải bắt đầu với một tập hợp các lý thuyết kinh tế, sau đó kết hợp chúng với những nhận định trực giác (hoặc kinh nghiệm, nghiên cứu trong quá khứ) để xây dựng một mô hình kinh tế lượng. Quá trình này liên quan đến quyết định chọn một hay nhiều biến phụ thuộc và xác định các biến độc lập có ảnh hưởng đến các biến phụ thuộc. Bước tiếp theo là thu thập dữ liệu tương ứng. Khi có được các dữ liệu này, chúng ta sẽ ước lượng các thông số của một hoặc nhiều mô hình sơ bộ. Các mô hình này sẽ được kiểm định nhiều lần, dựa vào những kiểm định này, các mô hình được thiết lập lại và ước lượng lại cho đến khi thỏa mãn. Mô hình cuối cùng có thể được dùng để xây dựng các chính sách hoặc để dự báo các giá trị của các biến phụ thuộc trong nhiều tình huống khác nhau. 16
CHƯƠNG II MÔ HÌNH HỒI QUI HAI BIẾN, ƯỚC LƯỢNG VÀ KIỂM ĐỊNH Ở chương I phát biểu rằng bước đầu tiên trong phân tích kinh tế lượng là việc thiết lập mô hình mô tả được hành vi của các đại lượng kinh tế. Tiếp theo đó nhà phân tích kinh tế/ kinh doanh sẽ thu thập những dữ liệu thích hợp và ước lược mô hình nhằm hỗ trợ cho việc ra quyết định. Trong chương này sẽ giới thiệu mô hình đơn giản nhất và phát triển các phương pháp ước lượng, phương pháp kiểm định giả thuyết và phương pháp dự báo. Mô hình này đề cập đến biến độc lập (Y) và một biến phụ thuộc (X). Đó chính là mô hình hồi quy tuyến tính hai biến (thường gọi là mô hình hồi qui đơn). Mặc dù đây là một mô hình đơn giản, và đôi khi có thể là phi thực tế, nhưng việc hiểu biết những vấn đề cơ bản trong mô hình này là nền tảng cho việc tìm hiểu những mô hình phức tạp hơn. Thực tế, mô hình hồi quy đơn tuyến tính có thể giải thích cho nhiều phương pháp kinh tế lượng. Trong chương này chỉ đưa ra những kết luận căn bản về mô hình hồi quy tuyến tính đơn biến. Mục tiêu đầu tiên của một nhà kinh tế lượng là làm sao sử dụng dữ liệu thu thập được để ước lượng hàm hồi quy của tổng thể, đó là, ước lượng tham số của tổng thể β1 và β2. ˆ ˆ Ký hiệu β1 là ước lượng mẫu của β1 và β 2 là ước lượng mẫu của β2. Khi đó mối quan ˆ ˆ ˆ hệ trung bình ước lượng là Y = β1 + β 2 X. Đây được gọi là hàm hồi quy của mẫu. Thuật ngữ đơn trong mô hình hồi quy tuyến tính đơn được sử dụng để chỉ rằng chỉ có duy nhất một biến giải thích (X) được sử dụng trong mô hình. Trong chương tiếp theo khi nói về mô hồi quy đa biến sẽ bổ sung thêm nhiều biến giải thích khác. Thuật ngữ hồi quy xuất phát từ Fraccis Galton (1886), người đặt ra mối liên hệ giữa chiều cao của người con trai với chiều cao của người cha và quan sát thực nghiệm cho thấy có một xu hướng giữa chiều cao trung bình của người con trai với chiều cao của những người cha của họ để “hồi quy” cho chiều cao trung bình của toàn bộ tổng thể. β1 + β2Xi gọi là phần xác định của mô hình và là trung bình có điều kiện của Y theo X, đó là E(Yi) = β1 + β2Xi . Thuật ngữ tuyến tính dùng để chỉ rằng bản chất của các thông số của tổng thể β1 và β2 là tuyến tính (bậc nhất). 2.1. Khái niệm hàm hồi qui tổng thể Tổng thể là toàn bộ các quan sát về các đối tượng hay con người cho mục đích nghiên cứu. Mục tiêu đầu tiên của một nhà kinh tế lượng là làm sao sử dụng dữ liệu thu thập được để ước lượng hàm hồi quy của tổng thể, đó là, ước lượng tham số của tổng thể β1 và β2. Cho Y là biến được giải thích, chọn X2, X3, Xk là biến giải thích. Y là ngẫu nhiên và có 1 phân phối xác suất nào đó. => tồn tại E(Y|X2, X3, Xk) = giá trị xác định Do vậy F(X2, X3, Xk) = E(Y|X2, X3, Xk) là hàm hồi qui tổng thể của Y theo X2, X3, Xk (PRF-population regression function), hàm phụ thuộc ở mức độ trung bình của Y theo X. 17
Với một cá thể i, tồn tại (X2i, X3i, Xki, Yi) Ta có Yi ≠ F(X2, X3, Xk) => ui = Yi - F Do vậy: Yi = E(Y|X2, X3, Xk) + ui Hồi qui tổng thể PRF: Y = E(Y|X) + U E(Y|X) = F(X) 2.2. Hàm hồi qui mẫu Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng. Trên thực tế khi tổng thể lớn, tồn tại F nhưng không tìm được chính xác do: 9 Không quan sát được (do thời gian hay tài chính không cho phép ) 9 Tổng thể biến động 9 Đặc điểm thông tin: không cần quan sát Do vậy người ta phải tiến hành chọn mẫu, mẫu là một nhóm hay một bộ phận của tổng thể. Hồi qui mẫu: Cho PRF: Y =F(x2, x3, xk) + u Trên một bộ phận (mẫu) có n cá thể gọi Yˆ = Fˆ (X 2, X 3 , Xk) là hồi qui mẫu (SRF - Sample regression function) ˆ Với một cá thể mẫuYi ≠ F(X 2i, X 3i , Xki) ˆ ˆ Sinh ra ei = Yi − F(X 2i, X 3i , Xki) = Yi −Yi ; ei gọi là Phần dư SRF ˆ ˆ Ký hiệu β1 là ước lượng mẫu của β1 và β 2 là ước lượng mẫu của β2. Khi đó mối quan ˆ ˆ ˆ hệ trung bình ước lượng là Y = β1 + β 2 X. Đây được gọi là hàm hồi quy của mẫu. Ước lượng SRF: Chọn 1 phương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số Fˆ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho tham số của F. 18
2.3. Phương pháp bình phương nhỏ nhất 2.3.1. Tư tưởng của phương pháp bình phương nhỏ nhất Trong kinh tế lượng, thủ tục ước lượng được dùng phổ biến nhất là phương pháp bình phương nhỏ nhất. Tiêu chuẩn tối ưu được sử dụng bởi phương pháp bình phương nhỏ nhất là cực tiểu hóa hàm mục tiêu. Phương pháp bình phương nhỏ nhất là một phương pháp được đưa ra bởi nhà toán học Đức Carl Friedrich Gauss, đây là một phương pháp mạnh và được rất nhiều người sử dụng, nó thường được ký hiệu là OLS (ordinary least squares). Tư tưởng của phương pháp này là cực tiểu tổng bình phương các phần dư. Do đó có thể nói để có được đường hồi qui “thích hợp” nhất, chúng ta chọn các ước lượng của tung độ gốc và độ dốc sao cho phần dư là nhỏ. Chúng ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i yˆi ký hiệu giá trị của hàm hồi qui mẫu ˆ ei ký hiệu phần dư, yi − yi ˆ 2 2 Do đó cực tiểu hoá ∑ ()yi − yi sẽ tương đương với cực tiểu ∑ei từ đó tìm ra β1 và β2. Chúng ta có thể mô tả tổng quát như sau: Xét hàm hồi qui tổng thể (PRF): Y = β1 + β2X2 + β3X3 + . . . βkXk + u 19
β1 = E(Y x2, x3, xk = 0) ∂Y β j = ∂x j Với mẫu: ˆ ˆ ˆ ˆ yˆ = β1 + β2 X 2 + β3 X 3 + + βk X k ˆ Chúng ta sẽ sử dụng phương pháp bình phương nhỏ nhất để tìm các tham số β j của hàm hồi qui mẫu. 2.3.2. Các giả thiết của phương pháp bình phương nhỏ nhất Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thoả mãn 6 giả thiết. Khi thoả mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính không chệch có hiệu quả nhất trong các ước lượng. Vì thế phương pháp OLS đưa ra Ước Lượng Không chệch Tuyến Tính Tốt Nhất (BLUE). Kết quả này được gọi là Định lý Gauss–Markov, theo lý thuyết này ước lượng OLS là BLUE; nghĩa là trong tất cả các tổ hợp tuyến tính không chệch của Y, ước lượng OLS có phương sai bé nhất. Các giả thiết như sau: + Mô hình hồi quy là tuyến tính theo các hệ số: Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng: y = β1 + β2x2 + β3x3 + . . . βkxk + u hoặc mối quan hệ thực tế đó có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế. + E(ui) = 0, kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0. Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một giá trị sai số mang dấu dương và một số sai số mang dấu âm. Do β1 + β2Xi là đường trung bình, nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể. + Cov (ui,uj)=0, Không có sự tương quan giữa các ui Không có sự tương quan giữa các quan sát của yếu tố sai số (không có tương quan chuỗi). Nếu chúng ta xem xét các chuỗi số liệu thời gian (dữ liệu được thu thập từ một nguồn trong nhiều khoảng thời gian khác nhau). Yếu tố sai số ui trong khoảng thời gian này không có bất kỳ một tương quan nào với yếu tố sai số trong khoảng thời gian trước đó. 20
+ Cov (ui,xi)=0, U và X không tương quan với nhau Điều này có nghĩa là khi bất kỳ biến giải thích nào mà lớn hơn hay nhỏ đi thì yếu tố sai số sẽ không thay đổi theo nó. 2 + Var (ui) = σ , Phương sai của sai số không đổi với mọi ui 2 Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ , sao cho Var( ui) = 2 2 E(ui )=σ . Điều này được gọi là phương sai của sai số không đổi. + ui Phân phối chuẩn Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những phạm vi mẫu là nhỏ. Nhưng với phạm vi mẫu lớn hơn, điều này sẽ trở nên không mấy quan trọng. Ví dụ về “Phương sai sai số không đổi” và “Phương sai sai số thay đổi” 21
2.3.3. Ứng dụng phương pháp bình phương nhỏ nhất tìm tham số hồi qui: ˆ ˆ Cho hàm hồi qui mẫu yˆ i = β1 + β2xi 2 2 L = (y − y) ) = (y − βˆ − βˆ x ) Ta đặt ∑ i i ∑ i 1 2 i i i ˆ ˆ Ta thấy rằng β1, β2 sẽ là nghiệm của hệ thống phương trình sau: ∂L = −2 (y − βˆ − βˆ x ) = 0 ˆ ∑ i 1 2 i (2.1) ∂β1 i ∂L = −2 x (y − βˆ − βˆ x ) = 0 ˆ ∑ i i 1 2 i (2.2) ∂β2 i (y − βˆ − βˆ x ) = 0 ⇔ y − nβˆ − βˆ x = 0 Từ (2.1), ∑ i 1 2 i ∑ i 1 2∑ i i i i Nhưng ∑ yi = ny và ∑ xi = nx ˆ ˆ ˆ ˆ Do vậy ta có thể viết ny − nβ1 − nβ2x = 0 hay y − β1 − β2x = 0 (2.3) x (y − βˆ − βˆ x ) = 0 Từ (2.2), ∑ i i 1 2 i (2.4) i 22
ˆ ˆ Từ (2.3), β1 = y − β2x (2.5) ˆ Thay vào (2.4) với β1 từ (2.5), ta có: ˆ ˆ ∑ xi (yi − y + β2x − β2xi ) = 0 i ˆ ˆ 2 ∑∑xi yi − y∑ xi + β2x∑ xi − β2 xi = 0 i ˆ 2 ˆ 2 ∑∑xi yi − nyx + β2nx − β2 xi = 0 i Tương đương với, ˆ 2 2 β2(nx − ∑ xi ) = nyx − ∑ xi yi ˆ ˆ Do vậy β1, β2 được xác định như sau: ˆ ∑ xiyi − nxy ∑(xi − x)(yi − y) ˆ ˆ β2 = = & β1 = y − β2x 2 2 2 ∑ xi − nx ∑(xi − x) ˆ ˆ β1, β2 là các ước lượng của β1 và β2 được tính bằng phương pháp bình phương nhỏ nhất- được gọi là các ước lượng bình phương nhỏ nhất. 2.3.4. Các tính chất của các tham số ước lượng: Định lý Gauss Markov ˆ ˆ Với các giả thiết đã cho, thì các ước lượng β1, β2 được xác định bằng phương pháp bình phương nhỏ nhất là các ước lượng tuyến tính, không chệch tốt nhất (có phương sai nhỏ nhất). + “Ước lượng” - βˆ là ước lượng điểm của β. + “Tuyến tính” - βˆ là ước lượng tuyến tính (theo Y) ˆ ˆ + “Không chệch”- Giá trị kỳ vọng của β1, β2 đúng bằng giá trị của β1, β2 + “Tốt nhất” - điều đó có nghĩa là ước lượng βˆ có phương sai nhỏ nhất trong tất cả các lớp ước lượng tuyến tính không chệch. Chúng ta có thể chứng minh định lý Gauss-Markov. 23
2.4. Độ chính xác của ước lượng Từ lý thuyết xác suất ta biết rằng phương sai của một biến ngẫu nhiên đo lường sự phân tán xung quanh giá trị trung bình. Phương sai càng bé, từng giá trị riêng biệt càng gần với giá trị trung bình. Tương tự, khi đề cập đến khoảng tin cậy, ta biết rằng phương sai của biến ngẫu nhiên càng nhỏ, khoảng tin cậy của các tham số càng bé. Như vậy, phương sai của một ước lượng là thông số để chỉ độ chính xác của một ước lượng. Do ˆ ˆ đó việc tính toán phương sai của β1 và β 2 là rất cần thiết. ˆ ˆ Do β1 và β 2 thuộc vào các giá trị Y, mà Y lại phụ thuộc vào các biến ngẫu nhiên u1, u2, , un, nên chúng cũng là biến ngẫu nhiên với phân phối tương ứng. Với các giả thiết đã cho, phương sai và độ lệch chuẩn được tính như sau 2 ˆ σ ˆ σ Var(β2) = ; se (β2) = (x − x)2 2 ∑ i ∑(xi − x) x 2 x 2 Var(βˆ ) = ∑ i σ 2; se (βˆ ) = ∑ i σ 1 2 1 2 n∑(xi − x) n∑(xi − x) 2 σ = Var(ui) Trong các công thức trên σ2 chưa biết, σ2 được ước lượng bằng ước lượng không chệch của nó là: ∑ 2 σ)2 = ei n − 2 2.5. Độ phù hợp của mô hình Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R2. Ta có: 2 2 ∑()yi − y = ∑[]()yi − yˆ i + (yˆ i − y) 2 = ∑[]ei + ()yˆ i − y 2 ˆ ˆ 2 = ∑ei + 2∑∑ei ()yi − y + ()yi − y Đặt: 24
2 ∑ ()yi − y : TSS - total sum of squares 2 ∑ ()yˆ i − y : ESS - explained sum of squares 2 ∑ ei : RSS - residual sum of squares Do∑ ei ()yˆ i − y = 0 ⇐ []∑eiyˆ i = 0;∑eiy = 0 Do vậy ta có thể viết: TSS = ESS + RSS Ý nghĩa của các thành phần: + TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình. + ESS: là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi qui mẫu và giá trị trung bình của chúng. Phần này đo độ chính xác của hàm hồi qui + RSS: là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi qui. + TSS được chia thành hai phần: một phần do ESS và một phần do RSS gây ra. Từ TSS = ESS + RSS, ta chia cả hai vế cho TSS, ta có: ESS RSS (y) − y)2 e 2 1 = + = ∑ i + ∑ i 2 2 TSS TSS ∑(yi − y) ∑(yi − y) ESS RSS R2 = =1− TSS TSS 2 ()y − y (yˆ − yˆ) ()y − y (yˆ − yˆ) R2 = (∑ i i ) ⇒ R = ∑ i i ()y − y 2 (yˆ − yˆ)2 2 2 ∑ i ∑ i ∑()yi − y ∑(yˆ i − yˆ) Tỉ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa R2 chúng ta thấy R2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình. Khi đó người ta sử dụng R2 để đo sự phù hợp của hàm hồi qui; 0 ≤ R2 ≤1 + R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc. + Nếu R2 bằng 0. Nghĩa là mô hình không đưa ra thông tin nào về biến phụ thuộc và dự đoán tốt nhất về giá trị của biến phụ thuộc là giá trị trung bình của nó. Các biến "giải thích" thực sự không đưa ra được một giải thích nào. 25
2.6. Ước lượng khoảng tin cậy và Kiểm định các hệ số hồi qui 2.6.1. Ước lượng khoảng tin cậy cho các hệ số hồi qui a. Khái niệm chung: Xét một tổng thể gồm N biến ngẫu nhiên X tuân theo luật phân phối có hàm mật độ xác suất là f (x,θ); trong đó θ là các tham số thống kê của tổng thể. Ví dụ, trong phân phối chuẩn: ( x−μ )2 1 2 f (x,θ ) = e 2σ ⇒ θ = ( μ,σ 2 ), - ∞ < μ < +∞ 2πσ 2 0 < σ 2 < +∞ Gọi { x1,x2 ,xn } là mẫu ngẫu nhiên, cỡ mẫu n được dùng lấy ra từ tổng thể tuân theo hàm mật độ xác suất f (x, θ). Ở đây dạng của hàm f xem như đã biết còn các tham số thống kê θ của tổng thể xem như chưa biết. Vấn đề đặt ra ở phần này này là dựa vào các mẫu quan sát { x1,x2 ,xn } ta ước lượng xem giá trị cụ thể của θ bằng bao nhiêu (bài toán đó gọi là ước lượng điểm) hoặc ước lượng xem θ nằm trong khoảng nào (bài toán ước lượng khoảng). + Ước lượng khoảng và giá trị ước lượng khoảng. * Ước lượng khoảng: Ước lượng khoảng đối với tham số thống kê của tổng thể θ là một quy tắc dựa trên thông tin của mẫu để xác định miền (range) hay khoảng (interval) mà tham số θ hầu như nằm trong đó. * Giá trị ước lượng khoảng: là giá trị cụ thể của miền hay khoảng mà tham số θ nằm trong đó. + Khoảng tin cậy và độ tin cậy: Gọi θ là tham số thống kê chưa biết. Giả sử dựa trên thông tin của mẫu ta có thể xác định được 2 biến ngẫu nhiên A và B sao cho P (A < θ < B) = 1 - α với 0 < α < 1 Nếu giá trị cụ thể của biến ngẫu nhiên A và B là a và b thì khoảng (a,b) từ a đến b được gọi là khoảng tin cậy của θ với xác suất là (1 - α) Xác suất (1 - α) được gọi là độ tin cậy của khoảng. Trong thực tế, độ tin cậy (1 - α) do nhà thống kê chọn theo yêu cầu của mình, thông thường độ tin cậy được chọn là 0,90; 0,95; 0,99 α là mức ý nghĩa hay là xác suất sai lầm khi chọn khoảng tin cậy (a, b) 26
b. Khoảng tin cậy cho các hệ số hồi qui Mục đích của phân tích hồi qui không phải chỉ suy đoán về β1 và β2 hay PRF mà còn phải kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của β1 và β2. Các phân bố này phụ thuộc vào phân bố của các ui. 2 Với các giả thiết đã cho ở phần trước (OLS)- ui có phân bố N(0, σ ). Nếu thoả mãn thì người ta suy ra: ˆ ˆ β j = N(β j,Varβ j) ˆ ˆ β j − E(β j) β j − β j * T = = ~ T(n - 2) ˆ ˆ Se(β j) Se(β j) (n - 2)σ)2 * ~ χ 2(n − 2) σ 2 Ước lượng khoảng tin cậy đối với βj − Ước lượng khoảng tin cậy (1-α). − Tìm 1 khoảng (G1, G2) sao cho xác suất P(G1≤ βj ≤ G2) = 1-α − Khi đó hiệu độ dài G2 - G1 là độ chính xác của ước lượng. Ví dụ: G1= 4, G2=10 + + 4 10 1-α =0.95 Ta có: ˆ β j − β j ~ T(n - 2) ˆ Se(β j) Với độ tin cậy là 1-α; + Ước lượng 2 phía: 27
ta tìm được tα/2 (n-2) thoả mãn ˆ β j − β j P(−t (n − 2) ≤ ≤ t (n − 2)) =1−α α / 2 ˆ α / 2 Se(β j) Khoảng tin cậy 1-α của βj là: ˆ ˆ ˆ ˆ [β j − tα / 2(n − 2)Se(β j); β j + tα / 2(n − 2)Se(β j) ] + Ước lượng phía phải: ˆ ˆ β j ≤ β j + tα (n − 2)Se(β j ) + Ước lượng phía trái: ˆ ˆ β j ≥ β j − tα (n − 2)Se(β j ) 28
2.6.2. Kiểm định giả thuyết ý nghĩa của từng hệ số hồi qui a. Khái niệm: Giả thuyết thống kê là một giả sử hay một phát biểu có thể đúng, có thể sai liên quan đến tham số của tổng thể. Khi thực hiện kiểm định, người ta thiết lập cặp giả thiết thống kê, Giả thuyết không và giả thuyết ngược lại (giả thiết đối). + Giả thuyết không: là sự giả sử mà chúng ta muốn kiếm định thường được ký hiệu là H0. + Giả thuyết ngược lại: Việc bác bỏ giả thuyết không sẽ dẫn đến việc chấp nhận giả thuyết ngược lại. Giả thuyết ngược lại thường được ký hiệu là H1. Ví dụ: H0 : β = 0.5 H1 : β ≠ 0.5 Miền bác bỏ và miền chấp nhận (rejection region & acceptance region) Tất cả các giá trị có thể có của các đại lượng thống kê trong kiểm định có thể chia làm 2 miền: miền bác bỏ và miền chấp nhận. + Miền bác bỏ là miền chứa các giá trị làm cho giả thuyết Ho bị bác bỏ. + Miền chấp nhận là miền chứa các giá trị giúp cho giả thuyết Ho không bị bác bỏ. Trong thực tế khi H0 không bị bác bỏ cũng có nghĩa là nó được chấp nhận. Giá trị chia đôi hai miền được gọi là giá trị giới hạn (Critical value) 29
Giả thiết không và giả thiết đối có thể là giả thiết đơn hay giả thiết kép. Một giả thiết được gọi là đơn nếu nó đưa ra 1 giá trị cụ thể cho tham số (ví dụ H0: β=0.5). Một giả thiết được gọi là kép nếu nó đưa ra một khoảng giá trị của phân bố xác suất (ví dụ H0: β > 0.5). Liên quan đến vấn đề này người ta có kiểm định hai phía và kiểm định một phía. Các bước kiểm định giả thuyết thống kê Bước 1: Thành lập giả thuyết H0 Ví dụ: H0 : β = 0.5 Bước 2: Thành lập giả thuyết H1 Ví dụ: H1 : β ≠ 0.5 Bước 3: Xác định mức ý nghĩa α Bước 4: Chọn các tham số thống kê thích hợp cho việc kiếm định và xác định các miền bác bỏ, miền chấp nhận và giá trị giới hạn. Bước 5: Tính toán biến ngẫu nhiên của kiểm định như biến Z (trong phân phối chuẩn), t (trong phân phối Student t) hay χ2 (trong phân phối Chi bình phương). Bước 6: Ra quyết định: Nếu các giá trị tính toán rơi vào miền bác bỏ Ho thì ra quyết định bác bỏ Ho. Ngược lại sẽ chấp nhận Ho. b. Kiểm định giả thiết đối với βj Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj*. Nếu giả thiết này đúng thì: ˆ β j − β j T = ~ T(n - 2) ˆ Se(β j) Ta có bảng sau đây: Loại giả thiết Giả thiết H0 Giả thiết đối H1 Miền bác bỏ Hai phía βj = βj* βj ≠ βj* t >tα/2 (n-2) Phía phải βj ≤ βj* βj > βj* t >tα (n-2) Phía trái βj ≥ βj* βj < βj* t <-tα (n-2) Giả sử: 30
Kiểm định βj ; H0: βj = 0 Ù xj không tác động H1: βj ≠ 0 Ù xj có tác động βj 0 Ù xj có tác động thuận 2.6.3. Ước lượng Khoảng tin cậy và Kiểm định đối với σ2 Ước lượng khoảng tin cậy đối với σ2: Ta có: (n - 2)σ) 2 χ 2 = ~ χ 2(n − 2) σ 2 Do đó khoảng tin cậy 1-α của σ2 được xác định từ: ) 2 2 (n - 2)σ 2 P(χ 1−α / 2(n − 2) ≤ ≤ χ α / 2(n − 2)) =1−α σ 2 Hay ⎛ (n - 2)σ) 2 (n - 2)σ) 2 ⎞ P⎜ ≤ σ 2 ≤ ⎟ =1−α ⎜ 2 2 ⎟ ⎝ χ α / 2(n − 2) χ 1−α / 2(n − 2) ⎠ 2 Kiểm định giả thiết đối với σ : Loại giả thiết Giả thiết H0 Giả thiết đối H1 Miền bác bỏ Hai phía 2 2 2 2 ) 2 σ = σ σ ≠ σ (n - 2)σ 2 0 0 > χ α / 2(n − 2)hay 2 σ0 (n - 2)σ) 2 σ (n - 2)σ 2 0 0 > χ α (n − 2) 2 σ0 Phía trái 2 2 2 2 )2 σ ≥ σ σ < σ (n - 2)σ 2 0 0 < χ 1 (n − 2) 2 −α σ0 31
2.7. Ứng dụng phân tích hồi qui 2.7.1. Dự báo giá trị trung bình của biến phụ thuộc Giả sử ta biết rằng biến độc lập x và một giá trị x0 nào đó mà ta cần đưa ra các kết luận về giá trị trung bình của biến phụ thuộc y, thì ta có: E(ylx0)= E(β1 + β2x0+ u0) = β1 + β2x0 Khi đó đường hồi qui mẫu cho ước lượng điểm E(ylx0): ˆ ˆ yˆ 0 = β1 + β2x0 ŷ0 là ước lượng không chệch có phương sai nhỏ nhất của E(ylx0), tuy nhiên ŷ0 vẫn khác giá trị thực của nó. ŷ0 có phân bố chuẩn với kỳ vọng β1 + β2x0 nên ˆ ˆ 2 Var(yˆ 0) = E(β1 + β2x0 − β1 − β2x0) ˆ ˆ 2 = E[(β1 − β1) + x0(β2 − β2)] ˆ 2 ˆ ˆ 2 ˆ 2 = E[(β1 − β1) + 2x0(β2 − β2)(β1 − β1) + x0 (β2 − β2) ] ˆ 2 2 ˆ 2 Var(yˆ 0) = E[(β1 − β1) ] + E[x0(β2 − β2) ] ˆ ˆ + 2x0E[(β2 − β2)(β1 − β1)] = var(βˆ ) + x2 var(βˆ ) + 2x cov(βˆ , βˆ ) 1 0 2 0 1 2 ˆ 2 ˆ ˆ ˆ Var(yˆ 0) = var(y − β2x) + x0 var(β2) + 2x0 cov(β1, β2) 2 σ 2 ˆ 2 ˆ ˆ ˆ Var(yˆ 0) = + x var(β2) + x0 var(β2) + 2x0 cov(β1, β2) n ˆ ˆ ˆ ˆ cov(β1, β2) = E(β1 − β1)(β2 − β2) ˆ ˆ ˆ ˆ ˆ β1 − β1 = y − β2x − E(β1) = y − β2x − (y − β2x) = −x(β2 − β2) σ 2 σ 2 σ 2 σ 2 Var(yˆ ) = + x2 + x2 − 2x x 0 2 0 2 0 2 n ∑(xi − x) ∑ (xi − x) ∑(xi − x) ⎡ 1 (x − x)2 ⎤ = σ 2 ⎢ + 0 ⎥ n 2 ⎣⎢ ∑(xi − x) ⎦⎥ 2 2 2 Do chưa biết σ , nên ta sử dụng ước lượng không chệch của σ là σ) , khi đó: 32
yˆ − (β + β x ) T 0 1 2 0 ~ T(n - 2) = Se(yˆ 0) Khoảng tin cậy 1-α của E(y|x0): ˆ ˆ P(β1 + β2x0 − tα / 2(n − 2)Se(yˆ 0) ≤ β1 + β2x0 ˆ ˆ ≤ β1 + β2x0 + tα / 2(n − 2)Se(yˆ 0)) =1−α yˆ 0 − tα / 2(n − 2)Se(yˆ 0) ≤ E(y x0) ≤yˆ 0 + tα / 2(n − 2)Se(yˆ 0) 2.7.2. Dự báo giá trị cá biệt của biến phụ thuộc Giả sử chúng ta muốn dự báo giá trị cá biệt y=y0 với x=x0, khi đó ước lượng của y0 là: ˆ ˆ yˆ 0 = β1 + β2x0 E(e0 ) = E(y0 − yˆ0 ) = E(y0 ) − E(yˆ0 ) = 0 var(y0 − yˆ0 ) = var(y0 ) + var(yˆ0 ) ⎡1 (x − x)2 ⎤ = σ 2 +σ 2 + 0 ⎢ 2 ⎥ ⎣⎢n ∑(xi − x) ⎦⎥ ⎡ 2 ⎤ 2 1 (x0 − x) = σ ⎢1+ + 2 ⎥ ⎣⎢ n ∑(xi − x) ⎦⎥ Ta có: e0 ~ N (0, var(e0 )) Người ta chứng minh được: e − 0 y − yˆ 0 ~ T (n − 2) => 0 0 ~ T (n − 2) Se(e0 ) Se(e0 ) Với giá trị 0<α<1 ta có thể tìm được giá trị tα/2 sao cho: ⎛ y − yˆ ⎞ P⎜ 0 0 ≤ t ⎟ = (1−α) ⎜ α / 2 ⎟ ⎝ Se(e0 ) ⎠ ⇒ P(yˆ0 − tα / 2 (n − 2)Se(e0 ) ≤ y0 ≤ yˆ0 + tα / 2 (n − 2)Se(e0 )) =1−α 33
BÀI THỰC HÀNH Cho bảng sau đây về lãi suất (Y) và tỷ lệ lạm phát (X) trong năm 1988 ở 9 nước. Giả sử rằng sự phụ thuộc E(Y/X) có dạng tuyến tính. Hãy ước lượng hàm hồi qui và tính các đặc trưng của nó. Y 11.9 9.40 7.50 4.00 11.30 66.30 2.20 10.30 7.60 X 7.20 4.00 3.10 1.60 4.80 51.00 2.00 6.60 4.40 Trước tiên với cách làm thủ công (không sử dụng các phần mềm chuyên dụng) để thực hiện hồi qui và tìm các đặc trưng của mô hình, ta lập bảng tính và tính như sau: 2 Y X X 2 X − X (X − X ) 2 Y −Y (Y −Y ) 2 (Y −Y )(X − X ) Yˆ n i i i i i i i i i i ei ei 1 11.90 7.20 51.84 -2.21 4.89 -2.60 6.76 5.75 11.74 0.16 0.03 2 9.40 4.00 16.00 -5.41 29.28 -5.10 26.01 27.60 7.74 1.66 2.76 3 7.50 3.10 9.61 -6.31 39.83 -7.00 49.00 44.18 6.61 0.89 0.78 4 4.00 1.60 2.56 -7.81 61.01 -10.50 110.25 82.02 4.74 -0.74 0.55 5 11.30 4.80 23.04 -4.61 21.26 -3.20 10.24 14.76 8.74 2.56 6.56 6 66.30 51.00 2601.00 41.59 1729.64 51.80 2683.24 2154.30 66.46 -0.16 0.03 7 2.20 2.00 4.00 -7.41 54.92 -12.30 151.29 91.16 5.24 -3.04 9.25 8 10.30 6.60 43.56 -2.81 7.90 -4.20 17.64 11.81 10.99 -0.69 0.47 9 7.60 4.40 19.36 -5.01 25.11 -6.90 47.61 34.58 8.24 -0.64 0.41 Tổng 130.50 84.70 2770.97 0.00 1973.85 0.00 3102.04 2466.14 130.50 0.00 20.83 TB 14.50 9.41 Từ bảng tính trên, chúng ta dễ dàng tính được: Các tham số hồi qui: (X − X )(Y − Y ) ˆ ∑ i i 2466.14 β 2 = 2 = = 1.249; ∑(X i − X ) 1973.85 ˆ ˆ β1 = Y − β 2 X = 14.5 −1.249*9.41 = 2.742 Hàm hồi qui mẫu: Từ các tham số hồi qui ở trên, hàm hồi qui mẫu được ước lượng là: ˆ Yi = 2.742 +1.249X i SRF 34
Độ chính xác của các ước lượng: Để tính độ chính xác của các ước lượng, do σ2 chưa biết, nên ta phải tính ước lượng không chệch của nó, ước lượng không chệch tính được như sau: e 2 20.83 σˆ 2 = ∑ i = = 2.975 n − 2 9 − 2 Từ đó suy ra: 2 ˆ σ 2.975 ˆ Var(β2 ) = 2 = = 0.0015; Se(β2 ) = 0.0388 ∑(X i − X) 1973.85 2 X ˆ ∑ i 2 2770.97 ˆ Var(β1 ) = 2 σ = 2.975 = 0.464; Se(β1 ) = 0.6811 n∑(X i − X) 9*1973.85 Độ phù hợp của mô hình: Từ bảng kết quả, chúng ta cũng tính được độ phù hợp của mô hình như sau: RSS 20.83 R 2 = 1− = 1− = 0.993 TSS 3102.04 Từ đó cho thấy rằng 99.3% sự biến đổi của lãi suất tiết kiệm trong mẫu được giải thích bằng tỷ lệ lạm phát. Khoảng tin cậy các hệ số βj: Với α=0.1 => tra bảng ta có tα/2(n-2) = 1.895. Vậy khoảng tin cậy với β1 và β2 với độ tin cậy 90% là: βˆ - 1.895Se(βˆ ) ≤ β ≤ βˆ + 1.895Se(βˆ ) 1 1 1 1 1 1.131 ≤ β1 ≤ 4.353 βˆ - 1.895Se(βˆ ) ≤ β ≤ βˆ + 1.895Se(βˆ ) 2 2 2 2 2 1.158 ≤ β2 ≤ 1.341 Kiểm định giả thiết: H0: β2 = 0 H1: β2 ≠ 0 Giả thiết H0 về mặt kinh tế tức là chúng ta đưa ra giả thiết biến X không ảnh hưởng đến Y, trong thí dụ này có nghĩa là lạm phát không ảnh hưởng đến lãi suất ngân hàng. 35
βˆ − β * βˆ − 0 t = 2 2 = 2 = 32.2 ˆ se(β2 ) 0.0388 Ta thấy t > tα/2(n-2), do đó bác bỏ giả thuyết H0, hay có thể nói là ở mức ý nghĩa 10% ta bác bỏ giả thiết cho rằng lạm phát không ảnh hưởng đến lãi suất ngân hàng. Dự báo: Giả sử chúng ta muốn dự báo giá trị trung bình hay giá trị cá biệt cho Lãi suất tiết kiệm khi chúng ta biết một giá trị cụ thể của Tỷ lệ lạm phát, áp dụng những công thức như đã trình bày trong phần 2.7 chúng ta dễ dàng tính được các giá trị dự báo mong muốn. Chúng ta vừa thực hiện ước lượng hàm hồi qui và tính các đặc trưng của nó bằng việc sử dụng những công thức và lập bảng tính, hiện nay có rất nhiều phần mềm ứng dụng hay các phần mềm phân tích dữ liệu khác do đó chúng ta dễ dàng tính được các tham số hồi qui cũng như những đặc trưng của nó mà không cần mất quá nhiều thời gian. Đối với những yêu cầu đơn giản, chúng ta cũng có thể thực hiện ngay trên EXCEL, ví dụ với bài thực hành trên chúng ta có thể thực hiện một số thao tác đơn giản như sau: Tool → Data Analysis → Regression Sau khi thực hiện khai báo các biến, chúng ta sẽ thu được kết quả hồi qui như sau: SUMMARY OUTPUT Regression Statistics Multiple R 0.997 R Square 0.993 Adjusted R Square 0.992 Standard Error 1.725 Observations 9 ANOVA df SS MS F Significance F Regression 1 3081.212 3081.212 1035.543 0.000 Residual 7 20.828 2.975 Total 8 3102.040 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 2.742 0.681 4.024 0.005 1.131 4.353 X 1.249 0.039 32.180 0.000 1.158 1.341 Dựa vào kết quả hồi qui trên, chúng ta dễ dàng thực hiện những phân tích, đánh giá mô hình hồi qui nhận được. 36
CHƯƠNG III MÔ HÌNH HỒI QUI ĐA BIẾN Trong Chương II chúng ta giới hạn trong trường hợp đơn giản của mô hình là mô hình hồi qui hai biến hay hồi qui đơn. Trong lý thuyết cũng như trong thực tế, có nhiều trường hợp mà biến kinh tế cho không thể giải thích bằng các mô hình hồi qui đơn như vậy, ví dụ Lượng cầu phụ thuộc vào giá, thu nhập, giá các hàng hoá khác; Giá nhà ở phụ thuộc vào diện tích nhà, số phòng ngủ và số phòng tắm; Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào qui mô hộ gia đình, thu nhập, vị trí địa lý; Tỷ lệ tử vong trẻ em của quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục hay Lương của một người phụ thuộc vào trình độ giáo dục, kinh nghiệm, giới tính, độ tuổi Bây giờ, chúng ta sẽ xem xét hồi qui đa biến (hồi qui bội), nghĩa là liên hệ biến phụ thuộc Y cho trước với nhiều biến độc lập X2, X3, , Xk. 3.1. Giới thiệu mô hình hồi qui đa biến Mô hình hồi qui tuyến tính đa biến có dạng tổng quát như sau: y = β1 + β2x2 + β3x3 + . . . βkxk + u PRF (3.1) Trong đó: β1: là hệ số tự do (hệ số chặn) βj: là hệ số hồi qui riêng u: sai số ngẫu nhiên 3.2. Các giả thiết của mô hình hồi qui đa biến Các giả thiết OLS cho mô hình hồi qui tuyến tính đơn được giải thích trong mô hình hồi qui đa biến: 1. Hàm hồi qui là tuyến tính theo các tham số 2. E(ui) = 0 Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0 2 3. Var (ui) = σ Phương sai bằng nhau và thuần nhất với mọi ui 4. Cov (ui,uj)=0 Không có sự tương quan giữa các ui 5. Cov (ui,xi)=0 U và X không tương quan với nhau 6. ui Phân phối chuẩn 37
Giả thiết bổ sung cho mô hình hồi qui đa biến: 7. Giữa các x2, x3, xk không có quan hệ tuyến tính. Nếu x2, x3, xk có quan hệ tuyến tính thì người ta nói rằng có hiện tượng đa cộng tuyến. Hay không tồn tại λi ≡ 0: λ1x1i + λ2x2i + λ3x3i + + λkxki +νi = 0 Về mặt hình thức, nếu có hiện tượng đa cộng tuyến giữa các biến giải thích và trong mô hình có tất cả các biến này thì không thể tách được ảnh hưởng của từng biến lên biến phụ thuộc y. Giả sử: x2i = 3x3i, Khi đó: yi = β1 + β2x2i + β3x3i + ui ’ ’ = β1 + (3β2+ β3)x3i + ui ; đặt: β3 =3β2+ β3 => yi = β1 + β3 x3i + ui => Không thể tách được ảnh hưởng của β2 và β3 3.3. Ước lượng các tham số mô hình hồi qui đa biến Ta có hàm hồi qui mẫu tổng quát được viết dưới dạng như sau: ˆ ˆ ˆ ˆ yˆ i = β1 + β2x2i + β3x3i + + βkxki Các phần dư được định nghĩa giống như trong mô hình hồi qui đơn: ei = yi − yˆ i Để ước lượng các tham số của mô hình, chúng ta sử dụng phương pháp bình phương ˆ ˆ ˆ ˆ nhỏ nhất-OLS (như đã giới thiệu ở Chương II) từ đó tìm ra β1, β2, β3, , βk Ta có: 2 ˆ ˆ ˆ ˆ 2 ∑ei = ∑(yi − (β1 + β2x2i + β3x3i + + βkxki)) Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau : 38
∂∑ e2 i = −2 (y − (βˆ + βˆ x + βˆ x + + βˆ x )) = 0 ˆ ∑ i 1 2 2i 3 3i k ki ∂β1 ∂∑ e2 i = −2 (y − (βˆ + βˆ x + βˆ x + + βˆ x ))x = 0 ˆ ∑ i 1 2 2i 3 3i k ki 2i ∂β2 ∂∑ e2 i = −2 (y − (βˆ + βˆ x + βˆ x + + βˆ x ))x = 0 ˆ ∑ i 1 2 2i 3 3i k ki ki ∂βk Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn. Chúng ta có thể giải K phương trình chuẩn này để tìm K hệ số beta chưa biết. 3.4. Trường hợp hàm hồi qui có 2 biến giải thích ˆ ˆ ˆ Các tham số β1, β2, β3 được tính từ hệ phương trình chuẩn sau đây: ˆ ˆ ˆ β1 + β2x2 + β3x3 = y ˆ ˆ 2 ˆ β1∑ x2i + β2∑ x2i + β3∑ x2ix3i = ∑ yix2i ˆ ˆ ˆ 2 β1∑ x3i + β2∑ x2ix3i + β3∑ x3i = ∑ yix3i Trong đó: x2 = ∑ x2i / n; x3 = ∑ x3i / n; y = ∑ yi / n Giải hệ phương trình ta tìm được: ˆ ˆ ˆ β1 = y − β2x2 − β3x3 ( (y − y)(x − x ))( (x − x )2) − ( (y − y)(x − x ))( (x − x )(x − x )) βˆ = ∑ i 2i 2 ∑ 3i 3 ∑ i 3i 3 ∑ 2i 2 3i 3 2 2 2 2 (∑(x2i − x2) )(∑(x3i − x3) ) − (∑(x2i − x2)(x3i − x3)) ( (y − y)(x − x ))( (x − x )2) − ( (y − y)(x − x ))( (x − x )(x − x )) βˆ = ∑ i 3i 3 ∑ 2i 2 ∑ i 2i 2 ∑ 2i 2 3i 3 3 2 2 2 (∑(x2i − x2) )(∑(x3i − x3) ) − (∑ (x2i − x2)(x3i − x3)) ˆ ˆ ˆ β1, β2, β3 được gọi là các ước lượng bình phương nhỏ nhất Phương sai và độ lệch chuẩn được tính bởi công thức sau: 39
σ 2 Var(βˆ ) = ; Se(βˆ ) = Var(βˆ ) 2 2 2 2 2 ∑(x2i − x2) (1− r23) σ 2 Var(βˆ ) = ; Se(βˆ ) = Var(βˆ ) 3 2 2 2 2 ∑(x3i − x3) (1− r23) 2 2 ˆ ˆ − r23σ Cov(β2, β3) = 2 2 2 (1− r23) ∑(x2i − x2) ∑(x3i − x3) ( (x − x )(x − x ))2 r2 = ∑ 2i 2 3i 3 23 2 2 ∑∑(x2i − x2) (x3i − x3) 2 Trong công thức trên σ là phương sai của ui, nhưng chưa biết. Ước lượng không chệch của nó bằng: ∑e2 σ)2 = i n − 3 3 là số tham số trong mô hình, trường hợp mô hình có k tham số β1,β2, β3,. . . βk thì : ∑e2 σ)2 = i n − k 3.5. Hệ số xác định bội R2 và hệ số xác định bội đã hiệu chỉnh R 2 Khi đánh giá mức độ thích hợp, tổng bình phương toàn phần, tổng bình phương hồi qui, và tổng bình phương của sai số có cùng dạng như đã trình bày trước, và ở đây cũng có TSS = RSS + ESS Trong mô hình hồi qui hai biến R2 đo độ thích hợp của hàm hồi qui. Nó chính là tỷ lệ của toàn bộ sự biến đổi của biến phụ thuộc y do biến giải thích x gây ra. Trong mô hình hồi qui đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả các biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R2: 2 βˆ (y − y)(x − x ) + βˆ (y − y)(x − x ) ∑ e R2 = 2 ∑ i 2i 2 3∑ i 3i 3 = 1− i 2 2 ∑ (yi − y) ∑ (yi − y) 0≤ R2 ≤1. Nếu R2 =1, có nghĩa là đường hồi qui giải thích 100% thay đổi của y. Nếu R2 =0, có nghĩa là mô hình không giải thích sự thay đổi nào của y. 40
Tuy nhiên, định nghĩa R2 theo cách này sẽ phát sinh một vấn đề. Có thể thấy là việc thêm vào bất kỳ một biến nào (dù biến này có ý nghĩa hay không) thì R2 cũng sẽ không bao giờ giảm. Chúng ta dễ thấy điều này bằng lý luận theo trực giác. Khi một biến mới được thêm vào và RSS được cực tiểu, chúng ta đang cực tiểu theo một tập rất nhiều biến số và vì vậy RSS mới có vẻ sẽ nhỏ hơn (ít nhất thì cũng không lớn hơn). Cụ thể hơn, giả sử số hạng βk+1Xk+1,i được thêm vào phương trình (3.1) và ta có được một mô hình mới. Nếu giá trị cực tiểu của tổng bình phương của mô hình mới này lớn hơn giá trị của mô hình cũ, thì ta đặt βk+1 bằng không và sử dụng các ước lượng cũ cho các giá trị β khác sẽ tốt hơn, và vì vậy các ước lượng mới không thể có RSS cực tiểu. Điều này kéo theo khi một biến mới được thêm vào, giá trị R2 tương ứng không thể giảm đi mà còn có thể tăng thêm. Do vậy, người ta thường cố gắng thêm một biến mới vào chỉ để tăng R2 không kể đến mức độ quan trọng của biến đó đối với vấn đề đang giải quyết. Để ngăn chặn tình trạng “có đưa thêm biến vào mô hình” như đã nêu trên, một phép đo khác về mức độ thích hợp được sử dụng thường xuyên hơn. Phép đo này gọi là R2 hiệu chỉnh hoặc R2 hiệu chỉnh theo bậc tự do (kết quả này luôn được in ra khi thực hiện hồi qui bằng những phần mềm chuyên dụng). Để phát triển phép đo này, trước hết phải nhớ là R2 đo lường tỷ số giữa phương sai của Y “được giải thích” bằng mô hình; một cách tương đương, nó bằng một trừ đi tỷ số “không được giải thích” do phương sai của sai số Var(u). Ta có thể biểu diễn công thức tính R 2 như sau: Var(u) R 2 = 1− Var(Y ) Chúng ta biết rằng một ước lượng không chệch của Var (u) được tính bằng RSS/(n – k), và một ước lượng không chệch của Var (Y) được tính bằng TSS/(n – 1). Thay vào phương trình trên ta có: RSS /(n − k) RSS(n −1) R 2 = 1− = 1− TSS /(n −1) TSS(n − k) (n −1) σˆ 2 (n −1) = 1− (1− R 2 ) = 1− (n − k) TSS Việc thêm vào một biến dẫn đến tăng R2 nhưng cũng làm giảm đi một bậc tự do, bởi vì chúng ta đang ước lượng thêm một tham số nữa. R2 hiệu chỉnh là một phép đo độ thích hợp tốt hơn bởi vì nó cho phép đánh đổi giữa việc tăng R2 và giảm bậc tự do. Cũng cần lưu ý là vì (n −1) / (n − k) không bao giờ nhỏ hơn 1. R2 hiệu chỉnh sẽ không bao giờ lớn hơn R2. Tuy nhiên, mặc dù R2 không thể âm, R2 hiệu chỉnh có thể nhỏ hơn không. Ví dụ, khi n = 26, k = 6, và R2 = 0,1, chúng ta có R2 hiệu chỉnh = − 0,125. Từ đó chúng ta thấy rằng không thể dùng R2 làm tiêu chuẩn để xem xét việc không đưa thêm hay đưa thêm một biến giải thích mới vào trong mô hình. Do vậy R 2 thường được sử dụng để cân nhắc khi xem xét việc đưa thêm một biến giải thích mới vào mô hình. Chúng ta chỉ đưa thêm biến mới vào mô hình khi R 2 tăng. 41
3.6. Khoảng tin cậy và kiểm định các hệ số hồi qui 3.6.1. Ước lượng khoảng tin cậy đối với βj Hồi qui tuyến tính bội cũng có các tính chất gần giống như hồi qui tuyến tính đơn nhưng bậc tự do đã thay đổi. Các hệ số ước lượng tuân theo phân phối chuẩn ˆ ˆ β j ~ N(β j , Se(β j )) βˆ − β j j ~ T (n − k) ˆ Se(β j ) Như trong trường hợp hồi qui đơn, ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó k là số hệ số có trong phương trình hồi qui đa biến ∑e2 σ)2 = i n − k + Ước lượng 2 phía, ta tìm được tα/2 (n-3) thoả mãn ˆ β j − β j P(−t (n − 3) ≤ ≤ t (n − 3)) =1−α α / 2 ˆ α / 2 Se(β j) Khoảng tin cậy 1-α của βj là: ˆ ˆ ˆ ˆ [β j − tα / 2(n − 3)Se(β j); β j + tα / 2(n − 3)Se(β j) ] 3.6.2. Kiểm định giả thiết đối với βj Kiểm định ý nghĩa thống kê của các hệ số hồi qui có ý nghĩa hay không: kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không. Nói cách khác là hệ số hồi qui có ý nghĩa thống kê hay không. Cách làm tương tự như đối với hồi qui đơn, nhưng thay đổi độ tự do. Ví dụ kiểm định hai phía, Giả thiết: H 0 : β j = β 0 H1 : β j ≠ β 0 * Luật quyết định: tc > t (α / 2,n−k ) bác bỏ giả thiết không Chúng ta có thể sừ dụng giá trị p-value trong EViews. Nếu p.value tính được nhỏ hơn mức ý nghĩa thì chúng ta bác bỏ giả thiết không. 42
3.7. Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của KIỂM ĐỊNH WALD) 3.7.1. Khái quát về kiểm định WALD: Giả sử chúng ta có 2 mô hình dưới đây: (U ) :Y = β + β X + β X + β X + u 1 2 2 3 3 4 4 (R) : Y = β1 + β 2 X 2 +ν Mô hình U được gọi là mô hình không giới hạn (unrestrict), và Mô hình R được gọi là mô hình giới hạn (restrict). Đó là do β3 và β4 buộc phải bằng không trong Mô hình R. Ta có thể kiểm định giả thuyết liên kết β3 = β4 = 0 với giả thuyết đối là ít nhất một trong những hệ số này không bằng không. Kiểm định giả thuyết liên kết này được gọi là kiểm định Wald. Thủ tục như sau. Đặt các mô hình giới hạn và không giới hạn là: (U ) :Y = β + β X + + β X + β X + + β X + u 1 2 2 m m m+1 m+1 k k (R) : Y = β1 + β 2 X 2 + + β m X m +ν Mô hình R có được bằng cách bỏ bớt một số biến ở Mô hình U, đó là Xm+1, Xm+2, Xk. Vì vậy, giả thuyết là: H : β = = β = 0 0 m+1 k H 1 : khong phai dong thoi cac tham so bang 0 Lưu ý rằng (U) chứa k hệ số hồi qui chưa biết và (R) chứa m hệ số hồi qui chưa biết. Do đó, Mô hình R có ít hơn k – m thông số so với U. Câu hỏi chúng ta sẽ nêu ra là k –m biến bị loại ra có ảnh hưởng liên kết có ý nghĩa đối với Y hay không. Giả sử những biến bị loại này không có ảnh hưởng có ý nghĩa đối với Y. Chúng ta sẽ không kỳ vọng tổng bình phương sai số của Mô hình R (RSSR) quá khác biệt với tổng bình phương sai số của Mô hình U (RSSU). Nói cách khác, sai biệt RSSR – RSSU có vẻ rất nhỏ. Nhưng giá trị này nhỏ như thế nào? Chúng ta biết là RSS rất nhạy với đơn vị đo lường, và vì vậy có thể làm giá trị này lớn hơn hay nhỏ hơn chỉ đơn giản bằng cách thay đổi thang đo. “Nhỏ” hoặc “lớn” được xác định bằng cách so sánh sai biệt trên với RSSU, tổng bình phương sai số của mô hình hoàn toàn không giới hạn. Vì vậy, RSSR – RSSU được so sánh với RSSU. Nếu giá trị đầu “nhỏ” tương đối so với giá trị sau, chúng ta kết luận là việc loại bỏ các biến Xm+1, Xm+2, Xk không thay đổi RSS đủ để có thể tin là các hệ số của chúng có ý nghĩa. Do RSSU/σ2 có phân phối chi bình phương với n – k bậc tự do (n quan sát trừ k thông số trong Mô hình U). Có thể thấy (RSSR – RSSU)/σ2 cũng là phân phối chi bình phương (vì tính chất cộng của chi bình phương) với bậc tự do bằng số biến số loại bỏ trong (R). Do tỷ số của hai phân bố chi bình phương độc lập có phân phối F có hai thông số: bậc tự do cho tử số của tỷ số, bậc tự do cho mẫu số. Trị thống kê sẽ căn cứ trên tỷ số F. Thủ tục kiểm định như sau: 43
H : β = = β = 0 0 m+1 k H 1 : khong phai dong thoi cac tham so bang 0 Trị thống kê kiểm định đối với giả thiết này là : []RSS R − RSSU /(k − m) Fc = ~ F(α,k − m,n − k) RSSU /(n − k) 2 2 (RU − RR ) /(k − m) = 2 (1− RU ) /(n − k) với R2 là số đo độ thích hợp không hiệu chỉnh. Với giả thuyết không, Fc có phân phối F với k − m bậc tự do đối với tử số và n − k bậc tự do đối với mẫu số. Nguyên tắc ra quyết định: Bác bỏ giả thiết không khi Fc > F(α,k − m,n − k) Hoặc giá trị p-value của thống kê F nhỏ hơn mức ý nghĩa cho trước. 3.7.2. Kiểm định ý nghĩa của mô hình: Trong mô hình hồi qui đa biến, giả thiết "không" cho rằng mô hình không có ý nghĩa được hiểu là tất cả các hệ số hồi qui riêng (các tham số độ dốc) đều bằng không. Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau: Bước 1 Giả thuyết không là H0: H 0 : β 2 = β3 = = β k = 0 . Giả thuyết ngược lại là H1: có ít nhất một trong những giá trị β không bằng không. Bước 2 Trước tiên hồi qui Y theo một số hạng không đổi và X2, X3, , Xk, sau đó tính tổng bình phương sai số RSSU. Kế đến tính RSSR. Chúng ta đã định nghĩa phân phối F là tỷ số của hai biến ngẫu nhiên phân phối chi bình phương độc lập. Điều này cho ta trị thống kê: []RSS R − RSSU /(k − m) Fc = ~ F(α,k − m,n − k) RSSU /(n − k) Vì H 0 : β 2 = β 3 = = β k = 0 , dễ dàng thấy rằng trị thống kê kiểm định đối với giả thiết này sẽ là: ESS /(k −1) F = ~ F(α,k −1,n − k) c RSS /(n − k) Bước 3 Từ số liệu trong bảng F tương ứng với bậc tự do k − 1 cho tử số và n − k cho mẫu số, và với mức ý nghĩa cho trước α, ta có F*(α, k-1,n-k) sao cho diện tích bên phải của F* là α. 44
Bước 4 Bác bỏ giả thuyết không ở mức ý nghĩa a nếu Fc > F*. Đối với phương pháp giá trị p, tính giá trị p = P(F > Fc|H0) và bác bỏ giả thuyết không nếu giá trị p nhỏ hơn mức ý nghĩa. 3.8. Phương pháp ma trận giải bài toán hồi qui đa biến Chúng ta thấy rằng trong hồi qui đa biến, nếu chúng ta sử dụng cách thức thay thế dần để tìm tham số hồi qui sẽ rất phức tạp và mất rất nhiều thời gian, đặc biệt đối với những mô hình có nhiều biến giải thích. Một cách đơn giản hơn để giải quyết đó là sử dụng phương pháp ma trận. Giả sử chúng ta có hàm hồi qui tổng thể y = β1 + β2x2 + β3x3 + . . . βkxk + u PRF Chúng ta viết cho từng quan sát như sau: y1 = β1 + β2x21 + β3x31 + + βkxk1 + u1 y2 = β1 + β2x22 + β3x32 + + βkxk2 + u2 M M M yn = β1 + β2x2n + β3x3n + + βkxkn + un Viết dưới dạng ma trận ta có: Y = Xβ +U trong đó Y ma trận cấp n × 1 X ma trận cấp n × k β ma trận cấp k × 1 U ma trận cấp n × 1 Với x1 được biểu diễn là: ⎡1⎤ ⎢ ⎥ ⎢1⎥ x1 = ⎢M⎥ ⎢ ⎥ ⎣1⎦ Ví dụ nếu k bằng 2: 45
⎡ y1 ⎤ ⎡1 x21 ⎤ ⎡u1 ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢y2 ⎥ ⎢1 x22 ⎥⎡β1 ⎤ ⎢u2 ⎥ = ⎢ ⎥ + ⎢ ⎥ ⎢ ⎥ β ⎢ ⎥ ⎢ M ⎥ ⎢M M ⎥⎣ 2 ⎦ ⎢ M ⎥ ⎣⎢yn ⎦⎥ ⎣⎢1 x2n ⎦⎥ ⎣⎢un ⎦⎥ Hàm hồi qui mẫu được viết như sau: ˆ ˆ ˆ ˆ yˆ i = β1 + β2x2i + β3x3i + + βkxki ˆ ˆ ˆ ˆ yi = β1 + β2x2i + β3x3i + + βkxki + ei Hay Y = Xβˆ + e ⎡e1 ⎤ ⎢ ⎥ e e = ⎢ 2 ⎥ = Y − Xβˆ ⎢ ⎥ ⎢ ⎥ ⎣⎢en ⎦⎥ Khi đó các ước lượng OLS tìm được bằng cách: 2 ˆ ˆ ˆ ˆ 2 ∑ei = ∑(yi − (β1 + β2x2i + β3x3i + + βkxki )) ⇒ min 2 ˆ ˆ ˆ ˆ ˆ ˆ e'e = ∑ei = (Y − Xβ )'(Y − Xβ ) = Y'Y − β 'X'Y − Y'Xβ + β 'X'Xβ = Y'Y − 2βˆ'X'Y + X'Xβˆ 2 ∂(e'e) = −2X'Y + 2X'Xβˆ ⇒ X'Y = X'Xβˆ ∂βˆ ⇒ βˆ = (X'X)−1X'Y Từ đó chúng ta dễ dàng tính được các tham số của hàm hồi qui mẫu, cũng như việc ứng dụng các qui tắc tính phương sai và độ lệch chuẩn chúng ta cũng dễ dàng tìm được phương sai và độ lệch chuẩn của các tham số hồi qui. 46
BÀI THỰC HÀNH Khi nghiên cứu số người sẽ di chuyển bằng xe buýt với nhiều yếu tố ảnh hưởng khác nhau. Người ta thu thập dữ liệu chéo cho 40 thành phố khắp nước Mỹ. BUSTRAVL FARE GASPRICE INCOME POP DENSITY LANDAREA 2073.0 0.85 0.88 17293 537.1 4099 131.0 2136.1 0.75 1.03 17768 787.0 9798 80.3 1878.8 0.60 0.91 17823 587.1 12438 47.2 937.5 1.00 0.91 15163 338.0 8070 41.8 7343.3 0.50 0.97 17480 3090.0 13547 228.1 837.9 0.85 0.88 15329 399.0 5110 78.1 1648.0 1.00 0.91 16141 561.8 7110 79.0 739.1 0.75 0.89 15326 585.1 3234 180.9 1070.7 1.50 0.89 17115 1142.4 3431 333.0 274.6 1.50 0.89 17117 486.5 2027 240.2 312.9 0.75 0.87 16127 198.7 4113 48.4 1879.1 1.00 0.94 17242 549.8 4975 110.6 1941.0 0.60 0.99 17340 1253.0 8913 135.6 2317.6 1.50 0.87 15108 1603.0 2885 556.4 471.4 1.05 0.93 15809 741.2 2105 352.0 594.3 0.70 0.79 16321 490.4 1551 316.3 7632.9 0.60 0.93 18027 3478.9 7486 464.7 510.1 0.60 0.93 18023 423.3 8508 49.8 630.6 0.60 0.93 12349 304.0 4997 60.0 1650.9 1.00 1.03 17886 377.2 10994 34.3 1618.3 0.50 0.86 16537 664.0 6702 95.8 2009.8 1.15 0.96 13019 368.0 6714 55.1 1562.4 1.15 0.96 13019 265.0 5144 52.4 1139.4 0.60 0.88 13130 572.0 2832 199.4 13103.0 1.00 1.00 20513 7323.3 24288 301.5 3739.6 1.35 0.92 17409 1760.2 12944 136.0 525.7 0.75 0.91 15944 991.6 3059 324.0 2385.8 1.00 0.89 15207 396.6 8147 55.4 1698.5 1.15 0.93 15409 387.0 3751 103.3 544.0 1.00 0.87 17743 167.0 8309 18.9 1769.1 0.85 0.81 16309 495.9 8077 61.4 1065.0 0.50 0.85 15092 794.0 2318 262.7 803.1 1.25 0.98 18014 1027.2 3208 320.0 1616.7 0.75 0.90 21886 753.6 16240 46.4 146.5 0.75 0.90 20744 376.0 6988 53.9 18.1 0.75 0.90 21313 698.1 4422 158.0 2056.1 1.00 0.88 17539 548.3 3790 144.6 470.1 0.75 0.92 17633 295.7 3497 84.4 242.5 0.75 0.92 17643 259.8 4675 55.5 3933.5 0.60 0.96 15522 693.6 11068 62.7 Các biến được định nghĩa như sau: BUSTRAVL = Mức độ giao thông bằng xe buýt ở đô thị tính theo ngàn hành khách mỗi giờ 47
FARE = Giá vé xe buýt tính bằng $ GASPRICE = Giá một ga lông nhiên liệu tính bằng $ INCOME = Thu nhập bình quân đầu người tính bằng $ POP = Dân số thành phố tính bằng ngàn người DENSITY = Mật độ dân số tính (người/dặm vuông) LANDAREA = Diện tích thành phố (dặm vuông) Đặc trưng tổng quát của mô hình, được xem có dạng như sau: BUSTRAV = β1 + β2FARE + β3GASPRICE + β4INCOME + β5POP + β6DENSITY + β7LANAREA + u Trước khi ước lượng mô hình, chúng ta sẽ xác định dấu của các biến, mức độ ưu tiên, cho các hệ số hồi qui. Ở đây chúng ta giả định những tiềm ẩn về phía cung không được xem là quan trọng. Bởi vì một sự gia tăng giá vé xe buýt có thể làm giảm nhu cầu đi xe buýt, nên chúng ta kỳ vọng β2 sẽ âm. Trong lĩnh vực di chuyển, xe hơi sẽ là một thay thế đối với xe buýt, và vì vậy một sự gia tăng giá nhiên liệu có thể khiến một số người tiêu thụ chuyển sang đi xe buýt, vì vậy chúng ta kỳ vọng một hiệu ứng tích cực ở đây; nghĩa là β3 sẽ dương. Khi thu nhập tăng, chúng ta kỳ vọng nhu cầu đối với hàng tiêu dùng cũng tăng lên, và vì vậy như thường lệ chúng ta kỳ vọng β4 sẽ dương. Tuy nhiên, nếu hàng tiêu dùng thuộc loại hàng hóa “thấp cấp”, thì hiệu ứng thu nhập (nghĩa là, β4) sẽ âm. Một sự gia tăng dân số hay mật độ dân số thường làm gia tăng nhu cầu di chuyển bằng xe buýt, vì vậy, chúng ta kỳ vọng β5 và β6 sẽ dương. Nếu diện tích đất tăng lên, thì thành phố sẽ trải rộng ra hơn và người tiêu thụ có thể thích dùng xe hơi như là phương tiện giao thông chính hơn, nếu đây là một tình huống thì β7 được kỳ vọng sẽ âm. Kết quả hồi qui được tính toán bởi phần mềm Eviews. Mô hình 1: Dependent Variable: BUSTRAVL Method: Least Squares Date: 06/07/08 Time: 00:05 Sample: 1 40 Included observations: 40 Variable Coefficient Std. Errort-Statistic Prob. C 2744.680 2641.672 1.038994 0.3064 FARE -238.6544 451.7281 -0.528314 0.6008 GASPRICE 522.1132 2658.228 0.196414 0.8455 INCOME -0.194744 0.064887 -3.001294 0.0051 POP 1.711442 0.231364 7.397176 0.0000 DENSITY 0.116415 0.059570 1.954253 0.0592 LANDAREA -1.155230 1.802638 -0.640855 0.5260 R-squared 0.921026 Mean dependent var 1933.175 Adjusted R-squared 0.906667 S.D. dependent var 2431.757 S.E. of regression 742.9113 Akaike info criterion 16.21666 Sum squared resid 18213267 Schwarz criterion 16.51221 Log likelihood -317.3332 F-statistic 64.14338 Durbin-Watson stat 2.082671 Prob(F-statistic) 0.000000 48
Qua bảng kết quả chúng ta thấy rằng R2 hiệu chỉnh là 0,907, có nghĩa rằng 90,7% sự biến đổi của BUSTRAVL được giải thích chung bởi các biến trong mô hình (đã được điều chỉnh do giảm bậc tự do của mô hình). Đối với một nghiên cứu chéo, R2 hiệu chỉnh như vậy là khá cao. Nhìn vào giá trị p-value (được cho ở cột cuối cùng), khi kiểm định hai phía cho thấy rằng chỉ INCOME, POP, và DENSITY có các hệ số có nghĩa ở mức 10%. Hằng số và các hệ số của FARE, GASPRICE, và LANDAREA không có ý nghĩa về mặt thống kê ngay cả ở mức lớn hơn. Kiểm định ý nghĩa của mô hình bằng kiểm định F, ta thấy rằng F = 64,14 và mức ý nghĩa của F, PF < 0.1 do đó ta có thể kết luận mô hình trên là có ý nghĩa. Nhưng chúng ta sẽ phải làm gì với những hệ số không có ý nghĩa. Qui tắc chung là bỏ qua ý nghĩa của hằng số hoặc là không cần nó. Tuy nhiên, FARE, GASPRICE, và LANDAREA cần phải xem xét loại bỏ khỏi mô hình bởi vì không có bằng chứng chứng tỏ chúng có những ảnh hưởng có nghĩa lên BUSTRAVL. Chúng ta có thể thực hiện một bỏ tất cả chúng, ước lượng một mô hình được giới hạn, và thực hiện kiểm định Wald F-test như đã trình bày. Để tạo thực hiện việc này, chúng ta lấy ra tổng bình phương sai số và số bậc tự do cho mô hình không giới hạn vừa mới được ước lượng. Tuy nhiên, chúng ta cũng cần cẩn trọng, vì việc cùng lúc loại bỏ một vài biến cũng có thể bỏ mất những biến có ý nghĩa hoặc là những biến quan trọng về mặt lý thuyết. Do đó, cách làm thận trọng và nhạy bén hơn là loại bỏ dần từng biến. Có một vài lý do đối với việc loại bỏ các biến với các hệ số không có nghĩa. Thứ nhất, một mô hình đơn giản hơn dễ diễn giải hơn một mô hình phức tạp. Thứ hai, việc bỏ bớt một biến làm tăng bậc tự do và vì vậy cải thiện sự chính xác của các hệ số còn lại. Cuối cùng, như chúng ta sẽ thấy trong chương tiếp theo, nếu các biến giải thích có tương quan chặt với nhau nó sẽ gây khó khăn cho sự diễn giải riêng từng hệ số. Việc loại trừ các biến làm giảm cơ hội nảy sinh những tương quan này và vì vậy nó làm cho việc diễn giải có ý nghĩa hơn. Điểm bắt đầu cho quá trình loại bỏ là nhận diện biến có hệ số hồi qui ít có nghĩa nhất. Điều này được thực hiện bằng cách nhìn vào giá trị p-value cao nhất. Từ kết quả mô hình A, chúng ta để ý rằng hệ số cho GASPRICE có giá trị p-value cao nhất và vì vậy ít có ý nghĩa nhất. Do đó, biến này bị loại bỏ khỏi đặc trưng mô hình và chúng ta sẽ thực hiện hồi qui với những biến còn lại. Kết quả hồi qui thu được sau khi loại bỏ biến GASPRICE như sau: 49
Mô hình 2: Dependent Variable: BUSTRAVL Method: Least Squares Date: 06/07/08 Time: 00:07 Sample: 1 40 Included observations: 40 Variable Coefficient Std. Errort-Statistic Prob. C 3215.856 1090.469 2.949058 0.0057 FARE -225.6595 440.4936 -0.512288 0.6118 INCOME -0.195716 0.063777 -3.068778 0.0042 POP 1.716808 0.226474 7.580596 0.0000 DENSITY 0.118216 0.058023 2.037401 0.0495 LANDAREA -1.195297 1.765554 -0.677010 0.5030 R-squared 0.920934 Mean dependent var 1933.175 Adjusted R-squared 0.909307 S.D. dependent var 2431.757 S.E. of regression 732.3323 Akaike info criterion 16.16783 Sum squared resid 18234559 Schwarz criterion 16.42116 Log likelihood -317.3565 F-statistic 79.20400 Durbin-Watson stat 2.079321 Prob(F-statistic) 0.000000 Ta thấy rằng việc loại bỏ biến đã cải thiện các ràng buộc lựa chọn mô hình, đã cải thiện độ chính xác của các hệ số còn lại bằng cách làm cho chúng có ý nghĩa nhiều hơn, dễ dàng thấy được điều này qua giá trị p-value. Biến có hệ số ít ý nghĩa nhất (giá trị p- value cao nhất), bây giờ là FARE. Nhưng vé xe buýt là một thước đo giá cả mà theo cách nói lý thuyết kinh tế là một yếu tố quan trọng của nhu cầu. Do đó, chúng ta không nên loại bỏ nó ngay cả khi giá trị p-value cho rằng chúng ta có thể bỏ. Do vậy bước kế tiếp ta loại bỏ LANDAREA, biến có giá trị p-value cao nhất kế tiếp. Tiếp tục thực hiện hồi qui, ta thu được: Mô hình 3: Dependent Variable: BUSTRAVL Method: Least Squares Date: 06/07/08 Time: 00:08 Sample: 1 40 Included observations: 40 Variable Coefficient Std. Errort-Statistic Prob. C 3111.181 1071.067 2.904749 0.0063 FARE -295.7306 424.8354 -0.696106 0.4910 INCOME -0.202197 0.062564 -3.231821 0.0027 POP 1.588337 0.122654 12.94973 0.0000 DENSITY 0.149027 0.035713 4.172925 0.0002 R-squared 0.919868 Mean dependent var 1933.175 Adjusted R-squared 0.910710 S.D. dependent var 2431.757 S.E. of regression 726.6434 Akaike info criterion 16.13122 Sum squared resid 18480373 Schwarz criterion 16.34233 Log likelihood -317.6243 F-statistic 100.4449 Durbin-Watson stat 1.995180 Prob(F-statistic) 0.000000 50
Ta thấy rằng biến DENSITY đã gia tăng ý nghĩa đáng kể. Tuy nhiên, biến FARE có giá trị p-value là 49%, quá cao không thể chấp nhận được. Điều này gợi ý rằng, với sự có mặt của các biến khác, giá cả có thể không ảnh hưởng lên nhu cầu đi xe buýt. Nói cách khác, khi có nhu cầu đi xe buýt, người tiêu thụ có thể không nhạy cảm lắm với giá cả. Do vậy, loại bỏ FARE là cần thiết và lại tiếp tục hồi qui với những biến còn lại, ta thu được kết quả: Mô hình 4: Dependent Variable: BUSTRAVL Method: Least Squares Date: 06/07/08 Time: 00:09 Sample: 1 40 Included observations: 40 Variable Coefficient Std. Errort-Statistic Prob. C 2815.703 976.3007 2.884053 0.0066 INCOME -0.201273 0.062101 -3.241076 0.0026 POP 1.576575 0.120612 13.07148 0.0000 DENSITY 0.153421 0.034898 4.396311 0.0001 R-squared 0.918759 Mean dependent var 1933.175 Adjusted R-squared 0.911989 S.D. dependent var 2431.757 S.E. of regression 721.4228 Akaike info criterion 16.09497 Sum squared resid 18736228 Schwarz criterion 16.26386 Log likelihood -317.8993 F-statistic 135.7080 Durbin-Watson stat 1.878671 Prob(F-statistic) 0.000000 Qua kết quả ta thấy rằng mô hình này có các trị thống kê lựa chọn mô hình thấp nhất và tất cả các hệ số đều có nghĩa rất lớn. Hơn nữa, các hệ số đối với INCOME, POP, và DENSITY không khác với các hệ số giữa mô hình 3 và mô hình 4. Vì vậy có thể kết luận việc loại bỏ FARE không quá nghiêm trọng. Dựa trên tất cả các ràng buộc, mô hình 4 dường như là “tốt nhất” và được chọn như là mô hình cuối cùng cho việc diễn dịch. Các hệ số của thu nhập, kích thước dân số, và mật độ dân số có ý nghĩa rất lớn. Lý thuyết kinh tế chuẩn cho rằng ảnh hưởng thu nhập lên nhu cầu đối với bất cứ hàng hóa nào đều dương, nhưng hệ số ước lượng của INCOME thì lại âm. Điều này, không gây ngạc nhiên, gợi ý rằng đi xe buýt là một loại hàng hóa “thấp cấp”. Khi thu nhập tăng lên, người ta có khuynh hướng sử dụng xe hơi để di chuyển, và vì vậy lượng đi xe buýt sẽ giảm xuống. Nếu thu nhập đầu người tăng lên khoảng 100 đô la, thì về trung bình, đi xe buýt được kỳ vọng giảm khoảng khoảng 20,13 ngàn người mỗi giờ. Hệ số của POP và DENSITY dương hay có thể nói khi dân số hay mật độ dân số tăng lên, thì có nhiều người di chuyển bằng xe buýt hơn. Mặc dù vậy, để thực sự có những kết luận thật thoả đáng, chúng ta còn phải thực hiện những kiểm định và phân tích sâu hơn nữa. 51
CHƯƠNG IV ĐA CỘNG TUYẾN Các biến giải thích được xác định trong một mô hình kinh tế lượng thường xuất phát từ lý thuyết hoặc những hiểu biết của chúng ta cũng như từ kinh nghiệm quá khứ. Dữ liệu về các biến này đặc biệt xuất phát từ những thực nghiệm không kiểm soát và thường tương quan với nhau. Ví dụ, dân số và tổng sản phẩm quốc nội là hai chuỗi dữ liệu tương quan chặt lẫn nhau. Trong chương trước, chúng ta phát biểu là hệ số hồi qui đối với một biến cụ thể là số đo tác động riêng phần của biến này, nghĩa là tác động của nó khi tất cả các biến khác trong mô hình được giữ ở những mức cố định và chỉ có giá trị của biến này thay đổi. Tuy nhiên, khi hai biến giải thích cùng tương quan chặt; chúng ta không thể chỉ đơn giản giữ một biến không đổi và thay đổi biến còn lại vì khi biến sau thay đổi thì biến đầu thay đổi. Cũng vậy, thay đổi mô hình bằng cách loại bỏ hoặc thêm vào một biến có thể làm thay đổi kết quả một cách nghiêm trọng, khiến cho việc diễn dịch các ước lượng sẽ khó khăn hơn. Đây chính là vấn đề đa cộng tuyến, vấn đề xuất hiện khi các biến giải thích có các quan hệ gần như tuyến tính. 4.1. Bản chất của đa cộng tuyến Trường hợp lý tưởng là các biến không có tương quan với nhau; mỗi một biến Xj chứa một thông tin riêng về Y, thông tin không chứa trong bất kỳ biến Xj khác. Trong thực tế, khi điều này xảy ra ta không gặp hiện tượng đa cộng tuyến. Ở trường hợp ngược lại, ta gặp hiện tượng đa cộng tuyến. Giả sử ta phải ước lượng hàm hồi qui Y gồm k biến giải thích X1,X2, , Xk: Yi= β1+ β2X2i+ β3X3i, + βkXki + ui Đa cộng tuyến xảy ra khi một biến giải thích được biểu diễn dưới dạng tổ hợp tuyến tính của các biến giải thích còn lại đối với mọi điểm của tập số liệu. Hay có thể nói, nếu tồn tại các λi không đồng nhất bằng 0 làm cho: 2 λ2x2i + λ3x3i + + λkxki +νi = 0; Trong đó νi là nhiễu; E(νi)=0; Var(νi)=σ νi ≥0 Trường hợp này chúng ta có thể nói là có đa cộng tuyến Nói chung hồi qui đa biến là có đa cộng tuyến, vấn đề là ở mức nào. Trường hợp Var(νi)= 0, => νi = 0 do E(νi)=0, khi đó ta có λ2x2i + λ3x3i + + λkxki = 0, trường hợp này được gọi là đa cộng tuyến hoàn hảo. Nhưng thực tế Var(νi)= 0 rất khó xảy ra, chỉ có khi số liệu quá ít hoặc đưa vào xi sai. Khi Var(νi)> 0, ta có đa cộng tuyến không hoàn hảo, Var(νi) lớn thì đa cộng tuyến thấp. Ví dụ: Giả sử chúng ta ước lượng hàm tiêu dùng. Y = tiêu dùng, X2 = thu nhập và X3 = của cải. 52
Y = β1 + β2X2 + β3X3 + u; X3 = 5X2 Y = β1 + β2X2 + β35X2 + u Y = β1 + (β2 + 5β3)X2 + u Chúng ta có thể ước lượng (β2 + 5β3) nhưng không ước lượng riêng từng hệ số hồi qui. Hay có thể nói không thể có nghiệm duy nhất cho từng hệ số hồi qui (xem lại cách tính các hệ số hồi qui). Như vậy các hệ số hồi qui sẽ không xác định được. 4.2. Nguồn gốc của đa cộng tuyến ¾ Do phương pháp thu thập dữ liệu: • Các giá trị của các biến độc lập phụ thuộc lẫn nhau trong mẫu, nhưng không phụ thuộc lẫn nhau trong tổng thể. • Ví dụ: người có thu nhập cao hơn khuynh hướng sẽ có nhiều của cải hơn. Điều này có thể đúng với mẫu mà không đúng với tổng thể. Trong tổng thể sẽ có các quan sát về các cá nhân có thu nhập cao nhưng không có nhiều của cải và ngược lại. ¾ Các biến độc lập vĩ mô được quan sát theo dữ liệu chuỗi thời gian Ví dụ: Nhập khẩu quốc gia phụ thuộc vào GDP và CPI (các chỉ số này được thu thập từ dự liệu chuỗi thời gian). 4.3. Ước lượng khi có đa cộng tuyến hoàn hảo Khi có đa cộng tuyến hoàn hảo thì các hệ số hồi qui là không xác định còn các sai số tiêu chuẩn là vô hạn. Chúng ta dễ dàng thấy được từ ví dụ trong phần 4.1. Ta cũng có ˆ ˆ thể sử dụng công thức tính β2 & β3 như đã trình bày ở phần hồi qui đa biến, ta cũng ˆ ˆ thấy rằng β2 & β3 là không xác định do tử số và mẫu số = 0 4.4. Ước lượng khi có đa cộng tuyến không hoàn hảo Trường hợp chúng ta giả thiết giữa x2 và x3 có đa cộng tuyến không hoàn hảo theo nghĩa: x2i = αx3i + νi Trong đó α ≠ 0, νi là nhiễu ngẫu nhiên Trong trường hợp này, theo phương pháp bình phương bé nhất ta có thể thu được ˆ ˆ β2 & β3 nhưng việc giải thích nó sẽ gặp rất nhiều khó khăn. 53
4.5. Hậu quả của đa cộng tuyến Khi có hiện tượng đa cộng tuyến trong mô hình, chúng ta có thể sẽ gặp phải những hậu quả sau: − Sai số chuẩn của các hệ số hồi qui lớn, làm cho khoảng tin cậy lớn và thống kê t ít ý nghĩa và khi đó các ước lượng không thật chính xác. Chúng ta dễ đi đến không có cơ sở bác bỏ giả thiết “không” nhưng trong thực tế không đúng như vậy. Hay có thể nói nó sẽ làm cho chúng ta không xác định đúng tác động của mỗi biến độc lập đến biến phụ thuộc, thậm chí các hệ số hồi qui bị ước lượng sai dấu. − Các mẫu ngẫu nhiên khác nhau ít nhưng có thể cho kết quả ước lượng khác nhau ˆ nhiều, do Var(β j ) quá lớn. 4.6. Phát hiện đa cộng tuyến Tính đa cộng tuyến thường xuất hiện dưới một số đặc điểm như sau: Giá trị R2 cao với các giá trị của trị thống kê t thấp: Mọi hệ số hồi qui đều không có ý nghĩa (nghĩa là có giá trị t thấp) nhưng trị thống kê F của kiểm định lại rất có ý nghĩa. Những giá trị cao cho các hệ số tương quan: Các tương quan từng mỗi cặp giữa các biến giải thích có thể cao, Xin lưu ý rằng một hệ số tương quan cao giữa biến phụ thuộc và một biến độc lập không phải là một dấu hiệu của tính đa cộng tuyến. Thực ra một tương quan như vậy rất được mong muốn. Các hệ số hồi qui nhạy với các đặc trưng: Mặc dù một sự tương quan cao giữa các cặp biến độc lập là một điều kiện đủ cho tính đa cộng tuyến, điều kiện đảo lại không cần thiết phải đúng. Nói cách khác, tính đa cộng tuyến có thể hiện diện mặc dù sự tương quan giữa hai biến giải thích thể hiện không cao. Điều này là do ba hay nhiều hơn các biến có thể gần tuyến tính. Trong trường hợp như vậy, bằng chứng thật sự của tính đa cộng tuyến là sự quan sát cho thấy rằng các hệ số hồi qui bị thay đổi đáng kể khi các biến được thêm vào hoặc bỏ ra. Dưới đây là một số cách thông dụng để phát hiện đa cộng tuyến: 4.6.1. Xét hệ số tương quan và tương quan riêng: Xây dựng ma trận hệ số tương quan cặp và quan sát để nhận diện độ mạnh của các tương quan từng cặp biến số độc lập Giả sử Yi = β1 + β2X2i + β3X3i + β4X4i +ui Nếu như tương quan R(X2,X3); R(X2,X4); R(X3,X4) đủ lớn thì có đa cộng tuyến. Hoặc nếu như tương quan R(Y,X2) lớn mà sau khi kiểm định tác động của X2 đến y không bác bỏ được giả thiết H0 thì có thể nói là có đa cộng tuyến. 54
4.6.2. Phát hiện qua hồi qui phụ: Hồi qui một biến giải thích nào đó mà phụ thuộc tuyến tính vào một biến giải thích khác (có hệ số chặn) gọi là hồi qui phụ. Nếu hồi qui Xj = α1+ Σ αiXi (i ≠ j) kiểm định F: F = [R2/(k-1)] /[(1-R2)/(n-k)]. k số biến độc lập trong hồi qui phụ Nếu F > F* thì chúng ta có thể kết luận rằng R2 khác không có ý nghĩa thống kê và điều này có nghĩa là có đa cộng tuyến. 4.6.3. Thừa số tăng phương sai (Variance inflation factor-VIF) Với mỗi Xj, làm hồi qui phụ: Xj = α1+ Σ αiXi (i ≠ j) 2 Tính: VIF = 1/(1-Rj ) 2 Ta thấy rằng khi Rj tăng làm VIF tăng và làm tăng mức độ đa cộng tuyến Người ta quan niệm rằng khi Khi VIF ≥ 10 thì có đa cộng tuyến. 4.6.4. Độ đo Theil: Ý tưởng của phương pháp này là khi không có đa cộng tuyến thì đóng góp của các cá thể là đóng góp chung còn khi có đa cộng tuyến thì đóng góp của cá thể nhỏ hơn nhiều đóng góp chung. Thực hiện như sau: Ước lượng k-1 hồi qui, bỏ Xj ra khỏi mô hình. Khi đó hàm hồi qui là: Yi = β1+ Σ βiXi + εi (i ≠ j); 2 Sau khi hồi qui người ta tìm được R (-j), đó là độ phù hợp của hàm hồi qui (không có 2 2 Xj), sau đó tính R - R (-j) là phần đóng góp của Xj cho Y 2 2 2 Tính m = R – Σ(R - R (-j)) Người ta quan niệm m/R2 > 0.5 thì có đa cộng tuyến. 4.7. Các giải pháp khắc phục 4.7.1. Bỏ qua đa cộng tuyến: Nếu chúng ta ít quan tâm đến việc đánh giá tác động của các biến độc lập đến biến phụ thuộc mà chú trọng chủ yếu vào việc dự báo, thì tính đa cộng tuyến có thể không phải là một vấn đề nghiêm trọng. Khi đó ta có thể bỏ qua nó mà không phải chịu một hậu quả xấu nào đáng kể. Hay có thể nói nếu chỉ phục vụ dự báo thì có thể bỏ qua đa cộng tuyến. 55
4.7.2. Loại bỏ biến: Tính đa cộng tuyến là do những mối quan hệ chặt chẽ giữa các biến giải thích, cách chắc chắn nhất để loại bỏ hoặc giảm bớt các tác động của tính đa cộng tuyến là bỏ một hoặc nhiều biến ra khỏi mô hình. Việc loại bỏ các biến có trị thống kê t thấp nói chung sẽ làm cải thiện mức ý nghĩa của các biến còn lại. Điều quan trọng xảy ra trong tình huống này là các biến còn lại có khả năng nắm giữ những tác động của các biến bị loại bỏ có liên quan chặt chẽ với chúng. 4.7.3. Tái thiết lập mô hình: Trong nhiều tình huống, tái xác định mô hình có thể làm giảm tính đa cộng tuyến. 4.7.4. Bổ sung dữ liệu hoặc tìm dữ liệu mới: Vì đa cộng tuyến đặc trưng cho mẫu, nên có thể lấy mẫu khác liên quan đến cùng các biến trong mẫu ban đầu mà đa cộng tuyến có thể không còn nghiêm trọng nữa. Do đó việc bổ sung dữ liệu hoặc tìm dữ liệu mới đôi khi được đề xuất dựa trên cơ sở cho rằng việc gia tăng kích thước mẫu sẽ làm cải thiện độ chính xác của một ước lượng và do đó giảm thiểu được những yếu tố phản tác dụng của tính đa cộng tuyến. 4.7.5. Sử dụng thông tin tiền nghiệm: Ví dụ chúng ta có thể biết tác động biên của của cải lên tiêu dùng chỉ bằng 1/10 so với tác động biên của thu nhập lên tiêu dùng. β3 = 0.10 β2 Chạy mô hình với điều kiện tiền nghiệm. Y = β1 + β2X2 + 0.10 β2X3 + u Y= β1 + β2X trong đó X = X2 + 0.1X3 Khi ước lượng được β2 thì suy ra β3 từ mối quan hệ tiền nghiệm trên. BÀI TẬP THỰC HÀNH Sau khi ước lượng hàm tiêu dùng, với X2 là thu nhập và X3 là của cải. Chúng ta thu được kết quả như sau: ˆ Y = 1.60 − 0.10X 2 + 0.18X 3 p − value 0.25 0.86 0.24 R 2 = 0.99 PF = 0.03 Từ kết quả, cho thấy rằng: − R2 rất cao giải thích 99% biến đổi của hàm tiêu dùng − Không có biến độc lập nào có ý nghĩa (thống kê t quá thấp). 56
− Có một biến sai dấu. − Giá trị thống kê F rất cao dẫn đến bác bỏ giả thuyết “không” và cho rằng mô hình ước lượng có ý nghĩa. Chúng ta có thể thấy được rằng, điều này do nguyên nhân biến thu nhập và của cải tương quan rất mạnh với nhau do đó không thể nào ước lượng được tác động biên chính xác cho thu nhập hoặc của cải lên tiêu dùng. Xét tương quan giữa X2 và X3 ta có: R(X2,X3) = 0,99, đây thực sự là một tương quan mạnh, hay có thể nói chúng ta hầu như chúng ta có đa cộng tuyến hoàn hảo giữa X2 và X3 Hồi qui tiêu dùng theo thu nhập: ˆ Y = 1.57 + 0.82X 2 p − value 0.03 0.001 R 2 = 0.99 PF = 0.001 Ta thấy biến thu nhập trở nên có ý nghĩa thống kê, nhưng trước lúc đó trong mô hình đầu thì không có ý nghĩa. Hay tương tự hồi qui thu nhập Y theo của cải: ˆ Y = 1.57 + 0.34X 2 p − value 0.03 0.012 R 2 = 0.99 PF = 0.012 Biến của cải trở nên có ý nghĩa thống kê, nhưng trước lúc đó trong mô hình đầu thì không có ý nghĩa. Qua kết quả đó, chúng ta có thể kết luận rằng có hiện tượng đa cộng tuyến trong mô hình, hay có quan hệ tuyến tính chặt giữa hai biến thu nhập và của cải. Khi đó chúng ta sẽ phải sử dụng biện pháp nào đó để khắc phục tình trạng trên. 57
CHƯƠNG V HỒI QUI VỚI BIẾN GIẢ 5.1. Bản chất của biến giả Tất cả các biến chúng ta đã giới thiệu ở những chương trước đều là biến định lượng; nghĩa là các biến này có các đặc tính có thể đo lường bằng số. Tuy nhiên, hành vi của các biến kinh tế cũng có thể phụ thuộc vào các nhân tố định tính như giới tính, trình độ học vấn, mùa, v.v ví dụ chúng ta xem xét mô hình hồi qui tuyến tính đơn sau: Y = β1 + β2X + u Gọi Y là mức tiêu thụ năng lượng trong một ngày và X là nhiệt độ trung bình. Khi nhiệt độ tăng trong mùa hè, chúng ta sẽ kỳ vọng mức tiêu thụ năng lượng sẽ tăng. Vì vậy, hệ số độ dốc β có khả năng là số dương. Tuy nhiên, trong mùa đông, khi nhiệt độ tăng ví dụ từ 20 đến 40 độ, năng lượng được dùng để sưởi ấm sẽ ít hơn, và mức tiêu thụ sẽ có vẻ giảm khi nhiệt độ tăng. Điều này cho thấy β có thể âm trong mùa đông. Vì vậy, bản chất của quan hệ giữa mức tiêu thụ năng lượng và nhiệt độ có thể được kỳ vọng là phụ thuộc vào biến định tính “mùa”. Vậy chúng ta phải làm gì để có thể mô tả được tác động của những biến định tính, hay làm thế nào để có thể đưa các biến định tính vào mô hình. Công cụ xử lý đó chính là biến giả (dummy). Chúng ta sẽ giải thích trong nhiều trường hợp khác nhau từ đơn giản đến phức tạp. Biến giả thể hiện các biến định tính. – Mô hình chỉ có biến giải thích là biến giả – Mô hình có biến giải thích định lượng và biến giả Biến giả thường được ký hiệu là D, và chỉ nhận 1 trong 2 giá trị là 0 và 1. Ví dụ: Chúng ta bắt đầu với việc xem xét trường hợp đơn giản nhất trong đó một biến định tính chỉ có hai lựa chọn. Ví dụ, giữa hai ngôi nhà có cùng các đặc trưng, một có thể có hồ bơi trong khi ngôi nhà còn lại không có. Tương tự, giữa hai nhân viên của một công ty có cùng tuổi, học vấn, kinh nghiệm v.v , một người là nam và người kia là nữ. Vậy làm thế nào để đo lường tác động của giới tính đến lương và tác động của sự hiện diện của hồ bơi đến giá nhà. Cụ thể chúng ta sẽ xem xét ví dụ về lương và đặt Yi là tiền lương hàng tháng của nhân viên thứ i trong một công ty. Để đơn giản, ở đây chúng ta bỏ qua các biến khác có ảnh hưởng đến lương và chỉ tập trung vào giới tính. Vì biến giới tính không phải là một biến định lượng nên chúng ta định nghĩa một biến giả (gọi là D), biến giả này là chỉ nhận giá trị 1 trong 2 giá trị, bằng 1 đối với nhân viên nam và bằng 0 đối với nhân viên nữ. Chúng ta sẽ thiết lập và ước lượng một mô hình sử dụng biến giả như một biến giải thích. Dạng đơn giản nhất của mô hình như sau: Y = β1 + β2D + u 58
Chúng ta giả sử là số hạng sai số ngẫu nhiên thỏa mãn tất cả các giả thiết của phương pháp bình phương nhỏ nhất. Chúng ta có thể lấy kỳ vọng có điều kiện của Y với D cho trước và được các phương trình sau: Nam: E(Y|D = 1) = β1 + β2 Nữ: E(Y|D = 0) = β1 Trong đó: • Hệ số chặn β1 của hồi qui tuyến tính là tiền lương trung bình của nhân viên nữ, trong khi độ dốc β2 của đường hồi qui đo sự khác nhau về tiền lương giữa nhân viên nam và nữ. • Kiểm định giả thiết H0: β2 =0 cung cấp kiểm định về giả thiết là không có sự khác nhau tiền lương giữa nhân viên nam và nhân viên nữ. • Thủ tục biến giả có thể dễ dàng mở rộng cho trường hợp có nhiều hơn 2 lựa chọn (phạm trù) 5.2. Hồi qui với biến giả Phần này ta xét mô hình hồi qui chỉ có một biến lượng và một biến chất, với số phạm trù nhiều hơn hoặc bằng 2. Trường hợp có nhiều biến lượng và một biến chất thì thủ tục được làm tương tự. 5.2.1. Trường hợp khi biến chất chỉ có 2 lựa chọn (2 phạm trù): Giả sử rằng chúng ta phải ước lượng mối quan hệ giữa tiền lương của một người lao động và số năm công tác của họ yi = β1 + β2xi +ui Trong đó: yi = tiền lương hàng năm của một người lao động i. xi = số năm công tác của một người lao động i. Ở đây chúng ta hoàn toàn chưa nói là người lao động là nam hay nữ. Bây giờ giả sử rằng chúng ta muốn tìm hiểu xem xem liệu có phải người lao động nữ bị phân biệt đối xử về việc trả lương của họ không? Ta bắt đầu bằng việc ước lượng chung cho cả người lao động nam và nữ bằng cách xác định một biến mới ghi nhận sự có mặt hay vắng mặt của thuộc tính "nữ “ Di = 0 nếu quan sát i thuộc về một người lao động nữ Di = 1 nếu quan sát i thuộc về một người lao động nam Khi đó mô hình hồi qui có dạng như sau: 59
yi = β1 + β2Di + β3xi +ui Giá trị kỳ vọng có điều kiện như sau: E(y|Di =0)= β1 + β3xi nữ E(y|Di =1)= (β1 + β2) + β3xi nam Y Tiền lương của lao động nam Tiền lương của lao động nữ β 2 X Hệ số β2 là chênh lệch tung độ gốc. Dễ dàng kiểm định xem liệu chênh lệch này có ý nghĩa thống kê hay không: đơn giản là tính giá trị thống kê t cho β2 rồi so với giá trị tới hạn tra bảng t* như chúng ta đã làm khi kiểm định ý nghĩa thống kê của các hệ số hồi qui. 5.2.2. Trường hợp với một biến lượng và hai biến chất: Giả sử rằng chúng ta phải ước lượng mối quan hệ giữa tiền lương của các đối tượng và số năm công tác của họ, bây giờ chúng ta giả thiết thêm rằng, ngoài giới tính thì vùng mà lao động làm việc cũng ảnh hưởng tới thu nhập. Như vậy ta sẽ có hai biến chất: – Vùng có 3 phạm trù – Giới tính có 2 phạm trù Mô hình sẽ có dạng: yi = β1 + β2D1i + β3D2i + β4D3i + β5xi +ui Trong đó: yi = thu nhập hàng năm của người lao động i. xi = số năm công tác của người lao động i. D1 = 1 nếu lao động của các doanh nghiệp miền Bắc 60
D1 = 0 nếu lao động không thuộc các doanh nghiệp miền Bắc D2 = 1 nếu lao động của các doanh nghiệp miền Nam D2 = 0 nếu lao động không thuộc các doanh nghiệp miền Nam D3 = 1 nếu lao động là nam D3 = 0 nếu lao động là nữ Phạm trù cơ cở bây giờ là người lao động thuộc các doanh nghiệp miền Trung. Giả sử E(ui)=0, khi đó thu nhập trung bình của một lao động nữ ở 1 doanh nghiệp miền Trung là: E(y|D1 =0, D2 =0, D3 =0, xi)= β1 + β5xi 5.3. Mô tả tác động của các biến chất (biến định tính): 5.3.1. Tác động chỉ làm thay đổi tung độ gốc (hệ số chặn): Trường hợp chúng ta chỉ xem xét tác động của biến định tính trong việc thay đổi tung độ gốc, ta sẽ thiết lập dạng hàm tổng quát như sau: Yi = β1 + β2Xi + β3Di + ui Lấy kỳ vọng tương ứng với D = 0 và D = 1 sẽ cho ta thấy sự thay đổi về tung độ gốc do tác động của biến định tính. E(Y D = 0) = β + β X 1 2 i E(Y D = 1) = (β1 + β 3 ) + β 2 X i Hình 4.1: Ví dụ về việc dịch chuyển tung độ gốc Y ˆ ˆ ˆ ˆ Yi = (β1 + β3 ) + β 2 X i Yˆ = βˆ + βˆ X i 1 2 i βˆ 3 X 61
5.3.2. Tác động chỉ làm thay đổi số hạng độ dốc (hệ số góc): Khi đó dạng hàm sẽ được thiết lập có dạng như sau: Yi = β1 + β2Xi + β3DiXi + ui Có nghĩa là để ước lượng mô hình này, chúng ta nhân biến giả với X và tạo một biến mới, DX. Rồi chúng ta hồi qui Y theo một số hạng không đổi, X, và DX. Lấy kỳ vọng tương ứng với D = 0 và D = 1 sẽ cho ta thấy sự thay đổi về số hạng độ dốc do tác động của biến định tính. E(Y D = 0) = β + β X 1 2 i E(Y D = 1) = β1 + (β 2 + β3 )X i Hình 4.2: Ví dụ về việc dịch chuyển số hạng độ dốc Y ˆ ˆ ˆ ˆ Yi = β1 + (β 2 + β 3 )X i ˆ ˆ ˆ Yi = β1 + β 2 X i ˆ β1 X 5.3.3. Tác động làm dịch chuyển cả tung độ gốc và số hạng độ dốc: Để mô tả tác động của biến định tính đối với việc làm dịch chuyển cả tung độ gốc và số hạng độ dốc (hay có thể gọi là trường hợp tổng quát), chúng ta thiết lập mô hình như sau: Yi = β1 + β2Xi + β3Di + β4DiXi + ui Lấy kỳ vọng tương ứng với D = 0 và D = 1 sẽ cho ta thấy sự thay đổi về tung độ gốc và số hạng độ dốc do tác động của biến định tính. E(Y D = 0) = β + β X 1 2 i E(Y D = 1) = (β1 + β 3 ) + (β 2 + β 4 )X i 62
Hình 4.3: Ví dụ về việc dịch chuyển cả tung độ gốc và số hạng độ dốc Y ˆ ˆ ˆ ˆ ˆ Yi = (β1 + β 3 ) + (β 2 + β 4 )X i ˆ ˆ ˆ Yi = β1 + β 2 X i X 5.4. Ước Lượng Những Tác động Mùa Một ví dụ về việc sử dụng biến giả trong ước lượng tác động mùa của các biến độc lập. Xem xét quan hệ E = β1 + β 2T + u , đã được giới thiệu trước đây, giữa việc tiêu thụ điện năng và nhiệt độ. Trong mùa hè, khi nhiệt độ tăng, nhu cầu máy lạnh sẽ đẩy việc tiêu thụ điện năng lên. Do vậy chúng ta kỳ vọng β có dấu dương, E và T có tương quan dương. Tuy nhiên, vào mùa đông, khi nhiệt độ tăng (từ 20 độ lên 40 độ), nhu cầu cho việc sưởi ấm nhà trở nên thấp hơn và từ đó chúng ta mong đợi β có dấu âm về mùa đông, hay E và T có tương quan âm. Bằng cách nào chúng ta có thể ghi nhận được tác động lên E của biến định tính “mùa” có bốn loại: xuân, hạ, thu, đông? Việc này thực hiện được bằng cách xác định ba biến giả; được gọi là: biến giả theo mùa. Mùa xuân được sử dụng làm mùa điều khiển: D2 = 1 nếu là mùa hè D2 = 0 nếu là mùa khác D3 = 1 nếu là mùa thu D3 = 0 nếu là mùa khác D4 = 1 nếu là mùa đông D4 = 0 nếu là mùa khác Vậy ta có thể biểu diễn dạng hàm tổng quát khi đưa vào mô hình biến định tính mùa như sau: E = α1 + α 2 D2 + α 3 D3 + α 4 D4 + β1T + β 2 D2T + β 3 D3T + β 4 D4T + u Những mô hình ước lượng cho từng mùa khi đó được biểu diễn như sau: ˆ ˆ Mùa xuân: E = αˆ1 + β1T 63