Giáo trình môn Kinh tế lương

pdf

54 trang vanle 2570

Download

Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình môn Kinh tế lương", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

giao_trinh_mon_kinh_te_luong.pdf

Nội dung text: Giáo trình môn Kinh tế lương

TRƯỜNG ĐẠI HỌC VINH TRUNG TÂM ĐÀO TẠO TỪ XA VÀ QUAN HỆ DOANH NGHIỆP o0o ThS.NGUYỄN HOÀI NAM Giáo trình Kinh t ế lương trêng ®¹i häc vinh Vinh - 2011 TRUNG TÂM ĐÀO TẠO TỪ XA VÀ QUAN HỆ DOANH NGHIỆ
Trng i hc Vinh TRUNG TÂM ĐÀO TẠO TỪ XA VÀ QUAN HỆ DOANH NGHIỆP Chủ biên: ThS. Nguyễn Hoài Nam GIÁO TRÌNH Kinh tế lương (Giáo trình đào tạo từ xa) Vinh - 2011 2
LỜI NÓI ĐẦU Kinh tế lượng là môn khoa học định lượng, ngày càng được áp dung rộng rãi và phổ biến trong nghiên cứu kinh tế xã hội, quản trị kinh doanh và đã được đưa vào giảng dạy trong chương trình đào tạo đại học và sau đại học khối ngành kinh tế trong các trường Đại học. Việc tìm hiểu, ứng dụng, nghiên cứu môn học này trở thành tất yếu trong phân tích kinh tế. Nhằm đáp ứng yếu cầu tìm hiểu, áp dụng kinh tế lượng trong các lĩnh vực kinh tế và quản trị kinh doanh, cuốn sách Kinh tế lượng được viết nhằm trả lời những vấn đề cụ thể về cả lý thuyết và thực hành, dành cho đối tượng đang theo học khóa học từ xa cũng như tự nghiên cứu về khối ngành kinh tế. Chúng tôi đã cố gắng biên soạn theo tinh thần đơn giản dễ hiểu để đông đảo độc giả và học viên có thể dễ dàng sử dụng, đặc biệt cho các học viên Đại học từ xa có thể tự học, tự nghiên cứu. Bởi vậy, phần lý thuyết không quá đi sâu vào các chứng minh phức tạp mà chú ý tới các khái niệm, các phương pháp thực hành. Cuối mỗi chương có câu hỏi ôn tập. Sách này kèm với đĩa CD-ROM (sách điện tử) để anh chị học viên tiện học tập và tra cứu. Trong quá trình biên soạn, chắc chắn không tránh khỏi những khiếm khuyết.Chúng tôi chân thành cảm ơn các độc giả đóng góp ý kiến để cuốn sách ngày càng hoàn thiện hơn. TÁC GIẢ 3
CHƯƠNG 1. MỞ ĐẦU Chương này nhằm giúp bạn đọc khái quát về Kinh tế lượng, phương pháp luận và một số đặc điểm khi vận dụng Kinh tế lượng trong thực tiễn. Chương học bao gồm các nội dung sau: O Kinh tế lượng là gì O Phương pháp luận kinh tế lượng O Nội dung của kinh tế lượng 1.1. Kinh tế lượng là gì? Cho đến nay chưa có một định nghĩa nào về kinh tế lượng được mọi người thống nhất. Kinh tế lượng có nghĩa là đo lường kinh tế. Mặc dù đo lường kinh tế là một nội dung quan trọng của kinh tế lượng nhưng phạm vi của kinh tế lượng rộng hơn nhiều. Điều đó được thể hiện thông qua một số định nghĩa sau đây: Kinh tế lượng có thể được định nghĩa như một môn khoa học xã hội trong đó người ta dùng các công cụ của lý thuyết kinh tế, toán kinh tế và thống kê kinh tế để phân tích các hiện tượng kinh tế. Kinh tế lượng bao gồm việc áp dụng thống kê toán cho các số liệu kinh tế để củng cố về mặt thực nghiệm cho các mô hình do các nhà kinh tế toán đề xuất và tìm ra lời giải bằng số. Kinh tế lượng là một môn khoa học phân tích định lượng một cách tổng hợp. Nó khắc phục được nhược điểm của các môn khoa học như lý thuyết kinh tế, thống kê, toán kinh tế. 1.2. Phương pháp luận kinh tế lượng Phân tích kinh tế lượng được thực hiện theo các bước sau đây: - Nêu ra các giả thiết về các mối quan hệ giữa các biến kinh tế. Chẳng hạn kinh tế vĩ mô khẳng định rằng mức tiêu dùng của các hộ gia đình phụ thuộc theo quan hệ cùng chiều với thu nhập khả dụng của họ. - Thiết lập các mô hình toán học để mô tả mối quan hệ giữa các biến số này. Chẳng hạn: Y 1  2 X u Trong đó: Y: chi tiêu cho tiêu dùng của một hộ gia đình X: thu nhập khả dụng của hộ gia dùng 1 : hệ số chặn; 2 : hệ số góc; u: yếu tố ngẫu nhiên. 4
Sự tồn tại của yếu tố ngẫu nhiên bắt nguồn từ mối quan hệ giữa các biến kinh tế nói chung là không chính xác. - Thu thập số liệu: Để ước lượng các tham số của mô hình, cần phải thu thập số liệu. Kinh tế lượng đòi hỏi kích thước mẫu khá lớn. - Ước lượng các tham số của mô hình nhằm nhận được số đo về mức ảnh hưởng của các biến với các số liệu hiện có. Các ước lượng này là các kiểm định thực nghiệm cho lý thuyết kinh tế. - Phân tích kết quả dựa trên lý thuyết kinh tế để phân tích và đánh giá kết quả nhận được. Xét xem các kết quả nhận được có phù hợp với lý thuyết kinh tế không, kiểm định các giả thiết thống kê về các ước lượng nhận được. Trong mô hình Y 1  2 X u , nếu ước lượng của 2 là số dương và nhỏ hơn 1 thì ước lượng này là hợp lý về mặt kinh tế. Trong trường hợp ngược lại ( 1) thì không phù hợp về mặt kinh tế. Khi đó cần phải tìm ra một mô hình đúng. - Dự báo: Nếu như mô hình phù hợp với lý thuyết kinh tế thì có thể sử dụng mô hình để dự báo. Dự báo giá trị trung bình hoặc giá trị cá biệt. - Sử dụng mô hình để đề ra chính sách. Nêu ra giả thiết Thiết lập mô hình toán học Thu thập số liệu Ước lượng tham số Phân tích kết quả Dự báo Ra quyết định 5
Các bước trên đây có nhiệm vụ khác nhau trong quá trình phân tích một vấn đề kinh tế và chúng được thực hiện theo một trình tự nhất định. Tìm ra bản chất một vấn đề kinh tế là một việc không đơn giản. Vì vậy, quá trình trên đây phải được thực hiện nhiều lần như là các phép lặp cho đến khi chúng ta thu được một mô hình đúng. 1.3. Nội dung của kinh tế lượng. Nội dung của môn học gồm 7 chương: Chương 1. Mở Đầu Chương 2. Mô hình hồi quy đơn Chương 3. Mô hình hồi quy bội Chương 4. Hồi quy với biến giả Chương 5. Đa cộng tuyến và tự tương quan Chương 6. Phương sai và sai số thay đổi Chương 7. Chọn mô hình và kiểm định việc chọn mô hình Câu hỏi chương 1 1. Trình bày các bước phân tích Kinh tế lượng? 2. Mục tiêu của nghiên cứu Kinh tế lượng là gì? 3. Đối tượng nghiên cứu của Kinh tế lượng là gì? Kinh tế lượng thường sử dụng những công cụ nào trong nghiên cứu? 4. Những môn học nào cần biết để nghiên cứu Kinh tế lượng? 5. Cho mô hình Y 1  2 X u Dựa vào các kiến thức về kinh tế/ xã hội mà anh chị đã biết. Các anh chị có kỳ vọng gì về dấu của hệ số góc trong mô hình hồi quy trên, ứng với các tình huống cụ thể sau: a) Chi tiêu cho tiêu dùng (Y) và thu nhập (X) của một người. b) Mức cầu của một loại hàng hóa (Y) và giá bán (X). c) Doanh số bán hàng của một loại hàng (Y) và giá bán (X). d) Tỷ lệ (lượng tiền mặt lưu giữ/thu nhập) của cá nhân (Y) và mức lạm phát (X). e) Mức cầu của một sản phẩm (Y) và chi phí quảng cáo (X). f) giá bán của một căn nhà (Y) và diện tích của một căn nhà (X). 6
CHƯƠNG 2. MÔ HÌNH HỒI QUY ĐƠN Chương này trình bày các vấn đề cơ bản trong Kinh tế lượng, vận dụng trong trường hợp đơn giản nhất, đó là mô hình hồi quy tuyến tính hai biến, bao gồm việc ước lượng các tham số hồi quy trong mô hình Kinh tế lượng, đánh giá ý nghĩa thống kê của các tham số ước lượng, cũng như đánh giá sự phù hợp của mô hình hồi quy. Mặc dù trong thực tế quan hệ giữa các biến số kinh tế thường phức tạp, gồm nhiều yếu tố tác động, nên mô hình hai biến thường ít có ý nghĩa, nhưng nó đặc biệt có ích về mặt lý thuyết. Hiểu được các vấn đề cơ bản trong mô hình hồi quy hai biến đơn giản giúp ta vân dụng được những tình huống phức tạp hơn. Nội dung cơ bản của chương bao gồm: O Một vài khái niệm cơ bản - Phân tích hồi quy - Quan hệ thống kê và quan hệ hàm số - Hàm hồi quy và quan hệ nhân quả - Hồi quy và tương quan - Bản chất và nguồn số liệu cho phân tích hồi quy O Mô hình hồi quy tổng thế - Sai số ngẫu nhiên và bản chất của nó - Hàm hồi quy mẫu O Ước lượng và kiểm định giả thiết trong mô hình hồi quy hai biến - Phương pháp bình phương nhỏ nhất - Các giả thiết cơ bản của phương pháp bình phương nhỏ nhất - Độ chính xác của các ước lượng bình phương nhỏ nhất - Hệ số r2 đo độ phù hợp của hàm hồi quy mẫu - Khoảng tin cậy và kiểm định giả thiết về các hệ số hồi quy - Phân tích hồi quy và dự báo 7
2.1. MỘT VÀI KHÁI NIỆM CƠ BẢN 2.1.1. Phân tích hồi qui Phân tích hồi qui nghiên cứu mối liên hệ phụ thuộc của một biến (gọi là biến phụ thuộc hay biến được giải thích) với một hay nhiều biến khác (được gọi là các biến độc lập hay biến giải thích) nhằm ước lượng và dự báo giá trị trung bình của biến phụ thuộc với các giá trị đã biết của các biến độc lập. Ta xem xét thí dụ: Thí dụ 1.1 a. Luật Galton Pearson nghiên cứu sự phụ thuộc chiều cao của các cháu trai vào chiều cao của bố những đứa trẻ này. Ông đã xây dựng được đồ thị chỉ ra phân bố chiều cao của các cháu trai ứng với chiều cao của người cha. Qua mô hình này có thể thấy: Thứ nhất, với chiều cao đã biết của người cha thì chiều cao của các cháu trai sẽ là một khoảng dao động quanh giá trị trung bình. Thứ hai, chiều cao của cha tăng thì chiều cao của các cháu trai cũng tăng. Mô hình này giải thích được điều mà Galton đặt ra và còn được dùng trong dự báo. Chiều cao của con trai (Hình 1.1) Chiều cao của bố Tiếp tục nghiên cứu vấn đề trên, Karl Pearson đã phát hiện ra rằng: chiều cao trung bình của các cháu trai của nhóm bố cao nhỏ hơn chiều cao của bố và chiều cao trung bình của các cháu trai của nhóm bố thấp lớn hơn chiều cao của bố. Điều này được thể hiện: hệ số góc của đường thẳng trên hình nhỏ hơn 1. Trong thí dụ này, chiều cao của các cháu trai là biến phụ thuộc, chiều cao của người bố là biến độc lập. b. Một nhà nghiên cứu sự phụ thuộc của nhu cầu về một loại hàng hoá phụ thuộc vào giá bản thân hàng hoá, thu nhập của người tiêu dùng và giá của những hàng hoá khác cạnh tranh với hàng hoá này. 8
Trong trường hợp này, nhu cầu là biến phụ thuộc, giá của bản thân hàng hoá, của các hàng hoá cạnh tranh và thu nhập của người tiêu dùng là các biến độc lập. c. Một nhà kinh tế lao động đã nghiên cứu tỷ lệ thay đổi của tiền lương trong quan hệ với tỷ lệ thất nghiệp đã đưa ra đồ thị ở hình 1.2. Đường cong trên hình 1.2 được gọi là đường cong Philip, trong đó: tỷ lệ thay đổi của tiền lương là biến phụ thuộc, tỷ lệ thất nghiệp - biến độc lập. Mô hình cho phép dự đoán được sự thay đổi trung bình của tỷ lệ tiền lương với một tỷ lệ thất nghiệp nhất định. d. Trong điều kiện các yếu tố khác không đổi, tỷ lệ lạm phát càng cao thì tỷ lệ thu nhập của nhân dân được giữ dưới dạng tiền mặt càng ít. Có thể minh hoạ điều đó bằng đồ thị ở hình 1.3 Tỷ lệ tiền Tỷ lệ tiền mặt lương Tỷ lệ thất nghiệp Tỷ lệ lạm phát Hình 1.2: Mối quan hệ tiền lương và thất nghiệp Hình 1.3: Mối quan hệ giữa tiền mặt và lạm phát Ta có thể đưa ra được rất nhiều ví dụ về sự phụ thuộc của một biến vào một hoặc nhiều biến khác. Kỹ thuật phân tích hồi quy giúp ta nghiên cứu mối quan hệ như vậy giữa các biến. Các ký hiệu: Y- biến phụ thuộc Xi - biến độc lập Trong đó, biến phụ thuộc Y là đại lượng ngẫu nhiên, có quy luật phân bố xác suất, các biến độc lập Xi không phải là biến ngẫu nhiên, giá trị của chúng đã được cho trước. Phân tích hồi qui giải quyết các vấn đề sau: 1. Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập. 2. Kiểm định giả thiết về bản chất của sự phụ thuộc. 9
3. Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của các biến độc lập. 4. Kết hợp các vấn đề trên. Trong phân tích hồi quy chúng ta phân biệt các quan hệ sau đây: 2.1.2. Quan hệ thống kê và quan hệ hàm số Vấn đề mấu chốt trong phân tích hồi quy là sự phụ thuộc thống kê của biến phụ thuộc vào một hay nhiều biến giải thích. Biến phụ thuộc là đại lượng ngẫu nhiên, có phân bố xác suất. Các biến giải thích thì giá trị của chúng đã biết. Biến phụ thuộc là ngẫu nhiên vì có vô vàn nhân tố tác động đến nó mà trong mô hình ta không đề cập đến được, ứng với mỗi giá trị đã biết của biến độc lập có thể có nhiều giá trị khác nhau của biến phụ thuộc. Trong quan hệ hàm số các biến không phải là ngẫu nhiên, ứng với mỗi giá trị của biến độc lập có một giá trị của biến phụ thuộc, phân tích hồi quy không quan tâm đến các quan hệ hàm số. Thí dụ 1.2: Sự phụ thuộc của năng suất một loại lúa trên một hécta vào nhiệt độ, lượng mưa, độ chiếu sáng, phân bón là quan hệ thống kê. Các biến: nhiệt độ, lượng mưa, độ chiếu sáng, phân bón là các biến độc lập. Năng suất tính trên 1 hécta là biến phụ thuộc, là đại lượng ngẫu nhiên không thể dự báo một cách chính xác năng suất của giống lúa này trên một héc ta vì: - Có sai số trong phép đo các biến này. - Còn rất nhiều nhân tố khác cũng ảnh hưởng đến năng suất mà ta không liệt kê ra và nếu có cũng không thể tách được ảnh hưởng của riêng từng nhân tố đến năng suất dù rằng chúng ta có đưa thêm bao nhiêu biến giải thích khác. Trong vật lý khi xét một động tử chuyển động đều, người ta có công thức: S = v.t Trong đó: S là độ dài quãng đường đi được; v là vận tốc trong một đơn vị thời gian; t là thời gian. Đây là quan hệ hàm số, ứng với mỗi giá trị của vận tốc và thời gian ta chỉ có một giá trị duy nhất của độ dài quãng đường, phân tích hồi quy không xét các quan hệ này. 2.1.3. Hàm hồi quy và quan hệ nhân quả Phân tích hồi quy nghiên cứu quan hệ giữa một biến phụ thuộc với một hoặc nhiều biến độc lập khác. Điều này không đòi hỏi giữa biến độc lập và các biến phụ thuộc có mối quan hệ nhân quả. Nếu như quan hệ nhân quả tồn tại thì nó phải xác lập dựa trên các lý thuyết kinh tế khác. Thí dụ, luật cầu nói rằng trong điều kiện các biến khác không đổi thì nhu cầu về một loại hàng hoá tỷ lệ nghịch với giá của chính hàng hoá này hay trong thí dụ 1.2 chúng ta có thể dự đoán sản lượng dựa vào lượng 10
mưa và các biến khác, nhưng không thể chấp nhận được việc dự báo lượng mưa bằng việc thay đổi sản lượng. 2.1.4. Hồi quy và tương quan Hồi quy và tương quan khác nhau về: mục đích, kỹ thuật. Phân tích tương quan trước hết là đo mức độ kết hợp tuyến tính giữa hai biến. Ví dụ: Mức độ quan hệ giữa nghiện thuốc lá và ung thư phổi, giữa kết quả thi môn thống kê và môn toán. Nhưng phân tích hồi quy lại ước lượng hoặc dự báo một biến trên cơ sở giá trị đã cho của các biến khác. Về kỹ thuật, trong phân tích hồi quy các biến không có tính chất đối xứng. Biến phụ thuộc là đại lượng ngẫu nhiên. Các biến giải thích giá trị của chúng đã được xác định. Trong phân tích tương quan, không có sự phân biệt giữa các biến, chúng có tính chất đối xứng: r(X,Y) = r(Y,X) 2.1.5. Bản chất và nguồn số liệu cho phân tích hồi quy Thành công của bất kỳ một sự phân tích kinh tế nào đều phụ thuộc việc sử dụng các số liệu thích hợp và phụ thuộc vào phương pháp xử lý các số liệu đó. Do vậy ở đây sẽ trình bày đôi nét về bản chất, nguồn gốc và những hạn chế của số liệu mà chúng ta sẽ gặp phải trong phân tích kinh tế nói chung và phân tích hồi quy nói riêng. 2.1.5.1. Các loại số liệu Có ba loại số liệu: các số liệu theo thời gian (chuỗi thời gian), các số liệu chéo và các số liệu hỗn hợp của hai loại trên. Các số liệu theo thời gian là các số liệu được thu thập trong một thời kỳ nhất định, ví dụ như các số liệu về GNP, số người thất nghiệp, lượng cung về tiền Có số liệu được thu thập hàng năm như lượng cung về tiền, có số liệu thu thập hàng tháng, quý, năm Các số liệu này có thể đo được bằng những con số như giá cả, thu thập nhưng cũng có những số liệu không đo được bằng con số, chúng là những chỉ tiêu chất lượng như: nam hoặc nữ, có gia đình hay chưa có gia đình, có việc làm hay chưa có việc làm Người ta gọi các biến loại này là biến giả. Chúng cũng quan trọng như những biến số lượng khác. Các số liệu chéo là các số liệu về một hay nhiều biến được thu thập tại một thời điểm ở nhiều địa phương, đơn vị khác nhau: ví dụ như các số liệu về điều tra dân số vào 0 giời ngày 01/4/2009; các số liệu điều tra về vốn cơ bản của các xí nghiệp Than ngày 01/01/2011 ở Việt Nam. 11
Các số liệu hỗn hợp theo thời gian và không gian: các số liệu về giá vàng hàng ngày ở thành phố Hà Nội, Hải Phòng, Vinh. 2.1.5.2. Nguồn gốc số liệu Các số liệu có thể do cơ quan nhà nước, các tổ chức quốc tế, các công ty tư nhân hay các cá nhân thu thập. Chúng có thể là các số liệu thực nghiệm hoặc không phải thực nghiệm. Các số liệu thực nghiệm thường được thu thập trong khoa học tự nhiên, một điều tra viên muốn thu thập các số liệu ảnh hưởng của một số nhân tố đến đối tượng nghiên cứu, anh ta đã giữ nguyên các yếu tố khác. Thí dụ, một kỹ sư nông nghiệp nghiên cứu khả năng chịu bệnh của một giống lúa mới. Anh ta tiến hành thí nghiệm bằng cách trồng hai giống lúa mới và cũ trên hai khu ruộng có độ màu mỡ như nhau, thực hiện chế độ chăm sóc hai khu ruộng như nhau và theo dõi sự phát triển của sâu bệnh trên hai khu ruộng này bằng cách gây cùng một loại bệnh trên hai khu ruộng. Các số liệu thu được sẽ là các số liệu thực nghiệm. Trong khoa học xã hội, các số liệu nói chung là các số liệu không phải do thực nghiệm mà có. Các số liệu về GNP, số người thất nghiệp, giá cổ phiếu không nằm dưới sự kiểm soát của kỹ thuật viên. Điều này thường gây ra những vấn đề đặc biệt trong việc tìm ra những nguyên nhân chính xác ảnh hưởng đến một tình huống riêng biệt. Thí dụ: có phải lượng cung về tiền ảnh hưởng đến GDP hay còn có nguyên nhân khác ? 2.1.5.3. Nhược điểm của các số liệu Chất lượng của các số liệu thu được thường không tốt. Điều đó do các nguyên nhân sau đây: - Hầu hết các số liệu trong khoa học xã hội đều là các số liệu phi thực nghiệm. Do vậy, có thể có sai số quan sát hoặc bỏ sót quan sát hoặc cả hai. - Ngay với các số liệu được thu thập bằng thực nghiệm cũng có sai số của phép đo. - Trong các cuộc điều tra bằng câu hỏi, vấn đề không nhận được câu trả lời hoặc có trả lời nhưng không trả lời hết các câu hỏi. - Các mẫu được thu thập trong các cuộc điều tra rất khác nhau về kích cỡ cho nên rất khó khăn trong việc so sánh các kết quả giữa các đợt điều tra. - Các số liệu kinh tế thường có sẵn ở mức tổng hợp cao, không cho phép đi sâu vào các đơn vị nhỏ. - Ngoài ra còn có những số liệu thuộc bí mật quốc gia mà không phải ai cũng có thể sử dụng được. 12
Do vậy, kết quả nghiên cứu sẽ phụ thuộc vào chất lượng của các số liệu được sử dụng và phụ thuộc vào mô hình được lựa chọn. 2.2. MÔ HÌNH HỒI QUY TỔNG THỂ Phần trên chúng ta nói phân tích hồi quy đặc biệt quan tâm đến ước lượng hoặc dự báo giá trị trung bình của biến phụ thuộc trên cơ sở biết các giá trị của biến độc lập. Ta xét các thí dụ sau đây: Thí dụ 1.3: Y: Chi tiêu của một gia đình trong một tuần tính bằng $. X: Thu nhập sau khi đã trừ thuế của một gia đình tính bằng $. Giả sử rằng ở một địa phương chỉ có cả thảy 60 gia đình, 60 gia đình này được chia thành 10 nhóm, chênh lệch về thu nhập của các nhóm gia đình này sang nhóm gia đình tiếp theo đều bằng nhau. Ta có bảng số liệu sau đây: Bảng 2.1. Thu nhập và chi tiêu trong một tuần của tổng thể X 80 100 120 140 160 180 200 220 240 260 Y 55 65 79 80 102 110 120 135 137 150 60 70 84 93 107 115 136 137 145 152 65 74 90 95 110 120 140 140 155 175 70 80 94 103 116 130 144 152 165 178 75 85 98 108 118 135 145 157 175 180 . 88 . 113 125 140 . 160 189 185 . . . 115 . . . 162 . 191 Tổng 325 462 445 707 678 750 685 1043 966 1211 Các số liệu ở bảng trên có nghĩa là: với thu thập trong một tuần chẳng hạn X =$100 thì có 6 gia đình mà chi tiêu trong tuần nằm giữa 65 và 88. Hay nói khác đi ở mỗi cột của bảng cho ta phân bố của số chi tiêu trong tuần Y với mức thu nhập đã cho X, đó chính là phân bố có điều kiện của Y với giá trị X đã cho. 13
Vì bảng 2.1 là tổng thể nên ta dễ dàng tìm P(Y/X). Chẳng hạn, P(Y=85,X=100)=1/6. Chúng ta có bảng xác suất có điều kiện sau đây; Bảng 1.2. Xác suất có điều kiện P(Y/X) X 80 100 120 140 160 180 200 220 240 260 Y 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 . 1/6 . 1/7 1/6 1/6 . 1/7 1/6 1/7 . . . 1/7 . . . 1/7 . 1/7 Tổng 65 77 89 101 113 125 137 149 161 173 n Trong đó: EYXYPYYXX(/)(/)i  j j i j 1 n Chẳng hạn EYYPYYX( /100)  j ( j / 100) j 1 65*1/ 6 70*1/ 6 74*1/ 6 80*1/ 6 85*1/ 6 88*1/ 6 77 Biểu diễn các điểm của bảng 1.1 và các trung bình E(Y/Xi): i=1,2, 10 lên hệ toạ độ, nối các điểm có toạ độ (Xi, E(Y/Xi)) ta được đồ thị sau đây: Chi tiêu 200 150 100 80 100 120 140 160 180 200 220 240 260 Thu nhập 1 tuần 14
Theo hình 1.4, ta thấy rằng trung bình có điều kiện của mức chi tiêu trong tuần nằm trên đường thẳng có hệ số góc tương đương. Khi thu nhập tăng thì mức chi tiêu cũng tăng. Một cách tổng quát, E(Y/Xi) là một hàm của Xi: E(Y/Xi) = f(Xi) (1.1) Trong đó f(Xi) là một hàm nào đó của biến giải thích Xi, với ví dụ trên f(Xi) là hàm tuyến tính. Phương trình (1.1) gọi là hàm hồi quy tổng thể (PRF). Nếu như hàm hồi quy tổng thể có một biến độc lập thì gọi là hàm hồi quy đơn, có hơn một biến độc lập thì gọi là hàm hồi quy bội. Hàm hồi quy tổng thể cho chúng ta biết giá trị trung bình của biến Y sẽ thay đổi như thế nào theo X. Hàm f(Xi) có dạng như thế nào - tuyến tính hay phi tuyến - chúng ta chưa biết được bởi lẽ trong thực tế chúng ta chưa có sẵn tổng thể để kiểm tra. Xác định đúng hàm hồi quy là vấn đề thực nghiệm (chúng ta sẽ đề cập đến vấn đề này các chương sau ). Giả sử rằng PRF E(Y/Xi) là hàm tuyến tính: EYXX(/)i 1  2 i (1.2) Trong đó 1,  2 là các tham số chưa biết nhưng cố định, và được gọi là các hệ số hồi quy. 1 là hệ số tự do (hệ số chặn). 2 là hệ số góc. Phương trình (1.2) gọi là phương trình hồi quy tuyến tính đơn. Trong phân tích hồi quy chúng ta phải ước lượng giá trị trung bình của biến Y tức là ước lượng hàm hồi quy chẳng hạn dạng (1.2). ở phương trình (1.2), giá trị của các Xi ta đã biết, do vậy việc ước lượng (1.2) trở thành việc ước lượng các tham số chưa biết 1,  2 , trên cơ sở những quan sát của Y và X. Thuật ngữ “tuyến tính” ở đây được hiểu theo hai nghĩa: tuyến tính đối với tham 2 số và tuyến tính đối với các biến. Thí dụ EYXX(/)i 1  2 i là hàm tuyến tính đối với tham số nhưng không tuyến tính (phi tuyến) đối với biến; EYXX(/)i 1  2 i là hàm tuyến tính đối với biến nhưng phi tuyến đối với tham số. Hàm hồi quy tuyến tính luôn luôn được hiểu là hồi quy tuyến tính đối với các tham số, nó có thể hoặc không phải là tuyến tính đối với biến. 15
2.2.1. Sai số ngẫu nhiên và bản chất của nó Giả sử chúng ta đã có hàm hồi quy tổng thể E(Y/Xi); vì E(Y/Xi) là giá trị trung bình của biến Y với giá trị Xi đã biết, cho nên các giá trị cá biệt Yi không phải bao giờ cũng trùng với E(Y/Xi) mà chúng xoay quanh nó. Kí hiệu Ui là chênh lệch giữa giá trị cá biệt Yi và E(Y/Xi): Ui =Yi - E(Y/Xi) Hay: Yi = E(Y/Xi) + Ui (1.3) Ui là biến ngẫu nhiên, người ta gọi Ui là yếu tố ngẫu nhiên (hoặc nhiễu) và (1.3) được gọi là PRF ngẫu nhiên. Nếu như E(Y/Xi) là tuyến tính đối với Xi thì YXUi 1  2 i i Với thí dụ (1.3) và với X=$100 ta có: YU1 65  1 100  2 1 YU2 70  1 100  2 2 YU3 74  1 100  2 3 YU4 80  1 100  2 4 YU5 85  1 100  2 5 YU6 88  1 100  2 6 Từ (1.3) ta có E(Yi/Xi) = E(E(Y/Xi)+ E(Ui/Xi)) E(Yi/Xi) = E(Y/Xi)+ E(Ui/Xi) (1.4) E(Ui/Xi) = 0 Như vậy, nếu đường hồi quy của tổng thể đi qua các trung bình có điều kiện của Y thì E(Ui/Xi) = 0, trong trường hợp này (1.2) và (1.3) là như nhau. Nhưng (1.3) chỉ ra rằng ngoài các biến giải thích đã có trong mô hình còn có các yếu tố khác ảnh hưởng đến biến phụ thuộc Y. Nhưng trung bình ảnh hưởng của các yếu tố này đến biến phụ thuộc bằng 0 và do vậy không cần đưa các yếu tố này vào mô hình. 2.2.2. Hàm hồi quy mẫu Ở phần phụ lục, chương II có trình bày sơ lược về tổng thể và mẫu, vì sao phải nghiên cứu mẫu. Vấn đề này ở đây cũng tương tự như vậy. Chúng ta không có tổng thể, hoặc có nhưng không thể nghiên cứu được toàn bộ tổng thể. Chúng ta chỉ có mẫu ngẫu nhiên được lấy từ tổng thể. Chúng ta muốn ước lượng PRF từ những 16
thông tin thu được trên mẫu ngẫu nhiên của các giá trị Y đối với các giá trị của X đã biết. Một điều chắc chắn rằng chúng ta không thể ước lượng một cách chính xác PRF dựa trên mẫu ngẫu nhiên. Hàm hồi quy được xây dựng trên cơ sở một mẫu ngẫu nhiên được gọi là hàm hồi quy mẫu (SRF) hoặc hồi quy mẫu. Bảng 2.3 và 2.4 cho 2 mẫu ngẫu nhiên từ tổng thể trong thí dụ 1.2 Bảng 2.3. Mẫu thứ nhất Y 70 65 90 95 110 1145 120 140 155 150 X 80 100 120 140 160 180 200 220 240 260 Bảng 2.4. Mẫu thứ hai Y 55 88 90 80 118 120 145 175 X 80 100 120 140 160 180 200 220 Với hai mẫu ngẫu nhiên ta xây dựng được hai hàm hồi quy mẫu ký hiệu SRF1 và SRF2. SRF2 Y 200 SRF1 150 100 50 80 100 120 140 160 180 200 220 240 260 X Vậy đường hồi quy nào sẽ được coi là thích hợp với PRF. Câu hỏi này không trả lời được bởi lẽ PRF chưa biết. Cũng giống như ước lượng một tham số, ta sẽ ước lượng PRF bằng SRF mà SRF này có tính chất: tuyến tính, không chệch, có phương sai nhỏ nhất. ˆ ˆ ˆ Giả sử rằng đường hồi quy mẫu có dạng: YXi 1  2 i ˆ Trong đó: Yi là ước lượng của E(Y/Xi) ˆ ˆ 1,  2 là ước lượng của 1 , 2 . 17
Mặt khác theo (1.3): Yi = E(Y/Xi) + Ui ˆ ˆ Do đó: Yi 1  2 X i e i Trong đó, ei được gọi là phần dư hay chính là ước lượng của Ui. Sự tồn tại của ei được giải thích như sự tồn tại của Ui. Trên mẫu, với X = Xi ta có Y = Yi ˆ Yi Y i e i Yi = E(Y/Xi) + Ui Y ˆ ˆ ˆ SRF: Yi 1  2 X i Yi ei ˆ Ui Yi PRF:(/) E Y Xi 1  2 X i E(Y/Xi) Xi X Vấn đề đặt ra là ta có thể đưa ra một phương pháp và một số điều kiện mà nhờ nó SRF là ước lượng tuyến tính, không chệch có phương sai nhỏ nhất của PRF ˆ ˆ hay nói khác đi 1 và 2 gần nhất với giá trị thực 1 và 2 có thể được dù rằng chúng ta không bao giờ biết giá trị thực của 1 và 2 . 2.3. ƯỚC LƯỢNG VÀ KIỂM ĐỊNH TRONG MÔ HÌNH HỒI QUY HAI BIẾN 2.3.1. Phương pháp bình phương nhỏ nhất và các giả thiết của nó 2.3.1.1. Nội dung phương pháp bình phương nhỏ nhất Giả sử EYXX(/)i 1  2 i là PRF Khi đó giá trị quan sát Yi: YEYXUXUi (/) i i 1  2 i i ˆ ˆ ˆ YXi 1  2 i là SRF ˆ ˆ Yi 1  2 X i e i ˆ ˆ ˆ Vấn đề là phải tìm YXi 1  2 i 18
Giả sử rằng chúng ta có n cặp quan sát của Y và X, cặp quan sát thứ i có giá ˆ trị tương ứng (Yi,Xi): i =1 n. Ta phải tìm Yi sao cho nó càng gần với giá trị thực của Yi có thể được, tức là phần dư: ˆ ˆ ˆ ei Y i Y i Y i 1  2 X 2 càng nhỏ càng tốt. Ta xem đồ thị sau: Y SRF Y 1 Yˆ i X1 X2 X3 X4 ˆ Do ei: i = 1 n có thể dương, có thể âm do vậy cần phải tìm Yi sao cho tổng bình phương của các phần dư đạt cực tiểu. Tức là: n n 2 2 2 ˆ ˆ ˆ ei  Y i Y i  Y i 1  2 X i min i 1 i 1 n 2 Do Xi, Yi: i = 1 n đã biết, nên e1 là hàm của: i 1 n n 2 ˆ ˆ2 ˆ ˆ f(1 ,  2 )  ei  Y i  1  2 X i min i 1 i n ˆ ˆ 1,  2 là nghiệm của hệ thống phương trình sau: f (,)ˆ  ˆ 1 2 2YX ˆ  ˆ 1 0 ˆ  i1 2 i 1 n n ˆ ˆ hay n1  2  Xi  Y i i 1 i 1 f (,)ˆ  ˆ n 1 2 2YXX ˆ  ˆ 0 ˆ  i1 2 i i 1 i 1 n n n ˆ ˆ 2 hay 1XXYXi  2  i  i i i 1 i 1 i 1 ˆ ˆ 1,  2 được tìm từ hệ phương trình sau: 19
n n ˆ ˆ n1  2  Xi  Y i i 1 i 1 n n n ˆ ˆ 2 1XXYXi  2  i  i i (2.1) i 1 i 1 i 1 Hệ phương trình (2.1) gọi là hệ phương trình chuẩn. Giải hệ phương trình trên ta được: n n n n Yi X i  X i  Y i ˆ i 1 i 1 i 1 2 n n 2 2 n Xi  X i i 1 i 1 ˆ ˆ 1 YX  2 Đặt xi X i X yi Y i Y n  yi x i ˆ i 1 Khi đó 2 n 2  xi i 1 ˆ ˆ 1,  2 là các ước lượng của 1 và 2 được tính bằng phương pháp bình phương nhỏ nhất - được gọi là các ước lượng bình phương nhỏ nhất. 2.3.1.2. Các tính chất của các ước lượng bình phương nhỏ nhất ˆ ˆ - 1,  2 được xác định một cách duy nhất ứng với n cặp quan sát (Xi,Yi). ˆ ˆ - 1,  2 là các ước lượng điểm của 1 , 2 và là các đại lượng ngẫu nhiên, với các mẫu khác nhau chúng có giá trị khác nhau. ˆ ˆ ˆ Yi 1  2 X i SRF có các tính chất sau đây: - SRF đi qua trung bình mẫu (,)XY , nghĩa là: ˆ ˆ YX 1  2 ˆ ˆ - Giá trị trung bình của Yi bằng giá trị trung bình của các quan sát:YY n - Giá trị trung bình của các phần dư: ei 0 i 1 n ˆ ˆ - Các phần dư ei không tương quan với Yi tức là Yi e i 0 i 1 n - Các phần dư ei không tương quan với Xi tức là ei X i 0 . i 1 20
2.3.1.3. Các giả thiết cơ bản của phương pháp bình phương nhỏ nhất Trong phân tích hồi quy, mục đích của chúng ta là ước lượng, dự báo về tổng thể, tức là ước lượng E(Y/Xi) hay trong mô hình hồi quy tuyến tính đơn là ước ˆ ˆ lượng EYXX(/)i 1  2 i . 1 và 2 tìm được bằng phương pháp bình phương nhỏ nhất là các ước lượng điểm của 1 và 2 . Chúng ta không biết được chất lượng của các ước lượng này như thế nào. Chất lượng của các ước lượng phụ thuộc vào: - Dạng hàm của mô hình được lựa chọn. - Phụ thuộc vào các Xi và Ui. - Phụ thuộc vào kích thước mẫu. Giả thiết 1: Các biến giải thích là phi ngẫu nhiên, tức là các giá trị của chúng là các số đã được xác định. Giả thiết này không có gì mới, vì phân tích hồi quy được đề cập là phân tích hồi quy có điều kiện, phụ thuộc vào các giá trị X đã cho. Giả thiết 2: Kỳ vọng của yếu tố ngẫu nhiên bằng không, tức là: E(Ui/Xi) = 0 Giả thiết này có nghĩa là các yếu tố không có trong mô hình, Ui đại diện cho chúng, không có ảnh hưởng hệ thống đến giá trị trung bình của Y. Giả thiết 3: Phương sai bằng nhau (phương sai thuần nhất) của các Ui. 2 Var Ui// X i Var U i X i  Điều này có nghĩa là phân bố có điều kiện của Y với giá trị đã cho của X có phương sai bằng nhau, các giá trị cá biệt của Y xoay quanh giá trị trung bình với 2 phương sai như nhau. Giả thiết 3 kéo theo Var(/) Yi X i  . Giả thiết 4: Không có sự tương quan giữa các Ui: Cov( Ui , U j ) 0 Giả thiết này có nghĩa là Ui là ngẫu nhiên. Về mặt hình học, có nghĩa là nếu như có một giá trị U nào đó lớn hơn (nhỏ hơn) giá trị trung bình thì không có nghĩa giá trị khác cũng lớn hơn (nhỏ hơn) giá trị trung bình. Giả thiết 5: Ui và Xi không tương quan với nhau: Cov( Ui , X i ) 0 2.3.2. Độ chính xác của phương pháp bình phương nhỏ nhất ˆ ˆ Theo phương pháp bình phương nhỏ nhất, các ước lượng 1,  2 được xác định theo công thức: ˆ ˆ 1 YX  2 21
n n ˆ 2 2 xi y i/  x i i 1 i 1 Các ước lượng này là hàm của mẫu, là đại lượng ngẫu nhiên, với các mẫu khác nhau ta có ước lượng khác nhau. Vì phương sai hay độ lệch chuẩn đặc trưng cho độ phân tán của đại lượng ngẫu nhiên, nên ta dùng chúng làm thước đo cho chất lượng của ước lượng. Với các giả thiết của phương pháp bình phương nhỏ nhất, phương sai và độ lệch chuẩn của các ước lượng được cho bởi công thức sau:  2  var(ˆ ) ; se ˆ 2 n 2 n x2 2  i  xi i 1 i 1 n n 2 2  X i  X i var ˆ i 4  2 se ˆ i 1 1 n ; 1 n 2 2 n xi n xi i 1 i 1 2 Trong đó,  Var() Ui se: sai số tiêu chuẩn xi X i X Trong các công thức trên  2 chưa biết.  2 được ước lượng bằng ước lượng n e2  i n ˆ 2 i 1 ˆ 2 không chệch của nó là  ;   ei / n 2 là sai số tiêu chuẩn của đường n 2 i 1 hồi quy. Nó chính là độ lệch tiêu chuẩn các giá trị Y quanh đường hồi quy mẫu. Các tính chất của các ước lượng bình phương nhỏ nhất được thể hiện qua định lý sau đây: Định lý Gauss – Markov: Với các giả thiết 1-5 của phương pháp bình phương nhỏ nhất, các ước lượng bình phương nhỏ nhất là các ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch. 2.3.3. Hệ số r2 đo độ phù hợp của hàm hồi quy mẫu ˆ Ta có Yi Y i e i ˆ ˆ ˆ Yi Y Y i Y e i Y i Y e i hay yi yˆ i e i n n n n n n 2ˆ 2 2 ˆ ˆ 2 2 yi  y i  e i 2  y i e i  y i  e i 0 i 1 i 1 i 1 i 1 i 1 i 1 22
n n n ˆ ˆ 2ˆ 2 2 2 Vì yi 2 x i nên: yi 2  x i  e i i 1 i 1 i 1 n n 2 2 Ký hiệu: TSS  yi  Y i Y i 1 i 1 - TSS: là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi với giá trị trung bình của chúng. n n2 n n ESS Yˆ Y ˆ Y ˆ Y yˆ 2 ˆ 2 x 2  i  i  i2  i i 1 i 1 i 1 i 1 - ESS: là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu với giá trị trung bình của chúng. Phần này đo độ chính xác của hàm hồi quy. n n 2 2 ˆ RSS  ei  Y i Y i i 1 i 1 - RSS: là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy. TSS được chia thành hai phần: một phần ESS do đường hồi quy mẫu gây ra và phần của RSS do các yếu tố ngẫu nhiên gây ra. Từ TSS = ESS + RSS ta chia cả hai vế cho TSS, ta có: n2 n Yˆ Y e2 ESS RSS  i  i 1 i 1 i 1 TSS TSS n2 n 2  YYYYi  i i 1 i 1 n2 n n n ˆ ˆ 2ˆ 2 2 2  Yi Y  y i2  x i  x i 2i 1ESS RSS i 1 i 1ˆ 2 i 1 r n 1 n n 2 n 2 TSS TSS 2 2 2  Yi Y  y i  y i  y i i 1 i 1 i 1 i 1 n 2  xi n 1 2 2ˆ 2i 1 ˆ 2 S X r 2n  2 2 2 SY  yi n 1 i 1 2 2 trong đó: SX và SY là phương sai mẫu của X và Y. 2 n n x y  yi x i  i i ˆ i 1 2 i 1 Mặt khác: 2 n r n n 2 2 2 xi  x i  y i i 1 i 1 i 1 23
n n n n XYXY  xi y i i i  i  i r i 1 i 1 i 1 i 1 n n n n2 n n 2 x2 y 2 2 2 i  i n Xi X i n Y i Y i i 1 i 1     i 1 i 1 i 1 i 1 Từ định nghĩa r2 chúng ta thấy r2 đo tỷ lệ hay số phần trăm của toàn bộ sai lệch của Y với giá trị trung bình của chúng được giải thích bằng mô hình (hay biến độc lập). r2 được sử dụng để đo độ thích hợp của hàm hồi quy. Dễ dàng thấy được 0 r2 1. Nếu lấy căn bậc hai của r2 ta được r. r chính là hệ số tương quan mẫu, tuy nhiên dấu của r tuỳ thuộc vào quan hệ cùng chiều hay ngược chiều giữa Y và X. Các tính chất của hệ số tương quan r: 1. r có thể âm hoặc dương, dấu của r phụ thuộc vào dấu của tỷ số, đó chính là dấu của Cov(X,Y), hay là dấu của hệ số góc. 2. –1 r 1 3. r có tính chất đối xứng r(X,Y)=r(Y,X) 4. Nếu X* = aX + c; Y* = bY + a; a, b, c, d là các hằng số; a, b > 0 thì r(X*,Y*) = r(X,Y). 5. Nếu X, Y độc lập với nhau thì r(X,Y) = 0. Điều ngược lại không đúng. 6. r đo sự phụ thuộc tuyến tính. Nhưng không có ý nghĩa trong việc định rõ tính chất các quan hệ phi tuyến. 7. r đo độ phụ thuộc tuyến tính giữa X và Y, vậy không đòi hỏi X, Y có mối quan hệ nhân quả. 8. r2 cũng có thể tính bằng công thức: 2 2 n n ˆ ˆ  Yi Y Y i Y  y i y i i 1 i 1 r n n n 2 2 ˆ 2ˆ 2  Yi Y  Y i Y  y i  y i i 1 i 1 i 1 2.3.4. Phân phối xác suất của Ui 2 ˆ ˆ Với các giả thiết cơ bản: E(Ui) = 0; var (Ui) =  ; cov(Ui,Uj) = 0 thì 1,  2 là các ước lượng tuyến tính không chệch có phương sai nhỏ nhất của 1 và 2 . Mục đích của phân tích hồi quy không phải chỉ là sự suy đoán về 1 và 2 hay PRF mà còn phải kiểm tra bản chất của sự phụ thuộc, còn phải thực hiện các dự đoán khác. ˆ ˆ Do vậy cần phải biết phân bố xác suất của 1 và 2 . Các phân bố này phụ thuộc vào phân bố của các Ui. 24
Bây giờ chúng ta đưa thêm giả thiết. 2 Giả thiết 6. Ui có phân bố N(0, ). ˆ ˆ 2 Với các giả thiết trên, các ước lượng bình phương nhỏ nhất 1,  2 và ˆ có các tính chất sau đây: 1. Chúng là các ước lượng không chệch. 2. Có phương sai cực tiểu. 3. Khi số quan sát đủ lớn thì các ước lượng này xấp xỉ với giá trị thực của phân bố. ˆ ˆ 2 1  1 4. 1 N  1,  ˆ . Từ tính chất này suy ra ZN (0,1) . 1  ˆ 1 ˆ  5. ˆ N ,  2 . Từ tính chất này suy ra ZN 2 2 (0,1) . 2 2 ˆ 2  ˆ 2 (n 2)ˆ 2 6. X2 ( n 2)  2 7. Trong các ước lượng không chệch của 1,  2 bất kể là tuyến tính hay phi ˆ ˆ tuyến tính thì 1,  2 có phương sai nhỏ nhất. 2 8. YNXi (,)1  2 i  . Với các tính chất trên chúng ta có thể tìm khoảng tin cậy và kiểm định giả thiết về các tham số hồi quy. 2.3.5. Khoảng tin cậy và kiểm định giả thiết về các hệ số hồi quy 2.3.5.1. Khoảng tin cậy của 1 ˆ  t 1 1 T( n 2) ˆ se()1 Với hệ số tin cậy 1 - ta tìm được t /2(n-2) thoả mãn: ˆ  P( t ( n 2) 1 1 t ( n 2)) 1 / 2ˆ / 2 se 1 Khoảng tin cậy (1 - ) của 1 là: ˆ t( n 2) se (  ˆ );  ˆ t ( n 2) se (  ˆ ) 1 / 2 1 1 / 2 1 2.3.5.2. Kiểm định giả thiết với 2 25
* Có thể đưa ra giả thiết nào đó về 1 , chẳng hạn 1  1 . Nếu giả thiết này đúng thì: ˆ  t 1 1 T( n 2) ˆ se()1 Ta có bảng sau đây: Bảng 2.4. Kiểm định giả thiết về 1 Loại giả thiết Giả thiết H0 Giả thiết đối H1 Miền bác bỏ * * Hai phía 1  1 1  1 t t / 2 ( n 2) * * Phía phải 1  1 1  1 t t ( n 2) * * Phía trái 1  1 1  1 t t ( n 2) thường nhỏ hơn 0,1. t (n-2) được xác định bởi P(t > t (n-2)) = . 2.3.5.3. Khoảng tin cậy của 2 ˆ  Dựa vào: t 2 2 T( n 2) ˆ se()2 Do đó với hệ số tin cậy 1 - , khoảng tin cậy của 2 được xác định bởi: ˆ  P( t ( n 2) 2 2 t ( n 2)) 1 / 2ˆ / 2 se 2 ˆ ˆ ˆ ˆ P 2 t / 2( n 2) se (  2 );  2 t / 2 ( n 2) se (  2 ) 1 2.3.5.4. Kiểm định giả thiết đối với 2 * Có thể đưa ra giả thiết về giá trị thực của 2 , chẳng hạn 2  2 . ˆ  Nếu giả thiết này đúng thì t 2 2 T( n 2) ˆ se()2 Bảng 2.3. Kiểm định giả thiết về 2 Loại giả thiết Giả thiết H0 Giả thiết đối H1 Miền bác bỏ * * Hai phía 2  2 2  2 t t / 2 ( n 2) * * Phía phải 2  2 2  2 t t ( n 2) * * Phía trái 2  2 2  2 t t ( n 2) 26
* Nếu như đưa ra giả thiết 2  2 0 thì điều này cónghĩa là đưa ra giả thiết biến độc lập X không ảnh hưởng đến biến phụ thuộc Y, khi các ti được tính bằng công thức: ˆ 0  ˆ t i i , i 1,2 ˆ ˆ se()()i se  i 2.3.5.5. Khoảng tin cậy đối với 2. ˆ 2 (n 2)2  2 ( n 2)  2 Do đó, khoảng tin cậy (1 - ) của 2 được xác định từ: 2 2ˆ 2 P 1 / 2( n 2) ( n 2)2  / 2 ( n 2) 1  2 2 (n 2)ˆ2 ( n 2)  ˆ hay P 2  2 1  / 2(n 2)  1 / 2 ( n 2) 2.3.5.6. Kiểm định giả thiết đối với 2 Loại giả thiết Giả thiết H0 Giả thiết đối H1 Miền bác bỏ 2 2 2 2 2   0   0 ˆ 2 (n 2)2  / 2 ( n 2) hoặc  0 Hai phía 2 ˆ 2 (n 2)2  1 / 2 ( n 2)  0 2 2 2 2 2   0   0 ˆ 2 Phía phải (n 2)2  ( n 2)  0 2 2 2 2 2   0   0 ˆ 2 Phía trái (n 2)2  1 ( n 2)  0 2.3.5.7. Kiểm định sự phù hợp của hàm hồi quy Phần này sẽ trình bày việc phân tích hồi quy theo quan điểm của phân tích phương sai, nó cung cấp cho chúng ta một cách khác, hữu ích trong việc giải quyết các vấn đề phán đoán thống kê. Chúng ta có: n n n n n 2ˆ 2 2ˆ 2 2 2 yi  y i  e i 2  x i  e i i 1 i 1 i 1 i 1 i 1 hay TSS = ESS + RSS Mặt khác: r2 = ESS/TSS, nên ESS = r2TSS và RSS = (1-r2)TSS 27
 2 Do 2 có phân bố N(,)2 n 2  xi i 1 ˆ n 2  2 2 Nên  xi N(0,1)  i 1 ˆ 2 n ()2  2 2 2 Và 2  xi  1  i 1 n e2 ˆ 2  i Do (n 2) i 1  2 ( n 2) 2  2 2 n n 2 2 2 ˆ 2 2  2 xi e i ˆ   2  2 xi i 1 i 1  Nên: F 2/1: 2 / ( n 2) n   2 ei ( n 2) i 1 2 n ˆ 2 2  2  xi Hay: F i 1 có phân bố F(1,n-2). ˆ 2 Chúng ta kiểm định giả thiết: H0: 2 = 0 H1: 2 0 n ˆ 2 2 2  xi i 1 Nếu F F(1, n 2) thì bác bỏ giả thiết H0, tức là bác bỏ giả thiết X ˆ 2 không ảnh hưởng đến Y. Trong đó thường nhỏ hơn 0,1. Mặt khác: n ˆ 2x 2 2  i ESS/1 TSSr 2 /1 F i 1 ˆ 2RSS/ ( n 2) (1 r 2 ) TSS / ( n 2) r2 n 1 F 1 r2 1 Cho nên quá trình phân tích phương sai cho phép chúng ta đưa ra các phán đoán thống kê về độ thích hợp của hàm hồi quy. Ta có thể đưa ra quá trình phân tích phương sai một cách ngắn gọn bằng bảng sau đây: 28
Bảng 2.5. Bảng phân tích phương sai cho mô hình hồi quy hai biến Nguồn biến thiên Tổng bình Bậc tự do Phương sai phương Từ hàm hồi quy n n 1 n ˆ 2ˆ 2 2 ˆ 2 2 yi 2  x i 2  xi (ESS) i 1 i 1 i 1 n n Từ các yếu tố ngẫu 2 n-2 2 ei ei nhiên (RSS) i 1 i 1 ˆ 2 (n 2) n TSS 2 n-1  yi i 1 2.3.6. Phân tích hồi quy và dự báo Các phần trên đã trình bày phương pháp xây dựng một hàm hồi quy, các đánh giá và phán xét về các hệ số của hàm hồi quy. Tuy nhiên mục đích của chúng ta không chỉ dừng lại ở đó. Có thể sử dụng hàm hồi quy để dự báo. Có hai loại dự báo: - Dự báo trung bình có điều kiện của Y với một giá trị X = X0. - Dự báo giá trị cá biệt của Y với X = X0. Giả sử X = X0, ta muốn dự báo E(Y/X0). Đường hồi quy mẫu cho ước lượng ˆ ˆ ˆ điểm của E(Y/X0): YX0  1  2 0 . ˆ Y0 là ước lượng không chệch có phương sai nhỏ nhất của E(Y/X0). Tuy nhiên ˆ Y0 vẫn khác so với giá trị thực của nó. ˆ Y0 có phân bố chuẩn với kỳ vọng 1  2X 0 , nên ˆ ˆ ˆ 2 Var()() Y0 E 1  2 X 0  1  2 X 0 ˆ ˆ 2 EX[(1  1 ) 0 (  2  2 )] ˆ2 ˆ ˆ 2 ˆ 2 EXX[(1  1 ) 2(  1  1 ) 0 (  2  2 ) 0 (  2  2 ) ] ˆ ˆ2 2 ˆ 2 ˆ ˆ Var( Y0 ) E [( 11  ) ] E [ X 022 (   ) ] 2 X 01122 E [(   )(   )] ˆ2 ˆ ˆ ˆ var(1 ) X 0 var(  2 ) 2 X 0 Cov (  1 ,  2 ) ˆ ˆ2 ˆ ˆ ˆ Var( Y0 ) var Y  2 X X 0 var(  2 ) 2 X 0 Cov (  1 ,  2 )  2 Var( Yˆ ) X2 var(ˆ ) X 2 var(  ˆ ) 2 X Cov (  ˆ ,  ˆ ) 0n 2 0 2 0 1 2 29
ˆ ˆ ˆ ˆ Cov(1 ,  2 ) E [(  1  1 )(  2  2 )] ˆ ˆ ˆ ˆ 1  1 YXEYXYX  2 ()()  1  2  2 ˆ ˆ 1  1 X  2  2 2 2 2 2 ˆ 2  2   Var( Y0 ) Xn X 0 n 2 X 0 X n n 2 2 2 xi  x i  x i i 1 i 1 i 1 2 1 XX0 Var( Y )  2 1 0 n n x2  i i 1 Những  2 chưa biết, nên ta sử dụng ước lượng không chệch của  2 là ˆ 2 , khi đó: YXˆ   t 0 1 2 0 T( n 2) ˆ se() Y0 Do đó khoảng tin cậy 1- của E(Y/X0): P ˆ  ˆ X t( n 2) se ( Yˆ )   X  ˆ  ˆ X t ( n 2) se ( Y ˆ ) 1 120/2 0 120120/2 0 ˆ ˆ ˆ ˆ Y0 t / 2( n 2) se ( Y 0 ) E ( Y / X 0 ) Y 0 t / 2 ( n 2) se ( Y 0 ) Câu hỏi ôn tập chương 2. 1. Anh (chị) cho biết sự khác nhau giữa: a) Hàm hồi quy tổng thể và hàm hồi quy mẫu. b) Hàm hồi quy dạng ngẫu nhiên và hàm hồi quy dạng xác định. 2. Xác định dạng của hàm hồi quy tổng thể như thế nào? Thế nào là một hàm hồi quy bị định dạng sai? 3. Với số liệu được thu thập sau đây, anh chị hãy phân loại nó (số liệu chuỗi thời gian, chéo, hỗn hợp). a) Thu thập số liệu về nhà ở của người dân ở một thành phố trong 10 năm. Số liệu được thu thập trong từng năm. b) Thu thập số liệu về nhu cầu nhà ở của các thành phó khác nhau trong cùng một năm. c) Thu thập số liệu về nhu cầu nhà ở của người dân các thành phố trong thời gian 10 năm. d) Doanh số bán hàng của công ty trong 1 năm theo từng quý. e) Doanh số bán hàng của các công ty cùng ngành nghề trong cùng một quý. f) Doanh số bán của các công ty cùng ngành nghề trong cùng một năm. 30
4. Giả sử có số liệu thống kê về lãi suất ngân hàng (X-%/ năm), tổng vốn đầu tư (Y - tỷ đồng) trên địa bàn tỉnh A qua 10 năm kế tiếp như sau: X 7,0 6,5 6,5 6,0 6,0 6,0 5,5 5,5 5,0 4,5 Y 28 32 30 34 32 35 40 42 48 50 Yêu cầu: a) Lập mô hình hồi quy tuyến tính mô tả quan hệ giữa tổng vốn đầu tư và lãi suất ngân hàng. Nêu ý nghĩa kinh tế của hệ số hồi quy ước lượng được. b) Kiểm định giả thiết hệ số hồi quy của X trong hàm hồi quy tổng thể bằng 0 với mức ý nghĩa 5% và nêu ý nghĩa của kết quả. c) Với mức ý nghĩa 5%, có thể xem hệ số góc của mô hình bằng -11 được không? d) Xác định khoảng tin cậy của hệ số góc, hệ số chặn với độ tin cậy 90%. e) Đánh giá độ phù hợp của hàm hồi quy với mức ý nghĩa 5%. f) Nếu lãi suất ngân hàng là 10%/ năm, thì tổng vốn đầu tư trung bình và cá biệt ở tính A là bao nhiêu? 5. Bảng số liệu về giá bán và diện tích sinh hoạt của 13 căn nhà dành cho một gia đình ở tại cộng đồng Thành phố đại học của San Diego vào năm 1990. Y: giá bán (tính bằng nghìn USD). X: Diện tích sinh hoạt tính bằng (feet vuông). Y 19 23 23 28 24 29 28 36 29 29 38 50 42 X 106 125 130 157 160 175 180 187 193 194 225 260 280 Giả sử ta có mô hình: Y 1  2 X u Kết quả ước lượng như sau: SUMMARY OUTPUT Regression Statistics Multiple R 0,924660686 R Square 0,854997384 Adjusted R Square 0,841815329 Standard Error 3,454095344 Observations 13 ANOVA Df SS MS F Significance F Regression 1 773,838402 773,8384 64,8607 6,12991E-06 Residual 11 131,2385211 11,93077 Total 12 905,0769231 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 1,65398274 3,72149279 0,444441 0,665341 -6,53696766 9,844933 X Variable 1 0,158726064 0,019708675 8,053614 6,13E-06 0,115347563 0,202105 31
Yêu cầu: a) Xác định hàm hồi quy mẫu. b) Ý nghĩa kinh tế của các hệ số nhận được. c) Kiểm định sự phù hợp của hàm hồi quy. d) Kiểm định ảnh hưởng của X đến Y e) Có nhận định rằng: khi diện tích tăng lên 1 (feet vuông) giá trung bình tăng lên 0,5 (nghìn USD). Bạn có tin điều đó không, với mức ý nghĩa 5%. 32
CHƯƠNG 3. MÔ HÌNH HỒI QUY BỘI Nội dung cơ bản của chương III là trình bày lại những nội dung cơ bản trong Kinh tế lượng, nhưng tiếp cận dưới dạng ma trận cho mô hình hồi quy nhiều biến. Ngoài ra chương này đề cập đến một số vấn đề đặc trưng liên quan tới mô hình nhiều biến như hiện tượng Đa cộng tuyến, Hệ số xác định bội đã hiệu chỉnh, Hệ số tương quan riêng phần. Nội dung cơ bản của chương này bao gồm: O Mô hình hồi quy ba biến - Các giả thiết của mô hình - Ước lượng các tham số của mô hình hồi quy ba biến - Phương sai và độ lệch chuẩn của mô hình hồi quy ba biến - Khoảng tin cậy của các hệ số hồi quy - Kiểm định giả thiết các hệ số hồi quy O Mô hình hồi quy k biến – Phương pháp ma trận - Hàm hồi quy tổng thể - Ước lượng các tham số - Ma trận hiệp phương sai - Kiểm định giả thiết - Dự báo Mô hình hồi quy hai biến được trình bày ở chương II thường là không phù hợp trong thực tiễn. Có nhiều biến tác động đến biến phụ thuộc Y. Thí dụ như khi nghiên cứu nhu cầu về một loại hàng hoá nào đó (Y), thì nhu cầu này phụ thuộc vào nhiều yếu tố, trước hết là: Thu nhập của người tiêu dùng, giá của bản thân hàng hoá, giá của các loại hàng hoá thay thế hàng hoá này Do đó cần phải mở rộng mô hình hai biến thành mô hình có nhiều biến hơn. 3.1. MÔ HÌNH HỒI QUY 3 BIẾN Giống như trong mô hình hai biến, hàm hồi quy 3 biến của tổng thể PRF có dạng: EYXXXX(/,)2 3  1  2 2  3 3 PRF là kỳ vọng có điều kiện của biến Y với giá trị đã cho của các biến X2 và X3. Trong đó Y: biến phụ thuộc; X2, X3: Các biến độc lập. 33
1 : Hệ số tự do (hệ số chặn), nó chính là giá trị trung bình của biến Y khi X2 = X3 = 0. 2,  3 : Gọi là các hệ số hồi qui riêng. Yi là giá trị của biến Y ở quan sát thứ i, khi đó: YEYXXUXXUi (/,)2 i 3 i i  1  2 2 i  3 3 i i Ui là yếu tố ngẫu nhiên, sự tồn tại của Ui đã được giải thích ở chương 2. 3.1.1. Các giả thiết của mô hình E( Ui / X2 i , X 3 i ) 0(  i ) - Các Ui có kỳ vọng bằng 0: - Không có sự tương quan giữa các Ui: Cov(Ui,Uj) = 0. 2 Var() Ui  - Các Ui thuần nhất: - Giữa các biến giải thích X2, X3 không có quan hệ tuyến tính. N(0, 2 ) - Ui có phân bố . Trong mô hình hồi quy bội có thêm một giả thiết mới - giả thiết thứ 4 -giữa các biến X2, X3 không có quan hệ tuyến tính. Nếu như X2, X3 có quan hệ tuyến tính với nhau thì người ta nói rằng có hiện tượng đa cộng tuyến.   Ý nghĩa của các hệ số 2 và 3 EYXXXX(/,)    2i 3 i 1 2 2 i 3 3 i E 2 . Điều này có nghĩa là khi chúng ta giữ nguyên yếu tố X3 thì giá trị X 2 trung bình của biến phụ thuộc Y sẽ thay đổi (tăng hoặc giảm tuỳ thuộc vào dấu của 2 2 ) đơn vị cho mỗi đơn vị tăng của yếu tố X2. E  3 điều này có nghĩa là giá trị trung bình của biến Y tăng (hoặc giảm) X 3i 3 đơn vị cho mỗi đơn vị tăng của X3. Như vậy các hệ số hồi qui riêng (hệ số góc) phản ánh ảnh hưởng của một biến giải thích đối với giá trị trung bình của biến phụ thuộc khi giá trị của biến giải thích khác chứa trong mô hình không đổi. 3.1.2. Ước lượng các tham số của mô hình Để ước lượng các tham số của mô hình: EYXXXX(/,)2i 3 i  1  2 2 i  3 3 i Chúng ta sử dụng phương pháp bình phương tối thiểu OLS, tư tưởng chính của phương pháp này đã được trình bày ở chương 2. 34
Giả sử chúng ta có n quan sát, quan sát thứ i có 3 giá trị ứng với Y, X2 và X3, kí hiệu (Yi, X2i, X3i). Hàm hồi quy mẫu SRF được xây dựng từ n quan sát này có dạng: ˆ ˆ ˆ ˆ YXXi 1  2 2 i  3 3 i ˆ Trong đó i : i=1, 2, 3 là ước lượng tương ứng của i : i = 1, 2, 3. ˆ ˆ ˆ Khi đó Yi 1  2 X 2 i  3 X 3 i e i ; ei là phần dư ứng với quan sát thứ i. ˆ ei Y i Y i Y i 1  2 X 2 i  3 X 3 i ˆ ˆ ˆ Phương pháp OLS tính giá trị của các tham số 1,,  2  3 sao cho: n n 2 2 RSS  ei ( Y i 1  2 X 2 i  3 X 3 i ) min i 1 i 1 ˆ ˆ ˆ Các tham số 1,,  2  3 được tính từ hệ phương trình chuẩn sau đây: ˆ ˆ ˆ 1  2XXY 2  3 3 n n n n n ˆ ˆ2 ˆ 1XXXXYX 2i  2  2 i  3  2 i  3 i  i 2 i i 1 i 1 i 1 i 1 i 1 n n n n n ˆ ˆ2 ˆ 1XXXXYX 3i  3  3 i  2  2 i  3 i  i 3 i i 1 i 1 i 1 i 1 i 1 n n n Trong đó: X2  X 2i/;/;/ n X 3  X 3 i n Y  Y i n i 1 i 1 i 1 Đặt: yi Y i Y;; x2 i X 2 i X 2 x 3 i X 3 i X 3 Giải hệ phương trình ta được: ˆ ˆ ˆ 1 YXX  2 2  3 3 n n n n 2 yi x2 i  x 3 i  y i x 3 i  x 2 i x 3 i ˆ i 1 i 1 i 1 i 1 2 n n n 2 2 2 x2i  x 3 i  x 2 i x 3 i i 1 i 1 i 1 n n n n 2 yi x3 i  x 2 i  y i x 2 i  x 2 i x 3 i ˆ i 1 i 1 i 1 i 1 2 n n n 2 2 2 x2i  x 3 i  x 2 i x 3 i i 1 i 1 i 1 ˆ ˆ ˆ 1,,  2  3 được gọi là các ước lượng bình phương nhỏ nhất. 35
3.1.3. Phương sai và độ lệch chuẩn của các ước lượng bình phương nhỏ nhất Phương sai và độ lệch chuẩn của các ước lượng bình phương nhỏ nhất được cho bởi các công thức sau đây: n 2  x3i 2 ˆ i 1 2  var(2 )  n n n 2 n 2 2 x2(1 r 2 ) x2i  x 3 i  x 2 i x 3 i  2i 23 i 1 i 1 i 1 i 1 Trong đó r23 là hệ số tương quan mẫu giữa biến X2 và X3. ˆ ˆ se(2 ) var(  2 ) n 2  x2i 2 ˆ i 1 2  var(3 )  n n n 2 n 2 2 x2(1 r 2 ) x2i  x 3 i  x 2 i x 3 i  3i 23 i 1 i 1 i 1 i 1 ˆ ˆ se(3 ) var  3 r 2 2 cov(ˆ ,  ˆ ) 23 2 3 n n 2 2 2 (1 r23 )  x 2i  x 3 i i 1 i 1 Trong đó r23 là hệ số tương quan giữa biến X2 và X3. 2 x x 2  2i 3 i r23 2 x x2 2i  3i 2 Trong các công thức trên  là phương sai của Ui nhưng chưa biết. Ước 2 e RSS lượng không chệch của  2 là: ˆ 2  i n 3 n 3 3 là số tham số của mô hình, trong trường hợp tổng quát nếu mô hình có k 2 tham số ,  , ,  thì ˆ 2 e() n k 1 2 k  i 3.2. MÔ HÌNH HỒI QUY K BIẾN 3.2.1. Mô hình Phần này giới thiệu mô hình hồi quy bội k biến bằng ngôn ngữ ma trận. Với ngôn ngữ ma trận kết hợp với kỹ thuật tính toán cho phép chúng ta giải quyết các vấn đề của phân tích hồi quy một cách nhanh chóng, chính xác. Hàm hồi quy tổng thể có dạng: YXXUi 1  2 2 i  k ki i 36
Trong đó 1 là hệ số tự do (hệ số chặn)  j : j = 2 k là các hệ số hồi quy riêng. Giả sử chúng ta có n quan sát, mỗi quan sát gồm k giá trị (Yi, X2i, , Xki) YXXU1  1  2 21 k k 1 1 YXXU2  1  2 22 k k 2 2 YXXUn 1  2 2 n  k kn n YU1  1 1 1 XXX21 3 4 YU  1 XXX Ký hiệu: YU 2 ;; 2 2 ; X 21 3 4    XXX  21 3 4 YUn  k n 1 XXX21 3 4 Khi đó ta có: YXU  Giả thiết 4 nói rằng giữa các biến độc lập không có quan hệ tuyến tính với nhau, khi đó các cột của ma trận X là độc lập tuyến tính. Do đó hạng của ma trận X bằng số cột của ma trận này tức là R(X) = k, ma trận X không suy biến. 3.2.2. Ước lượng các tham số Hàm hồi qui mẫu SRF có dạng: YXXˆ ˆ  ˆ  ˆ i1 2 2 i k ki ˆ ˆ ˆ Yi 1  2 X 2 i  k X ki e i hay Y Xˆ e e1 e Trong đó e 2 Y X ˆ  en Các ước lượng OLS được tìm bằng cách: n n 2ˆ ˆ ˆ 2 ei ( Y i 1  2 X 2 i  k X ki ) min i 1 i 1 n 2 ei là tổng bình phương của các phần dư (RSS) i 1 n ' 2ˆ ˆ ' ˆ ' ' ' ˆ ˆ ' ' ˆ ee'  ei YX  YX  YY  XYYX   XX  i 1 YYXYXX''''' 2ˆ  ˆ  ˆ 37
 e' e 2XYXXXYXX'''' 2 ˆ  ˆ ˆ ˆ n X2i  X 3 i  X ki 1 XXXXXX2 ˆ 2i  2 i  2 i 3 i  2 i ki 2   2 XXXXXXki ki2 i ki 3 i ki ˆ     k 1 1 1 Y1 XXXY 21 22 2n 2   XXXYk1 k 2  kn n Với giả thiết 4, X không suy biến, nên X’X cũng không suy biến, do đó tồn tại (X’X)-1. Từ đó: ˆ ()XXXY' 1 ' 3.2.3. Ma trận hiệp phương sai Để kiểm định giả thiết, tìm khoảng tin cậy, cũng như thực hiện các suy luận ˆ ˆ ˆ thống kê khác cần phải tìm var(i ) i = 1 k và Cov(,)i  j . Phương pháp ma trận cho phép chúng ta tìm chúng một cách dễ dàng. Ma trận hiệp phương sai của: Var()(,)(,)ˆ Cov  ˆ  ˆ Cov  ˆ  ˆ 1 1 2 1 k ˆ ˆ ˆ ˆ ˆ ˆ Cov(,)()(,)1  2 Var  2 Cov  2 k Cov()  ˆ ˆ ˆ ˆ ˆ Cov(,)(,)()k 1 Cov  k  2  Var  k Cov()ˆ được xác định như thế nào? ˆ ()XXXY' 1 ' YXU  ˆ ()()XXXXUXXXU' 1 '   ' 1 ' ˆ  ()XXXU' 1 ' ' ' Cov()()()ˆ E  ˆ   ˆ  E X' X 1 X 'U X ' X 1 X 'U  '1'''1 '1 ' '1 E ()()()()() X X X UU X X X X X XE UU X X X ()()XXXXXX' 1 2 ' 1 Cov()()ˆ  2 X ' X 1 38
Trong công thức trên (X’X)-1 là ma trận nghịch đảo của ma trận (X’X),  2 là 2 Var(Ui), nhưng chưa biết nên chúng ta phải dùng ước lượng không chệch của  là: n ˆ 2 2  ei () n k i 1 n n 2 2ˆ ' ' ˆ ' ˆ ' ee'  ei  YY i i YYYYYY 2 i 1 i 1 YYXYXXYYXY'''''''' 2ˆ  ˆ  ˆ  ˆ 3.2.4. Hệ số xác định bội Trong mô hình hồi quy hai biến, r2 đo độc thích hợp của hàm hồi quy. Nó chính là tỷ lệ của toàn bộ sự biến đổi của biến phụ thuộc Y do biến giải thích X gây ra. Trong mô hình hồi quy bội tỷ lệ của toàn bộ sự khác biệt của biến Y do tất cả các 2 biến giải thích X2, X3, ,Xk gây ra được gọi là hệ số xác định bội, ký hiệu R . Hệ số xác định bội R2 có thể tính bằng một trong hai công thức sau: ESS TSS RSS RSS R2 1 TSS TSS TSS Phần trước đã chứng minh: n 2 'ˆ ' ' e' e  ei Y Y  X Y i 1 n n ˆ ˆ ˆ ˆ ei  e i Y i Y i  e i( Y i 1  2 X 2 i  k X ki ) i 1 i 1 n ˆ ˆ ei( Y i Y 2 ( X 2 i X )  k ( X ki X ki ) i 1 n n ˆ ˆ ei( y i 2 x 2 i  k x ki )  e i y i 0 i 1 i 1 n ˆ ˆ  yi( y i 2 X 2 i  k X ki ) i 1 n n n ˆ ˆ yi y i 2  y i x 2 i  k  y i x ki i 1 i 1 i 1 n n n 2 2 2 ' 2 TSS  yi  Y i 2  YY i nY Y Y nY i 1 i 1 i 1 ESS TSS e' e ˆ '' X Y nY ˆ 'X 'Y nY 2 R2 Y' Y nY 2 39
n n n 2 ˆy x  ˆ y x  ei 2i 2 i k  i 2 ESS i 1 i 1 i 1 ki R 1 n n TSS 2 2 yi  y i i 1 i 1 0 R2 1. Nếu R2 = 1, có nghĩa là đường hồi quy giải thích 100% sự thay đổi của Y. Nếu R2 = 0, có nghĩa là mô hình không giải thích sự thay đổi nào của Y. Một tính chất quan trọng của R2 là nó là hàm không giảm của số biến giải n n 2 2 thích có trong mô hình. Dễ thấy rằng yi  Y i Y không phụ thuộc vào số i 1 i 1 n 2 biến giải thích trong mô hình, nhưng ei là hàm giảm của số này. Do đó, nếu tăng i 1 số biến giải thích trong mô hình thì R2 cũng tăng. Vấn đề đặt ra là khi nào thì đưa thêm biến giải thích mới vào mô hình? Không thể dùng R2 làm tiêu chuẩn để xem xét việc đưa thêm hay không đưa thêm một biến giải thích mới vào mô hình. Bởi vì R2 còn phụ thuộc vào số bậc tự do n n 2 ˆ 2 của  YYi i và  YYi tương ứng là (n – k) và (n – 1). Trong đó k là số các i 1 i 1 tham số (kể cả hệ số chặn) của mô hình. Người ta dùng hệ số xác định bội đã hiệu chỉnh, ký hiệu R 2 để cân nhắc khi xem xét việc thêm biến giải thích mới vào mô hình. n 2 ei () n k 2 2i 1 ˆ 2 n 1 RR 1 n 1 2 1 (1 ) 2 Sy n k  yi ( n 1) i 1 R 2 có các tính chất sau: - Nếu k > 1, R 2 R2 1, điều này có nghĩa là nếu số biến giải thích tăng lên thì R 2 tăng chậm hơn so với R2. - R2 0, nhưng R 2 có thể âm. Như vậy khi R 2 còn tăng thì ta còn phải đưa thêm biến mới. R 2 còn có thể tăng khi mà hệ số của biến mới trong hàm hồi quy khác không. Khi nào biết được hệ số của biến mới trong hàm hồi quy khác không? Khi mà giả thiết: H0 : k = 0; H1 : k 0. bị bác bỏ, trong đó Xk là biến chúng ta định đưa thêm vào mô hình. Giả sử chúng ta có mô hình hồi quy bội: YXXUi 1  2 2 i  k ki i 40
Kí hiệu Rtj là hệ số tương quan giữa biến thứ t và thứ j. Nếu t = 1 thì rtj là hệ số tương quan giữa các biến Y và biến Xj. 2 2 n n yi x ij  x ti x ji 2 i 1 2 i 1 r1 j n n; r tj n n 2 2 2 2 yi  x ij  x ti  x ji i 1 i 1 i 1 i 1 Trong đó: xji X ji X j Dễ dàng thấy rằng: rtj = rjt; rjj = 1. r11 r 12 r 13 r 1k 1 r 12 r 13 r 1 k r r r r r1 r r R 21 22 23 2k 21 23 2 k         rk1 r k 2 r k 3 r kk r k 1 r k 2 r k 3 1 3.2.5. Hệ số tương quan riêng Chúng ta đã biết hệ số tương quan r đo mức độ phụ thuộc tuyến tính giữa hai biến. Đối với mô hình hồi quy 3 biến: YXXUi 1  2 2  3 3 i Chúng ta định nghĩa r12,3 là hệ số tương quan giữa biến Y và X2 trong khi X3 không đổi. r13,2 là hệ số tương quan riêng giữa biến Y và X3 trong khi X2 không đổi. r23,1 là hệ số tương quan riêng giữa biến X2 và X3 trong khi Y không đổi. Ta có thể dễ dàng chỉ ra rằng: r12 r 13 r 23 r12,3 2 2 1 r13 1 r 23 r13 r 12 r 23 r13,2 2 2 1 r13 1 r 23 r23 r 12 r 13 r23,1 2 2 1 r12 1 r 13 Hệ số tương quan riêng đã được định nghĩa như trên được gọi là hệ số tương quan bậc nhất. Từ “bậc” ở đây ngụ ý chỉ số hạng sau dấu phẩy vì thế r12,34 là hệ số tương quan riêng bậc 2; còn r12, r13 là các hệ số tương quan bậc không. Giữa hệ số xác định bội và các hệ số tương quan bậc không và hệ số tương quan bậc nhất có các mối liên hệ sau: 41
2 2 2 r12 r 13 2 r 12 r 13 r 23 R 2 1 r23 2 2 2 2 R r12 (1 r 12 ) r 13,2 2 2 2 2 R r13 (1 r 13 ) r 12,3 Ma trận R nói ở trên được gọi là ma trận hệ số tương quan riêng cấp 0. 3.2.6. Kiểm định giả thiết Với giả thiết UN (0, 2 ) ta có thể kiểm định giả thiết, tìm khoảng tin cậy cho các hệ số hồi quy riêng. ˆ NXX(,())   2 ' 1 ˆ 2 Thành phần i có phân bổ chuẩn với kỳ vọng i và phương sai bằng  nhân với phần tử nằm trên dòng thứ i và cột i của ma trận (X’X)-1 hay chính là phần tử thứ i trên đường chéo chính của ma trận Cov()ˆ . Tuy nhiên do 2 chưa biết, nên n 2 ˆ 2 2 ta phải dùng ước lượng không chệch của  là:  ei /() n k i 1 ˆ  Khi đó t i i có phân bố t(n-k). Với tiêu chuẩn này có thể tìm khoảng ˆ se()i tin cậy, kiểm định giả thiết về các hệ số hồi quy riêng. Khoảng tin cậy với hệ số tin cậy 1 - của i được xác định: ˆ  P( t ( n k ) i i t ( n k )) 1 ; do đó: / 2ˆ / 2 se()i ˆ ˆ ˆ ˆ (i t / 2 ( n k ) se (  i )  i  i t / 2 ( n k ) se (  i )) * Chúng ta có thể kiểm định giả thiết i  i ˆ  Tiêu chuẩn dùng để kiểm định: t i i t() n k ˆ se()i Tuỳ theo các giả thiết H1, chúng ta có các miền bác bỏ sau đây: Loại giả thiết H0 H1 Miền bác bỏ * * Hai phía i  i i  i t t / 2 () n k * * Bên trái i ()  i i  i t t () n k * * Bên phải i ()  i i  i t t () n k 42
* Nếu i 0 , chúng ta muốn kiểm định biến độc lập Xi không ảnh hưởng đến biến phụ thuộc. Chúng ta kiểm định giả thiết: 2 2  3 k 0 hay R = 0. Chúng ta đã trình bày kỹ thuật phân tích phương sai và mối quan hệ giữa R2 và F. Bằng ngôn ngữ ma trận có thể trình bày tổng quát các vấn đề đó. Bảng 3.2. Phân tích phương sai cho mô hình hồi quy bội k biến. Nguồn biến thiên Tổng bình Bậc tự do Phương sai phương Từ hàm hồi quy (ESS) ˆ 'X 'Y nY 2 k - 1 ˆ 'X 'Y nY 2 k 1 Phần dư (RSS) YYXY''' ˆ n – k YYXY''' ˆ n k Tổng Y' Y nY 2 n – 1 ˆ 'X 'Y nY 2 Do R2 Y' Y nY 2 Nên ˆ 'X 'Y nY 2 R 2 Y 'Y nY 2 Y' Y ˆ ' X 'Y (1 R 2 ) Y 'Y nY 2 Ta có bảng sau đây: Bảng 3.3. Phân tích phương sai đối với R2 Nguồn biến thiên Tổng bình phương Bậc tự do Phương sai Từ hàm hồi quy R2 Y 'Y nY 2 k – 1 R2 Y 'Y nY 2 /( k 1) (ESS) Phần dư (RSS) (1 R2 ) Y 'Y nY 2 n – k (1 R2 ) Y 'Y nY 2 /( n k ) Tổng Y' Y nY 2 n - 1 Với giả thiết ˆ N(,)   2 thì giả thiết: 2 H0: 2  3 k 0 (hay R = 0) 2 H1: có ít nhất một i 0 (hay R > 0) 43
được kiểm định bằng tiêu chuẩn: ESS/( k 10 F F(( k 1),( n k )) RSS/( n k ) R2 () n k F (1 R2 )( k 1) Hồi quy có điều kiện ràng buộc – kiểm định F: Giả sử rằng chúng ta có hàm hồi quy: YXXU 1  2 2i  ki ki i Bây giờ chúng ta kiểm định giả thiết: H0: k m 1  k m 2  k 0 Với giả thiết này thì hàm hồi quy có dạng: YXXU 1  2 2i  k m k m i (được gọi là hàm hồi quy thu hẹp hay hàm hồi quy có điều kiện ràng buộc). Ký hiệu eR; Véc tơ phần dư từ hàm hồi quy có điều kiện ràng buộc. eUR: Véc tơ phần dư từ hàm hồi quy ban đầu (không điều kiện ràng buộc). m: Số biến bị loại khỏi mô hình ban đầu (số điều kiện ràng buộc) n: số quan sát. Khi đó tiêu chuẩn kiểm định giả thiết H0. (')/e' e e e m R R UR UR F( m ,( n k )) e'UR e UR /( n k ) Nếu F > F (m,n-k) thì giả thiết H0 bị bác bỏ. Đôi khi ta dùng công thức sau đây: (')/()()/e' e e e m TSS ESS TSS ESS m R R UR UR R UR e'UR e UR /( n k ) ( TSS ESS UR ) /( n k ) ()/ESS ESS m UR R (TSS ESSUR ) /( n k ) Chia cả tử số và mẫu cho TSS, ta được công thức rút gọn: 2 2 ()/RUR R R m F 2 F( m ,( n k )) (1 RUR ) /( n k ) Cách trình bày như trên chỉ là trường hợp riêng của kiểm định “tổ hợp tuyến tính của các hệ số hồi quy”. Với giả thiết về tổ hợp tuyến tính của các hệ số hồi quy, có thể làm cho biến phụ thuộc không còn là biến phụ thuộc ban đầu. Khi biến phụ thuộc thay đổi thì công thức tính F qua các R2 sẽ không dùng được. Trong trường hợp này ta dùng công thức ban đầu, tính F qua RSS. 44
3.2.7. Dự báo Chúng ta có thể sử dụng mô hình hồi quy vào dự báo: dự báo giá trị trung bình và giá trị cá biệt. 1 0 X 2 Cho XX0 0 3  0 X k Dự báo giá trị trung bình E(Y/X0) ˆ ˆ ˆ ˆ' ˆ YXXX 1  2 2 k k  0 ˆ0 0'ˆ ˆ 0' ˆ 0 Với X = X ta có (YXXYXXX0 / )  var( 0 / 0 ) var(  ) ˆ 0 2 0' ' 1 0 ˆ 2 ' 1 var(YXXXXX0 /i )  ( ) vì var( )  (XX ) . Nhưng 2 chưa biết nên phải dùng ước lượng không chệch ˆ 2 của nó. Var(/)() Yˆ X0 ˆ 2 X 0' X ' X 1 X 0 se(/)() Yˆ X0 ˆ 2 X 0' X ' X 1 X 0 ˆ ˆ0 ˆ ˆ 0 Y0 t / 2()(/)(/)()(/) nkseYX 0 EYX 0 Y 0 t / 2 nkseYX 0 Dự báo giá trị cá biệt: ˆ0 0' ˆ 2 Yi X e i var( Y0 / X ) var( X  )  1 Var( Y / X0 ) ˆ 2 1 X 0' X ' X X 0 0 0 0 se(/)(/) Y0 X Var Y 0 X ˆ ˆ0 ˆ ˆ 0 Y0 t / 2()(/)(/)()(/) nkseYX 0 YX 0 Y 0 t / 2 nkseYX 0 Với việc trình bày mô hình hồi quy bằng ngôn ngữ ma trận đã cung cấp cho chúng ta một công nghệ mà nhờ đó có thể sử dụng kỹ thuật tính toán, tự động hoá toàn bộ quá trình tính toán, phân tích và dự báo. Câu hỏi chương 3. 1. Thế nào là mô hình hồi quy ba biến? Mô tả ý nghĩa hình học của mô hình hồi quy như thế nào? 2. Dùng công cụ ma trận mô tả các biến, các phương trình trong mô hình hồi quy tuyến tính k biến như thế nào? 3. Phân tích về hệ số hồi quy với mô hình tổng quát có những điểm già khác so với mô hình hồi quy hai biến. 45
4. Ta có các biến Y (Lượng cam bán được-tấn/tháng), X1 (Giá cam-nghàn đồng/kg), X2 (giá quýt-nghàn đồng/kg) với số liệu trong bảng sau: Y 14 13 12 10 8 9 8 7 6 6 X1 2 2 3 4 5 5 6 7 8 9 X2 7 6 7 6 5 6 4 5 4 5 Dùng phương pháp ma trận để trả lời các câu hỏi sau: a) Xác định hàm SRF của mô hình? b) Nêu ý nghĩa của mô hình hồi quy riêng? c) Xác định khoảng tin cậy với độ tin cậy 90%. d) Biến giá quýt có ảnh hưởng đến lượng cam bán ra không? e) Kiểm định giả thiết nếu giá cam tăng lên 1000đ/kg, lượng cam bán ra giảm đi 01 tấn/tháng? 5. Cho kết quả ước lượng của Y, X2, X3 như sau: SUMMARY OUTPUT Regression Statistics Multiple R 0,931479147 R Square 0,867653401 Adjusted R Square 0,841184081 Standard Error 3,460980395 Observations 13 ANOVA Df SS MS F Significance F Regression 2 785,2930701 392,6465351 32,77959 4,06E-05 Residual 10 119,783853 11,9783853 Total 12 905,0769231 Coefficients Standard Error T Stat P-value Lower 95% Upper 95% Intercept -7,140388394 9,735596246 -0,73343103 0,480136 -28,8326 14,55187176 X Variable 1 0,145255037 0,024077944 6,032700957 0,000126 0,091606 0,19890404 X Variable 2 0,100329287 0,102597224 0,977894754 0,35119 -0,12827 0,328930146 Yêu cầu: a) Xác định hàm hồi quy mẫu. b) Ý nghĩa kinh tế của các hệ số nhận được. c) Kiểm định sự phù hợp của hàm hồi quy. d) Kiểm định ảnh hưởng của X2, X3 đến Y e) Có nhận định rằng: khi X2 lên 1 đơn vị, thì Y tăng lên 0,15 đơn vị. Bạn có tin điều đó không, với mức ý nghĩa 5%. 46
CHƯƠNG 4. HỒI QUY VỚI BIẾN GIẢ Chương này nhằm tới việc vận dụng biến giả để lượng hóa các biến định tính. Ngoài ra cũng trình bày các khía cạnh ứng dụng khác của biến giả như phân tích tác động thời vụ, kiểm định tính ổn định cấu trúc của mô hình hồi quy. Trong các mô hình hồi quy tuyến tính mà chúng ta đã xem xét từ các chương trước cho đến nay thì các biến giải thích đều là các biến số lượng. Các biến đó có thể nhận giá trị bằng số. Chẳng hạn, tiền lương của cán bộ, doanh số bán ra của một cửa hàng, chi tiêu cho quảng cáo, cung tiền, là những biến số lượng. Nhưng trong thực tế có nhiều trường hợp các biến giải thích (hoặc thậm chí cả biến phụ thuộc) là biến chất lượng. Trong chương này ta sẽ nghiên cứu hồi quy khi biến giải thích là biến chất lượng. Nội dung cơ bản của chương này bao gồm: O Bản chất của biến giả O Mô hình hồi quy có một biến lượng và một biến chất O Mô hình hồi quy có một biến lượng và hai biến chất O Kết hợp hai hồi quy O Ảnh hưởng tương tác giữa các biến giả O Sử dụng biến giả trong phân tích mùa 4.1. BẢN CHẤT CỦA BIẾN GIẢ - MÔ HÌNH CÓ BIẾN GIẢ Biến chất lượng như đã nói ở trên thường chỉ ra có hoặc không có một thuộc tính nào đó, chẳng hạn nam hay nữ; khu vực tư nhân hay nhà nước vấn đề đặt ra là làm thế nào để lượng hoá được những thuộc tính này. Trong phân tích hồi quy người ta sử dụng kỹ thuật gọi là kỹ thuật biến giả. Kỹ thuật này cho phép ta lượng hoá được những thuộc tính như vậy. Chẳng hạn để giải thích cho việc một số thanh niên vào trường đại học, một số khác thì không, chúng ta tạo ra biến giả mà nhận giá trị là 1 nếu thanh niên vào đại học và nhận giá trị là 0 nếu thanh niên đó không vào đại học. Chúng ta cũng sẽ chỉ ra biến giả có thể được sử dụng như thế nào trong phạm vi hồi quy để giải thích cho sự kiện là có những quan sát trong phạm trù (thuộc tính) đã cho gắn với một tập các tham số hồi quy còn các quan sát khác trong phạm trù thứ 2 (thứ 3) lại gắn với những tham số hồi quy khác. Biến giả được sử dụng trong mô hình hồi quy giống như biến số lượng thông thường. 47
Giả sử một công ty sử dụng 2 quá trình sản xuất (kí hiệu quá trình sản xuất A và quá trình sản xuất B) để sản xuất ra một loại sản phẩm. Giả sử sản phẩm thu được từ mỗi một quá trình sản xuất là đại lượng ngẫu nhiên có phân phối chuẩn và có kỳ vọng khác nhau nhưng phương sai như nhau. Chúng ta có thể biểu thị quá trình sản xuất đó như một phương trình hồi quy. YDUi 1  2 i i (4.1) trong đó Yi là sản lượng sản phẩm gắn với quá trình thứ i. Di Là biến giả nhận 1 trong 2 giá trị: Di = 1 Nếu sản lượng sản phẩm thu được từ quá trình sản xuất A = 0 Nếu sản lượng thu được từ quá trình sản xuất B. Mô hình hồi quy trên đây giống như mô hình hồi quy 2 biến mà chúng ta gặp trước đây chỉ khác là biến số lượng X được thay bằng biến giả D. Căn cứ vào mô hình này chúng ta có thể biết được sản lượng trung bình do quá trình sản xuất A có khác với sản lượng trung bình do quá trình sản xuất B tạo ra hay không? Hệ số chặn 1 của hồi quy tuyến tính do sản lượng trung bình gắn với quá trình sản xuất B, trong khi đó độ dốc 2 của đường hồi quy do sự khác nhau về sản lượng sinh ra do việc thay đổi từ quá trình sản xuất B đến quá trình sản xuất A. Điều này có thể thấy bằng 2 cách lấy giá trị kỳ vọng cả 2 vế của phương trình (4.1) ứng với Di = 0 và Di = 1: EYD(i / i 0) 1 EYD(i / i 1) 1  2 Kiểm định giả thiết H0: 2 = 0 cung cấp kiểm định về giả thiết là không có sự khác nhau về sản lượng do quá trình sản xuất A và B tạo ra. Thủ tục biến giả có thể dễ dàng mở rộng cho trường hợp có nhiều hơn 2 phạm trù. Chẳng hạn trong thí dụ ở trên ta giả thiết có 3 quá trình sản xuất khác nhau có thể sử dụng để sản xuất ra sản phẩm và người ta hy vọng giải thích cho vấn đề là sản lượng được sản xuất ra cho mỗi quá trình có thể không như nhau. Trong trường hợp này ta sẽ đưa vào 2 biến giả là D1 và D2. Chúng ta sẽ xét mô hình: YDDUi 1  2 1 i  3 2 i i (4.2) Trong đó: 1 Nếu sản lượng sản phẩm thu được từ quá trình sản xuất A D1 = 0 Nếu sản lượng sản phẩm thu được từ quá trình khác. 48
1 Nếu sản lượng sản phẩm thu được từ quá trình sản xuất B. D2 = 0 Nếu sản lượng sản phẩm thu được từ quá trình khác. Như vậy 3 quá trình sản xuất này được biểu thị dưới dạng các kết hợp sau của các giá trị của các biến giả: Quá trình sản xuất D1 D2 A 1 0 B 0 1 C 0 0 Bằng việc lấy kỳ vọng cho mỗi một trong 3 trường hợp này chúng ta có thể giải thích kết quả hồi quy: EYDD(i / i 1;2 0)  1  2 EYDD(i /1 0; 2 1)  1  3 EYDD(i /1 0; 2 0)  1 Hệ số chặn của hồi quy biểu thị giá trị kỳ vọng của sản lượng do quá trình sản xuất C tạo ra. Hệ số góc thứ nhất do sự thay đổi trung bình về sản lượng do việc chuyển từ quá trình sản xuất C sang quá trình sản xuất A và hệ số góc thứ 2 tức là 3 đo thay đổi trung bình về sản lượng khi thay đổi từ quá trình sản xuất C sang quá trình sản xuất B. Kiểm định giả thiết H0: 2 0 có nghĩa là không có sự khác nhau giữa quá trình sản xuất A và quá trình sản xuất C. Giả thiết H0: 3 0 cũng có ý nghĩa tương tự nhưng lại so sánh 2 quá trình sản xuất B và C. Chú ý: 1. Để phân biệt 2 phạm trù nam hoặc nữ hay quá trình sản xuất A hoặc B người ta dùng một biến giả. Để phân biệt 3 phạm trù người ta dùng 2 biến giả. Một cách tổng quát để phân biệt N phạm trù người ta dùng N – 1 biến giả. Số biến giả thấp hơn số phạm trù là 1 để tránh tính đa cộng tuyến hoàn hảo. Để phân biệt 3 quá trình sản xuất A, B và C ta chỉ sử dụng 2 biến giả D1 và D2. 2. Phạm trù được gán giá trị là phạm trù cơ sở. Phạm trù được gọi là cơ sở theo nghĩa việc so sánh được tiến hành với phạm trù này. Như vậy trong mô hình trên quá trình sản xuất C là phạm trù cơ sở, nghĩa là nếu ta ước lượng hồi quy (4.2) ˆ với D1 = 0; D2 = 0, thì chỉ có quá trình sản xuất C, hệ số chặn sẽ là 1 . 49
ˆ 3. Hệ số 2 gắn với biến giả D1 được gọi là hệ số chặn chênh lệch, vì nó cho biến giá trị của số hạng chặn của phạm trù nhận giá trị bằng 1 sẽ khác bao nhiêu với hệ số chặn của phạm trù cơ sở. 4.2. MÔ HÌNH HỒI QUY MỘT BIẾN LƯỢNG VÀ MỘT BIẾN CHẤT Trong mục này ta sẽ xét mô hình hồi quy chỉ có một biến lượng và một biến chất với số phạm trù nhiều hơn hoặc bằng 2. Trường hợp có nhiều biến lượng và một biến chất thì thủ tục cũng được xét tương tự như ta sẽ làm dưới đây chỉ khác là số biến lượng tăng lên. Để dễ theo dõi trong mục này ta chia ra làm 2 trường hợp: trường hợp 1 khi biến chất chỉ có hai phạm trù, trường hợp 2 khia biến chất có nhiều hơn hai phạm trù. 4.2.1. Trường hợp biến chất chỉ có 2 phạm trù Trong trường hợp này, mô hình hồi quy sẽ đơn giản vì theo chú ý ở trên khi biến chất có 2 phạm trù thì chỉ cần đặt 1 biến giả là đủ. Thí dụ ta xét mô hình sau: YDUi 1  2 i i (4.3) Trong đó: Yi: là tiền lương hàng tháng của một công nhân cơ khí i. Xi: Bậc thợ của công nhân i. 1 Nếu công nhân i làm việc trong khu vực tư nhân. Di = 0 Nếu công nhân i làm việc trong khu vực quốc doanh. Mô hình có một biến lượng đó là bậc thợ của người công nhân và một biến chất chỉ rõ công nhân đó làm việc thuộc khu vực nào. Nếu ta giả thiết E(Ui) = 0 thì (4.3) có thể cho ta thấy liệu tiền lương của người công nhân làm việc ở khu vực tư nhân có khác tiền lương của người công nhân làm việc ở khu vực nhà nước không nếu các điều kiện khác không thay đổi. Bằng cách lấy kỳ vọng cả 2 vế (4.3) ta được: Tiền lương trung bình của người công nhân cơ khí làm việc trong khu vực nhà nước: EYXDX(i / i , i 0) 1  3 i (4.3.1) Tiền lương trung bình của người công nhân cơ khí làm việc trong khu vực tư nhân: EYXDX(i / i , i 1) (1  2 )  3 i (4.3.2) Mô hình này giả thiết rằng mức tiền lương trung bình của người công nhân ngành cơ khí làm việc ở khu vực tư nhân khác với mức tiền lương trung bình của công nhân cơ khí làm việc ở khu vực nhà nước nhưng tốc độ tăng lương trung bình theo bậc thì như nhau. 50
Nếu giả thiết về tốc độ đã nêu trên là có giá trị thì kiểm định giả thiết rằng 2 hồi quy (4.3.1) và (4.3.2) có cùng hệ số chặn có thể tiến hành dễ dàng bằng cách ước lượng ˆ hồi quy (4.3) và chú ý rằng ý nghĩa về mặt thống kê của 2 đã được ước lượng trên cơ ˆ sở của kiểm định t. Nếu t chỉ ra rằng 2 là có ý nghĩa về mặt thống kê thì chúng ta từ bỏ giả thiết H0 là tiền lương của công nhân cơ khí ở 2 khu vực kinh tế là như nhau. 4.2.2. Trường hợp biến chất có nhiều hơn 2 phạm trù Khi biến chất có nhiều hơn 2 phạm trù thì vấn đề cũng không phức tạp hơn nhiều bởi vì theo chú ý ở trên nếu số phạm trù là N thì ta đưa vào mô hình hồi quy N – 1 biến giả làm biến giải thích. Thí dụ căn cứ vào số liệu chéo người ta muốn hồi quy thu nhập hàng năm của một cán bộ giảng dạy đại học đối với tuổi nghề giảng dạy và vùng mà anh ta giảng dạy. Vì biến vùng là biến chất, trên thực tế chúng ta có thể căn cứ vào 3 vùng khác nhau trong cả nước là Bắc, Trung, Nam. Như vậy trong trường hợp này, biến chất của ta có 3 phạm trù, theo chú ý ở trên ta sẽ đưa vào mô hình hồi quy 2 biến. Giả sử rằng cả 3 hồi quy có cùng độ dốc nhưng khác nhau hệ số chặn, chúng ta có mô hình sau: YDDXUi 1  2 1 i  3 2 i  4 i i (4.4) Trong đó: Yi là thu nhập hàng năm của một giảng viên đại học Xi: Tuổi nghề của giảng viên. 1 Nếu giảng viên i thuộc một trường đại học ở miền Bắc D = 1 0 Nếu giảng viên thuộc một trường không phải ở miền Bắc. 1 Nếu giảng viên i thuộc một trường đại học miền Nam D = 2 0 Nếu giảng viên thuộc một trường không phải ở miền Nam. Như vậy, ta coi giảng viên thuộc một trường đại học ở miền Trung là phạm trù cơ sở, hệ số chặn chênh lệch 2 và 3 cho chúng ta biết chặn của các phạm trù khác với chặn của phạm trù cơ sở bao nhiêu. Chúng ta có thể tính được nếu giả thiết E(Ui) = 0 thì từ (4.4) ta có: Thu nhập trung bình của một cán bộ giảng dạy ở một trường đại học ở miền Trung: EYDDXX(i /1 0, 2 0, i )  1  4 i (4.4.1) Thu nhập trung bình của một cán bộ giảng dạy ở một trường đại học miền Bắc: EYDDXX(i /1 1, 2 0, i ) ( 1  2 )  4 i (4.4.2) Thu nhập trung bình của một cán bộ giảng dạy ở trường đại học miền Nam: 51
EYDDXX(i /1 0, 2 1, i ) ( 1  3 )  4 i (4.4.3) Giả sử 1 > 0 ta có minh hoạ sau: Miền Nam Miền Bắc Miền Trung 3 = 2 1 Hình 4.3. Thu nhập của một cán bộ giảng dạy đại học Sau khi ước lượng hồi quy (4.4) chúng ta dễ thấy rằng liệu có sự khác nhau về thu nhập của cán bộ giảng dạy ở các miền khác nhau của đất nước không. 4.3. HỒI QUY TUYẾN TÍNH TỪNG KHÚC Hầu hết các mô hình kinh tế lượng mà chúng ta nghiên cứu cho đến nay đều là các mô hình liên tục theo nghĩa là cả biến độc lập và biến phụ thuộc lấy một số lớn giá trị và sự thay đổi nhỏ trong một biến này có ảnh hưởng đo được đến biến khác. Điều này đã được cải biên khi chúng ta sử dụng thủ tục biến giả để giải thích cho sự khác nhau về hệ số chặn hay độ dốc hoặc cả hệ số chặn và độ dốc. Bây giờ chúng ta mở rộng sự phân tích cho phép thay đổi độ dốc, nhưng hạn chế rằng đoạn thẳng được ước lượng vẫn là liên tục. Thí dụ chỉ ra ở hình 4.5, mô hình đúng là một mô hình liên tục hay có sự thay đổi về kết cấu. Yi X’ X i Hình 4.5. Mô hình hồi quy tuyến tính từng khúc. 52
Nếu chúng ta xem xét tiêu dùng của nước ta trước và sau khi chuyển đổi thì chúng ta thấy mô hình có dạng như hình 4.5. Ở đây cần nhấn mạnh rằng mô hình đang xem xét khác với các mô hình biến giả đã được trình bày trong mục trước bởi vì chúng ta giả thiết rằng không có sự mất liên tục hoặc sự dịch chuyển trong mức tiêu dùng từ năm này qua năm khác. Mô hình như vậy chúng ta gọi là mô hình tuyến tính từng khúc, ở hình 4.5 gồm 2 đoạn. Chúng ta sẽ thấy mô hình có thể ước lượng được bằng phương pháp bình phương nhỏ nhất với việc sử dụng biến giả thích hợp. Để ước lượng mô hình đã cho trong hình 4.5, chúng ta giả thiết rằng tiêu dùng nước ta trong 2 thời kỳ trước và sau chuyển đổi khác nhau. Gọi năm chuyển đổi kinh tế (từ cơ chế kế hoạch hoá sang cơ chế thị trường ) là t0. Ta xét mô hình sau: YXXXDU    () (4.13) i1 2 t 3 t t0 t t Yt: Tiêu dùng Xt: Thu nhập X : Thu nhập trong năm bắt đầu chuyển giai đoạn từ cơ chế có kế t0 hoạch sang cơ chế thị trường. 1 Nếu t > t D = 0 t 0 Nếu là giá trị khác của t Với giả thiết E(Ut) = 0 chúng ta thấy ngay rằng: trung bình của tiêu dùng trong những năm trước khi chuyển đổi kinh tế là: EYDXX(i / t 0, t ) 1  2 t (4.14) và với Dt = 1 thì ta có: EYDXXX( / 1, )   (   ) (4.15) i t t1 3 t0 2 3 t Vậy 2 cho độ dốc của đường hồi quy trước khi chuyển đổi. ()2  3 cho độ dốc của đường hồi quy sau khi chuyển đổi. Chú ý rằng không có sự gián đoạn vì: EYXXX()()       t01 2 t 0 1 3 t 0 2 3 t 0   X 1 2 t0 Ta cũng chú ý rằng khi 3 = 0 thì phương trình (4.13) sẽ trở thành phương trình của đường thẳng, vậy kiểm định 3 = 0 sẽ cung cấp cho ta kiểm định đơn giản về sự thay đổi cấu trúc. 53
Nhưng vấn đề sẽ như thế nào nếu mô hình có nhiều thay đổi về cấu trúc ứng với t0 và t1 thì mô hình thích hợp sẽ là: YXXXDXXDU   ()()  t1 2 t 3 t t0 1 4 t t 1 2 t Trong đó: 1 Nếu t > t D = 1 2 0 Nếu t nhận giá trị khác 1 Nếu t > t0 D4 = 0 Nếu t nhận giá trị khác. Vậy phương trình cho mỗi một trong 3 giai đoạn là như sau: 1  2 X t với 0 t 1 3t0 4 t 1 2 3 4 t 1 Câu hỏi chương 4 1. Trình bày mô hình hồi quy với biến giả trong trường hợp mô hình chỉ có một biến chất và biến chất có 2 phạm trù, biến chất có nhiều hơn 2 phạm trù. 2. Trình bày mô hình hồi quy với biến giả trong trường hợp có một biến lượng và một biến chất. Trong đó biến chất có 2 phạm trù, biến chất có nhiều hơn 2 phạm trù. 3. Trình bày mô hình hồi quy với biến giả có một biến lượng và 2 biến chất, mô hình biến giả có kết hợp hai hồi quy, mô hình biến giả trong phân tích mùa. 4. Trình bày mô hình hồi quy tuyến tính từng khúc trường hợp chỉ có một thay đổi về cấu trúc (tức là chỉ có một năm chuyển đổi). 5. Giả thiết rằng Thu nhập hàng năm của một công nhân dệt may phụ thuộc vào Tay nghề, Khu vực làm việc (nhà nước và tư nhân) và Giới tính (nam và nữ). Khu vực nhà nước và giới tính nữ là những phạm trù cơ sở. Giữa 2 biến giả khu vực làm việc và giới tính có sự tương tác lẫn nhau. a) Thiết lập mô hình. b) Nếu giả sử thêm rằng thu nhập hàng năm của công nhân dệt may còn phụ thuộc vào đặc tính Vùng (Bắc, Trung, Nam) thì mô hình mới sẽ như thế nào? (miền Trung là phạm trù cơ sở). 54