Toán học - Phần: Xác suất thống kê

pdf 31 trang vanle 4170
Bạn đang xem 20 trang mẫu của tài liệu "Toán học - Phần: Xác suất thống kê", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdftoan_hoc_phan_xac_suat_thong_ke.pdf

Nội dung text: Toán học - Phần: Xác suất thống kê

  1. Xỏc suất thống kờ
  2. Thống kê toán 1 Mẫu ngẫu nhiên v phân bố mẫu Xét một mẫu ngẫu nhiên (X1,X2, , Xn) t−ơng ứng với đại l−ợng ngẫu nhiên X E(X) = m, D(X) = σ2. Gọi ξ l đại l−ợng ngẫu nhiên: 1 P (ξ = x ) = với mọi i = 1, 2, , n. i n Khi đó E(ξ),D(ξ) đ−ợc gọi l các đặc tr−ng mẫu. Ng−ời ta kí hiệu X = E(ξ) l kì vọng mẫu v S2 = D(ξ) l ph−ơng sai mẫu. Hiển nhiên n X + X + + X 1 X = 1 2 n = X n n i i=1 v n n 1 1 2 S2 = (X X)2 = X2 X . n i − n i − i=1 i=1 n n 1 1 σ2 E(X) = E(X ) = m, D(X) = D(X ) = . n i n2 i n i=1 i=1 Để tính kì vọng của ph−ơng sai mẫu, ta sử dụng n n 1 1 2 (X X)2 = X2 X . n i − n i − i=1 i=1 Suy ra n n 1 1 2 E(S2) = E (X X)2 = E(X2) E(X ) = n i − n i − i=1 i=1 n 1 σ2 n 1 = (m2 + σ2) m2 + = − σ2. n − n n i=1 Kí hiệu n 2 n 2 1 2 S∗ = S = (X X) . n 1 n 1 i − i=1 − − Khi đó 2 n n 1 2 2 E(S∗ ) = − σ = σ . n 1 n − 2 S∗ đ−ợc gọi l l ph−ơng sai mẫu điều chỉnh. 2 2 E(X) = m = E(X),E(S∗ ) = σ = D(X), Nhận xét 4 1. X không những hội tụ theo xác suất m hội tụ hầu chắc chắn tới m = E(X). 2 2 2 2. S ,S∗ hội tụ hầu chắc chắn (suy ra cũng hội tụ theo xác suất) tới σ khi n . → ∞ 23
  3. 2 Các hm phân bố th−ờng gặp trong thống kê Hm Gamma, Beta v tính chất hm Gamma, Beta A. Tích phân sau hội tụ với mọi x > 0, y > 0 + 1 ∞ t x 1 x 1 y 1 Γ(x) = e− t − dt, B(x, y) = t − (1 t) − dt. − 0 0 Tách Γ(x) thnh hai tích phân + 1 + ∞ t x 1 t x 1 ∞ t x 1 Γ(x) = e− t − dt = e− t − dt + e− t − dt = I1 + I2. 0 0 1 t x 1 1 Tích phân I1 hội tụ vì với 0 0, y > 0. 1 x 1 y 1 B(x, y) = t − (1 t) − dt. − 0 Tách Γ(x) thnh hai tích phân 1 c 1 x 1 y 1 x 1 y 1 x 1 y 1 B(x, y) = t − (1 t) − dt = t − (1 t) − dt + t − (1 t) − dt. − − − 0 0 c 1. Γ(1) = 1. 2. Γ(x + 1) = xΓ(x). Thật vậy với x > 0, xét + + + ∞ t x ∞ x t x t + ∞ x 1 t Γ(x + 1) = e− t dt = t de− = t e− ∞ + xt − e− dt = xΓ(x) − − |0 0 0 0 Γ(x+1) 3. limx 0+ Γ(x) = limx 0+ = + . → → x ∞ 4. Với x k > 0, k l số tự nhiên bất kì − Γ(x) = (x 1)(x 2) (x k)Γ(x k) suy ra Γ(n) = (n 1)! − − − − ⇒ − 1 5. Chú ý rằng Γ( 2 ) = √π, suy ra 1 1 3 (2n 1) (2n 1)!! Γ(n + ) = − √π = − √π 2 2n 2n 6. Ta công nhận kết quả sau đúng với mọi số thực x > 0, y > 0 Γ(x)Γ(y) B(x, y) = . Γ(x + y) Phân bố Gamma, Beta 1. Nếu X N(m , σ2), i = 1, 2, , n độc lập, khi đó trung bình mẫu i ∈ i i X + X + + X X = 1 2 n N(m, σ2) n ∈ trong đó m + m + + m σ2 + σ2 + + σ2 m = 1 2 n , σ2 = 1 2 n . n i n 24
  4. 2. Phân bố của Y = X2 với X N(m, σ2). Hm mật độ của Y ∈ (y+m2) √y √y 1 − m m g(y) = (2σ 2πy)− e 2σ2 e σ2 + e− σ2 . Nếu m = 0 y 1 1 − − g(y) = e 2σ2 y 2 . 2σ√2π 2 αy p 1 Phân bố của Y = X l tr−ờng hợp đặc biệt của phân bố Gamma: G(y, α, p) = const e− y − . 3. Phân bố Gamma l phân bố có hm mật độ p α αx p 1 G(x, α, p) = e− x − , α > 0, p > 0, x > 0. Γ(p) Mô men cấp k của phân bố Gamma + p + p ∞ k α αx p 1 ∞ α αx k+p 1 Γ(p + k) m = x e− x − dx = e− x − dx = . k Γ(p) Γ(p) αkΓ(p) 0 0 Vì vậy kì vọng v ph−ơng sai của phân bố Gamma lần l−ợt bằng p Γ(p + 2) p2 p m = , σ2 = m m2 = = . (1) α 2 − 1 α2Γ(p) − α2 α2 Bi tập Giả sử X phân bố đều trên đoạn [0, 1]. Chứng minh rằng Y = ln X có phân bố Gamma với các tham số α = 1, p = 1. − 4. Phân bố Beta l phân bố có hm mật độ 1 α 1 β 1 Γ(α + β) α 1 β 1 B(x, α, β) = [B(α, β)]− x − (1 x) − = x − (1 x) − , 0 < x < 1. − Γ(α)Γ(β) − Đặc biệt B(x, 1, 1) = x l hm mật độ của phân bố đều trên đoạn [0, 1]. B(α+k,β) Bi tập 1. Hy tính các mô men cấp k của phân bố Beta. ( B(α,β) ). α 2 αβ Từ đó suy ra kì vọng v ph−ơng sai của nó. (m = α+β , σ = (α+β)2(α+β+1) ). Bi tập 2. Giả sử X v Y độc lập có phân bố Beta với các tham số (α1, β1) v (α2, β2) t−ơng ứng. Chứng minh rằng XY cũng có có phân bố Beta với các tham số (α2, β1 + β2), nếu α1 = α2 + β2. 1 H−ớng dẫn: Xét phép biến đổi u = xy, v = x. Khi đó Jacôbiên bằng v . Tích phân hm mật độ chung của (U, V ) theo v từ u đến 1 ta đ−ợc mật độ của XY . Bi tập 3. Giả sử X G(α , 1) v Y G(α , 1) độc lập có phân bố Gamma. Khi đó u = X có phân bố ∈ 1 ∈ 2 X+Y Beta với các tham số (α1, α2). H−ớng dẫn: Xét phép biến đổi u = x , v = y. Tích phân hm mật độ chung theo v từ 0 đến . x+y ∞ X Định lí 9 Nếu X G(α, p1),Y G(α, p2) độc lập, khi đó r = X + Y v f = Y cũng độc lập. Ngoi ra r G(α, p + p ) ∈v hm mật độ∈ của f bằng ∈ 1 2 p1 1 Γ(p1 + p2) f − p +p . Γ(p1)Γ(p2) (1 + f) 1 2 Chứng minh. Hm mật độ của (X, Y ) bằng αx αy p 1 p 1 c e− − x 1− y 2− . 2 2 π Đổi biến x = r sin ϕ, y = r cos ϕ, 0 < r < + , 0 < ϕ < 2 , khi đó Jacobien của (x, y) bằng J(r, ϕ) = r sin 2ϕ. Mật độ của (r, ϕ) bằng ∞ αr p +p 1 2p 1 2p 1 c′ e− r 1 2− (sin ϕ) 1− (cos ϕ) 2− , (2) X 2 điều đó chứng tỏ r v ϕ độc lập. Suy ra r = X + Y v f = Y = tg ϕ cũng độc lập. Từ biểu thức (2) hiển nhiên r G(α, p + p ). ∈ 1 2 Để xác định hm mật độ của f, ta sử dụng phép đổi biến ϕ = arctg√f, ta thu đ−ợc kết quả p1 1 Γ(p1 + p2) f − p +p . Γ(p1)Γ(p2) (1 + f) 1 2 p1 1 1 1 p2 1 p1 1 f − Chú ý rằng với phép biến đổi u = , khi đó u − (1 u) − du = ∞ p +p df. 1+f 0 − 0 (1+f) 1 2 25
  5. 1. Phân bố χ2. 2 2 2 Nếu Xi N(0, 1), i = 1, 2, , n độc lập, khi đó phân bố của X1 + X2 + + Xn đ−ợc gọi l phân bố χ2 với∈n bậc tự do. Ng−ời ta th−ờng kí hiệu χ2(n) l lớp các đại l−ợng ngẫu nhiên có phân bố χ2 với 1 n n bậc tự do. Đây l tr−ờng hợp đặc biệt của phân bố Gamma (α = 2 , p = 2 ) với hm mật độ 1 n 1 x n 2 2 1 G(x, , ) = n e− x − , x > 0. 2 n 2 2 2 Γ( 2 ) Do đẳng thức (1), kì vọng v ph−ơng sai của phân bố χ2(n) lần l−ợt bằng m = n, σ2 = 2n. 2. Phân bố F . Nếu X χ2(m),X χ2(n) độc lập, khi đó phân bố của 1 ∈ 2 ∈ 1 m X1 F = 1 n X2 đ−ợc gọi l phân bố F với (m, n) bậc tự do. Mật độ của X1 bằng X2 m+n m 1 Γ( 2 ) f 2 − m n m+n . Γ( 2 )Γ( 2 ) (1 + f) 2 Mật độ của phân bố F với (m, n) bậc tự do bằng m m+n m 1 m 2 Γ( ) x 2 2 − . m n mx m+n n Γ( )Γ( ) (1 + ) 2 2 2 n 3. Phân bố Student (hay còn gọi l phân bố t). Nếu X χ2(n) v Y N(0, 1) độc lập, khi đó phân bố của ∈ ∈ Y T = √n √X đ−ợc gọi l phân bố T (hay phân bố Student) với n bậc tự do. Phân bố đồng thời của (Y, X) bằng 2 y x n 1 c e− 2 e− 2 x 2 − . 2 2 π π Đổi biến y = r sin ϕ, x = r cos ϕ, 0 < r < + , 2 < ϕ < 2 , khi đó Jacobien của (x, y) bằng J(r, ϕ) = 2r2 cos ϕ. Mật độ của (r, ϕ) bằng ∞ − 2 r n n 1 c′ e− 2 r (cos ϕ) − , n 1 1 n 1 điều đó chứng tỏ r v ϕ độc lập. Chú ý rằng hệ số c của c(cos ϕ) − bằng c = [B( 2 , 2 )]− . Để xác định hm mật độ của T , ta sử dụng phép đổi biến √ny t t = = √ntgϕ hay ϕ = arctg , √x √n ta đ−ợc hm mật độ của phân bố T với n bậc tự do n+1 n+1 1 n+1 1 n − t2 − 2 Γ( ) t2 − 2 S(t, n) = √nB , 1 + = 2 1 + . 2 2 n √nΓ( n )Γ( 1 ) n ã 2 2 Nếu X χ2(n) v Y N(m, σ2) độc lập, khi đó σ2 ∈ ∈ Y m T = − √n √X có phân bố Student với n bậc tự do. Kí hiệu S(n) l lớp các đại l−ợng ngẫu nhiên có phân bố Student với n bậc tự do. 26
  6. 4. Phân bố của trung bình mẫu v ph−ơng sai mẫu. Nếu X N(m, σ2), i = 1, 2, , n độc lập, khi đó i ∈ 2 X1 + X2 + + Xn σ n 2 n 1 2 2 X = N m, v S = − S∗ χ (n 1). n ∈ n σ2 σ2 ∈ − Thật vậy, kí hiệu X = (X , , X )T v xét phép biến đổi trực giao Y = AX với ( 1 , 1 , , 1 ) l 1 n √n √n √n hng thứ nhất của A. Khi đó (a) Y1 = X√n 2 2 2 2 2 2 2 2 2 (b) Y + + Y = X + + X = (X X) + nX Y + + Y = (n 1)S∗ 1 n 1 n i − ⇔ 2 n − m A X m Y (c) Với véc tơ = (m, m, , m), ta có( ) = (m√n, 0, , 0) = (Y1 m√n, Y2, , Yn). Suy ra − − − (Y m√n)2 + Y + + Y 2 = (X m)2 + (X m)2 + + (X m)2. 1 − 2 n 1 − 2 − n − Biết hm mật độ của X bằng (x m)2 i− c e− 2σ2 . Vậy mật độ của Y bằng (y m√n)2+y + +y2 1− 2 n c e− 2σ2 . Điều đó chứng tỏ Y = X√n N(m√n, σ2),Y N(0, σ2), i = 2, , n độc lập v 1 ∈ i ∈ 2 2 2 (n 1)S∗ Y + + Y − = 2 n χ2(n 1). σ2 σ2 ∈ − Bây giờ ta suy ra hệ quả quan trọng: T có phân bố Student với n 1 bậc tự do, với − X m X m T = − √n = − √n 1. S∗ S − Thật vậy T bằng th−ơng của 2 đại l−ợng ngẫu nhiên X m S√n T = √n 1 − √n : − σ σ 2 2 X m nS (n 1)S∗ 2 trong đó − √n N(0, 1) v 2 = − 2 χ (n 1). σ ∈ σ σ ∈ − 27
  7. 3 Khoảng tin cậy cho giá trị trung bình (a) Mẫu có phân bố chuẩn với ph−ơng sai σ2 đ cho. Khoảng tin cậy cho giá trị trung bình, với độ tin cậy 1 α − σ σ X u χα) = α, (χ2l đại l−ợng ngẫu nhiên có phân bố χ2 với (n 1) bậc tự do). − 28
  8. 6 Khoảng tin cậy cho hiệu các giá trị trung bình của phân bố chuẩn 6.1 Tr−ờng hợp ph−ơng sai đ biết 2 Gọi (X1,X2, , Xm) l mẫu ngẫu nhiên t−ơng ứng với đại l−ợng ngẫu nhiên X N(m1, σ1), (Y1,Y2, , Yn) 2 ∈ l mẫu ngẫu nhiên t−ơng ứng với đại l−ợng ngẫu nhiên Y N(m2, σ2). Các tham số m1, m2 ch−a biết v 2 2 ∈ σ1 , σ2 l các tham số đ biết. Giả thiết tiếp các đại l−ợng ngẫu nhiên X1,X2, , Xm,Y1,Y2, , Yn độc lập nhau. Dễ dng nhận thấy E(X Y ) = m m − 1 − 2 σ2 σ2 D(X Y ) = D(X) + D(Y ) = 1 + 2 − m n Suy ra (X Y ) (m m ) u = − − 1 − 2 2 2 σ1 σ2 m + n có phân bố chuẩn, thuộc lớp N(0,1). Khoảng tin cậy cho hiệu các giá trị trung bình m m với độ tin cậy 1 α 1 − 2 − 2 2 2 2 σ1 σ2 σ1 σ2 (X Y ) uα + < m1 m2 < (X Y ) + uα + , − − m n − − m n trong đó u đ−ợc xác định từ hệ thức P (( u u ) = α, u N(0, 1). α | | ≥ α ∈ Nếu n1, n2 đủ lớn ( 30), ta xấp xỉ công thức trên cho hiệu các giá trị trung bình m m cả≥ trong tr−ờng hợp các mẫu đ cho không tuân theo 1 − 2 phân bố chuẩn, sử dụng S1∗ v S2∗ thay cho σ1, σ2 t−ơng ứng trong công thức trên. 6.2 Tr−ờng hợp các ph−ơng sai ch−a biết v bằng nhau 2 Gọi (X1,X2, , Xm) l mẫu ngẫu nhiên t−ơng ứng với đại l−ợng ngẫu nhiên X N(m1, σ ), (Y1,Y2, , Yn) 2 ∈ l mẫu ngẫu nhiên t−ơng ứng với đại l−ợng ngẫu nhiên Y N(m2, σ ). (Chúng có ph−ơng sai bằng nhau). 2 ∈ Các tham số m1, m2, σ ch−a biết v giả thiết rằng các đại l−ợng ngẫu nhiên X1,X2, , Xm,Y1,Y2, , Yn độc lập nhau. Dễ dng nhận thấy E(X Y ) = m m − 1 − 2 2 σ2 σ2 m + n D(X Y ) = D(X) + D(Y ) = + = σ − m n mn Suy ra (X Y ) (m m ) u = − − 1 − 2 m+n σ mn có phân bố chuẩn, thuộc lớp N(0,1). Dễ dng chứng minh đ−ợc 2 2 mSX + nSY m + n 2 − 29
  9. l −ớc l−ợng không chệch của σ2. Ng−ời ta chứng minh đ−ợc rằng (thay σ2 trong thống kê trên bằng −ớc l−ợng của nó) (X Y ) (m m ) mn(m + n 2) (X Y ) (m m ) t = − − 1 − 2 = − − − 1 − 2 mS2 +nS2 m + n 2 2 X Y m+n mSX + nSY m+n 2 mn − có phân bố Student với m + n 2 bậc tự do. − Đặc biệt khi hai giá trị trung bình bằng nhau m1 = m2 mn(m + n 2) X Y t = − − m + n 2 2 mSX + nSY cũng có phân bố Student với m + n 2 bậc tự do. − Khoảng tin cậy cho hiệu các giá trị trung bình m m với độ tin cậy 1 α bằng 1 − 2 − m 2 n 2 Mẫu Xi i=1 N(m1, σ ) Yi i=1 N(m2, σ ), có phân bố chuẩn với ph−ơng{ sai} σ2 ch−a∈ biết. Giả thiết{ } các phần∈ tử mẫu đó độc lập nhau. m + n m + n (X Y ) S.tα u , σ | qs| α trong đó u đ−ợc xác định từ hệ thức P ( u u ) = α, u N(0, 1). α | | ≥ α ∈ Bi toán 2 v quy tắc kiểm định Mẫu có phân bố chuẩn với ph−ơng sai σ2 đ cho. Kiểm định giả thiết về kì vọng mẫu, mức ý nghĩa α (H): m = m0, với đối thiết (K): m > m0. X m Quy tắc: Bác bỏ (H) nếu − 0 √n = u > u , σ qs α trong đó u đ−ợc xác định từ hệ thức P ((u u ) = α, u N(0, 1). α ≥ α ∈ 30
  10. Mẫu có phân bố chuẩn với ph−ơng sai σ2 đ cho. Kiểm định giả thiết về kì vọng mẫu, mức ý nghĩa α (H): m  m0, với đối thiết (K): m > m0. X m Quy tắc: Bác bỏ (H) nếu − 0 √n = u > u , σ qs α trong đó u đ−ợc xác định từ hệ thức P ((u u ) = α, u N(0, 1). α ≥ α ∈ Mẫu có phân bố chuẩn với ph−ơng sai σ2 đ cho. Kiểm định giả thiết về kì vọng mẫu, mức ý nghĩa α (H): m = m0 hoặc (H): m  m0 với đối thiết (K): m > m0. X m Quy tắc: Bác bỏ (H) nếu − 0 √n = u > u , σ qs α trong đó u đ−ợc xác định từ hệ thức P ((u u ) = α, u N(0, 1). α ≥ α ∈ Hon ton t−ơng tự, chúng ta sẽ xét bi toán kiểm định 1 phía nữa Bi toán 3 Mẫu có phân bố chuẩn với ph−ơng sai σ2 đ cho. Kiểm định giả thiết về kì vọng mẫu, mức ý nghĩa α (H): m = m hoặc (H): m m 0 ≥ 0 với đối thiết (K): m < m0. X m Quy tắc: Bác bỏ (H) nếu − 0 √n = u < u , σ qs − α trong đó u đ−ợc xác định từ hệ thức P ((u u ) = α, u N(0, 1). α ≥ α ∈ 31
  11. 8 Kiểm định giả thiết về giá trị trung bình (tr−ờng hợp σ2 ch−a biết) Mẫu có phân bố chuẩn với ph−ơng sai σ2 ch−a biết. Kiểm định giả thiết về kì vọng mẫu, mức ý nghĩa α (a) Bi toán 1 (H): m = m0 với đối thiết (K): m = m . 0 X m Quy tắc: Bác bỏ (H) nếu − 0 √n > t , S α ∗ trong đó t đ−ợc xác định từ hệ thức P ( t t ) = α α | | ≥ α (t có phân bố Student với n 1 bậc tự do.) − (b) Bi toán 2 (H): m = m0 hoặc (H): m  m0 với đối thiết (K): m > m0. X m0 Quy tắc: Bác bỏ (H) nếu tqs = − √n > tα, S∗ trong đó t đ−ợc xác định từ hệ thức P (t t ) = α α ≥ α (t có phân bố Student với n 1 bậc tự do.) − (c) Bi toán 3 (H): m = m hoặc (H): m m 0 ≥ 0 với đối thiết (K): m < m0. X m0 Quy tắc: Bác bỏ (H) nếu tqs = − √n < tα, S∗ − trong đó t đ−ợc xác định từ hệ thức P (t t ) = α α ≥ α (t có phân bố Student với n 1 bậc tự do.) − 32
  12. 9 Kiểm định giả thiết về sự bằng nhau của các giá trị trung bình 9.1 Tr−ờng hợp ph−ơng sai đ biết m 2 n 2 Mẫu Xi i=1 N(m1, σ1) Yi i=1 N(m2, σ2), có phân bố chuẩn với { } 2 ∈2 { } ∈ ph−ơng sai σ1, σ2 đ biết. Kiểm định giả thiết về kì vọng mẫu, mức ý nghĩa α (a) Bi toán 1 (H): m1 = m2 với đối thiết (K): m = m . 1 2 X Y Quy tắc: Bác bỏ (H) nếu − > uα, σ2 σ2 1 + 2 m n trong đó u đ−ợc xác định từ hệ thức P ((u u ) = α, u N(0, 1). α | | ≥ α ∈ (b) Bi toán 2 (H): m1 = m2 hoặc (H): m1  m2 với đối thiết (K): m1 > m2. X Y Quy tắc: Bác bỏ (H) nếu − > uα, 2 2 σ1 σ2 m + n trong đó u đ−ợc xác định từ hệ thức P ((u u ) = α, u N(0, 1). α ≥ α ∈ (c) Bi toán 3 (H): m = m hoặc (H): m m 1 2 1 ≥ 2 với đối thiết (K): m1 30), một cách xấp xỉ khá tốt l áp dụng quy tắc nêu trên để kiểm định giả thiết không, kể cả tr−ờng hợp 2 2 phân bố mẫu không có phân bố chuẩn, thay các ph−ơng sai σ1, σ2 trong 2 2 thống kê u bằng các ph−ơng sai mẫu điều chỉnh SX∗ v SY∗ . 33
  13. 9.2 Tr−ờng hợp các ph−ơng sai ch−a biết v bằng nhau m 2 n 2 Mẫu Xi i=1 N(m1, σ ) Yi i=1 N(m2, σ ), có phân bố chuẩn với ph−ơng{ sai} σ2 ch−a∈ biết. Kiểm{ định} giả∈ thiết về kì vọng mẫu, mức ý nghĩa α (a) Bi toán 1 (H): m1 = m2 với đối thiết (K): m = m . 1 2 mn(m + n 2) X Y Quy tắc: Bác bỏ (H) nếu − − > tα, m + n mS2 + nS2 X Y trong đó t đ−ợc xác định từ hệ thức P (t t ) = α α | | ≥ α (t có phân bố Student với m + n 2 bậc tự do.) − (b) Bi toán 2 (H): m1 = m2 hoặc (H): m1  m2 với đối thiết (K): m1 > m2. mn(m + n 2) X Y Quy tắc: Bác bỏ (H) nếu − − > t , m + n 2 2 α mSX + nSY trong đó tα đ−ợc xác định từ hệ thức P(t tα) = α ≥ (t có phân bố Student với m + n 2 bậc tự do.) − (c) Bi toán 3 (H): m = m hoặc (H): m m 1 2 1 ≥ 2 với đối thiết (K): m1 < m2. mn(m + n 2) X Y Quy tắc: Bác bỏ (H) nếu − − < t , m + n 2 2 − α mSX + nSY trong đó tα đ−ợc xác định từ hệ thức P(t tα) = α ≥ (t có phân bố Student với m + n 2 bậc tự do.) − 34
  14. 10 Kiểm định giả thiết về sự bằng nhau của các ph−ơng sai m 2 n 2 Giả sử Xi i=1 N(m1, σX ) Yi i=1 N(m2, σY ) l các mẫu hon ton độc lập,{ có} phân∈ bố chuẩn. Kiểm{ định} giả∈ thiết về các ph−ơng sai, với mức ý 2 2 nghĩa α. Ta sắp xếp sao cho SX∗ > SY∗ (a) Bi toán 1 2 2 (H): σX = σY với đối thiết (K): σ2 = σ2 . X Y 2 SX∗ Quy tắc: Bác bỏ (H) nếu 2 > Fα/2, SY∗ α trong đó F đ−ợc xác định từ hệ thức P(F F ) = α/2 ≥ α/2 2 (F l đại l−ợng ngẫu nhiên phân bố F với m 1, n 1 bậc tự do.) − − (b) Bi toán 2 2 2 2 2 (H): σX = σY hoặc (H): σX  σY với đối thiết 2 2 (K): σX > σY . 2 SX∗ Quy tắc: Bác bỏ (H) nếu 2 > Fα, SY∗ trong đó F đ−ợc xác định từ hệ thức P(F F ) = α α ≥ α (F l đại l−ợng ngẫu nhiên phân bố F với m 1, n 1 bậc tự do.) − − 11 Kiểm định giả thiết về xác suất của biến cố ngẫu nhiên Giả sửA l biến cố ngẫu nhiên có xác suất P (A) = p ch−a biết. Ta sử dụng −ớc l−ợng X + X + + X p = X = 1 2 n n trong đó Xi bằng 1 hoặc 0 tùy theo biến cố A xảy ra hoặc không xảy ra ở phép thử ngẫu nhiên thứ i, i = 1, 2, , n. (p thực chất l tần suất xuất hiện của biến cố A). Khi đó np có phân bố nhị thức với E(np) = np, D(np) = npq, q = 1 p − với mức ý nghĩa α cho tr−ớc Ta đ biết, theo định lí giới hạn trung tâm np np p p − = √n − √npq √pq có phân bố xấp xỉ chuẩn ( N(0, 1)) khi n đủ lớn. Vì vậy sử dụng thống kê ≈ p p0 u = uqs = √n − , p (1 p ) 0 − 0 u có phân bố xấp xỉ chuẩn N(0,1), khi giả thiết (H): p = p0 đúng. 35
  15. Kiểm định giả thiết về xác suất của biến cố ngẫu nhiên. Giả thiết kích th−ớc mẫu n đủ lớn (n 40). Kiểm định giả thiết về xác suất, mức ý nghĩa α ≥ (a) Bi toán 1 (H): p = p0 với đối thiết (K): p = p . 0 p p0 Quy tắc: Bác bỏ (H) nếu √n − > uα, p0(1 p0) − trong đó u đ−ợc xác định từ hệ thức P ( u u ) = α α | | ≥ α (u có phân bố chuẩn u N(0, 1).) ∈ (b) Bi toán 2 (H): p = p0 hoặc (H): p  p0 với đối thiết (K): p > p0. p p0 Quy tắc: Bác bỏ (H) nếu √n − > uα, p (1 p ) 0 − 0 trong đó uα đ−ợc xác định từ hệ thức P (u uα) = α ≥ (u có phân bố chuẩn u N(0, 1).) ∈ (c) Bi toán 3 (H): p = p hoặc (H): p p 0 ≥ 0 với đối thiết (K): p uα) = α trong khi đó ở bi toán 1, uα đ−ợc xác định từ hệ thức P( u > u ) = α | | α 36
  16. 12 Kiểm định giả thiết về tính phù hợp của hm phân bố Giả thiết mẫu ngẫu nhiên gồm n phần tử mẫu. Các phần tử mẫu đ−ợc phân loại thnh r nhóm: mỗi nhóm chứa ni phần tử mẫu, mỗi phần tử mẫu chỉ thuộc một nhóm duy nhất r n = n1 + n2 + + nr = ni. i=1 Xét bi toán kiểm định mức ý nghĩa α, giả thiết không sau đây: (H): Xác suất để mỗi phần tử mẫu thuộc nhóm thứ i bằng pi r với mọi i = 1, 2, , r ( pi = 1). i=1 r (n np )2 Quy tắc: Bác bỏ (H) nếu Q2 = i − i > χ2 , np α i=1 i 2 2 2 trong đó χα đ−ợc xác định từ hệ thức P (χ > χα) = α, (χ2l đại l−ợng ngẫu nhiên có phân bố χ2 với r 1 bậc tự do). − Ng−ời ta cũng sử dụng phân bố χ2 để kiểm định các bi toán về tính phù hợp của hm phân bố. Xét bi toán kiểm định giả thiết: (H): Một đại l−ợng ngẫu nhiên X no đó có phân bố dạng F (x, Θ) với đối thiết ng−ợc lại. Giả sử tham số Θ = (Θ1,Θ2, , Θk) l véc tơ, gồm k tham số tạo thnh (chẳng hạn nh− dạng phân bố chuẩn F (x, Θ) = F (x, m, σ2) N(m, σ2) gồm 2 tham số thnh phần). ∈ Để giải bi toán đó, ng−ời ta chọn một mẫu ngẫu nhiên (X1,X2, , Xn) t−ơng ứng với đại l−ợng ngẫu nhiên X v chia các phần tử mẫu vo r nhóm: mỗi nhóm chứa ni phần tử mẫu, mỗi phần tử mẫu chỉ thuộc một nhóm duy nhất r n = n1 + n2 + + nr = ni. i=1 Giả sử pi l xác suất để đại l−ợng ngẫu nhiên X nhận các giá trị thuộc nhóm thứ i, i = 1, 2, , r với điều kiện giả thiết (H) đúng. Khi đó 1 = p1 + p2 + + pr Hiển nhiên ni l đại l−ợng ngẫu nhiên có phân bố nhị thức với kì vọng E(ni) = npi. Xét thống kê r (n np )2 Q2 = i − i np i=1 i trong đó p , i = 1, 2, , r l xác suất để X nhận các giá trị thuộc nhóm thứ i, xác suất đó đ−ợc tính thông qua i hm phân bố F (x, Θ) m Θ = (Θ1, Θ2, , Θk) l các −ớc l−ợng hợp lí cực đại của các tham số Θ1,Θ2, , Θk. Ng−ời ta đ chứng minh đ−ợc rằng với n đủ lớn v giả thiết (H) l đúng khi đó Q2 sẽ có phân bố xấp xỉ phân bố χ2 với r k 1 bậc tự do,k l số tham số của phân bố F (x, Θ) trong giả thiết (H). − − (Giả sử phân bố F (x, Θ) l phân bố chuẩn N(m, σ2), Θ đ−ợc coi nh− véc tơ (m, σ2) v số tham số của phân bố bằng k = 2, tr−ờng hợp F (x, λ) l phân bố mũ chẳng hạn số tham số của phân bố l k = 1, ) Miền bác bỏ của kiểm định do vậy l r (n np )2 W = (X ,X , , X ) Rn/ i − i > χ2 . { 1 2 n ∈ np α} i=1 i 37
  17. 2 2 2 2 2 trong đó χα đ−ợc xác định từ hệ thức P (χ > χα) = α,(χ l đại l−ợng ngẫu nhiên có phân bố χ với r k 1 bậc tự do). Ta tóm tắt quy tắc trên trong bảng sau − − Kiểm định sự phù hợp với hm phân bố chứa tham số ch−a biết. Giả thiết mẫu ngẫu nhiên gồm n phần tử mẫu. Các phần tử mẫu đ−ợc phân loại thnh r nhóm: mỗi nhóm chứa ni phần tử mẫu, mỗi phần tử mẫu chỉ thuộc một nhóm duy nhất r n = n1 + n2 + + nr = ni. i=1 Xét bi toán kiểm định mức ý nghĩa α, giả thiết không sau đây: (H): Mẫu ngẫu nhiên có phân bố dạng F (x, Θ) r (n np )2 Quy tắc: Bác bỏ (H) nếu Q2 = i − i > χ2 , np α i=1 i trong đó p , i = 1, 2, , r l xác suất để X nhận các giá trị thuộc nhóm thứ i, i xác suất đó đ−ợc tính thông qua hm phân bố F (x, Θ) m Θ = (Θ1, Θ2, , Θk) l các −ớc l−ợng hợp lí cực đại của các tham số Θ1,Θ2, , Θk. 2 2 2 Phân vị χα đ−ợc xác định từ hệ thức P (χ > χα) = α, (χ2l đại l−ợng ngẫu nhiên có phân bố χ2 với r k 1 bậc tự do). − − 13 Kiểm định về tính độc lập Ng−ời ta có thể kiểm định về tính độc lập của các biến cố ngẫu nhiên, các đại l−ợng ngẫu nhiên. Chúng ta trình by vấn đề d−ới dạng sau đây: Cho hai hệ đầy đủ các biến cố A1,A2, , Ar; B1,B2, , Bs. Hy kiểm định giả thiết hai hệ đó độc lập: (H): P (AiBj ) = P (Ai)P (Bj ) với mọi i = 1, 2, , r; j = 1, 2, , s. Xét một mẫu ngẫu nhiên cỡ n (mẫu gồm n phần tử mẫu). Ta đ−a vo các kí hiệu sau: nij l số lần xảy ra biến cố tích AiBj trong tập hợp các phần tử mẫu. s ni. = j=1 nij l số lần xảy ra biến cố Ai. r l số lần xảy ra biến cố . n.j = i=1 nij Bj Hiển nhiên r s ni. = n.j = n i=1 j=1 v r s nij = n. i=1 j=1 38
  18. Các số nij đ−ợc xếp vo bảng sau đây: j 1 2 . . . s Tổng i 1 n n n n 11 12 1s 1. 2 n21 n22 n2s n2. . . . . . . r n n n n r1 r2 rs r. Tổng n n n n .1 .2 .s Ta tóm tắt quy tắc kiểm định trong bảng sau Kiểm định về tính độc lập. Cho hai hệ đầy đủ các biến cố A1,A2, , Ar; B1,B2, , Bs. Hy kiểm định giả thiết hai hệ đó độc lập, với mức ý nghĩa bằng α: (H): P (AiBj ) = P (Ai)P(Bj ) với mọi i = 1, 2, , r; j = 1, 2, , s. r s ni.n.j 2 nij n 2 Quy tắc: Bác bỏ (H) nếu −ni.n.j > χα, i=1 j=1 n 2 2 2 trong đó χα đ−ợc xác định từ hệ thức P (χ > χα) = α, (χ2l đại l−ợng ngẫu nhiên có phân bố χ2 với (r 1)(s 1) bậc tự do). − − Chú ý rằng xấp xỉ t−ơng đối tốt nếu ni.n.j 5 với mọi i, j. n2 ≥ 39
  19. 14 Hệ số t−ơng quan mẫu Trong lí thuyết xác suất, chúng ta biết rằng để đo mối quan hệ giữa hai hoặc nhiều đại l−ợng ngẫu nhiên, ng−ời ta th−ờng tính các hệ số t−ơng quan giữa chúng. cov(X, Y ) E[(X E(X))(Y E(Y ))] ̺(X, Y ) = = − − . σxσy D(X) D(X) Nếu X v Y l hai đại l−ợng ngẫu nhiên độc lập khi đó hệ số t−ơng quan ̺(X, Y ) = 0. Tr−ờng hợp ̺(X, Y ) = 1, giữa X v Y có mối quan hệ phụ thuộc tuyến tính Y = aX + b. Trong thống kê, thay vì hai đại| l−ợng| ngẫu nhiên X, Y ta xét mẫu ngẫu nhiên (X1,Y1), (X2,Y2), , (Xn,Yn) Có thể coi chúng nh− các điểm ngẫu nhiên trên mặt phẳng toạ độ. Hệ số t−ơng quan mẫu đ−ợc định nghĩa 1 n 1 n (xi x)(Yi Y ) xiYi x Y r = n i=1 − − = n i=1 − . S S S S x Y x Y 2 2 SX ,SY l ph−ơng sai mẫu của X, Y t−ơng ứng n n n n 1 1 2 1 1 2 S2 = (X X)2 = X2 X ,S2 = (Y Y )2 = Y 2 Y . X n i − n i − Y n i − n i − i=1 i=1 i=1 i=1 Dễ dng chứng minh đ−ợc 1 n (x x)(Y Y ) n n 1 i=1 i i i=1 xiYi nx Y r = − − − = − . S S∗ 2 2 x∗ Y n X2 nX n Y 2 nY i=1 i − i=1 i − Chẳng hạn ta xét bi toán dự báo đỉnh lũ hng năm trên sông Hồng tại H nội, ng−ời ta thu thập các số liệu hng năm về l−ợng m−a trong tháng Sáu trên th−ợng nguồn sông Hồng (Xi) v đỉnh lũ t−ơng ứng với năm đó tại H nội (Yi). Các số liệu giả định nhằm giúp độc giả nghiên cứu cách sử dụng hồi quy trong công việc dự báo đ−ợc cho trong bảng d−ới đây STT Năm L−ợng m−a (X) Đỉnh lũ (Y ) STT Năm L−ợng m−a (X) Đỉnh lũ (Y ) 1 1969 720 1405 13 1981 690 1337 2 1970 720 1405 14 1982 500 960 3 1971 730 1439 15 1983 460 879 4 1972 590 1133 16 1984 610 1176 5 1973 660 1272 17 1985 710 1382 6 1974 780 1519 18 1986 620 1178 7 1975 770 1524 19 1987 660 1271 8 1976 710 1364 20 1988 620 1194 9 1977 640 1253 21 1989 590 1161 10 1978 670 1324 22 1990 740 1449 11 1979 520 1002 23 1991 640 1225 12 1980 660 1303 24 1992 805 1377 Nếu ta minh hoạ các cặp số liệu (xi, yi), i = 1, 2, , 24 trong bảng trên bằng các điểm trên mặt phẳng, chúng ta cảm nhận thấy một mối liên hệ giữa l−ợng m−a (X) hng năm v đỉnh lũ tại H nội (Y ), l−ợng m−a cng lớn thì lũ do m−a gây nên cng cao. Hệ số t−ơng quan mẫu sẽ giải thích mối quan hệ giữa hai đại l−ợng: l−ợng m−a hng năm v đỉnh lũ tại H nội. Để tính hệ số t−ơng quan mẫu giữa chúng, ta tính các đặc tr−ng kì vọng mẫu v ph−ơng sai mẫu của X v Y 2 2 x y Sx Sy 1 n x 1 n y 1 n (x x)2 1 n (y y)2 n i=1 i n i=1 i n i=1 i − n i=1 i − 658,95833 1272,16667 85, 024252 163, 50712 40
  20. Hệ số t−ơng quan mẫu do vậy bằng 1 n (xi x)(yi y) r = n i=1 − − = 0, 97045. S S x y Dựa vo hệ số t−ơng quan mẫu, sau ny ng−ời ta giải thích đ−ợc mức độ liên hệ giữa hai đại l−ợng ngẫu nhiên X v Y khi biểu diễn chúng thông qua mối quan hệ tuyến tính. 15 Hồi quy bình ph−ơng trung bình tuyến tính Giả sử (X1,Y1), (X2,Y2), , (Xn,Yn) l mẫu ngẫu nhiên t−ơng ứng với hai đại l−ợng ngẫu nhiên X v Y . Chẳng hạn khi xét bi toán dự báo đỉnh lũ hng năm trên sông Hồng tại H nội đ nói trong mục tr−ớc. Chúng ta cảm nhận đ−ợc mối liên hệ giữa l−ợng m−a (X) hng năm v đỉnh lũ tại H nội (Y ), tuy nhiên không có thông tin no hơn về mối liên hệ thực giữa X v Y , khi đó ta giả thiết giữa chúng có mối quan hệ tuyến tính (bậc nhất). Mặt khác do chúng ta xem l−ợng m−a v đỉnh lũ l các đại l−ợng ngẫu nhiên, vì vậy khi dự báo l−ợng m−a Y với điều kiện l−ợng m−a X bằng một giá trị x no đó, ta chỉ có thể khảo sát hm phân bố có điều kiện của Y .(X còn gọi l biến độc lập v Y đ−ợc gọi l biến phụ thuộc). Đặc tr−ng quan trọng của phân bố có điều kiện l kì vọng có điều kiện E(Y/X = x). Vì vậy trong ch−ơng ny chúng ta hạn chế chỉ xét tr−ờng hợp kì vọng có điều kiện E(Y/X = x) l hm tuyến tính đối với X E(Y/X = x) = αx + β. Chú ý rằng khi X tăng 1 đơn vị, kì vọng có điều kiện của Y sẽ tăng α E(Y/X = x + 1) = α(x + 1) + β = αx + β + α = E(Y/X = x) + α. Để chỉ ra đ−ợc sự phụ thuộc hm đó, với thông tin duy nhất l các cặp số liệu (xi, yi), i = 1, 2, , n, trong bi toán hồi quy ng−ời ta coi xi l các biểu hiện cụ thể của biến ngẫu nhiên X, yi l các biểu hiện cụ thể của biến ngẫu nhiên phụ thuộc Yi t−ơng ứng. Do đẳng thức trên, kì vọng có điều kiện của Yi thoả mn E(Yi/X = xi) = αxi + β i = 1, 2, , n. Nh− vậy sai số giữa Yi v kì vọng có điều kiện E(Yi/X = xi), kí hiệu ε = Y E(Y /X = x ) = Y (αx + β) i i − i i i − i l đại l−ợng ngẫu nhiên có kì vọng bằng 0 E(ε ) = E(Y ) E(E(Y /X = x )) = E(Y ) E(Y ) = 0. i i − i i i − i Vậy mẫu hồi quy tuyến tính của Y đối với X đ−ợc tóm tắt nh− sau: Đại l−ợng ngẫu nhiên độc lập X nhận các giá trị xi, khi đó Yi = αxi + β + εi i = 1, 2, , n. (3) trong đó α, β l các hệ số cần −ớc l−ợng, y = αx + β đ−ợc gọi l đ−ờng thẳng hồi quy, εi l đại l−ợng ngẫu nhiên có kì vọng E(εi) = 0. Ta gọi a, b l các −ớc l−ợng bất kì của các hệ số α, β t−ơng ứng. Khi đó đ−ờng thẳng hồi quy đ−ợc −ớc l−ợng l đ−ờng thẳng y = ax + b. Độ lệch (hay tạm gọi l sai số) giữa yi với đ−ờng thẳng trên tại điểm xi, kí hiệu ei bằng e = y (ax + b). i i − i 41
  21. Độ lệch ny có thể d−ơng hoặc âm tuỳ theo giá trị mẫu (xi, yi) l điểm nằm trên hoặc nằm d−ới đ−ờng thẳng −ớc l−ợng y = ax + b. Một trong các ph−ơng pháp −ớc l−ợng có nhiều −u điểm l tìm các −ớc l−ợng a, b của α, β sao cho tổng bình ph−ơng các độ lệch ei đạt giá trị nhỏ nhất. Ng−ời ta gọi ph−ơng pháp −ớc l−ợng nh− vậy l ph−ơng pháp bình ph−ơng bé nhất. Đ−ờng thẳng hồi quy nhận đ−ợc từ ph−ơng pháp bình ph−ơng bé nhất còn đ−ợc gọi l hồi quy bình ph−ơng trung bình tuyến tính. Các −ớc l−ợng a, b của α v β dựa trên ph−ơng pháp bình ph−ơng bé nhất, tức l lm cực tiểu hm n u(a, b) = (Y ax b)2. i − i − i=1 Bi toán trên có thể giải một cách dễ dng bằng cách tìm điểm dừng của hm u(a, b): ∂u = 2 n (Y ax b)x = 0 ∂a − i=1 i − i − i ∂u = 2 n (Y ax b) = 0 ∂b − i=1 i − i − Từ ph−ơng trình thứ hai suy ra b = Y ax. (4) − Thay b vo ph−ơng trình thứ nhất, khi đó n n [(Y Y ) a(x x)]x = [(Y Y ) a(x x)](x x) = 0. i − − i − i i − − i − i − i=1 i=1 Suy ra n (x x)(Y Y ) n x Y nxY S i=1 i i i=1 i i Y (5) a = n − −2 = n 2 − 2 = r , (xi x) x nx Sx i=1 − i=1 i − trong đó r l hệ số t−ơng quan mẫu 1 n 1 n (xi x)(Yi Y ) xiYi x Y r = n i=1 − − = n i=1 − . (6) S S S S x Y x Y 2 2 SX ,SY l ph−ơng sai mẫu của X, Y t−ơng ứng n n 1 1 2 S2 = (X X)2 = X2 X , X n i − n i − i=1 i=1 n n 1 1 2 S2 = (Y Y )2 = Y 2 Y . (7) Y n i − n i − i=1 i=1 Vậy hm hồi quy bình ph−ơng trung bình tuyến tính có dạng S y = ax + b = y + r y (x x). Sx − Trở lại ví dụ về dự báo lũ, ta đ tính x = 658, 95833, y = 1272, 16667,Sx = 85, 02425,Sy = 163, 5071 Hệ số t−ơng quan mẫu r = 0, 97045. áp dụng công thức để tính các hệ số a v b của đ−ờng thẳng hồi quy y = ax + b S a = r y = 1, 86623 Sx S b = y rx y = 42, 39808. − Sx Vậy đ−ờng thẳng hồi quy của Y đối với X y = 1, 86623x + 42, 39808. Ta phát biểu định lí sau 42
  22. Định lí 10 [Định lí GaussMarkov] Giả thiết rằng theo (3) mẫu hồi quy tuyến tính của Y đối với X : Yi = αxi + β + εi i = 1, 2, , n thoả mn E(ε ) = 0,D(ε ) = σ2,E(ε ε ) = 0, với mọi i = j, i, j = 1 n i i i j Khi đó các −ớc l−ợng a, b của α v β theo ph−ơng pháp bình ph−ơng bé nhất l các −ớc l−ợng không chệch có ph−ơng sai nhỏ nhất. Hơn nữa với mọi số thực u v v, ua + vb cũng l −ớc l−ợng có ph−ơng sai nhỏ nhất trong số tất cả các −ớc l−ợng tuyến tính piYi = P ′Y không chệch của uα + vβ. Theo (4) v (5) a v b l các hm tuyến tính của Yi n (x x)(Y Y ) a = i=1 i − i − , b = Y ax. n (x x)2 − i=1 i − Vậy n (x x)(Y Y ) n (x x)(E(Y ) E(Y )) n (x x)α(x x) E(a) = E i=1 i − i − = i=1 i − i − = i=1 i − i − = α n (x x)2 n (x x)2 n (x x)2 i=1 i − i=1 i − i=1 i − E(b) = E(Y ax) = ax + β ax = β. − − Hay a, b l các −ớc l−ợng không chệch của α v β. E(b) = β, E(a) = α. Nhận xét rằng σ2 σ2 E(b) = β, E(a) = α, D(b) = ,D(a) = 2 . n nSx Định lí 11 Với các điều kiện của định lí GaussMarkov, kì vọng của tổng bình ph−ơng sai số n E(SSE) = (n 2)σ2 (SSE = [y (ax + b)]2.) − i − i i=1 Nói cách khác nếu kí hiệu 2 2 2 SSE nSY (1 r ) σ∗ = = − , n 2 n 2 − − 2 2 khi đó σ∗ l −ớc l−ợng không chệch của σ , σ∗ còn đ−ợc gọi l sai số chuẩn (Standard Error). −ớc l−ợng cho ph−ơng sai của α đ−ợc tính nh− sau: 1 n n S (xi x)(Yi Y ) x x a = r Y = n i=1 − − = i − Y . S S2 nS2 i x x i=1 x xi x Đặt Ci = −2 , với mỗi giá trị cố định của xi, ph−ơng sai của hệ số a bằng nSx n x x n n σ2 D(a) = D i − Y = D( C Y ) = σ2 C2 = . nS2 i i i i nS2 i=1 x i=1 i=1 x Sử dụng định lí trên, kí hiệu σ 2 SSE s2 = ∗ = a nS2 n(n 2)S2 x − x 2 ta có sa l −ớc l−ợng không chệch của D(a), do vậy sa đ−ợc coi l sai số trung bình của hệ số góc α của ph−ơng trình đ−ờng thẳng hồi quy. 43
  23. Chú ý rằng nếu cùng với các điều kiện của định lí GaussMarkov, ta giả thiết thêm εi (sai số trong mẫu hồi quy) có phân bố chuẩn, khi đó thống kê a α t = − sa có phân bố Student với n 2 bậc tự do. Do vậy khoảng tin cậy của α còn có thể viết d−ới dạng − a t s α0, a α0 theo quy tắc bác bỏ H0 nếu tqs = − > tǫ. sa (Các kiểm định một phía khác hoặc kiểm định 2 phía cũng theo quy tắc t−ơng tự đ biết). Đặc biệt nếu giả thiết α = 0,Yi = α + εi khi đó E(Yi) = α không bị ảnh h−ởng bởi biến độc lập X. Nói cách khác sự biến thiên của biến phụ thuộc Y hon ton không một phần no có thể giải thích bằng mối quan hệ tuyến tính với X. Nhận xét rằng khi α = 0, t = a l giá trị quan sát (t Stat) ứng với hệ số góc α trong bảng qs sa ANOVA phân tích hồi quy. T−ơng tự xét hệ số tự do của hồi quy trung bình tuyến tính thực nghiệm 1 n n n S (xi x)(Yi Y ) 1 x x b = Y rx Y = Y x n i=1 − − = Y i − Y x. − S − S2 n i − nS2 i x x i=1 i=1 x xi x Đặt Ci = −2 , khi đó nSx n 1 b = C x Y . n − i i i=1 Suy ra với mỗi giá trị cố định của xi, ph−ơng sai của hệ số b bằng n 1 2 n 1 C n 1 x2 D(b) = σ2 C x = σ2 2 i x + C2x2 = σ2 + . n − i n2 − n i n nS2 i=1 i=1 i=1 x Kí hiệu n 2 2 2 2 2 2 n 2 2 2 1 x (1 r )SY (Sx + x ) σ∗ ( i=1 xi ) s = σ∗ + = − = , b n nS2 (n 2)S2 n2S2 i=1 x x x − 2 ta có sb l −ớc l−ợng không chệch của D(b), sb đ−ợc coi l sai số trung bình của hệ số tự do β của ph−ơng trình đ−ờng thẳng hồi quy. Cũng nh− hệ số góc của đ−ờng thẳng hồi quy, ng−ời ta chứng minh đ−ợc rằng nếu εi có phân bố chuẩn, khi đó thống kê b β t = − sb có phân bố Student với n 2 bậc tự do. Do vậy áp dụng ph−ơng pháp −ớc l−ợng khoảng tin cậy cho giá trị trung bình, ta nhận đ−ợc khoảng− tin cậy của β b t s < β < b + t s . (9) − ǫ b ǫ b Khi β = 0, t = b l giá trị quan sát (t Stat) ứng với hệ số tự do β trong bảng ANOVA phân tích qs sb hồi quy. Ví dụ 1 Trong ví dụ ở mục tr−ớc, đ−ờng thẳng hồi quy của Y đối với X y = 1, 86623x + 42, 39808. Sai số trung bình √n 2 SSE 37363, 89302 σ∗ = SY 1 r = = = 41, 21115. √n 2 − n 2 22 − − 44
  24. 1. Sai số khi −ớc l−ợng các hệ số a v b của đ−ờng hồi quy Ta biết rằng S2 (1 r2) s2 = Y − a (n 2)S2 − X 2 (1 r2)S2 (S2 + X ) s2 = − Y X . b (n 2)S2 − X Thay vo tính ta sẽ đ−ợc các sai số khi −ớc l−ợng a v b. Sai số trung bình của a sa = 0, 098939 Sai số của b sb = 65, 73696 2. Kiểm định quan hệ tuyến tính của hm hồi quy Nh− đ trình by ở trên, kiểm định về mối liên quan tuyến tính t−ơng đ−ơng với kiểm định giả thuyết (H): α = 0 với đối thiết (K): α = 0 Khi giả thiết (H): α = 0 đúng, giá trị quan sát của thống kê a α0 1, 86623 tqs = − = = 18, 86 sa 0, 098939 tra bảng phân vị phân bố Student với n 2 = 22 bậc tự do, mức ý nghĩa ǫ = 0, 05 ta có phân vị − t0,05 = 2, 405468. Giá trị quan sát lớn hơn nhiều so với phân vị t0,05 = 2, 405468. Ta bác bỏ giả thiết α = 0, mối quan hệ giữa Y v X l quan hệ tuyến tính. Nhận xét rằng t−ơng đ−ơng với kiểm định trên, ta có thể sử dụng thống kê F . (24 2)r2 F = − = 355, 7938 qs 1 r2 − Với mức ý nghĩa ǫ = 0, 05 tra bảng phân vị phân bố F với 1 v n 2 = 22 bậc tự do, ta xác định − F2 = 5, 78632 Giá trị quan sát Fqs = 355, 7938 lớn hơn rất nhiều so với F2 = 5, 78632, ta bác bỏ giả thiết (H): α = 0, tức l mối quan hệ tuyến tính giữa Y v X khá chặt. 3. Khoảng tin cậy cho hệ số góc α của đ−ờng hồi quy Thống kê a α t = − sa có phân bố Student với 22 bậc tự do. áp dụng công thức (8) tìm khoảng tin cậy với độ tin cậy 95% cho hệ số góc α: a tǫsa < α < a + tǫsa (phân vị t0,05 = 2, 405468) ta đ−ợc khoảng tin cậy cho hệ số góc α l − (1, 628237 ; 2, 104225) 45
  25. Ví dụ 2 Hy phân tích hiệu quả của việc đầu t− quảng cáo (X) v doanh thu của một công ty (Y ) trong khoảng thời gian một năm. Các số liệu đ−ợc cho trong bảng d−ới đây: X 7 5 2 4 9 4 Y 14,99 12,08 5,55 9,79 16,38 9,68 X 9 6 3 4 7 5 Y 18,61 14,25 5,52 12,49 15,94 12,54 Sử dụng lệnh = LINEST (Y, X, 1, 1) trong EXCEL (nhấn đồng thời các phím CT RL + SHIF T + ENT ER) ta thu đ−ợc{ bảng sau } 1.72676783 2.965007587 0.199411812 1.161334855 0.882330203 1.47775679 74.98357456 10 163.7465154 21.83765129 Hng thứ nhất l các hệ số hồi quy a = 1.72676783, b = 2.965007587 y = 1.72676783x + 2.965007587 ⇒ Sai số trung bình của các hệ số hồi quy a v b trong hng thứ hai. D(α) = 0.199411812 D(β) = 1.161334855. Hng thứ ba l hệ số số t−ơng quan r2 = 0.882330203 v sai số chuẩn (standard error) bằng σ∗ = 1.47775679. Hng thứ t− cho giá trị quan sát Fqs = 74.98357456 của phân bố F với 10 bậc tự do. 2 Hng thứ năm l các tổng bình ph−ơng ton phần theo Y (còn kí hiệu l SST ) nSY = 163.7465154 v 2 phần d− R0 = 21.83765129 (kí hiệu l SSR) trong bảng phân tích ph−ơng sai SUMMARY OUTPUT Regression Statistics Multiple R 0.939324333 R Square 0.882330203 Adjusted R Square 0.870563223 Standard Error 1.47775679 Observations 12 ANOVA df SS MS F Significance F Regression 1 163.7465154 163.7465154 74.98357456 5.84643E06 Residual 10 21.83765129 2.183765129 Total 11 185.5841667 Coefficients Stand Error t Stat Pvalue Lower 95% Upper 95% Intercept 2.965007587 1.161335 2.5531 0.028710768 0.377392 5.552623 X Variable 1 1.72676783 0.199412 8.6593 5.84643E06 1.282451 2.171085 áp dụng công thức (8) ta đ−ợc 2 cận trên, cận d−ới (1.282451; 2.171085) của hệ số góc của đ−ờng thẳng hồi quy với độ tin cậy 95%. Các nhận xét sau công thức (8) v (9): a b tqs = , tqs = D(a) D(b) cho ta các giá trị quan sát t Stat 8.6593 v 2.5531 . Công thức (9) để tính khoảng tin cậy cho hệ số tự do b của đ−ờng thẳng hồi quy với độ tin cậy 95% (0.377392; 5.552623). 46
  26. 16 Hồi quy nhiều chiều Bi toán hồi quy nhiều chiều l bi toán xét tác động của nhiều biến ngẫu nhiên (X1,X2, ) tới một biến ngẫu nhiên khác (Y ). Chẳng hạn khi muốn tìm hiểu li suất hng năm của các công ty ti chính, ng−ời ta thấy li suất đó tỉ lệ thuận với tổng thu (từ thuế của nh n−ớc, đơn vị của tổng thu ny tính theo % v kí hiệu l X1), đồng thời cũng tỉ lệ nghịch với số văn phòng giao dịch (X2). (Do sự cạnh tranh giữa các công ty, số văn phòng giao dịch đ−ợc mở ngy một tăng). Gọi Y l tỉ lệ li suất hng năm của công ty (đơn vị %). Bảng sau cho ta số liệu quan sát đ−ợc về các đại l−ợng ny trong vòng 25 năm. STT X1 X2 Y STT X1 X2 Y 1 3.92 7298 0.75 14 3.78 6672 0.84 2 3.61 6855 0.71 15 3.82 6890 0.79 3 3.32 6636 0.66 16 3.97 7115 0.7 4 3.07 6506 0.61 17 4.07 7327 0.68 5 3.06 6450 0.7 18 4.25 7546 0.72 6 3.11 6402 0.72 19 4.41 7931 0.55 7 3.21 6368 0.77 20 4.49 8097 0.63 8 3.26 6340 0.74 21 4.7 8468 0.56 9 3.42 6349 0.9 22 4.58 8717 0.41 10 3.42 6352 0.82 23 4.69 8991 0.51 11 3.45 6361 0.75 24 4.71 9179 0.47 12 3.58 6369 0.77 25 4.78 9318 0.32 13 3.66 6546 0.78 Mẫu hồi quy nhiều chiều E(Yi/X1 = x1i,X2 = x2i, , Xk = xki) = α + β1x1i + β2x2i + + βkxki, i = 1, 2, , n. hay Yi = α + β1x1i + β2x2i + + βkxki + εi, trong đó βi l các hằng số cần −ớc l−ợng v εi l biến ngẫu nhiên có kì vọng bằng 0. Các mẫu ngẫu nhiên l các điểm quan sát (x1i, x2i, , xki, yi), i = 1, 2, , n. Do mẫu hồi quy nhiều chiều E(Yi/X1 = x1i,X2 = x2i, , Xk = xki) = α + β1x1i + β2x2i + + βkxki, i = 1, 2, , n. Suy ra E(Y /X = x + 1,X = x , , X = x ) E(Y /X = x ,X = x , , X = x ) = β i 1 1i 2 2i k ki − i 1 1i 2 2i k ki 1 (Nghĩa l trong ví dụ trên nếu tổng thu tăng thêm 1%, với số văn phòng giao dịch X2 không đổi, khi đó tỉ lệ li suất hng năm tăng thêm β1.) Gọi a, b1, b2, , bk l các −ớc l−ợng t−ơng ứng, khi đó mẫu dự báo của biến ngẫu nhiên Y l yˆ = a + b1x1 + b2x2 + + bkxk. Theo đó các sai số e = y (a + b x + b x + + b x ), i = 1, 2, , n. i i − 1 1i 2 2i k ki Đối với mẫu hồi quy tuyến tính nhiều chiều, các −ớc l−ợng a, b1, b2, , bk cần xác định theo ph−ơng pháp bình ph−ơng bé nhất, tức l tổng bình ph−ơng các độ lệch n n SS = e2 = (y a b x b x b x )2 i i − − 1 1i − 2 2i − − k ki i=1 i=1 đạt giá trị nhỏ nhất. Ph−ơng trình y = a + b1x1 + b2x2 + + bkxk đ−ợc gọi l mặt phẳng hồi quy của Y đối với X1,X2, , Xk. Tr−ớc hết ta phát biểu định lí sau 47
  27. Định lí 12 Giả thiết rằng mẫu hồi quy tuyến tính của Y đối với X1,X2, , Xk: Yi = α + β1x1i + β2x2i + + βkxki + εi, trong đó 1. x1i, x2i, , xki l các thể hiện của X1i,X2i, , Xki. Các biến ngẫu nhiên đó độc lập với εi. 2. E(ε ) = 0,D(ε ) = σ2,E(ε ε ) = 0, với mọi i = j, i, j = 1 n i i i j 3. Hạng của ma trận (xij ) bằng k. Khi đó các −ớc l−ợng a, b1, b2, , bk xác định theo ph−ơng pháp bình ph−ơng bé nhất của α v β1, β2, , βk l các −ớc l−ợng không chệch có ph−ơng sai nhỏ nhất. Hơn nữa với mọi số thực d0, d1, d2, , dk, −ớc l−ợng d0 + d1b1 + d2b2 + + dkbk cũng l −ớc l−ợng có ph−ơng sai nhỏ nhất trong số tất cả các −ớc l−ợng tuyến tính không chệch của d + d β + d β + + d β . 0 1 1 2 2 k k Từ hệ thức y y = (ˆy y) + e , i − i − i bình ph−ơng cả hai vế đẳng thức trên v cộng chúng lại theo i ta đ−ợc n n n (y y)2 = (ˆy y)2 + e2. i − i − i i=1 i=1 i=1 Đẳng thức có ý nghĩa nh− sau: vế trái l tổng bình ph−ơng các độ lệch giữa các phần tử mẫu của Y với giá trị trung bình mẫu y, kí hiệu SST (total sum of squares) đ−ợc phân tích thnh tổng của hai phần: phần thứ nhất l tổng bình ph−ơng các độ lệch giữa hồi quy yˆi với trung bình mẫu y v phần thứ hai l phần d−: tổng bình ph−ơng các sai số. Kí hiệu n SST = (y y)2 = nS2 (Tổng bình ph−ơng chung) i − y i=1 n SSR = (ˆy y)2 (Tổng bình ph−ơng hồi quy) i − i=1 n 2 SSE = ei (Tổng bình ph−ơng sai số). i=1 Theo đẳng thức: SST = SSR + SSE, khi đó tỉ số SSR SSE R2 = = 1 SST − SST đ−ợc gọi l hệ số xác định biểu diễn lực của hồi quy. 0  R2  1 v khi R2 cng gần với 1, phần d− SSE (tổng bình ph−ơng các sai số) cng nhỏ so với tổng bình ph−ơng các độ lệch chung của Y . Chú ý: hệ số xác định điều chỉnh 2 SSE/(n k 1) R = 1 − − . − SST/(n 1) − Ng−ời ta chứng minh đ−ợc rằng với các điều kiện của định lí trên n e2 SSE s2 = i=1 i = e n k 1 n k 1 − − − − 2 2 l −ớc l−ợng không chệch của σ . Ta gọi se = se l sai số chuẩn. sai số chuẩn Việc tính của các hệ số hồi quy bk, bk 1, , b2, b1, a phức tạp hơn (xem phần hồi quy đơn giản, một chiều). Các ch−ơng trình phần mềm thống kê sẽ− tính giúp ta các sai số đó. Thực hnh trên EXCEL Xét ví dụ về li suất hng năm của các công ty ti chính, sử dụng lệnh = LINEST (Y, X, 1, 1) , ta đ−ợc bảng sau { } 48
  28. 0.000249079 0.237197475 1.564496771 3.20485E05 0.055559366 0.079395981 0.865296068 0.053302217 70.66057082 22 0.40151122 0.06250478 Hng thứ nhất l các hệ số hồi quy viết theo đúng thứ tự y = bkxk + bk 1xk 1 + + b2x2 + b1x1 + a − − Hay y = 0.00025x + 0.2372x + 1.5645. − 2 1 Sai số trung bình (căn bậc hai của ph−ơng sai) của các hệ số hồi quy bk, bk 1, , b2, b1, a cho trong hng thứ hai. − D(b ) = 3.20485E 05, D(b ) = 0.055559, D(a) = 0.079396. 2 − 1 Hng thứ ba l hệ số xác định giải thích lực của hồi quy R2 = 0.865296068 v sai số chuẩn (standard error) se = 0.053302217. Hng thứ t− cho giá trị quan sát Fqs = 70.66057082 của phân bố F với (k, 22) bậc tự do. (Trong ví dụ ny k = 2). Hng thứ năm l các tổng bình ph−ơng SSR = 0.40151122 v phần d− SSE = 0.06250478. Chú ý rằng hồi quy tuyến tính nhiều chiều th−ờng xuyên đ−ợc sử dụng hơn hồi quy đơn giản (một chiều), nếu còn các biến độc lập tác động đáng kể tới biến phụ thuộc. Chẳng hạn trong ví dụ trên , biến phụ thuộc (li suất y) tỉ lệ thuận với tổng thu (x1). Trong khi nếu ta chỉ quan tâm tới li suất v tổng thu, hồi quy đơn giản cho ta kết quả y = 1.326 0.169x − 1 li suất giảm khi x1 tăng(!) T−ơng quan bội v t−ơng quan riêng Ta nhấn mạnh rằng t−ơng ứng với mẫu quan sát yi, i = 1, 2, , n l mẫu dự báo yˆi = a + b1x1i + b2x2i + + bkxki, i = 1, 2, , n. Hệ số t−ơng quan giữa chúng đ−ợc gọi l hệ số t−ơng quan bội, nó đo mức độ tác dụng tuyến tính của X = (X1, ,Xk) lên Y . (Dễ dng chứng minh đ−ợc: Y Yˆ không t−ơng quan (trực giao) với X1, ,Xk. Thực chất của ph−ơng pháp bình ph−ơng nhỏ nhất− l sau khi tịnh tiến hệ trục toạ độ tới điểm k+1 (EY, EX1, , EXk) R , Yˆ l phép chiếu vuông góc Y xuống L2(X1, , Xk)). Suy ra, nh− đ biết trong lí thuyết về không∈ gian Hilbert hệ số t−ơng quan chẳng qua l côsin của góc giữa hai véc tơ, hệ số t−ơng quan bội bằng căn bậc hai của hệ số xác định R = √R2. Trong ví dụ của chúng ta R = √0.8652 = 0.93. Khi khảo sát mối t−ơng quan ta tính hệ số t−ơng quan giữa các đại l−ợng ngẫu nhiên, chẳng hạn ̺ij = ̺ij (Xi,Xj ). Đó l độ đo ton phần mối t−ơng quan giữa chúng (có kể đến mối quan hệ thông qua các biến ngẫu nhiên khác: X1, , Xk). Nh− trên ta biết rằng có thể phân tích một đại l−ợng ngẫu nhiên thnh tổng của hai đại l−ợng ngẫu nhiên không t−ơng quan (chiếu vuông góc xuống L2(X2, , Xk)) Y = Yˆ + (Y Yˆ ) = Yˆ + η ,X = Xˆ + (X Xˆ ) = Xˆ + η Y ′2 k − Y ′2 k Y ′2 k Y ′2 k 1 1 1 − 1 1 1′2 k ˆ Có thể coi ηY ′2 k = Y YY ′2 k l phần còn lại của Y sau khi đ loại đi các tác động tuyến tính của X2, , Xk − ˆ vo Y . T−ơng tự η1′2 k = X1 X1 l phần còn lại của X1 sau khi đ loại đi các tác động tuyến tính của − ˆ ˆ X2, , Xk vo X1. Khi đó hệ số t−ơng quan giữa hai phần d− ηY ′2 k = Y YY ′2 k v η1′2 k = X1 X1 đ−ợc gọi l hệ số t−ơng quan riêng (mối quan hệ nội tại, không phụ thuộc vo− các đại l−ợng ngẫu nhiên− khác: X2, , Xk) giữa Y v X1. Kí hiệu ̺Y.1 = ̺(ηY ′2 k, η1′2 k). Quay trở lại ví dụ trên, ta tính hệ hệ số t−ơng quan riêng giữa li suất (Y ) v số văn phòng giao dịch đ−ợc mở ra (X2). Ta lập bảng sau m các cột dữ liệu l hồi quy của Y theo X1 v hồi quy của Y theo X2. 49
  29. STT η η = X Xˆ STT η η = X Xˆ Y ′2 k 1′2 k 1 − 1 Y ′2 k 1′2 k 1 − 1 1 0.086830251 53.63957787 14 0.153152011 451.2549257 2 0.005600136 9.06929472 15 0.109917223 298.5076835 3 0.104647917 263.1517884 16 0.045286765 318.2055251 4 0.196930487 540.9815244 17 0.042199793 269.3374194 5 0.10862179 501.2947138 18 0.112643243 343.9748293 6 0.080165276 371.7287666 19 0.030295912 219.9858604 7 0.013252248 174.5968723 20 0.06323451 184.4913759 8 0.034795734 65.03092506 21 0.028751869 156.0683541 9 0.152265111 186.980106 22 0.141543765 288.6899192 10 0.072265111 183.980106 23 0.022939434 383.2448354 11 0.007339019 223.9196743 24 0.059556828 538.6184565 12 0.049325955 427.991137 25 0.197717709 563.4261304 13 0.072856378 381.4966525 Hệ số t−ơng quan riêng giữa li suất (Y ) v số văn phòng giao dịch đ−ợc mở ra (X2) khi đó bằng ̺Y.1 = 0.85617. (Sử dụng lệnh CORREL). − Bình ph−ơng hệ số t−ơng quan riêng ( 0.85617)2 = 0.73, vậy 73% phần biến động của li suất (Y ) đ−ợc giải thích bởi sự phụ thuộc tuyến tính (tỉ lệ− nghịch) vo số l−ợng văn phòng giao dịch đ−ợc mở. T−ơng tự hệ số t−ơng quan riêng giữa li suất (Y ) v (X1) bằng ̺Y.2 = 0.6731. (Tỉ lệ thuận). Ta cũng có thể tính t−ơng quan riêng giữa li suất (Y ) v (X1) bằng cách sử dụng các công thức (????) C10 5.929936871 ̺01.(23 n) = − = = 0.673126. √C00C11 √3.10432981 25 ì Khoảng tin cậy v kiểm định giả thiết cho các tham số của hồi quy. Các vấn đề về khoảng tin cậy v kiểm định giả thiết cho các tham số của hồi quy dựa trên định lí sau Định lí 13 Với các giả thiết nh− trong định lí 12, đồng thời giả thiết thêm rằng rằng các số hạng sai số εi có phân bố chuẩn. Kí hiệu sbk , sbk 1 , , sb2 , sb1 sa l các sai số chuẩn của các hệ số hồi quy bk, bk 1, , b2, b1, a, khi đó − − a α bi βi ta = − , tbi = − , i = 1, 2, , k sa sbi l các đại l−ợng ngẫu nhiên có phân bố Student với n k 1 bậc tự do. − − Chẳng hạn trong ví dụ li suất của các công ty ti chính, với độ tin cậy 99% 0.081 βi,0, 50
  30. βi βi,0 theo quy tắc bác bỏ H0 nếu tqs = − > tǫ. sbi (Các kiểm định một phía khác hoặc kiểm định 2 phía cũng theo quy tắc t−ơng tự đ biết). Đặc biệt nếu giá trị thực của β1 = 0 Yi = α + β2x2i + + βkxki + εi không bị ảnh h−ởng bởi biến độc lập X1 khi các biến X2, , Xk nhận các giá trị cố định cho tr−ớc. Nói cách khác X1 không góp phần vo giải thích mối quan hệ tuyến tính giữa biến phụ thuộc với các biến độc lập. Trong ví dụ trên kiểm định H0 : β1 = 0 với đối thiết H1 : β1 > 0 bi βi,0 0.237 tqs = − = = 4.27 sbi 0.0555 bi Nhận xét rằng khi βi = 0, tqs = l giá trị quan sát (t Stat) ứng với hệ số góc βi trong bảng ANOVA sbi phân tích hồi quy. Nếu mức ý nghĩa rất bé 0.5%, tra bảng 22 bậc tự do (1 phía) tǫ = 2.81876, ta vẫn bác bỏ H0 : β1 = 0. T−ơng tự xét bi toán kiểm định H0 : β2 = 0 với đối thiết H1 : β2 t . 0 | qs| s ǫ/2 bi Kiểm định giả thiết đồng thời cho các tham số của hồi quy. H : β = β = = β = 0 0 1 2 k với đối thiết H : Tồn tại ít nhất một i : β = 0. 1 i Nếu giả thiết H0 đúng, Yi = α + εi, nên E(Yi/X) = α l hằng số. Các biến độc lập Xi không có ảnh h−ởng (tuyến tính) tới Y . Kiểm định giả thiết H0 thực chất nhằm bác bỏ tính phụ thuộc tuyến tính giữa các biến. Ta biết rằng SST = SSR + SSE, trong đó SSR nhằm giải thích sự biến động của hồi quy (sự phụ thuộc tuyến tính của biến phụ thuộc vo các biến độc lập), còn SSE l phần biến động ngoi hồi quy. Do vậy nếu giữa các biến ngẫu nhiên không tồn tại quan hệ tuyến tính khi đó SSR t−ơng đối nhỏ so với SSE, nói cách khác tỉ số giữa SSR v SSE cng lớn, khả năng bác bỏ giả thiết không (quan hệ tuyến tính) cng cao. Vì thế để tạo ra một thống kê nh− vậy ng−ời ta sử dụng kết quả sau: Nếu giả thiết H : β = β = = β = 0 đúng v ε có phân bố chuẩn, khi đó 0 1 2 k i SSR/k F = SSE/(n k 1) − − 51
  31. có phân bố F với (k, n k 1) bậc tự do. Vậy ta có quy tắc ở mức α − − SSR/k Bác bỏ H0 nếu Fqs = > Fk,n k 1,α, SSE/(n k 1) − − − − trong đó P (Fk,n k 1 > Fk,n k 1,α) = α. − − − − Nhận xét rằng do R2 = SSR = 1 SSE , suy ra SST − SST SSR/k n k 1 R2 F = = − − . SSE/(n k 1) k 1 R2 − − − Trở lại ví dụ li suất tiết kiệm v cho vay SSR/k 0.40151122/2 F = = = 70.66057082 qs SSE/(n k 1) 0.06250478/22 − − Với mức ý nghĩa 1%, Fk,n k 1,α = 5.719, nhỏ hơn rất nhiều so với Fqs = 70.66057082, ta bác bỏ giả thiết − − H0. Kiểm định giả thiết đồng thời cho một tập con các tham số của hồi quy. Giả thiết rằng ta cần kiểm định k1 tham số đầu tiên của hồi quy bằng 0. H : β = β = = β = 0 0 1 2 k1 (Với đối thiết H : Tồn tại ít nhất một i, 1  i  k : β = 0.) 1 1 i Nếu giả thiết H0 đúng, các biến X1,X2, , Xk1 không có ảnh h−ởng gì tới Y , do vậy ta tiến hnh −ớc l−ợng hồi quy của Y chỉ thông qua các biến Xk1+1,Xk1+2, , Xk Yi = α∗ + β∗ xk +1,i + + β∗xki + ε∗ k1+1 1 k i Khi đó ta hy vọng SSE của mẫu hồi quy cũ khác nhiều so với SSE∗ của mẫu hồi quy mới. Thống kê (SSR∗ SSE)/k F = − 1 SSE/(n k 1) − − có phân bố F với (k , n k 1) bậc tự do. Vậy ta có quy tắc ở mức α 1 − − (SSE∗ SSE)/k1 Bác bỏ H0 nếu Fqs = − > Fk ,n k 1,α. SSE/(n k 1) 1 − − − − Dự báo. Với mẫu hồi quy nh− đ nói ở trên, kí hiệu a, b1, b2, , bk l các −ớc l−ợng theo ph−ơng pháp bình ph−ơng bé nhất các hệ số hồi quy, khi đó với mẫu thứ n + 1 của các biến độc lập: (x1,n+1, x2,n+1, , xk,n+1) dự báo của biến phụ thuộc (Y = α + β x + + β x + ε ) n+1 1 1,n+1 k k,n+1 n+1 Yˆ = a + b x + b x + + b x n+1 1 1,n+1 2 2,n+1 k k,n+1 l −ớc l−ợng tuyến tính không chệch tốt nhất của Yn+1. Trở lại ví dụ quen thuộc nếu x1,n+1 = 4.50 v số l−ợng các văn phòng x2,n+1 = 9000 khi đó Yˆn+1 = a + b1x1,n+1 + b2x2,n+1 = 0, 39. Ngoi ra nếu giả thiết εi có phân bố chuẩn khi đó chúng ta có thể tính các khoảng tin cậy cho các dự báo Yˆn+1. 52