Tin học ứng dụng chăn nuôi thú y - Chương I: Xử lý dữ liệu trong chăn nuôi thú y

pdf 48 trang Đức Chiến 04/01/2024 640
Bạn đang xem 20 trang mẫu của tài liệu "Tin học ứng dụng chăn nuôi thú y - Chương I: Xử lý dữ liệu trong chăn nuôi thú y", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdftin_hoc_ung_dung_chan_nuoi_thu_y_chuong_i_xu_ly_du_lieu_tron.pdf

Nội dung text: Tin học ứng dụng chăn nuôi thú y - Chương I: Xử lý dữ liệu trong chăn nuôi thú y

  1. Ch ươ ng I X LÝ D LI U TRONG CH ĂN NUƠI THÚ Y 1. NG D NG MINITAB TRONG X LÝ S LI U Minitab 14 for Windows XP đưc s d ng đ minh ho cho các bài t p trong ph n giáo trình này. N u b n đc s d ng các phiên b n khác c a Minitab cĩ th s khơng đưc h tr m t s các cơng c và giao di n s khác so v i giáo trình này. 1.1. Kh i đ ng Minitab Nu cài đt Minitab 14 for Windows XP theo m c đnh ta cĩ th kh i đng ph n m m bng cách 1) Ch n bi u t ưng Minitab trên Desktop c a màn hình ho c 2) Theo đưng d n Stat > Progam > MINITAB 14 > MINITAB 14 3) C:\Progam Files\MINITAB 14\Mtb14.exe Giao di n ph n m m Minitab 14 for Windows XP g m m t s thành ph n chính: 1) Menu Bar, 2) Standard toolbar, 3) Project Manager Toolbar, 4) Worksheet Toolbar, 5) Title, 6) Session Window, 7) Data Window 8) Project Manager Window và 8) Status bar. Menu Bar Standard Toolbar Project Manager Toolbar Title Worksh ee t T oo lb ar Session Window Pr oj ect M ana ger Windows Data Window (Worksheet Windows) Status Bar 5
  2. 1.2. Nh t đ và th ng kê a. Tĩm t t d li u đ i v i bi n đ nh l ưng Ví d 1.1: Kh i l ưng (gam) c a 16 chu t cái t i th i đim cai s a nh ư sau: 54,1 49,8 24,0 46,0 44,1 34,0 52,6 54,4 56,1 52,0 51,9 54,0 58,0 39,0 32,7 58,5 ð tính các tham s th ng kê mơ t S li u đưc nh p vào vào c t trong Windows Worksheet Thay th d u ph y ( ,) b ng d u ch m (.) trong ph n th p phân. Ơ s li u khuy t đưc thay th b ng d u sao (*), khơng đưc đ tr ng. Ct s li u ph i d ưi d ng s . ði v i m t ch tiêu nghiên c u, s li u đưc nh p d ưi d ng c t. Tên c t s li u luơn n m trên hàng th 1. ðt tên c t ng n g n, khơng nên dùng các ký t đc bi t (:, / ) ho c các ký t ti ng Vi t (ơ, ă ). Trong cùng m t worksheet khơng đt tên c t trùng nhau. Phn m m Minitab khơng phân bi t đưc các ký t vi t hoa và vi t th ưng (ví d : MINITAB = Minitab = minitab). Ch n Stat  Basic Statistics  Display Descriptive Statistics Ph n ơ bên trái h p tho i hi n th c t (C1) và tên c a c t s li u (P) Ch n P và nh n Select đ hi n th c t cn tính các tham s th ng kê mơ t vào ơ Variables . Ch n OK đ hi n th k t qu . Kt qu thu đưc t Minitab nh ư sau Descriptive Statistics: P Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum P 16 0 47.58 2.54 10.16 24.00 40.28 51.95 54.33 58.50 6
  3. Minitab cho k t qu theo m c đnh. Cĩ th s d ng m t trong các tùy ch n (option) sau đây đ cho ra k t qu phù h p  Ch n Statistics cĩ th l a ch n các tham s sau đây Mt s thu t ng trong options Minitab c a th ng kê mơ t Minitab Ti ng Vi t Minitab Ti ng Vi t Mean Trung bình Trimmed mean Trung bình hi u ch nh SE of mean Sai s tiêu chu n Sum Tng s Standard deviation ð l ch chu n Minimum Giá tr bé nh t Variance Ph ươ ng sai Maximum Giá tr l n nh t Coefficient of variation H s bi n đ ng Range Kho ng bi n đ ng First quartile T v th nh t Sum of squares Tng bình ph ươ ng Median Trung v Skewness ð l ch Third quartile T v th 3 Kurtosis ð nh n Interquartile T v th 2 MSSD N nonmissing N khơng khuy t Cumulative N N c ng g p N missing N khuy t Percent Ph n tr ăm N total N t ng s Cumulative percent Ph n tr ăm c ng g p Ch n Graphs đ hi n các lo i th đ th sau đây: Histogam of data t ch c đ Histogam of data, with normal curve t ch c đ v i đưng cong chu n Individual value plot v t ng giá tr Boxplot of data đ th h p Ch n OK đ cĩ đưc đ th Ví d ch n Boxplot of data đ cĩ đưc đ th h p d ưi đây 7
  4.  Khai báo vào By variables (Optional) đ tính các tham s th ng kê theo phân lo i nhĩm. Xét Ví d 1.1 , gi s r ng 8 chu t cái đu tiên sinh ra l a th nh t và 8 chu t ti p theo sinh ra l a th 2. Ta cĩ th b trí c u trúc s li u thành 2 c t, c t C1 (P) và c t C2 (LUA) Kt qu t Minitab Descriptive Statistics: P Variable LUA N N* Mean SE Mean StDev Minimum Q1 Median Q3 P 1 8 0 44.88 3.82 10.79 24.00 36.53 47.90 53.73 2 8 0 50.28 3.32 9.39 32.70 42.23 53.00 57.53 b. Tĩm t t d li u đi v i bi n đnh tính ði v i bi n đnh tính s li u thơ thu th p đưc t thí nghi m cĩ th đưc trình bày theo m t trong 2 cách sau đây: 8
  5. Ví d 1.2: S bị s a ba tr i A, B, C l n l ưt là 106, 132 và 122 con. Ch n ng u nhiên và ki m tra b nh viêm n i m c t cung 3 tr i, k t qu nh ư sau: Cách 1: Tr i A A A A A A A A A A A A A A A A A Bị 1 2 3 4 5 6 7 8 9 10 1 12 13 14 15 16 17 s Kt + - - - + + + - - - + - - - - - + qu Tr i B B B B B B B B B B B B B B B B B B B B B B Bị 1 2 3 4 5 6 7 8 9 10 1 12 13 14 15 16 17 18 19 20 21 22 s Kt - - + - - - - - + + - - - - - + - + - + - - qu Tr i C C C C C C C C C C C C C C C C C C C C Bị 1 2 3 4 5 6 7 8 9 10 1 12 13 14 15 16 17 18 19 20 s Kt + + - - - - + - - - + - + - - - - + + + qu Cách 2: Tr i Viêm n i m c t cung Tng s Cĩ Khơng A 6 11 17 B 6 16 22 C 8 12 20 S li u đưc nh p vào c t trong Windows Worksheet (v i cách 1) Nh p d li u vào 2 c t, Tr i vào c t C1 (TRAI) và c t Kt qu xét nghi m vào ct C2 (KETQUA). Lưu ý: Sau khi nh p thơng tin vào c t C1 và C2 ký hi u thay đi t ươ ng ng C1-T và C2-T. Minitab thơng báo các thơng tin trong c t khơng ph i d ưi dng s mà d ưi d ng ký t ( Text) Vi s li u d ng thơ (cách 1) cĩ th to thành b ng tĩm t t nh ư cách 2 bng các l nh sau Stat  Tables  Cross Tabulation and Chi-Square Khai báo vào ơ For rows và For columns 9
  6. Options Display hi n th : Count tn s đi v i t ng tr ưng h p Row percents t l (ph n tr ăm) theo hàng Column percents t l (ph n tr ăm) theo c t Total percents t l (ph n tr ăm) theo hàng/c t t ng s Ch n OK đ cĩ k t qu Tabulated statistics: TRAI; KETQUA Rows: TRAI Columns: KETQUA - + All A 11 6 17 B 16 6 22 C 12 8 20 All 39 20 59 Cell Contents: Count ði v i bi n đ nh tính cĩ th mơ t b ng bi u đ thanh (Bar Chart), bi u đ bánh (Pie Chart). Graph  Bar Chart Counts of unique values Ch n OK Ch n Multiple Graphs Ch n OK đ cĩ bi u đ thanh Th c hi n t ươ ng t đ cĩ bi u đ bánh 10
  7. S li u đưc nh p vào c t trong Windows Worksheet (v i cách 2) Nh p d li u vào 3 c t, Tr i vào c t C1 (TRAI), c t Kt qu xét nghi m vào c t C2 (KETQUA) và Tn su t vào c t C3 (TANSUAT). dng ký t ( Text) Vi s li u d ng thơ (cách 1) cĩ th to thành b ng tĩm t t nh ư cách 2 bng các l nh sau Stat  Tables  Cross Tabulation and Chi-Square Khai báo vào ơ For rows , For columns và Frequencies are in . Ch n Counts và Row percents trong Tabulated statistics: TRAI; KETQUA Display đ cĩ k t qu Using frequencies in TANSUAT Rows: TRAI Columns: KETQUA - + All A 11 6 17 64.71 35.29 100.00 B 16 6 22 72.73 27.27 100.00 C 12 8 20 60.00 40.00 100.00 All 39 20 59 66.10 33.90 100.00 Cell Contents: Count % of Row Bi u đ trong cách nh p s li u th 2 hồn tồn gi ng nh ư cách nh p s li u, tuy nhiên cách khai báo trong h p tho i cĩ m t s đim khác Graph  Bar Chart Values from table Khai báo vào ơ Graph variables và Categorical variables 11
  8. 1.3. Ưc l ưng và ki m đ nh giá tr trung bình a. Ki m đnh phân ph i chu n ði v i t t c các phép th d ưi đây bi n đnh l ưng đu đưc gi thi t là s li u thu th p đưc (s li u thơ) tuân theo phân ph i chu n. N u s li u khơng tuân theo phân ph i chu n thì các phép th s khơng cĩ hi u l c. Trong tr ưng h p này c n bi n đi s li u v phân ph i chu n ho c s d ng ki m đnh phi tham s . Gi thi t c a phép th : H0: S li u cĩ phân b chu n và H1: S li u khơng cĩ phân b chu n Ví d 1.3: Tăng tr ng trung bình (gam/ngày) c a 36 ln nuơi v béo gi ng Landrace đưc rút ng u nhiên t m t tr i ch ăn nuơi. S li u thu đưc nh ư sau: 577 596 594 612 600 584 618 627 588 601 606 559 615 607 608 591 565 586 621 623 598 602 581 631 570 595 603 605 616 574 578 600 596 619 636 589 Cán b k thu t tr i cho r ng t ăng tr ng trung bình c a tồn đàn l n trong tr i là 607gam/ngày. Theo anh ch k t lu n đĩ đúng hay sai, vì sao? Bi t r ng đ l ch chu n c a tính tr ng này là 21,75 gam. Nh p s li u vào Worksheet Stat  Basic Statistics  Normality Test Ch n OK đ cĩ k t qu 12
  9. Giá tr P-Value = 0,997 trong đ th trên l n h ơn 0,05 ( α), nh ư v y H 0 đưc ch p nh n. Kt lu n s li u tuân theo phân ph i chu n. b. Phép th Z S d ng phép th Z đ ki m đnh m t giá tr trung bình khi bi t đ l ch chun c a qu n th ( σσσ). Minitab s tính kho ng tin c y (CI 95%) và th c hi n phép ki m đnh. ði vi ki m đnh 2 phía ta cĩ gi thi t: H 0: µ = µ 0 v i đi thi t µ ≠ µ 0; trong đĩ µ là giá tr trung bình c a qu n th và µ 0 là giá tr ki m đnh. Stat  Basic Statistics  1-sample Z Trong Samples in columns khai báo ct s li u ( P). Trong Standard deviation đin giá tr 21,75 ( đ l ch chu n c a qu n th σσσ). Trong Test mean đin giá tr 607 (giá tr qu n th ki m đnh µ0). Ch n OK đ cĩ k t qu One-Sample Z: P Test of mu = 607 vs not = 607 The assumed standard deviation = 21.75 Variable N Mean StDev SE Mean 95% CI Z P P 36 599.194 18.656 3.625 (592.090; 606.299) -2.15 0.031 Vi xác su t c a phép th P = 0,031 < 0,05 ( α), bác b H 0 và ch p nh n đi thi t H 1. Kt lu n: T ăng tr ng c a l n Landrace tr i nêu trên khơng b ng 607 gam/ ngày (P < 0,05). Kho ng tin c y 95% là 592,090 – 606,299 gam/ ngày. Lưu ý: Trong m t s tr ưng h p, s li u đã đưc tĩm t t (s li u tinh) d ưi dng các tham s th ng kê mơ t . Nh ư _ ví d 1.3 ta cĩ n = 36; x = 599,194 gam. Vì v y các giá tr này cĩ th s dng đ khai báo vào l a ch n Summarized data , các giá tr khác ( σ và µ) đưc khai báo t ươ ng t đ cĩ k t qu sau One-Sample Z Test of mu = 607 vs not = 607 The assumed standard deviation = 21.75 N Mean SE Mean 95% CI Z P 36 599.194 3.625 (592.089; 606.299) -2.15 0.031 13
  10. c. Phép th T Trong tr ưng h p khơng bi t đ l ch chu n ca qu n th ( σ), phép th T đưc s d ng đ ki m đnh giá tr trung bình và đ l ch chu n c a m u (s) đưc s d ng thay đ l ch chu n qu n th . Gi thi t c a phép th , c u trúc s li u t ươ ng t nh ư phép th Z. Stat  Basic Statistics  1-sample T Khai báo đi v i s li u thơ và đi v i s li u tinh Ch n OK đ cĩ k t qu One-Sample T: P Test of mu = 607 vs not = 607 Variable N Mean StDev SE Mean 95% CI T P P 36 599.194 18.656 3.109 (592.882; 605.507) -2.51 0.017 Vi P = 0,017 ta c ũng cĩ k t lu n t ươ ng t nh ư đi v i khi s phép th Z. 1.4. Ki m đ nh 2 giá tr trung bình Khi ti n hành thí nghi m đ so sánh s khác nhau gi a 2 cơng th c thí nghi m, cĩ 2 tr ưng h p ch n m u cĩ th x y ra: 1) Ch n m u đc l p và 2) ch n m u theo c p (xem 2.4, tr.23, Giáo trình Thi t k thí nghi m 2007). Tu ỳ thu c vào cách ch n m u b trí thí nghi m mà ta cĩ th s d ng phép th T hay T c p cho phù h p. a. Ki m đnh s đng nh t c a ph ươ ng sai khi l y m u đ c l p ði v i ki m đnh 2 giá tr trung bình, ngồi gi thi t là s li u tuân theo phân ph i chu n, cịn v n đ th 2 là Hai ph ươ ng sai cĩ đng nh t hay khơng? ði v i ki m đnh hai phía ta cĩ gi thi t H 0: Hai ph ươ ng sai đng nh t ( σ²1 = σ²2) và H1: Hai ph ươ ng sai khơng đng nh t ( σ²1 ≠ σ²2) . Khi ch p nh n gi thi t H 0, ph ươ ng sai 2 chung ( σ )s đưc s d ng đ ti n hành ki m đnh trong phép th T; ng ưc l i (bác b H 0) thì phép th T g n đúng s đưc th c hi n. Ví d 1.4: ð so sánh kh i l ưng c a 2 gi ng bị, ti n hành ch n ng u nhiên và cân 12 con đi v i gi ng th nh t và 15 con đi v i gi ng th 2. Kh i l ưng (kg) thu đưc nh ư sau: Gi ng bị th nh t 187,6 180,3 198,6 190,7 196,3 203,8 190,2 201,0 194,7 221,1 186,7 203,1 Gi ng bị th hai 148,1 146,2 152,8 135,3 151,2 146,3 163,5 146,6 162,4 140,2 159,4 181,8 165,1 165,0 141,6 14
  11. Theo anh (ch ), khi l ưng c a 2 gi ng bị cĩ s sai khác khơng? Cu trúc s li u c a bài tốn ki m đnh 2 giá tr trung bình cĩ th đưc trình bày b ng mt trong 2 cách sau đây: Cách 1: S li u c a 2 cơng th c thí Cách 2: S li u đưc nh p vào 2 c t nghi m đưc nh p vào m t c t và c t th riêng bi t theo t ng cơng th c thí 2 đ xác đnh giá tr c a t ng cơng th c nghi m. Tên c t th hi n giá tr trong mi cơng th c Lưu ý: C u trúc s li u cĩ th nh p trong cùng m t Worksheet ho c 2 Worksheet riêng bi t. Stat  Basic Statistics  2 Variances Cu trúc s li u cách 1 cách 2 Cĩ th s d ng Summarized data khi s li u đã đưc tinh hố. ði v i tr ưng h p này c n khai báo dung l ưng m u ( Sample size ) và ph ươ ng sai ( Variance ) đi v i t ng cơng th c thí nghi m t ươ ng ng ( First ho c Second ). Ch n OK đ cĩ k t qu 15
  12. Test for Equal Variances: KL versus GIONG 95% Bonferroni confidence intervals for standard deviations GIONG N Lower StDev Upper 1 12 7.17875 10.6160 19.6238 2 15 8.63359 12.3014 20.8502 F-Test (normal distribution) Test statistic = 0.74; p-value = 0.631 Levene's Test (any continuous distribution) Test statistic = 0.46; p-value = 0.503 Xác su t p-value = 0,631 > 0,05 ( α) vì v y H 0 đưc ch p nh n. K t lu n hai ph ươ ng sai đng nh t (P > 0,05). b. Phép th T S d ng phép th T đ ki m đnh 2 giá tr trung bình khi khơng bi t đ l ch chu n c a qu n th ( σσσ). Minitab s tính kho ng tin c y (CI 95%) s chênh l ch gi a 2 giá tr trung bình qu n th và th c hi n phép ki m đnh. ði v i ki m đnh 2 phía ta cĩ gi thi t: H 0: µ 1 = µ 2 v i đi thi t H 1: µ 1 ≠ µ 2; trong đĩ µ 1 và µ 2 là giá tr trung bình c a qu n th th nh t và th 2. Stat  Basic Statistics  2-Sample T Cĩ th s d ng Summarized data khi s li u đã đưc tinh hố. ði v i tr ưng h p này c n khai báo dung l ưng m u ( Sample size ), giá tr trung bình ( Mean ) và đ l ch chu n ( Standard deviation ) đi v i t ng cơng th c thí nghi m t ươ ng ng ( First ho c Second ). Ch n Assume equal variances n u 2 ph ươ ng sai đng nh t và ng ưc l i n u 2 ph ươ ng sai khơng đng nh t (xem 4.1). Ch n hi n th đ th trong Graphs và m c tin c y trong Options , theo m c đnh Minitab tính kho ng tin c y 95%. Vi c u trúc s li u cách 1 cách 2 Ch n OK đ cĩ k t qu 16
  13. Two-Sample T-Test and CI: KL; GIONG Two-sample T for KL GIONG N Mean StDev SE Mean 1 12 196.2 10.6 3.1 2 15 153.7 12.3 3.2 Difference = mu (1) - mu (2) Estimate for difference: 42.4750 95% CI for difference: (33.2301; 51.7199) T-Test of difference = 0 (vs not =): T-Value = 9.46 P-Value = 0.000 DF = 25 Both use Pooled StDev = 11.5901 Xác su t p-value = 0,000 < 0,05 ( α) vì v y H 0 b bác b và H 1 đưc ch p nh n. K t lu n r ng Kh i l ưng c a hai gi ng bị cĩ s sai khác (P-value < 0,05). c. Phép th T c p đơi ði v i các thí nghi m ch n m u theo c p, điu ki n duy nh t c a bài tốn là ki m tra phân b chu n c a ph n chênh l ch ( d) s li u gi a 2 cơng th c thí nghi m. Vi ki m đnh 2 phía ta cĩ gi thi t H0: µd = 0 đi thi t H 1: µd ≠ 0 ( µd là trung bình c a s chênh l ch gi a 2 trung bình µ 1 và µ 2). Ví d 1.5: T ăng tr ng (pound) c a 10 c p bê sinh đơi gi ng h t nhau v i hai ch đ ch ăm sĩc khác nhau (A và B). Bê trong t ng c p đưc b t th ăm ng u nhiên v m t trong hai cách ch ăm sĩc. Hãy ki m đ nh gi thi t H 0: T ăng tr ng trung bình hai cách ch ăm sĩc nh ư nhau, đi thi t H 1: T ăng tr ng trung bình hai cách ch ăm sĩc khác nhau vi m c ý ngh ĩa α = 0,05. S li u thu đưc nh ư sau: Cp sinh đơi 1 2 3 4 5 6 7 8 9 10 Tăng tr ng cách A 43 39 39 42 46 43 38 44 51 43 Tăng tr ng cách B 37 35 34 41 39 37 35 40 48 36 Chênh l ch (d) 6 4 5 1 7 6 3 4 3 7 Nh p s li u vào Worksheet Lưu ý: S li u đưc nh p vào Worksheet theo mt cách duy nh t vào 2 c t theo t ng cp s li u t ươ ng ng. Th t các c p s li u khơng đĩng vai trị quan tr ng. S thay đi v trí trong 1 c p cĩ th đư a ta đn các k t lu n thi u chính xác. 17
  14. Calc Calculator ch n OK đ cĩ đưc ph n chênh l ch Ti n hành ki m đnh phân b chu n c a ph n chênh l ch D (xem 4.1) Stat  Basic Statistics  Paired T Cĩ th s d ng Summarized data (differences) khi s d ng các thơng tin ca c t chênh l ch D đ ki m đnh. ði v i tr ưng h p này c n khai báo dung l ưng m u ( Sample size ), giá tr trung bình ( Mean ) và đ l ch chu n (Standard deviation ) c a c t D. Ch n hi n th đ th trong Graphs và mc tin c y trong Options , theo m c đnh Minitab tính kho ng tin c y 95%. Ch n OK đ cĩ k t qu Paired T-Test and CI: A; B Paired T for A - B N Mean StDev SE Mean A 10 42.8000 3.8239 1.2092 B 10 38.2000 4.1312 1.3064 Difference 10 4.60000 1.95505 0.61824 95% CI for mean difference: (3.20144; 5.99856) T-Test of mean difference = 0 (vs not = 0): T-Value = 7.44 P-Value = 0.000 Xác su t p-value = 0,000 < 0,05 ( α) vì v y H 0 b bác b và H 1 đưc ch p nh n. K t lu n r ng Tăng tr ng trung bình hai cách ch ăm sĩc cĩ s sai khác (P-value < 0,05). 1.5. Phân tích ph ươ ng sai Phân tích ph ươ ng sai ( An alysis of Va riance - ANOVA ) là cơng c h u ích đ so sánh nhi u giá tr trung bình. ðiu ki n c a bài tốn phân tích ph ươ ng sai là 1) s li u tuân theo phân b chu n và 2) ph ươ ng sai đng nh t. Trong khuơn kh giáo trình này chúng tơi ch đ c p đn vi c ki m tra điu ki n c a bài tốn đi v i các mơ hình thi t k thí nghi m đơ n gi n (Thí nghi m m t y u t hồn tồn ng u nhiên). ð ki m đnh 2 phía ta cĩ gi thi t H0: µ1 = µ2 = = µa đi thi t H 1: µ1 ≠ µ2 ≠ ≠ µa (µ là trung bình c a qu n th cơng th c thí nghi m th 1, 2, a). 18
  15. a. Thí nghi m m t y u t hồn tồn ng u nhiên Xét tr ưng h p đơ n gi n nh t đi v i bài tốn phân tích ph ươ ng sai. Ch cĩ m t y u t duy nh t trong thí nghi m, các y u t phi thí nghi m cịn l i đưc coi là cĩ tác đng nh ư nhau đn đi t ưng thí nghi m. Ví d 1.6: Theo dõi t ăng tr ng c a cá (kg) A B C D E trong thí nghi m v i 5 cơng th c nuơi (A, 0,95 0,43 0,70 1,00 0,90 B, C, D và E). Hãy cho bi t tăng tr ng c a cá các cơng th c nuơi. N u cĩ s khác 0,85 0,45 0,90 0,95 1,00 nhau thì ti n hành so sánh s sai khác c a 0,85 0,40 0,75 0,90 0,95 tng c p giá tr trung bình. 0,90 0,42 0,70 0,90 0,95 Cu trúc s li u c a bài tốn ki m đnh nhi u giá tr trung bình cĩ th đưc trình bày bng m t trong 2 cách sau: Cách 1: S li u c a các cơng th c thí Cách 2: S li u đưc nh p vào các c t nghi m đưc nh p vào m t c t và c t th riêng bi t theo cơng th c thí nghi m. Tên 2 đ xác đnh giá tr c a t ng cơng th c ct th hi n giá tr trong m i cơng th c Ki m tra điu ki n c a bài tốn (s đng nh t c a ph ươ ng sai và phân ph i chu n c a s li u) s đưc trình bày sau. Ti n hành so sánh các giá tr trung bình b ng phép phân tích ph ươ ng sai (ANOVA) đi v i c u trúc s li u cách 1 và cách 2. Vi các bài tốn s d ng phép phân tích ph ươ ng sai đ so sánh, c u trúc s liu cách 1 s phù h p và thu n l i h ơn trong quá trình x lý s li u. Trong các ví d ti p theo chúng tơi ch đ c p đn vi c x lý s li u cĩ c u trúc cách 1. Stat  ANOVA  One-Way Stat  ANOVA  One-Way (Unstacked) 19
  16. Ch n OK đ cĩ k t qu One-way ANOVA: KL versus TA Source DF SS MS F P TA 4 0.76325 0.19081 60.99 0.000 Error 15 0.04693 0.00313 Total 19 0.81018 S = 0.05593 R-Sq = 94.21% R-Sq(adj) = 92.66% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev + + + + A 4 0.8875 0.0479 ( * ) B 4 0.4250 0.0208 ( * ) C 4 0.7625 0.0946 ( * ) D 4 0.9375 0.0479 ( * ) E 4 0.9500 0.0408 (-* ) + + + + 0.40 0.60 0.80 1.00 Pooled StDev = 0.0559 Xác su t p-value = 0,000 < 0,05 ( α) vì v y H 0 b bác b và H 1 đưc ch p nh n. K t lu n rng Tăng tr ng trung bình c a cá các cơng th c th c ăn cĩ s sai khác (P-value < 0,05). So sánh c p khi bác b gi thi t H 0 ch p nh n gi thi t H 1 Ch n Comparisons trong h p tho i One-Way Analysis of Variances Các l a ch n: Tukey’s, family error rate: v i sai s ca tồn b các c p so sánh là 5% Fisher’s, individual error rate: v i sai s c a t ng c p so sánh là 5% Dunnett’s, family error rate: so sánh vi nhĩm đi ch ng, sai s c a tồn b các c p so sánh là 5% Hsu’s MCB, family error rate: v i sai s c a tồn b các c p so sánh là 5% Ch n OK đ cĩ k t qu Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons among Levels of TA Individual confidence level = 99.25% TA = A subtracted from: TA Lower Center Upper + + + +- B -0.58471 -0.46250 -0.34029 ( * ) C -0.24721 -0.12500 -0.00279 ( * ) D -0.07221 0.05000 0.17221 ( * ) E -0.05971 0.06250 0.18471 ( * ) + + + +- -0.35 0.00 0.35 0.70 20
  17. TA = B subtracted from: TA Lower Center Upper + + + +- C 0.21529 0.33750 0.45971 ( * ) D 0.39029 0.51250 0.63471 ( * ) E 0.40279 0.52500 0.64721 ( * ) + + + +- -0.35 0.00 0.35 0.70 TA = C subtracted from: TA Lower Center Upper + + + +- D 0.05279 0.17500 0.29721 ( * ) E 0.06529 0.18750 0.30971 ( * ) + + + +- -0.35 0.00 0.35 0.70 TA = D subtracted from: TA Lower Center Upper + + + +- E -0.10971 0.01250 0.13471 ( * ) + + + +- -0.35 0.00 0.35 0.70 Ngồi k t qu phân tích ph ươ ng sai nh ư ph n trên, Minitab đã cung c p k t qu so sánh t ng c p. S sai khác cĩ ý ngh ĩa (P-value 0,05). ð cĩ th trình bày k t qu so sánh c p đơi b n đc cĩ th tham kh o trang 57 ch ươ ng 4 Giáo trình Thi t k thí nghiêm (2007). Ki m tra s đ ng nh t c a ph ươ ng sai v i c u trúc s li u cách 1 Stat  ANOVA  Test for Equal Variances Ch n OK đ hi n th đ th và k t qu Test for Equal Variances: KL versus TA 95% Bonferroni confidence intervals for standard deviations TA N Lower StDev Upper A 4 0.0231412 0.0478714 0.309607 B 4 0.0100628 0.0208167 0.134631 C 4 0.0457534 0.0946485 0.612137 21
  18. D 4 0.0231412 0.0478714 0.309607 E 4 0.0197348 0.0408248 0.264034 Bartlett's Test (normal distribution) Test statistic = 5.76; p-value = 0.218 Levene's Test (any continuous distribution) Test statistic = 0.81; p-value = 0.539 Xác su t p-value = 0,218 > 0,05 ( α) vì v y H 0 đưc ch p nh n. K t lu n r ng Các Ph ươ ng sai đng nh t (P-value > 0,05). Ki m tra phân b chu n v i c u trúc s li u cách 1 Khơng ti n hành ki m tra phân b chu n c a c t s thơ ( KL ) mà ti n hành ki m tra ph n sai s ng u nhiên εεεij theo mơ hình: yi j = µ + a i + εi j (i = 1, a; j = 1, r i) trong đĩ y ij = quan sát th j cơng th c i, µ= trung bình chung, ai = chênh l ch do nh 2 hưng c a cơng th c i và εij = sai s ng u nhiên; các εij đc l p, phân ph i chu n N ∼(0, σ ). Nu ph n sai s ng u nhiên tuân theo phân ph i chu n thì s li u bài tốn c ũng cĩ phân ph i chu n. Stat  ANOVA  One-Way Ch n Store residuals và OK đ cĩ RESI1 ( εij ) Ti n hành ki m tra phân b chu n c a c t s li u RESI1 (xem 3.1 Ki m đnh phân ph i chu n). Phép ki m đnh s cho ta P-Value = 0,159 > 0,05 ( α) nên cĩ th k t lu n S li u tuân theo phân ph i chu n (P > 0,05). Lưu ý: Vi c u trúc s li u cách 2, cĩ th ki m đnh phân ph i chu n c a s li u v i tng nghi m th c riêng bi t. K t qu ki m đnh, xác su t đ s li u các nghi m th c A, B, C, D và E cĩ phân ph i chu n l n l ưt là 0,255; 0,845; 0,092; 0,255 và 0,410. Ta c ũng cĩ k t lu n t ươ ng t . b. Thí nghi m m t y u t kh i ng u nhiên đy đ Xem xét m t thí nghi m mà đi t ưng thí nghi m ch u tác đng đng th i c a m t y u t chính (y u t thí ngh êm) và y u t ph (kh i). Ví d 1.7: Nghiên cu s l ưng t bào lymphơ chu t ( ×1000 t bào mm-3 máu) đưc s d ng 4 lo i thu c khác nhau (A, B, C và D; thu c D là placebo) qua 5 la; s li u thu đưc trình bày b ng d ưi. Cho bi t nh h ưng c a thu c đn t bào lymphơ? 22
  19. La 1 La 2 La 3 La 4 La 5 Thu c A 7,1 6,1 6,9 5,6 6,4 Thu c B 6,7 5,1 5,9 5,1 5,8 Thu c C 7,1 5,8 6,2 5,0 6,2 Thu c D 6,7 5,4 5,7 5,2 5,3 Cu trúc s li u S li u c a bài tồn này ch cĩ m t c u trúc duy nh t trong Minitab; bao g m 3 ct: 1) c t S l ưng t bào C1 (TEBAO), 2) c t Thu c C2 (THUOC) và 3) c t La C3 (LUA) Trong thí nghi m này đi t ưng thí nghi m b tác đng b i y u t chính (y u t thí nghi m) và y u t ph (kh i) So sánh s sai khác gi a các nghi m th c b ng Phân tích ph ươ ng sai (ANOVA) Stat  ANOVA  Two-Way Ch n Store residuals đ cĩ RESI1 Ch n OK đ cĩ k t qu Two-way ANOVA: TEBAO versus THUOC; LUA Source DF SS MS F P THUOC 3 1.8455 0.61517 11.59 0.001 LUA 4 6.4030 1.60075 30.16 0.000 Error 12 0.6370 0.05308 Total 19 8.8855 S = 0.2304 R-Sq = 92.83% R-Sq(adj) = 88.65% Xác su t c a phép th đi v i y u t Thu c P = 0,001 < 0,05 ( α), bác b gi thi t H 0 và ch p nh n đi thi t H 1. K t lu n thu c cĩ nh khác nhau lên t bào lymphơ c a chu t (P < 0,05). 23
  20. Ví d 1.8: M t thí nghi m đưc ti n hành đ Kh i xác đnh nh h ưng c a 3 cơng th c th c ăn I II III IV (A1, A2 và A3) đn t ăng tr ng trung bình trên 826 864 795 850 ngày (gam / ngày) c a bê đc. Bê đc đưc A1 cân và chia thành 4 kh i d a theo kh i l ưng 806 834 810 845 bt đ u thí nghi m. Trong m i kh i cĩ 6 đ ng 827 871 729 860 A2 vt thí nghi m đưc ch n ra và đưc phân 800 881 709 840 ng u nhiên v v i các nghi m th c. S li u 753 801 736 820 thu th p sau khi k t thúc thí nghi m nh ư sau: A3 773 821 740 835 Cu trúc s li u mơ hình thí nghi m trong ví d 1.8 t ươ ng t nh ư ví d 1.7. Trong ví d 1.8 cĩ 2 đơ n v thí nghi m m t nghi m th c và kh i vì v y ngồi tác đng ca kh i và cơng th c thí nghi m cịn t n t i s tươ ng tác gi a kh i và cơng th c thí nghi m. Stat  ANOVA  General Linear Model Ch n Comparisons đ so sánh c p đơi Ch n OK đ cĩ k t qu General Linear Model: KL versus CT, KHOI Factor Type Levels Values CT fixed 3 A1, A2, A3 KHOI fixed 4 I, II, III, IV Analysis of Variance for KL, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P CT 2 8025.6 8025.6 4012.8 7.08 0.005 KHOI 3 33816.8 33816.8 11272.3 19.90 0.000 Error 18 10197.4 10197.4 566.5 Total 23 52039.8 S = 23.8017 R-Sq = 80.40% R-Sq(adj) = 74.96% Xác su t c a phép th đi v i y u t Th c ăn P = 0,005 nên bác b gi thi t H 0 và ch p nh n đi thi t H 1. K t lu n cơng th c ăn cĩ nh đn t ăng tr ng c a bê. Xác su t c a phép th đi v i y u t KHOI P = 0,000 nên bác b gi thi t H 0 và ch p nh n đi thi t H 1. Kt lu n KHOI cĩ nh đn t ăng tr ng c a bê. 24
  21. 1.6. Tươ ng quan và h i quy ð tính h s t ươ ng quan và xây d ng ph ươ ng trình h i quy, s li u luơn ph i t o thành t ng b và đưc nh p vào t ng c t đi t ng ch tiêu. Ví d 1.9: Ti n hành cân kh i l ưng (P), đo đưng kính l n (D) và đưng kính bé (d) ca 22 qu tr ng gà. S li u thu đưc trình bày b ng d ưi đây. P (gam) 66,80 60,10 71,20 61,60 61,20 59,00 67,90 59,00 51,50 62,60 64,20 D (mm) 58,37 54,95 60,58 56,73 57,36 53,26 57,07 58,17 52,28 55,62 56,82 d (mm) 45,12 44,35 45,56 44,34 43,57 44,86 46,27 42,82 41,91 44,95 44,79 P (gam) 71,20 54,20 54,50 69,10 55,90 66,00 68,00 62,00 56,70 67,00 53,80 D (mm) 61,15 54,24 54,99 60,99 54,41 58,19 59,93 56,80 55,66 58,49 52,44 d (mm) 46,00 42,58 42,32 44,85 42,62 45,69 45,50 44,20 42,41 45,56 43,38 Cu trúc s li u trong Worksheet Lưu ý: ð tính h s t ươ ng quan và xây d ng ph ươ ng trình h i quy, s li u luơn ph i to thành t ng c p và đưc nh p vào tng c t đi t ng ch tiêu. 1) C t Kh i l ưng C1 (KL) 2) C t ðưng kính l n C2 (DL) 3) C t ðưng kính bé C3 (DB) a. H s t ươ ng quan Gi thi t đi v i ki m đnh hai phía H 0: ρ = 0 và đi thi t H 1: ρ ≠ 0, trong đĩ ρ là tươ ng quan gi a 2 bi n nghiên c u. Stat  Basic Statistics  Correlation Ch n OK đ cĩ k t qu Correlations: KL; DL; DN KL DL DL 0.897 0.000 DN 0.905 0.648 0.000 0.001 Cell Contents: Pearson correlation P-Value Ch n Display p-values đ hi n th xác su t đ i v i t ng h s t ươ ng quan. Ch n Store matrix (display nothing) đ nh ma tr n h s t ươ ng quan vào b nh đm và khơng hi n th k t qu ra màn hình. H s t ươ ng quan gi a kh i l ưng và đưng kính l n là 0,897; kh i l ưng và đưng kính bé là 0,905; đưng kính l n và đưng kính bé là 0,648. Xác su t đ i v i t ng h s 25
  22. tươ ng quan ( p-values ) đu bé h ơn 0,05 ( α) vì v y k t lu n m i quan h gi a các ch tiêu này khác 0. b. Ph ươ ng trình h i quy tuy n tính Cĩ th xây d ng h i quy đơn bi n y = a + bx ho c đa bi n y = a + b 1x1 + b 2x2 + +b nxn. Cĩ th xây d ng ph ươ ng trình h i tuy n tính đơn bi n quy ưc tính kh i l ưng tr ng thơng qua đưng kính l n/ đưng kính bé ho c đa bi n thơng qua đưng kính l n và đưng kính bé. Stat  Regression  Regression Response: Khai báo c t C1 (KL) bi n ph thu c. Predictors: Khai báo c t C2 (DL) bi n đc l p. Ch n OK đ cĩ k t qu Regression Analysis: KL versus DL The regression equation is KL = - 53.7 + 2.04 DL Predictor Coef SE Coef T P Constant -53.67 12.78 -4.20 0.000 DL 2.0379 0.2250 9.06 0.000 S = 2.69651 R-Sq = 80.4% R-Sq(adj) = 79.4% Analysis of Variance Source DF SS MS F P Regression 1 596.60 596.60 82.05 0.000 Residual Error 20 145.42 7.27 Total 21 742.02 Unusual Observations Obs DL KL Fit SE Fit Residual St Resid 7 57.1 67.900 62.629 0.579 5.271 2.00R 8 58.2 59.000 64.871 0.658 -5.871 -2.25R R denotes an observation with a large standardized residual. Ph ươ ng trình h i quy ưc tính kh i l ưng (y) thơng qua đưng kính l n (x) y = -53,7 + 2,04x. Bng th nh t trong ph n k t qu ki m đ nh các h s c a ph ươ ng trình h i quy. V i xác su t P = 0,000 ta cĩ th k t lu n các h s trong ph ươ ng trình h i quy khác 0 (P < 0,05). H s xác đnh c a ph ươ ng trình R² = 80,4%, hi u ch nh R² = 79,4%. Các quan sát ngo i lai ( Unusual Observations ) trong mơ hình và ví d nêu trên. Các giá tr hàng th 7 và 8 trong ví d trên đưc coi là ngo i lai. Stat  Regression  Regression 26
  23. Predictors: Khai báo c t C2 (DL) và C3 (DN) bi n đc l p. ð xây d ng ph ươ ng trình h i quy đa bi n, bi n đc l p bao g m t 2 bi n tr lên. Ch n OK đ cĩ k t qu . Regression Analysis: KL versus DL; DN The regression equation is KL = - 117 + 1.21 DL + 2.48 DN Predictor Coef SE Coef T P Constant -116.555 5.472 -21.30 0.000 DL 1.21473 0.08323 14.60 0.000 DN 2.4764 0.1623 15.26 0.000 S = 0.759757 R-Sq = 98.5% R-Sq(adj) = 98.4% Analysis of Variance Source DF SS MS F P Regression 2 731.05 365.53 633.24 0.000 Residual Error 19 10.97 0.58 Total 21 742.02 Source DF Seq SS DL 1 596.60 Ta cĩ k t qu hồn tồn t ươ ng t nh ư vi c xây d ng ph ươ ng trình h i quy đơ n gi n. 2. NG D NG EXCEL TRONG X LÝ S LI U Ph n m m Excel cho phé p phân tí ch d li u nĩ i chung, d li u d li u trong ch ăn nuơi, thú y nĩ i riêng, mt cá ch khá hi u qu thơng qua vi c s d ng menu Tools> Data Analysis (nu khơng cĩm c nà y thìch n Tools> Add-in > Analysis ToolPak đcà i đt thêm). Sau đây là mt s cơng c xlý s li u th ng kê mà Excel cung c p. 2.1. Th ng kê mơ t và t ch c đ 2.1.1. Th ng kê mơ t Th ng kê mơ t cho phé p tí nh cá c s đc tr ưng m u/ cá c giátr th ng kê m u nh ư trung bì nh, đ lch chu n, sai s chu n, trung v , mode S li u tí nh tố n đư c b trí theo ct ho c theo dị ng. a. Cá c b ư c th c hi n trong Excel Ch n Tools>Data Analysis>Descriptive Statistics , khai bá o cá c m c sau trong h p tho i: - Input range: mi n d li u k cnhã n. - Grouped by: Column (s li u theo c t, Row s li u theo hàng). - Labels in first row : ðánh d u √ và o ơ nà y n u cĩnhã n dị ng đu. 27
  24. - Confidence level for mean: 95% ( đ tin c y 95%). - K-th largest: 1 (1 S ln nh t, 2 s ln nhì ). - K-th smallest: 1 (1 S nh nh t, 2 s nhnhì ). - Output range: mi n ra. - Summary Statistics: ðánh d u √ n u mu n hi n cá c th ng kê c ơ b n. - OK. Ví d 1.1 : Kh i l ưng (gam) c a 16 chu t cái t i th i đim cai s a: 54.1 49.8 24 46 44.1 34 52.6 54.4 56.1 52 51.9 54 58 39 32.7 58.5 Ch n Tools>Data Analysis>Descriptive Statistics, sau đĩ khai bá o h p tho i (xem hì nh sau) Kt qu thu đư c cho trong hì nh sau: b. Phân tí ch cá c k t qu thu đư c Mt s nh n xé t trên cá c th ng kê thu đư c nh ư sau: - Mean cho ta giátr trung bì nh c a dã y s . - Median cho trung v (giátrđim gi a c a dã y s ). Nu 2giátr Mean và Median x p x nhau ta thì s li u là cân đi. - Ph ươ ng sai m u hay đ lch chu n m u cho ta bi t đ phân tá n c a s li u quanh giá tr trung bì nh, nu cá c giátrnà y cà ng nh ch ng t s li u cà ng t p trung. 28
  25. - Kurtosis đánh giáđư ng m t đ phân ph i c a dã y s li u cĩnh n h ơn hay tù hơn đư ng m t đ chu n t c. Nu trong kho ng t -2 đ n 2 thìcĩ th coi đ nh n x p x đ nh n chu n. - Skewness đánh giá đư ng phân ph i nghiêng trá i hay nghiêng ph i. Nu trong kho ng t -2 đ n 2 thìcĩ th coi s li u cân đi x p x phân ph i chu n . - Confidence Level đư c hi u là na đdà i kho ng tin c y. Gi s Confidence Level là m thìkho ng tin c y c a trung bì nh t ng th là : (Mean- m , Mean+m). Trong víd 1.1 ta cĩ kho ng tin c y 95% c a “ dà i bơng” là : ( 47.575 - 5.415 , 47.575 - 5.415), tc là (42.160, 52.990). 2.1.2. T ch c đ Tn s xu t hi n c a s li u trong cá c kho ng cá ch đ u nhau cho phé p phá c ho bi u đ tn s , cị n g i là t ch c đ. ðv t ch c đ cn ph i ti n hà nh phân t s li u. a. T o mi n phân t ð ti n hà nh phân t s li u (t o Bin), cn th c hi n cá c b ư c sau: -Dù ng cá c hà m Min, Max đxá c đnh giátrnh nh t vàgiátr ln nh t.Tính biên đ = Max - Min. D a vào đĩ ta cĩ th đ nh s t c n chia. S t cĩ th theo cơng th c k=6*log(n), n là s s li u. T đĩ ta đ nh ra kho ng cách t là h = biên đ/k. ðnh ra giátr cn d ư i vàgiátr cn trên c a mi n phân t , th ưng thì l y giá tr c n dưi nh h ơn Min, giá tr c n trên l n h ơn Max. - Ghi giátr cn d ư i và o ơ đu c a mi n phân t . Con tr t i ơ này. -Ch n Edit > Fill > Series đ khai bá o cá c m c: + Trong m c Series in ch n Columns (d li u theo c t). + Trong m c Type ch n Linear (d li u t ăng theo c p s cng). + Trong Step value: nh p giátr bư c t ăng (h). + Trong Stop value: nh p giátr cu i (giá tr c n trên). + OK. Víd 1.2: D a trên 30 s li u v chi u dà i cá ta t o mi n phân t (Bin) nh ư trên hì nh sau, vi mi n phân t t ơ D2 ti ơ D12 (kcnhã n), g iátr cn d ư i là 10, cn trên là 55, giátr bư c t ăng 5. Hì nh 1.1. T o mi n Bin cho cá c s li u v chi u dà i cá 29
  26. b. V t ch c đ Ch n Tools> Data Analysis> Histogam đ khai bá o cá c m c: - Input range: mi n d li u. - Input Bin: mi n phân t . - Labels : nhã n dị ng đu n u cĩ . - Output range: Mi n k t qu . - Pareto: tn s sp x p gi m d n. - Cumulative Percentage: Tn su t c ng d n %. - Chart output: Bi u đ. - OK. Trong víd 1.2 ch n Tools> Data Analysis> Histogam và khai bá o nh ư trong hì nh sau: Hì nh 1.2. Cá c khai bá o đv t ch c đ c. Kt quv t ch c đ Hì nh 1.3. T ch c đ 30
  27. So sánh kh i l ưng c a 2 gi ng bị Gi ng 1 188 180 199 191 196 204 190 201 195 221 187 203 Gi ng 2 148 146 153 135 151 146 164 147 162 140 159 182 165 165 142 d. Phân tí ch k t qu - Tn s s li u r ơi và o t ng kho ng đư c ghi cn trên c a kho ng (Ch ng h n, cĩ 2 s li u thu c và o kho ng (10,15], vì vy s 2 đư c ghi t ươ ng ng v i s 15 là cn trên). -Nhì n và o t n s ta cĩ th th y trong kho ng nà o s li u xu t hi n nhi u nh t. -Nhì n và o hì nh d ng c a t ch c đcị n cho bi t: dã y s li u kh o sá t đư c v chi u dà i c a cácĩ th coi là tuân theo lu t chu n. 2.2. So sánh và ki m đ nh Bài tốn đt ra là c n so sánh ph ươ ng sai c a 2 bi n ho c so sánh trung bình c a 2 bi n v i nhau. ð gi i quy t v n đ này ng ưi ta đưa v bài tốn ki m đ nh gi thi t hai ph ươ ng sai b ng nhau ho c bài tốn ki m đ nh gi thi t hai trung bình b ng nhau. 2.2.1. Ki m đ nh s b ng nhau c a 2 ph ươ ng sai 2 2 Bà i tố n đây là thơng qua hai m u đ ki m đnh gi thuy t H 0: σ1 = σ2 (ph ươ ng sai 2 2 c a bi n 1 bng ph ươ ng sai c a bi n 2) vi đi thuy t H 1: σ1 ≠σ2 mc ýnghĩ a α . a. Cá c b ư c th c hi n Ch n Tools >Data Analysis > F-Test Two Sample for Variance , sau đĩ ln l ư t tr li: - Variable 1 Range: mi n d li uc a bi n 1, kcdị ng đu ch a nhãn. - Variable 2 Range: Mi n d li uc a bi n th hai, k cdị ng đu ch a nhãn. - Labels: Ch n m c nà y n u mi n d li u ch n c dịng nhãn. - Alpha: M c ý ngh ĩa (th ưng là 0.05 ho c 0.01). - Output Range: Ch n mi n tr ng đđư a ra k t qu . - OK: K t thúc. Ví d 1.3: Cĩ 2 gi ng bị, ti n hành ch n ng u nhiên và cân 12 con đi v i gi ng th nh t và 15 con đi v i gi ng th 2. Kh i l ưng (kg) thu đưc nh ư sau: Hãy ki m đ nh gi thi t: ph ươ ng sai c a 2 dãy s trên là nh ư nhau. Ch n Tools >Data Analysis > F-Test Two Sample for Variance và khai báo nh ư sau: 31
  28. Kt qu thu đưc nh ư sau: F-Test Two-Sample for Variances Gi ng 1 Gi ng 2 Mean 196.1750 153.7000 Variance 112.7002 151.3243 Observations 12 15 df 11 14 F 0.7448 P(F 0.05 nên ch p nh n H 0: σ1 = σ2 2 2 2.2.2. So sá nh trung bình tr ưng h p hai m u đc l p khi bi t ph ươ ng sai σσσ 1và σσσ 2 Bà i tố n đây là cn thơng qua hai m u đ ki m đnh gi thuy t H0: m1 = m 2 ( kỳv ng c a bi n X b ng kỳv ng c a bi n Y) vi đi thuy t H 1: m 1 ≠ m 2 m c ýnghĩ a α . Rú t m u đc l p t hai t ng th phân ph i chu n, trong m t s tì nh hu ng nà o đĩ chú ng ta cĩ th ư c l ư ng đư c ph ươ ng sai (th ư ng x y ra khi điu tra l i m t t ng th sau mt th i gian ch ưa lâu, nên ph ươ ng sai ch ưa thay đi, do đĩ ly ph ươ ng sai c a l n điu tra 2 2 tr ư c là m σ 1 và σ 2, ch ng h n khi xem xé t cá c k t qu phân tí ch c a hai phị ng thí nghi m màđchí nh xá c đã n đnh, tđĩcĩcá c ư c l ư ng v ph ươ ng sai). Tr ư ng h p m u l n: Khi vi c rú t hai m u quan sá t t hai t ng th đư c ti n hà nh m t cá ch đc l p thìchú ng ta cĩ hai m u đc l p. Nu dung l ư ng c a c hai m u đ u l n (th ư ng quy ư c là n1 ≥ 30, n 2 ≥ 30) ta cĩ th ti n hà nh z-test nh ưng thay hai ph ươ ng sai 2 2 2 2 c a t ng th σ 1và σ 2 bng ph ươ ng sai m u s 1 và s2 a. Cá c b ư c th c hi n Ch n Tools >Data Analysis > z-Test: Two Sample for Means, sau đĩ ln l ư t tr li: - Variable 1 Range: mi n d li u c a bi n 1, kcdị ng đu ch a nhãn. - Variable 2 Range: Mi n d li u c a bi n th hai, kcdị ng đu ch a nhãn. - Labels: Ch n m c nà y n u mi n d li u ch n c dịng nhãn. 32
  29. - Hypothesized means difference: Gi thuy t v hi u hai trung bì nh c a hai t ng th . Nu ly gi thuy t H 0: m 1=m 2thì ghi 0. Nu l y gi thuy t H 1: m 1=m 2+d thì ghi d (d là 1 s ) . 2 - Variable 1 variance: Ph ươ ng sai c a bi n 1 (nh p σ 1). 2 - Variable 2 variance: Ph ươ ng sai c a bi n 2 (nh p σ 2). - Output Range: Ch n mi n tr ng đđư a ra k t qu . - Ch n OK. Víd 1.4: Th c hi n thí nghi m đo chi u dài c a 2 gi ng cá x và y. Vi gi ng cá x l y mu đo 10 con cá, Vi gi ng cá y l y m u đo 12 con cá, ta cĩ b ng s li u sau, bi t ph ươ ng sai c a gi ng cá x là 11.6, c a gi ng cá y là 10.9. Hãy so sánh chi u dài c a 2 gi ng cá x và y. Ch n Tools >Data Analysis > z-Test: Two Sample for Means, sau đĩ khai báo theo hp tho i sau: Kt qu so sá nh hai m u cho b ng sau: z-Test: Two Sample for Means x y Mean 20.300 20.833 Known Variance 11.6 10.9 Observations 10 12 Hypothesized Mean Difference 0 z -0.37084 P(Z<=z) one-tail 0.35538 z Critical one-tail 1.64485 P(Z<=z) two-tail 0.71076 z Critical two-tail 1.95996 b. Phân tí ch k t qu - Mean:Trung bì nh c a 2 mu. 2 2 - Known Variance: Ph ươ ng sai đã cho (σ 1và σ 2 ). 33
  30. - Observations: S quan sá t n 1 và n2. - Hypothesized means difference: Gi thuy t v hi u hai trung bì nh c a hai t ng th . Nu ly gi thuy t H0: m 1=m 2thì ghi 0. Nu l y gi thuy t H 1: m 1=m 2+d thì ghi d (d là 1 s ) . - z: Giátr z th c nghi m tí nh theo cơng th c sau: 2 2 z=(a 1-a2)/Sqrt( σ 1/n 1 + σ 2/n 2 ) - P(Z mc ýnghĩ a α = 0.05 thì ch p nh n H 0 ng ư c l i bá c b H 0 ch p nh n H 1. Trong vídgiátr P hai phí a l n h ơn m c ýnghĩ a α = 0.05 nên k t lu n: chi u dài c a hai gi ng cá khơng khá c nhau. 2.2.3. So sá nh hai m u ki u c p đơi Ta xé t thíd : ly m t t chim và cân tr ng l ư ng chim cá i, tr ng l ư ng chim đc ta đư c các c p s li u, ly m u v i dung l ưng là n thì ta cĩ n c p s li u, tr ưng h p này là ly m u c p đơi. Nu l y m t s chim đc ng u nhiên trong nhi u chim đc và ly m t s chim cá i ng u nhiên trong nhi u chim cá i thìcĩ hai m u quan sá t đc l p. Tr ư ng h p khá c, nu ta đem 10 mu đt, mi m u chia đơi, mt n a giao cho phị ng phân tí ch A th c hi n, na kia giao cho phị ng phân tí ch B thì thu đư c s li u c p đ so sá nh k t quc a hai phị ng phân tí ch, ho c n u ta đem hai gi ng lú a c y trên m t s ru ng, mi ru ng chia đơi, mt n a c y gi ng A, mt n a c y gi ng B thìcĩ hai m u c p đ so sá nh, hay n u đo m t ch s sinh lý ho c sinh hốc a m t b nh nhân khi m i nh p vi n và đo l i ch sđĩ sau m t th i gian điu trthìcĩ hai m u quan sá t c p đđánh giá hi u qu điu tr . Chúý rng, khi rú t hai m u c p ta cĩ hai m u cù ng s quan sá t n, cá c s li u s p x p thà nh c p đng hai c t c nh nhau. a. Cá c b ư c th c hi n Ch n Tools >Data Analysis > t-Test: Paired Two Sample for Means , sau đĩ ln l ư t tr li: - Variable 1 Range: mi n d li u c a bi n 1, kcdị ng đu ch a nhãn. - Variable 2 Range: Mi n d li u c a bi n th hai, kcdị ng đu ch a nhãn. - Labels: Ch n m c nà y n u mi n d li u ch n c dịng nhãn 34
  31. - Hypothesized means difference: Gi thi t v hi u hai trung bì nh c a hai t ng th . Nu l y gi thuy t H 0: m 1=m 2thì ghi 0. Nu l y gi thuy t H 0: m 1=m 2+d thì ghi d (d là mt snà o đĩ) - Output Range: Ch n mi n tr ng đđt ra k t qu . Víd 1.5: Tăng tr ng (pound) c a 10 c p bê sinh đơi gi ng h t nhau d ưi hai ch đ ch ăm sĩc A và B khác nhau. Bê trong t ng c p đưc b t th ăm ng u nhiên v m t trong hai cách ch ăm sĩc. Hãy ki m đ nh gi thi t H0: T ăng tr ng trung bình hai cách ch ăm sĩc nh ư nhau, đi thi t H 1: T ăng tr ng trung bình khác nhau hai cách ch ăm sĩc v i m c ý ngh ĩa α = 0,05. S li u thu đưc nh ư sau: Tăng tr ng cách A 43 39 39 42 46 43 38 44 51 43 Tăng tr ng cách B 37 35 34 41 39 37 35 40 48 36 Ch n Tools >Data Analysis > t-Test: Paired Two Sample for Means, khai báo h p tho i nh ư sau: Kt qu thu đưc nh ư sau: t-Test: Paired Two Sample for Means Tăng tr ng cách A Tăng tr ng cách B Mean 42.8 38.2 Variance 14.6222 17.0667 Observations 10 10 Pearson Correlation 0.8820 Hypothesized Mean Difference 0 df 9 t Stat 7.44046 P(T<=t) one-tail 0.00002 t Critical one-tail 1.83311 P(T<=t) two-tail 0.00004 t Critical two-tail 2.26216 35
  32. b. Phân tí ch k t qu B ng k t qucĩ hai c t cho hai m u quan sá t. B ng nà y cĩcá c hà ng: - Mean: Trung bì nh m u a 1, a 2. 2 2 - Variance: Ph ươ ng sai m u s 1 , s 2 . - Observations: S quan sá t n 1và n2 (bng nhau và bng s cp s li u n). - Pearson Correlation: H s tươ ng quan r c a 2 mu. - Hypothesized means difference: Gi thuy t v hi u hai trung bì nh c a hai t ng th . Nu ly gi thuy t H 0: m 1=m 2thì ghi 0. Nu l y gi thuy t H 1: m 1=m 2+d thì ghi d (d là 1 s ) . - df: Bc t do b ng s cp tr 1 (n-1). - t Stat: Giátr t th c nghi m - P(T t m t phí a nên m1> m 2, cĩ ngh ĩa là t ăng tr ng cách A l n h ơn t ăng tr ng c a cách B. 2.2.4. So sá nh trung bình khi l y m u đc l p v igi thuy t hai ph ươ ng sai b ng nhau Tr ư ng h p m u l n: Khi vi c rú t hai m u quan sá t t hai t ng th đư c ti n hà nh m t cá ch đc l p thìchú ng ta cĩ hai m u đc l p. Nu dung l ư ng c a c hai m u đ u l n (th ư ng quy ư c là n1 ≥ 30, n 2 ≥ 30) ta cĩ th ti n hà nh z-test nh ưng thay hai ph ươ ng sai 2 2 2 2 c a t ng th σ 1và σ 2 b ng ph ươ ng sai m u s 1 và s2 . Tr ư ng h p m u bé (n 1,n 2 nh hơn 30) thì ta g p bà i tố n khĩ , g i tên là bà i tố n Berens – Fisher. Trong tr ư ng h p nà y, nu coi hai ph ươ ng sai c a hai t ng th bng nhau (cn ki m đnh gi thuy t ph v s bng nhau c a hai ph ươ ng sai) thìcĩ th ti p t c tí nh tố n nh ư sau: a. Cá c b ư c th c hi n: Ch n Tools >Data Analysis > t-Test: Two-Sample Assuming Equal Variances , sau đĩ ln l ư t tr li: - Variable 1 Range: mi n d li u c a bi n 1, kcdị ng đu ch a nhãn. - Variable 2 Range: Mi n d li u c a bi n th hai, kcdị ng đu ch a nhãn. - Labels: Ch n m c nà y n u mi n d li u ch n c dịng nhãn - Hypothesized means difference: Gi thi t v hi u hai trung bì nh c a hai t ng th . Nu l y gi thuy t H 0: m 1=m 2thì ghi 0. Nu l y gi thuy t H 0: m 1=m 2+d thì ghi d (d là mt snà o đĩ) . - Output Range: Ch n mi n tr ng đđt ra k t qu . 36
  33. Ví d 1.6: Cĩ 2 gi ng bị, ti n hành ch n ng u nhiên và cân 12 con đi v i gi ng th nh t và 15 con đi v i gi ng th 2. Kh i l ưng (kg) thu đưc nh ư sau: So sánh kh i l ưng c a 2 gi ng bị Gi ng 1 188 180 199 191 196 204 190 201 195 221 187 203 Gi ng 2 148 146 153 135 151 146 164 147 162 140 159 182 165 165 142 Ki m đ nh gi thi t H 0: kh i l ưng trung bình c a 2 gi ng bị nh ư nhau. - Tr ưc tiên ta ph i ki m đ nh s b ng nhau c a hai ph ươ ng sai, trong m c 1.2.1 và ví d 1.3 ta đã cĩ k t lu n hai ph ươ ng sai b ng nhau. - B ưc ti p theo ta đi so sánh trung bình v i gi thi t ph ươ ng sai b ng nhau: Ch n Tools >Data Analysis > t-Test: Two-Sample Assuming Equal Variances , khai báo h p tho i nh ư sau: K t qu nh ư sau: t-Test: Two-Sample Assuming Equal Variances Gi ng 1 Gi ng 2 Mean 196.175 153.7 Variance 112.7002 151.3243 Observations 12 15 Pooled Variance 134.3297 Hypothesized Mean Difference 0 df 25 t Stat 9.46241 P(T<=t) one-tail 0.00000 t Critical one-tail 1.70814 P(T<=t) two-tail 0.00000 t Critical two-tail 2.05954 37
  34. b. Phân tí ch k t qu B ng k t qu thu đư c cĩ hai c t cho hai m u quan sá t, và ln l ơt cĩcá c hà ng sau: - Mean: Trung bì nh m u a 1, a 2. 2 2 - Variance: Ph ươ ng sai m u s 1 , s 2 . - Observations: S quan sá t n 1và n2. - Pooled Variance: Ph ươ ng sai chung tí nh theo cơng th c 2 2 2 s =((n 1-1)s 1 +( n 2-1)s 2 )/(n 1+n 2-2) - Hypothesized means difference: Gi thi t v hi u hai trung bì nh c a hai t ng th . Nu l y gi thuy t H 0: m 1=m 2thì ghi 0. Nu l y gi thuy t H 0: m 1=m 2+d thì ghi d (d là mt snà o đĩ) . - df: Bc t do (n 1+ n 2-2) - t Stat: Giátr t th c nghi m tí nh theo cơng th c: 2 t = (a 1-a2)/Sqrt(s ×(1/n 1+1/n 2)) - P(T t m t phí a nên m1> m 2, cĩ ngh ĩa là kh i l ưng trung bình c a gi ng bị 1 l n h ơn kh i l ưng trung bình ca gi ng bị 2. 2.2.5. So sá nh trung bình khi l y m u đc l p v i gi thuy t hai ph ươ ng sai khá c nhau Trong tr ư ng h p m u bévà ph ươ ng sai khá c nhau thìcĩ th th c hi n theo cá c b ư c sau: a. Cá c b ư c th c hi n Ch n Tools >Data Analysis > t-Test: Two-Sample Assuming Unequal Variances , sau đĩ ln l ư t tr li: - Variable 1 Range: mi n d li u c a bi n 1, kcdị ng đu ch a nhãn. - Variable 2 Range: Mi n d li u c a bi n th hai, kcdị ng đu ch a nhãn. - Labels: Ch n m c nà y n u mi n d li u ch n c dịng nhãn - Hypothesized means difference: Gi thi t v hi u hai trung bì nh c a hai t ng th . Nu l y gi thuy t H 0: m 1=m 2thì ghi 0. Nu l y gi thuy t H 0: m 1=m 2+d thì ghi d (d là mt snà o đĩ) - Output Range: Ch n min tr ng đđt ra k t qu . Víd 1.7 : Th c hi n thí nghi m đo chi u dài c a 2 gi ng cá x và y. Vi gi ng cá x l y mu đo 10 con cá, Vi gi ng cá y l y m u đo 12 con cá, ta cĩb ng s li u sau. Hãy so sánh chi u dài c a 2 gi ng cá x và y. 38
  35. x 15 17 20 23 25 17 18 22 24 22 y 14 12 13 28 12 17 25 24 30 21 23 30 * Bưc 1: Ki m đ nh s b ng nhau c a hai ph ươ ng sai, th c hi n theo m c 1.2.1, ta cĩ kt qu sau: F-Test Two-Sample for Variances x y Mean 20.3 20.75 Variance 11.5667 48.2045 Observations 10 12 df 9 11 F 0.23995 P(F Data Analysis > t-Test: Two-Sample Assuming Unequal Variances , khai báo h p tho i nh ư sau: K t qu thu đưc nh ư sau: t-Test: Two-Sample Assuming Unequal Variances x y Mean 20.3 20.75 Variance 11.5667 48.2045 Observations 10 12 Hypothesized Mean Difference 0 df 17 t Stat -0.19784 P(T<=t) one-tail 0.42276 t Critical one-tail 1.73961 P(T<=t) two-tail 0.84552 t Critical two-tail 2.10982 39
  36. b. Phân tí ch k t qu ðánh giá k t qu nh ư tr ng m c 1.2.4 trên. Kt lu n: Theo k t qu trên gi thuy t H 0 v n đư c ch p nh n mc ýnghĩ 0.05 do P hai phí a ln h ơn m c ýnghĩ a α = 0.05, t c là chi u dài c a 2 gi ng cá khơng khác nhau. 2.3. Phân tích ph ươ ng sai Phân tí ch ph ươ ng sai là cơng c ch yu đ phân tí ch cá c s li u khi theo dõ i nh hư ng c a cá c nhân t (factor) và nh h ư ng t ươ ng tá c c a chú ng. ð thu th p s li u, thí nghi m c n đư c thi t k phù hp v i m c đích nghiên c u vàđiu ki n c th nơi ti n hà nh thí nghi m. ð phân tí ch m t nhân t , thí nghi m th ư ng đư c thi t k theo ki u hồ n tồ n ng u nhiên, ki u kh i hồ n tồ n ng u nhiên, hay ơ vuơng La tinh. ð phân tí ch hai nhân t , thí nghi m đư c b trí theo ki u kh i ng u nhiên, ki u tr c giao, ki u chia ơ ln, ơ nh . T ba nhân t tr lên thì cn b tríthí nghi m sao cho m i nhân t cĩ hai m c hay m i nhân t cĩ ba m c. 1.3.1. Phân tí ch ph ươ ng sai m t nhân t Phân tí ch ph ươ ng sai m t nhân t đư c s d ng đ phân tí ch s li u khi theo dõ i nh hư ng c a cá c m c c a nhân t ti k t qu , nh ư nh h ư ng c a cá c cơng th c cho ăn đ n năng su t th t l n, nh h ư ng c a cá c cơng th c điu tr thu c đ n t l bnh ð phân tí ch ph ươ ng sai m t nhân t cn thi t k thí nghi m ki u hồ n tồ n ng u nhiên, mi m c l p l i m t s ln, s ln l p c a cá c m c c a nhân t khơng c n ph i b ng nhau. S li u đư c đin theo c t ho c theo hà ng (nu và o theo hà ng thì mi hà ng ng v i mt m c c a nhân t ), ơ đu tiên ghi tên m c, cá c ơ ti p theo ghi s li u. Gi sthí nghi m đư c b trí theo k m c tá c đng khá c nhau c a nhân t A, mi m c đư c l p l i ni l n, i= ,1 k và n1 + n 2+ + n k là t ng s cá c thí nghi m. G i X ij là s li u thu đư c c a thí nghi m mc i và ln l p th j. Ta cĩb ng th c nghi m sau: Mc c a nhân t A S li u th c nghi m 1 X11 X12 X1n1 2 X21 X22 X2n2 k Xk1 Xk2 Xknk 2 δ2 = S 1 Nu k đám đơng cĩ phân ph i chu n N(m i, ), i = ,1 k thìđi l ư ng F 2 S 2 2 2 Trong đĩ S 1 là ph ươ ng sai gây ra do tá c đng c a cá c m c, S 2 là ph ươ ng sai do ng u nhiên. F cĩ phân ph i Fisher v i k-1; n-k b c t do. Bà i tố n phân tí ch ph ươ ng sai đư a v vi c ki m đnh gi thi t: H 0: m 1= m 2= = m k ð i gi thi t H 1: Cĩí t nh t hai tr trung bì nh khá c nhau. Gi thi t H 0bbá c b mc α n u: F > F α(k-1,n-k) vi F α(k-1,n-k) là stì m đư c b ng F, mc α v i k-1, n-k b c t do. 40
  37. a. Cá c b ư c th c hi n trong Excel Ch n Tools> Data Analysis > Anova: Single Factor và khai bá o: - Input range: Khai bá o mi n d li u và o (mt ch nh t bao trù m tồ n b cá c ơ ch a tên m c vàtồ n b cá c s li u). - Grouped by: Column (s li u theo c t) ho c row (s li u theo hà ng) - Label in First column : nhã n dị ng đu. - Alpha: 0.05 m c ýnghĩ a α. - Output range: mi n ra. - Ch n nút OK b. Phân tí ch k t qu - Kt qu in ra g m cá c th ng kê c ơ b n cho t ng m c (trung bì nh, đ lch chu n ) và b ng phân tí ch ph ươ ng sai. - N u giátrxá c su t P-value >= alpha (ho c F th c nghi m F lý thuy t) thì bác b Ho ch p nh n H1 cá c cơng th c cĩtá c đng khá c nhau t i k t qu . - Khi k t lu n cá c cơng th c cĩtá c đng khá c nhau t i k t quthìph i ti n hà nh b ư c ti p theo là so sá nh cá c cơng th c đrú t ra cơng th c nà o t t nh t. 1.3.2. So sánh các trung bình dùng ng ưng so sánh LSD (Least sinificance diffrence) Ph n m m Excel khơng cho phé p so sá nh cá c trung bì nh c a cá c nhĩ m ng v i cá c mc c a nhân t (cá c cơng th c). Tuy nhiên, nu c n so sá nh trung bì nh m i (vi r i l n l p) vi trung bì nh mj (r j l n l p) ng ư i dù ng cĩ th t tí nh thêm LSD (Least Significance 2 2 Difference) theo cơng th c LSD = t α,f × SQRT(s (1/r i + 1/r j)), trong đĩ s là ph ươ ng sai chung đư c ư c l ư ng b i trung bì nh c a sai s bì nh ph ươ ng trong n i b nhĩ m (MS within groups), α = 1-p, và tα,f làgiátr t c a b ng Student ng v i m c ýnghĩ a αvà f b c t do. tα,f cĩ th tì m đư c b ng cá ch tra b ng s hay b ng hà m TINV trong Excel. * Tí nh tr tuy t đi c a hi u cá c trung bì nh mi, mj: |m i- m j| * So sánh nu |m i- m j| > LSD thì hai trung bình là khác nhau, ng ưc l i 2 trung bình đưc coi là khơng khác nhau. Thơng th ưng ng ưi ta l p b ng hi u các trung bình, sau đĩ lp b ng ghi k t qu so sánh. Ví d 1.8: Theo dõi t ăng tr ng c a cá (kg), thí nghi m v i 5 cơng th c nuơi (A, B, C, D, E). . S li u thu đưc nh ư b ng sau. Hãy cho bi t cơng th c nào t t nh t * Cá c b ư c th c hi n trong Excel 41
  38. Ch n Tools> Data Analysis > Anova: Single Factor và khai bá o theo h p tho i sau: * K t qu thu đưc nh ư sau: Anova: Single Factor SUMMARY Groups Count Sum Average Variance A 4 3.55 0.8875 0.002292 B 4 1.7 0.425 0.000433 C 4 3.05 0.7625 0.008958 D 4 3.75 0.9375 0.002292 E 4 3.8 0.95 0.001667 ANOVA Source of Variation SS df MS F P-value F crit Between Groups 0.76325 4 0.190813 60.99494 4.24E-09 3.055568 Within Groups 0.046925 15 0.003128 Total 0.810175 19 * K t lu n: P- value < 0.05 ( mc ý ngh ĩa c a ki m đ nh ) nên bác b Ho ch p nh n H 1 cá c cơng th c cĩtá c đng khá c nhau t i k t qu . * So sánh các trung bình: 42
  39. 2.3.3. Phân tí ch ph ươ ng sai hai nhân t Khi phân tí ch ph ươ ng sai hai nhân t A và B thìcĩ th x y ra cá c hai tr ư ng h p: tr ư ng h p A và B khơng t ươ ng tá c (bi n đng gây nên b i tá c đng đng th i c a A và B gn sá t 0) và tr ư ng h p A và B t ươ ng tá c (nu trá i l i). Phân tí ch ph ươ ng sai m t nhân t btrí ki u kh i hồ n tồ n ng u nhiên đư c coi là tr ư ng h p riêng c a phân tí ch ph ươ ng sai hai nhân t khơng t ươ ng tá c (nhân t kh i là nhân t th hai khơng t ươ ng tá c v i nhân t th nh t). Khi phân tí ch ph ươ ng sai hai nhân t khơng t ươ ng tá c, s li u c n đư c s p xp theo cá ch sau: h àng làcá c m c c a nhân t th nh t, ct làcá c m c c a nhân t th hai (trong tr ư ng h p c n phân tí ch ph ươ ng sai m t nhân t btrí ki u kh i ng u nhiên thì hà ng làcá c m c c a nhân t, ct làcá c kh i ng u nhiên). a. Phân tí ch ph ươ ng sai hai nhân t khơng t ươ ng tá c (khơng l p) Xé t tr ư ng h p thí nghi m liên quan t i 2 nhân t A và B, mi nhân t cĩ m t s m u. Xét tr ư ng h p khơng cĩ t ươ ng tác gi a Avà B. Nhân t A 1 2 kA Nhân t B 1 X11 X12 X1kA 2 X21 X22 X2kA kB XkB1 XkB2 XkBkA 43
  40. Ta đi ki m đnh gi thuy t H 0A và H0B v i cá c đi thuy t H 1A và H1B ( Gi thi t H0A : Các m c c a nhân t A cĩ tá c đng nh ư nhau. Gi thi t H0B: Các m c c a nhân t B cĩ tá c đng nh ư nhau) 2 2 s A s B Cá c đi l ư ng th ng kê: F = và F = A 2 B 2 s R s R 2 2 2 Trong đĩ S A là ph ươ ng sai do nhân t A, S B là ph ươ ng sai do nhân t B, S R là ph ươ ng sai do nhân t ng u nhiên. Nu: FA > F 0.05A kt lu n cá c mc c a nhân t theo c t (A) cĩ nh h ư ng khác nhau đ n s li u nghiên c u. FB > F 0.05B kt lu n cá c mc c a nhân t theo dịng (B) cĩ nh h ư ng khác nhau đ n s li u nghiên c u. * Cá c b ư c th c hi n trong Excel Ch n Tools >Data Analysis >Anova: Two Factor Without Replication sau đĩ khai bá o ti p cá c thơng tin trong hì nh sau: Hì nh 1.4. H p tho i khai bá o đ phân tí ch ph ươ ng sai khơng t ươ ng tá c * Phân tí ch k t qu - Nu FA > F Crit A thì các m c c a nhân t Acĩ nh h ư ng khá c nhau đ n k t qu . - N u k t lu n c ác m c c a nhân t Acĩ nh h ư ng khá c nhau đ n k t quthì ta ti n hà nh so sá nh trung bì nh c a cá c m c trong nhân t A theo ch s LSD ( tươ ng t trong ph n phân tí ch ph ươ ng sai m t nhân t ). - N u F B > F Crit B thìcá c m c c a nhân t Bcĩ nh h ư ng khá c nhau đ n k t qu . - N u k t lu n c ác m c c a nhân t Bcĩ nh h ư ng khá c nhau đ n k t quthì ta ti n hà nh so sá nh trung bì nh c acá c cơng th c trong nhân t B theo ch s LSD ( tươ ng t trong ph n phân tí ch ph ươ ng sai m t nhân t ). Chúý : F là F th c nghi m, F Crit là F lý thuy t cĩ th tì m b ng hà m FINV( ) F Crit A = FINV( α, k A -1, (k A-1)(k B-1)) , F Crit B = FINV( α, k B -1, (k A-1)(k B-1)) Ví d 1.9: Mead và c ng s nghiên c u s l ưng t bào Lymphơ chu t ( ×1000 t bào mm-3máu) , s d ng 4 lo i thu c, qua 5 l a. S li u đưc cho trên b ng sau. Th c hi n trong Excel khai báo d li u theo h p tho i sau: 44
  41. Kt qu x lý cho trong b ng sau: Anova: Two-Factor Without Replication SUMMARY Count Sum Average Variance Thu c A 5 32.1 6.42 0.367 Thu c B 5 28.6 5.72 0.442 Thu c C 5 30.3 6.06 0.578 Thu c D 5 28.3 5.66 0.373 La 1 4 27.6 6.9 0.053333 La 2 4 22.4 5.6 0.193333 La 3 4 24.7 6.175 0.275833 La 4 4 20.9 5.225 0.069167 La 5 4 23.7 5.925 0.235833 ANOVA Source of Variation SS df MS F P-value F crit Rows 1.8455 3 0.615167 11.5887 0.0007392 3.490295 Columns 6.403 4 1.60075 30.15542 3.544E-06 3.259167 Error 0.637 12 0.053083 Total 8.8855 19 Kt lu n: + V i nhân t thu c thì khi s d ng các lo i thu c khác nhau cĩ nh h ưng t i s lưng t bào lymphơ trong máu (F > F crit). + V i nhân t l a thì các l a khác nhau c ũng nh h ưng t i s l ưng t bào lymphơ trong máu (F > F crit). b. Phân tí ch ph ươ ng sai hai nhân t cĩ t ươ ng tá c (cĩ l p) Trong tr ư ng h p nà y khi phân tí ch ph ươ ng sai ta ph i tí nh đ n s tá c đng đng th i c a A và B. S li u s p x p nh ư sau: - Nhân t 1 đánh theo hà ng v i cá c m c khá c nhau, nhân t 2 đánh theo c t v i cá c mc khá c nhau. 45
  42. - M i m c c a nhân t 1 (th ư ng g i là nhân t A) đư c dà nh m hà ng (cho m l n l p) cị n m i m c c a nhân t 2 (th ư ng g i là nhân t B) là 1 c t. - Tên m i m c c a nhân t A ch vi t m t l n trong ơ đu tiên c a m c đĩ, các tên mc c a nhân t B thì ghi đu mi c t. Cá c ơ t hà ng 2 c t 2 tr đi ghi s li u. S li u b trí theo b ng sau: B 1 2 kB A 1 X111 X121 X1kB1 X112 X122 X1kB2 X11m X12m X1kBm 2 X211 X221 X2KB1 X212 X222 X2kB2 X21m X22m X2kBm kA XkA11 XkA21 XkAkB1 XkA12 XkA22 XkAkB2 XkA1m XkA2m XkAkBm Tng s l ưng quan sát: n = m k A k B 2 2 2 = S A = S B = S AB Các đi l ưng th ng kê: FA 2 , FB 2 , FAB 2 S R S R S R 2 2 Trong đĩ S A là ph ươ ng sai do nhân t A, S B là ph ươ ng sai do nhân t B, S AB là 2 ph ươ ng sai do t ươ ng tác AB, S R là ph ươ ng sai do nhân t ng u nhiên. * Cá c b ư c th c hi n trong Excel Ch n Tools >Data Analysis >Anova: Two Factor With Replication , sau đĩ khai bá o cá c thơng tin nh ư sau: Trong đĩ Rows per sample là s l n l p. 46
  43. * Phân tí ch k t qu - Nu FA > F Crit A thì các m c c a nhân t Acĩ nh h ư ng khá c nhau đ n k t qu . - N u F B > F Crit B thìcá c m c c a nhân t Bcĩ nh h ư ng khá c nhau đ n k t qu . - N u F AB > F Crit AB thì tươ ng tác A Bcĩ nh h ư ng đ n k t qu . Ví d 1.10: Mt nghiên c u ti n hành đ xác đ nh nh h ưng c a vi c b sung 2 lo i vitamin (A và B) vào th c ăn đ t ăng tr ng (kg/ngày) c a l n. Hai m c đ i v i vitamin A (0 và 4 mg) và 2 m c đ i v i vitamin B (0 và 5 mg). S li u thu đưc khi k t thúc thí nghi m đưc trình bày nh ư sau: Vitamin A 0 mg 4 mg Vitamin B 0 mg 5 mg 0 mg 5 mg 0.585 0.567 0.473 0.684 0.536 0.545 0.450 0.702 0.458 0.589 0.869 0.900 0.486 0.536 0.473 0.698 0.536 0.549 0.464 0.693 Khi x lý trong Excel s li u đưc b trí li nh ư sau: Ch n Tools >Data Analysis >Anova: Two Factor With Replication , sau đĩ khai bá o cá c thơng tin nh ư sau: 47
  44. Chú ý: Mi n d li u vào (Input Range) A2: C12. Khơng ch n ơ cĩ nhãn Vitamin B, mà đây ch nh p đ xem chỗo. S l n l p là 5. Kt qu thu đưc nh ư b ng sau: Anova: Two-Factor With Replication SUMMARY 0 mg 5 mg Total 0 mg Count 5 5 10 Sum 2.601 2.786 5.387 Average 0.5202 0.5572 0.5387 Variance 0.0024342 0.0004432 0.00165912 4 mg Count 5 5 10 Sum 2.729 3.677 6.406 Average 0.5458 0.7354 0.6406 Variance 0.0327317 0.0085118 0.02831604 Total Count 10 10 Sum 5.33 6.463 Average 0.533 0.6463 Variance 0.015811333 0.0128009 ANOVA Source of Variation SS df MS F P-value F crit Sample 0.05191805 1 0.05191805 4.706889479 0.045448 4.493998 Columns 0.06418445 1 0.06418445 5.818961082 0.028222 4.493998 Interaction 0.02910845 1 0.02910845 2.638971553 0.123804 4.493998 Within 0.1764836 16 0.01103023 Total 0.32169455 19 Theo k t qu xlý , ta rú t ra k t lu n: - Vitamin A cĩ nh h ư ng đ n t ăng tr ng c a l n (F > F crit). - Vitamin B cĩ nh h ư ng đ n t ăng tr ng c a l n (F > F crit). - Tươ ng tác c a Vitamin A và Vitamin B khơng nh h ư ng đ n t ăng tr ng c a l n (F < F crit). 2.4. Tươ ng quan và Hi quy 2.4.1. H s tươ ng quan H s tươ ng quan dù ng đđo m c đ quan h gi a 2 bi n. H s tươ ng quan cĩ th nh n giátr t -1 đ n +1. Nu 1 bi n theo chi u tăng cị n bi n kia thìgi m thì h s tươ ng quan là âm. Ng ư c l i n u c 2 bi n đ u theo chi u t ăng thì h s tươ ng quan d ươ ng. H s tươ ng quan | ρ| ≥ 0,7 t ươ ng quan tuy n tính. |ρ| = 1 thì quan h hồn tồn tuy n tính. H s tươ ng quan đư c kí hi u là ρ đi v i t ng th vàkí hi u là r đi v i m u. * Tí nh h s tươ ng quan m u r 48
  45. ð i v i 2 bi n x và y, h s tươ ng quan m u r đư c tí nh theo cơng th c sau: n ∑ ()− X ( − Y) xi y = i r = i 1 − n( s)1 x s y đây x và sxlà trung bì nh vàđ lch chu n m u đi v i m u th nh t, y và sylà trung bì nh vàđ lch chu n c a m u th 2. * Tí nh h s tươ ng quan trong Excel: Excel cho phé p tí nh h s tươ ng quan đơ n gi a cá c bi n s p x p thà nh m t b ng g m n hà ng, n c t (mi c t là 1 bi n). a. Cá c b ư c th c hi n Ch n Tools>Data Analysis>Correlation và khai bá o cá c m c: - Input range: mi n d li u k cnhã n. - Grouped by: Column (s li u theo c t). - Labels in first row: ðánh d u √ và o ơ nà y n u cĩnhã n dị ng đu. - Output range: mi n ra. - OK. b. Phân tí ch k t qu - H s tươ ng quan c a dị ng và ct ghi ơ giao gi a dị ng và ct. - H s tươ ng quan âm ( Data analysis>Correlation . - Khai bá o cá c m c nh ư hình sau: 49
  46. - K t qu thu đư c trên b ng sau: Kh i l ưng gà mái Kh i l ưng th c ăn Kh i l ưng gà mái 1 Kh i l ưng th c ăn 0.779445522 1 - Kt lu n: H s t ươ ng quan gia kh i l ưng gà mái và kh i l ưng th c ăn là 0.779445522 , th hi n m i t ươ ng quan tuy n tính. 2.4.2. Hi quy tuy n tính trong excel Excel cho phé p tì m ph ươ ng trì nh h i quy tuy n tí nh đơ n y= a+ bx và hi quy tuy n tí nh b i y= a 0 + a 1x1 + a 2x2 + . . . + a nxn. Cá c bi n đc l p ch a trong n c t, bi n ph thu c y đ trong m t c t, cá c giátr tươ ng ng gi a bi n đc l p và bi n ph thu c đư c x p trên cù ng m t hà ng. a. Cá c b ư c th c hi n Ch n Tools>Data Analysis>Regression và khai bá o cá c m c: - Input y range: mi n d li u bi n y. - Input x range: mi n d li u cá c bi n x. - Label: ðánh d u √ và o ơ nà y n u cĩnhã n dị ng đu. - Confidence level : 95% ( đ tin c y 95%). - Constant in zero: ðánh d u √ nu h s t do a 0 = 0 . - Output range: mi n xu t k t qu . - Residuals : ðánh d u √ và o ơ nà y đ hi n ph n d ư hay sai l ch gi a y th c nghi m và y theo h i quy. - Standardized residuals: ðánh d u √đ hi n ph n d ư đã chu n hố . - Residuals plot: ðánh d u √đ hi n đth ph n d ư. - Line fit plots: ðánh d u √ đ hi n đthcá c đư ng d bá o. - Normal probability plot: ðánh d u √đ hi n đth ph n d ư đã chu n hố . - OK. b. Phân tí ch k t qu - N u h s tươ ng quan b i x p x 0.7 ho c l n h ơn thì mơ hì nh h i quy tuy n tí nh là thí ch h p (ng ư c l i nên tì m mơ hì nh khá c). - H s tươ ng quan R square trong cho bi t bao nhiên % s bi n đng c a y là do cá c yu t x gây nên. - H s Adjusted R square nu khơng sá t g n v i R square ch ng t khơng ph i t t c cá c bi n đư a và o là th c s cn thi t. - Trong b ng phân tich h i quy n u m c ý ngh ĩa ki m đ nh F (Significiance F) nh hơn m c ýnghĩ a α thì ph ươ ng trì nh h i quy tuy n tí nh đư c ch p nh n. -Nhì n và o cá c h sc a cá c bi n ta vi t đư c đư ng h i quy d bá o - Nu su t cho ct P-value c a h sc a x i > α thì h s c a bi n đĩ cĩ th coi là bng khơng. Trong tr ư ng h p nà y, cn ti n hà nh l c b t bi n xi đđư c đư ng h i quy vi cá c h sđ u cĩýnghĩ a. 50
  47. Víd 1.12: Xác đnh ph ươ ng trình h i quy gi a kh i l ưng c a gà mái (kg) và thu nh n th c ăn trong m t n ăm (kg). Ti n hành quan sát 10 gà mái và thu đưc k t qu sau: Kh i l ưng gà mái 2.3 2.6 2.4 2.2 2.8 2.3 2.6 2.6 2.4 2.5 Kh i l ưng th c ăn 43 46 45 46 50 46 48 49 46 47 S li u nh p vào trong Excel theo c t. Ch n Tools>Data Analysis>Regression và khai bá o cá c m c nh ư trên hì nh sau: Kt qu thu đưc theo b ng sau: SUMMARY OUTPUT Regression Statistics Multiple R 0.779445522 R Square 0.607535322 Adjusted R Square 0.558477237 Standard Error 0.121517421 Observations 10 ANOVA df SS MS F Significance F Regression 1 0.182868 0.1828681 12.384 0.007856347 Residual 8 0.118132 0.0147665 Total 9 0.301 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Upper 95.0% Intercept -0.832967033 0.939372 -0.886728 0.4010953 -2.999161935 1.333227869 1.333227869 Kh i l ưng th c ăn 0.070879121 0.020141 3.5190908 0.0078563 0.024433162 0.11732508 0.11732508 51
  48. BÀI T P CH ƯƠ NG I Bài 1: M t thí nghi m đưc ti n hành nh m so sánh n ng đ Epinephrine (PEP) trong huy t t ươ ng chĩ các thu c gây mê khác nhau. Trong nghiên c u này 10 cho đưc ch n tham gia thí nghi m. Ba lo i thu c gây mê đưc l a ch n ng u nhiên đ l n l ưt gây mê cho m i chĩ. K t qu thu đưc nh ư sau: Chĩ s 1 2 3 4 5 6 7 8 9 10 Thu c A 1,07 1,35 0,69 0,28 1,24 1,53 0,49 0,56 1,02 0,30 Thu c B 0,30 0,39 0,63 0,68 0,38 0,21 0,88 0,39 0,51 0,32 Thu c C 0,28 0,51 1,00 0,39 0,29 0,36 0,32 0,69 0,17 0,33 So sánh hàm l ưng Epinephrine 3 lo i thu c gây mê khác nhau? Bài 2: Ti n hành m t nghiên c u v cơng th c th c ăn trên gia c m. Cĩ 2 cơng th c th c ăn (Cơng th c 1 và Cơng th c 2) và ti n hành thí nghi m trên c con tr ng và mái. Kh i l ưng th c ăn thu nh n (gam) thí nghi m nêu trên đưc trình bày nh ư sau: Tr ng Mái Cơng th c 1 Cơng th c 2 Cơng th c 1 Cơng th c 2 70,9 59,2 65,7 50,8 67,9 53,8 59,4 50,5 69,9 47,6 67,7 50,5 So sánh l ưng th c ăn thu nh n qua thí nghi m nêu trên? 52