Bài giảng Đánh giá chính sách - Bài giảng 5: Những vấn đề đặc biệt

pdf 32 trang Đức Chiến 05/01/2024 1620
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Đánh giá chính sách - Bài giảng 5: Những vấn đề đặc biệt", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_danh_gia_chinh_sach_bai_giang_5_nhung_van_de_dac_b.pdf

Nội dung text: Bài giảng Đánh giá chính sách - Bài giảng 5: Những vấn đề đặc biệt

  1. Đánh giá chính sách Bài giảng 5: Những vấn đề đặc biệt Edmund Malesky, Ph.D. July 2, 2018 Duke University 1
  2. Cơ chế của phương pháp ngẫu nhiên hóa • Cần có thiết kế mẫu quan sát (khung dữ liệu mẫu/sampling frame) • Có thể rút thăm từ mũ • Sử dụng hàm tạo số ngẫu nhiên trong các chương trình tính toán để sắp xếp các quan sát ngẫu nhiên • Sử dụng chương trình Source: Chris Blattman Stata
  3. Các vấn đề đặc biệt • Phân tầng (stratification) và phân khối (blocking) • Tính cỡ mẫu và sai số của ước lượng (Power Calculations) • Kiểm tra điều kiện cân bằng 3
  4. Phân khoảng Lấy mẫu ngẫu nhiên đơn giản: Sẽ tính được phần trăm số quả bóng màu nào đó (+/- 3%) Nếu tôi muốn chắc chắn hơn, tôi sẽ phân tầng theo từng màu và lấy mẫu ngẫu nhiên trong từng màu đó 15% Yellow 10% Green 50% Blue 25% Red = 4
  5. Phân tầng và phân khối Tại sao bạn có thể không muốn thực hiện ngẫu nhiên hóa một lần duy nhất (ngẫu nhiên hóa đơn giản)? Mường tượng rằng bạn có một biến số X liên tục quan sát được có tương quan với kết quả của việc tham gia chương trình. – Tại sao lại sử dụng việc lấy mẫu ngẫu nhiên sao cho việc được tham gia chương trình hoàn toàn không phụ thuộc vào X? Bạn có thể phân tầng theo các giá trị của X để tạo ra xác xuất việc tham gia chương trình không tương quan với biến X. Điều gì nếu bạn có biến số X rời rạc quan sát được có tương quan với kết quả của việc tham gia chương trình, hoặc nếu bạn muốn phân tích tác động của việc tham gia chương trình theo các giá trị khác nhau của biến rời rạc này? – Bạn có thể phân khối (Block) đối với biến số này để đảm bảo mỗi nhóm đối tượng trong toàn bộ mẫu có tỷ lệ tham gia chương trình như nhau và bằng với tỷ lệ tham gia của cả mẫu. Phương sai kỳ vọng của một ước lượng được phân tầng hoặc phân khối không thể cao hơn phương sai kỳ vọng của ước lượng dựa trên ngẫu nhiên hóa một lần duy nhất. 5
  6. Khi nào thì phân tầng • Khi cỡ mẫu nhỏ, để giảm sai số thì có thể làm: – Phân tầng theo các biến có khả năng tác động lớn đến biến kết quả – Phân tầng theo các nhóm trong mẫu mà bạn thực sự quan tâm (nhất là khi bạn nghi ngờ tác động của chương trình có thể khác nhau) – Phân tầng quan trọng với mẫu dữ liệu có ít quan sát • Cảnh báo 1: Có thể trở nên phức tạp nếu phân tầng dựa trên nhiều biến số • Cảnh báo 2: Khi phân tầng càng nhiều thì kết quả lấy mẫu càng mất tính minh bạch 6
  7. Phân tầng như thế nào 1. Cần có danh sách các quan sát trong khung dữ liệu cần ngẫu nhiên hóa. 2. Tạo một số ngẫu nhiên cho mỗi quan sát. 3. Xếp hạng theo tầng hay theo khối trước, sau đó theo số ngẫu nhiên. 4. Tung đồng xu để xác định quan sát đầu tiên trong bảng trong nhóm tham gia hay nhóm đối chứng 5. Sau đó thay đổi trạng thái tham gia đối với các quan sát tiếp theo. Cách này sẽ giả định tỷ lệ tham gia = 50% Đối với nhiều tầng hoặc nhiều khối: • Xếp hạng các tầng hay các khối, sau đó theo số ngẫu nhiên, và trình tự cũng tương tự như trên. 7
  8. Lấy mẫu ngẫu nhiên phân tầng trong điều tra PCI Province Joint Stock Companies Sole Propietorships Manufacturing Services Construction Agriculture Manufacturing Services Construction Agriculture New Old New Old New Old New Old New Old New Old New Old New Old An Giang 46 2 18 1 58 1 25 1 236 6 115 73 750 165 34 3 Bac Can 89 0 13 1 31 0 30 0 68 3 60 0 60 1 29 0 Bac Giang 128 0 107 2 160 3 41 1 6 2 22 1 110 4 5 0 Bac Lieu 26 1 10 1 23 3 9 2 59 6 53 53 385 45 23 11 Bac Ninh 172 2 191 2 198 3 24 1 27 3 177 10 140 5 7 1 Ben Tre 19 0 18 0 31 5 8 0 142 5 109 24 706 295 181 362 Binh Dinh 44 1 46 6 156 17 37 6 134 15 120 14 503 74 74 31 Binh Duong 161 0 234 3 292 0 33 0 88 1 527 63 1227 117 27 3 Binh Phuoc 60 0 34 0 51 1 61 1 45 4 88 7 652 82 117 1 Binh Thuan 61 1 30 1 112 2 63 1 75 2 131 17 539 35 118 9 BR-VT 242 4 78 2 287 9 52 2 96 2 156 11 803 66 104 9 Ca Mau 53 0 14 0 52 2 10 0 123 8 113 48 1115 140 23 4 Can Tho 232 0 84 3 231 2 26 1 89 4 268 38 837 41 21 0 Cao Bang 28 0 9 1 25 3 29 1 127 7 12 0 56 2 17 2 Da Nang 285 5 169 10 1239 43 36 1 179 13 113 14 728 71 23 1 Dak lak 102 2 36 1 105 6 52 0 101 7 65 3 727 88 48 1 Dak nong 43 0 9 0 33 0 29 1 29 0 52 0 223 13 42 0 Hãy xem xét khung dữ liệu mẫu của dự án này 8
  9. Tại sao bạn không nhất thiết phải phân tầng hay phân khối? • Bruhn & McKenzie chứng minh cho thấy cấu trúc thiết kế nghiên cứu phải được thể hiện trong việc xử lý sai số trong phương trình ước lượng. • Ví dụ, nếu bạn muốn phân khối theo các giá trị rời rạc thì bạn cần đưa thêm tác động cố định của các giá trị đó trong phương trình ước lượng. Làm vậy sẽ mất đi số bậc tự do (DOF). Điều này có đáng làm không? – Trả lời: cần thiết phải phân khối nếu bạn nghi ngờ các đặc tính của biến số đó có tác động mạnh mẽ lên biến kết quả. – Nếu không, phân khối sẽ làm mất bậc tự do và giảm hiệu lực kiểm định thống kê. • Sự khác biệt giữa ngẫu nhiên hóa có phân khối hoặc phân tầng và ngẫu nhiên hóa đơn giản nói chung không đáng kể khi số quan sát > 300 đơn vị. 9
  10. SỨC MẠNH KIỂM ĐỊNH THỐNG KÊ - STATISTICAL POWER 10
  11. Sức mạnh kiểm định thống kê • Độ mạnh của một kiểm định là khả năng (xác suất) bác bỏ một giả thuyết thông kê (giả thuyết không – Null) khi giả thuyết thay thế là đúng. • Khi nghiên cứu so sánh 2 nhóm, độ mạnh của kiểm định là xác suất bác bỏ giả thuyết không là hai nhóm có cùng một giá trị trung bình (bằng trung bình của quần thể), do đó kết luận là không có sự khác biệt giữa giá trị trung bình của hai quần thể, khi mà trên thực tế có sự khác biệt ở một mức độ nhất định. • Do đó nó là xác suất kết luận đúng là hai nhóm khác biệt nhau. 11
  12. Sức mạnh kiểm định thống kê 12
  13. Sức mạnh và mức ý nghĩa: Đồ thị trái là phân phối của beta mũ theo giả thuyết không là nó bằng 0. Đồ thị phải là phân phối của beta mũ nếu độ lớn thực tế là beta. Mức ý nghĩa được nhận diện là vùng đuôi bên phải của phân phối bên trái. Sức mạnh thống kê là vùng đuôi bên trái của phân phối bên phải. (source: Duflo & Kremer ‘Toolkit’) 13
  14. Sức mạnh và mức ý nghĩa: Cần bao nhiêu quan sát thì đủ? • Không có câu trả lời dễ dàng. • Ngay cả công thức tính độ mạnh thống kê đơn giản nhất cũng yêu cầu bạn phải biết tác động can thiệp kỳ vọng, ETE, và phương sai của, kết quả: • Và tỷ lệ tham gia chương trình p. • Từ đó, bạn cần chọn mức độ mạnh (xác suất bạn có thể bác bỏ giả thuyết thì bạn cần, do đó tránh được sai lầm loại II), thông thường  = .8 and (one-tailed). t1− = 0.84 • Sau đó, lựa chọn mức ý nghĩa (xác suất bạn bác bỏ sai khi đáng lẽ phải chấp nhận, do đó mắc sai lầm loại i), thông thường = .05 andt1− = 1.96 (two-tailed). Sau đó bạn có thể tính được cỡ mẫu tối thiểu dựa trên hàm số của độ mạnh mong muốn. 14
  15. Cỡ mẫu tối thiểu  2 N 2 1 ETE t+ t ( 12− ) pp(1− ) Hơn nữa, Bạn có thể chấp nhận một cỡ mẫu nhỏ nếu: – Kỳ vọng tác động can thiệp là lớn – Kết quả có độ dao động nhỏ – Nhóm tham gia và đối chứng là các nhóm tương đồng về số quan sát (p=.5) – Sẵn lòng chấp nhận mức ý nghĩa thấp và độ mạnh thống kê thấp. 15
  16. Các mức độ ngẫu nhiên hóa • Nên ngẫu nhiên hóa ở mức độ nào? – Vấn đề: • Càng nhiều nhóm thì càng cần nhiều quan sát để đạt được một mạnh nhất định. • Nếu vấn đề chệch do lan tỏa có thể xảy ra nghiêm trọng, thì có thể ngẫu nhiên hóa ở mức độ cao để ước lượng được các tác động đó. • Ngẫu nhiên hóa ở cấp độ nhóm có thể dễ thực hiện hơn. • Ngẫu nhiên hóa ở cấp độ cá nhân có thể gây ra bất mãn lớn đối với tổ chức thực hiện. 16
  17. Thiết kế can thiệp theo nhóm (Clustered Treatment Designs): Thông thường ngẫu nhiên hóa được áp dụng ở cấp độ cao hơn cấp độ chi tiết của dữ liệu. • Ví dụ: – Ngẫu nhiên hóa ở cấp độ trường học hoặc làng bản đối với các chương trình áp dụng ở cấp độ sinh viên hay học viên – Các kiểm chứng ở cấp độ thị trường hoặc thành phố về tác động của các thông điệp chính trị áp dụng cho người bầu cử – Các thay đổi ở cấp độ bệnh viện trong các nghiên cứu y học sử dụng trên bệnh nhân Ảnh hưởng của “tác động thiết kế” lên sức mạnh thống kê của kiểm định tương tự như việc điều chỉnh nhóm (cluster) khi ước lượng mô hình hồi quy. Rốt cục: sức mạnh của kiểm định có liên quan chặt chẽ với số quan sát mà bạn sẽ thực hiện ngẫu nhiên hóa hơn là tổng số quan sát trong một nghiên cứu. 17
  18. Thiết kế can thiệp theo nhóm Nhận xét về sự khác biệt giữa “tác động tối thiểu có thể phát hiện được” – tác động thực nhỏ nhất mà một thử nghiệm có thể phát hiện được với xác suất cao. Không có thiết kế theo nhóm: 1  2 MDE +( t12− t ) p(1− p ) N Với thiết kế theo nhóm: 11− MDE ( t12− + t )  + p(1− p ) J n J ( là số nhóm cùng kích cỡ, n là tương quan nội nhóm, và là số quan sát trong một nhóm.) 18
  19. Tính độ mạnh thống kê trên thực tế: • Sử dụng phần mềm! Có nhiều phần mềm cho phép tính toán trên Internet: – EGAP • – ‘Optimal Design’ • based/optimal_design_software – ‘G*Power’ • Nhiều chương trình sử dụng khái niệm về tham số thống kê trong khoa học y tế chứ không phải khoa học xã hội, do đó có thể gây rắc rối khi sử dụng. Cần thiết phải sử dụng công thức tính độ mạnh thống kê với chức năng cho phép tính thiết kế can thiệp theo nhóm nếu đơn vị nghiên cứu trong bài nghiên cứu không cùng với đơn vị can thiệp. Thực tế: Bạn thường xuyên phải đối mặt với hạn chế về cỡ mẫu do những khó khăn khi thực hiện điều tra, khi đó công thức tính độ mạnh thống kê chỉ được sử dụng để tính xác xuất bạn sẽ phát hiện được một tác động nào đó. 19
  20. CÂN BẰNG THỐNG KÊ 20
  21. Các kiểm định cân bằng sau khi ngẫu nhiên hóa Các nhà nghiên cứu thường viết các vòng lặp đệ quy để thực hiện việc ngẫu nhiên hóa nhiều lần, kiểm tra cân bằng theo các tiêu chí khác nhau, và lặp lại quá trình cho đến khi điều kiện cân bằng theo các tiêu chí cho trước được đảm bảo. Có các tranh cãi liên quan đến hoạt động này. Tất nhiên, hoạt động này cung cấp một bảng thống kê kiểm định t của các kết quả tham chiếu. Sử dụng như một tiêu chí phân tầng đa chiều. Tuy nhiên: • Kiểm định T về sự khác biệt dựa trên sự so sánh đơn thuần giữa các giá trị trung bình không còn đúng nữa, và • Không dễ để chỉnh sửa cấu trúc thiết kế nghiên cứu khi ước lượng các tác động can thiệp (Bruhn & McKenzie, 2008). 21
  22. Ví dụ bảng thống kê cân bằng 22
  23. Cân bằng với khoảng tin cậy Figure 2: Survey Attrition & Balance of Confounders Item Non-Response=1 CEO is male=1 Years since registration (ln) Capital size (8pt Scale) Labor size (8pt Scale) Multinational Corp.=1 Entry through M&A=1 Union in firm==1 Workers under contract (%,ln) Losses/Profits (8pt Scale) Plan to expand business =1 Customer is SOE=1 Customer is government=1 Customer is private firm=1 Customer is foreign firm=1 Export to home country=1 Export to third country=1 Vendor is SOE=1 Vendor is private firm=1 Vendor is household=1 Inputs from in house=1 Import from Home country=1 Import from third country=1 Company from Europe=1 Company from India=1 90% Confidence Intervals -.4 -.2 0 .2 .4 India Treatment - European Treatment 23
  24. Cân bằng với giá trị p-value 24
  25. PHÂN TÍCH NHÓM MẪU (SUB- GROUP ANALYSIS)/TÁC ĐỘNG CAN THIỆP KHÁC BIỆT (HETEROGENOUS TREATMENTS) 25
  26. Tác động can thiệp khác biệt là gì? • Một can thiệp bất kỳ có thể ảnh hưởng đến đối tượng được thử nghiệm theo nhiều cách khác nhau: – Tác động lớn đến đối tượng nào? – Tác động nhỏ với đối tượng nào? – Với đối tượng nào thì can thiệp tạo ra ích lợi hay thiệt hại? • Nghiên cứu các câu hỏi đó giúp thiết lập lý thuyết về điều kiện thực thi sao cho can thiệp có hiệu quả nhất hay kém hiệu quả nhất. • Nó cũng giúp thiết lập các hình thức thiết kế và triển khai chính sách để tối đa hóa tính hiệu quả. 26
  27. Tác động can thiệp trung bình có điều kiện - Conditional Average Treatment Effects (CATEs) • CATE là tác động can thiệp trung bình đối với nhóm mẫu, khi nhóm mẫu được xác định bởi các đặc tính của chủ thể (ví dụ tác động can thiệp trung bình ATE đối với nhóm phụ nữ), hoặc đặc tính của bối cảnh thử nghiệm (ví dụ tác động can thiệp trung bình ATE tại một địa điểm cố định trong một thử nghiệm ở nhiều địa điểm) 27
  28. Sử dụng ảnh hưởng tương tác • Nhà nghiên cứu cũng có thể ước lượng tác động can thiệp trong mối tương quan với các biến giải thích khác (treatment- by-covariate interaction effects), hoặc sự khác biệt giữa hai tác động CATE khi các nhân tố kiểm soát cho phép phân tách mẫu thành các nhóm mẫu (và các nhân tố kiểm soát này không được chủ định thử nghiệm) • Tham số δ là ảnh hưởng tương tác, và được giải thích là sự khác biệt giữa ATE của nhóm hưởng lợi (X) trong các nhóm mẫu Z và ATE của chương trình dạy nghề trong các nhóm mẫu không phải là Z • Nếu Z không được phân bổ ngẫu nhiên, không có tính chất nhân quả, chỉ có tính chất định tính 28
  29. VẤN ĐỀ THỰC TẾ CUỐI CÙNG 29
  30. Cái gì dễ ngẫu nhiên hóa nhất? 1. Thông tin: – Chương trình đào tạo – Tuyên truyền các thông điệp chính trị – Tuyên truyền các thông điệp về chất lượng ứng cử viên, mức độ tham nhũng – Gửi thư cho phép thay đổi cách tiếp cận – Khuyến khích tham gia. – Vấn đề đối với tất cả các nội dung trên là chúng có thể chỉ là nhân tố phụ trội đối với những nội dung mà bạn thực sự quan tâm – Điều này dẫn đến có hàng loạt nghiên cứu về loại hình ngẫu nhiên hóa nào có thể thực hiện được, thay vì hỏi tại sao chúng ta lại muốn thực hiện các nghiên cứu đó. 2. Phân cấp, can thiệp ở cấp độ cá nhân: – Dẫn đến việc đánh giá nhiều câu hỏi trọng tâm về chính sách khó khăn. – Không dễ đối với hệ thống bầu cử, chính sách quốc gia, tác động ở cấp độ đại diện, và các đồng thuận quốc tế. – Dễ thực hiện hơn với các chương trình kêu gọi cử tri, thông điệp, tái phân bố địa bàn, và kiểm toán. 30
  31. Những vấn đề thực tiễn trong thiết kế thử nghiệm 1. Bạn có trực tiếp kiểm soát được vấn đề thực hiện? – Nếu vậy, bạn có thể có thiết kế nghiên cứu khá tham vọng. – Nếu không, bạn cần phải hết sức thực tế về những mục đích chiến lược của cơ quan thực hiện. Cần giữ mức độ giản đơn: – Cơ quan thực hiện có giao nhân viên điều tra tại hiện trường trách nhiệm đảm bảo tính xác đáng của thiết kế nghiên cứu? Nếu không, bạn phải làm. 2. Chương trình can thiệp có quá trình lựa chọn phức hợp không? – Nếu có, bạn phải thiết kế việc đánh giá theo quá trình này. – Hoặc lựa chọn trước và ước lượng TET, hoặc ước lượng ITE. – Nếu mức độ tham gia thấp, bạn cần chọn trước mẫu có tỷ lệ tham gia cao để ước lượng ITE. 3. Có ràng buộc tự nhiên nào đối với việc thực hiện chương trình không? – Nếu có, sử dụng nó để nhận diện: – Phương pháp đăng ký vượt mức (Oversubscription) – Nếu việc thực hiện được tiến hành dần dần, bạn có thể nghiên cứu ứng dụng ngẫu nhiên hóa thứ tự thực hiện. 31
  32. Ngẫu nhiên hóa không hoàn hảo • Tác động can thiệp trung bình nội tại - Local Average Treatment Effect (LATE) • Tuân thủ một phần - Partial Compliance – Cố gắng chọn thiết kế với mức độ tuân thủ cao nhất • Ngoại tác – Tác động lan tỏa xảy ra đối với nội bộ nhóm và giữa các nhóm. – Nếu xảy ra ngoại tác lan tỏa, cần thiết kế chương trình để xử lý (Miguel and Kremer). • Rơi rớt mẫu - Attrition – Rơi rớt ngẫu nhiên chỉ ảnh hưởng đến sai số chuẩn của ước lượng. – Rơi rớt có hệ thống sẽ làm sai lệch kết quả. – Cần thiết phải theo dõi và giám sát vấn đề rơi rớt mẫu. 32