Cơ sở dữ liệu - Chương 2: Làm sạch dữ liệu

pdf 14 trang vanle 2530
Bạn đang xem tài liệu "Cơ sở dữ liệu - Chương 2: Làm sạch dữ liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfco_so_du_lieu_chuong_2_lam_sach_du_lieu.pdf

Nội dung text: Cơ sở dữ liệu - Chương 2: Làm sạch dữ liệu

  1. CHƯƠNG 2: LÀM SẠCH DỮ LIỆU 1. Sự cần thiết Chất lượng cuộc phỏng vấn: Phỏng vấn viên hiểu sai câu hỏi và thu thập dữ liệu sai, phỏng vấn viên chọn sai đối tượng phỏng vấn hoặc ghi chép nhầm, Nhập dữ liệu: Sai, sót, thừa 6/11/2015 12:34 PM 1
  2. 2. Các biện pháp ngăn ngừa Thiết kế bản câu hỏi rõ ràng, dễ hỏi, dễ trả lời Chọn lọc và huấn luyện phỏng vấn viên kỹ lưỡng, điều tra phỏng vấn thử trước khi phỏng vấn thật dễ hiểu, Các bản câu hỏi sau khi phỏng vấn xong phải được kiểm tra lại Việc mã hóa phải được tiến hành tập trung với một số ít cá nhân phụ trách việc nhập liệu chứ không nên phân tán để tránh việc rối loạn do thiếu thống nhất 6/11/2015 12:34 PM 2
  3. 3. Các phương pháp làm sạch dữ liệu 3.1. Dùng bảng tần số Tìm các giá trị lạ như thay vì giới tính nam thì mã hóa là 1 như trong quá trình đánh máy thì đánh là 11 6/11/2015 12:34 PM 3
  4. 6/11/2015 12:34 PM 4
  5. 6/11/2015 12:34 PM 5
  6. 3.2. Dùng bảng phối hợp hai biến hay ba biến Lập bảng nhiều biến (Chương 3) rồi dựa vào các quan hệ hợp lý để phát hiện ra lỗi. Ví dụ, kết hợp biến tuổi và nghề nghiệp, ta phát hiện tuổi 13, nghề giáo viên Biến tuổi hoặc nghề nghiệp đã bị nhập sai 6/11/2015 12:34 PM 6
  7. 6/11/2015 12:34 PM 7
  8. 6/11/2015 12:34 PM 8
  9. 6/11/2015 12:34 PM 9
  10. 6/11/2015 12:34 PM 10
  11. 6/11/2015 12:34 PM 11
  12. 3.3. Cách tìm lỗi đơn giãn ngay trên cửa sổ dữ liệu Sử dụng lệnh Sort Case để tìm những lỗi đơn giản ngay trên cửa sổ dữ liệu Ví dụ với tình huống giới tính 6/11/2015 12:34 PM 12
  13. 6/11/2015 12:34 PM 13
  14. 6/11/2015 12:34 PM 14