Khai phá dữ liệu - Chương 6: Phân cụm dữ liệu

22 trang vanle 5270 Free

Download

Bạn đang xem 20 trang mẫu của tài liệu "Khai phá dữ liệu - Chương 6: Phân cụm dữ liệu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

khai_pha_du_lieu_chuong_6_phan_cum_du_lieu.ppt

Nội dung text: Khai phá dữ liệu - Chương 6: Phân cụm dữ liệu

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 6. PHÂN CỤM DỮ LiỆU PGS. TS. HÀ QUANG THỤY HÀ NỘI 9-2011 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI 1
Nội dung Giới thiệu phân cụm Thuật toán phân cụm k-min Thuật toán phân cụm phân cấp Gán nhãn cụm Đánh giá phân cụm 2
1. Bài toán phân cụm Web ⚫ Bài toán ❑ Tập dữ liệu D = {di} ❑ Phân các dữ liệu thuộc D thành các cụm ▪ Các dữ liệu trong một cụm: “tương tự” nhau (gần nhau) ▪ Dữ liệu hai cụm: “không tương tự” nhau (xa nhau) ❑ Đo “tương tự” (gần) nhau ? ▪ Tiên đề phân cụm: Nếu người dùng lựa chọn một đối tượng d thì họ cũng lựa chọn các đối tượng cùng cụm với d ▪ Khai thác “cách chọn lựa” của người dùng ▪ Đưa ra một số độ đo “tương tự” theo biểu diễn dữ liệu ⚫ Một số nội dung liên quan ❑ Xây dựng độ đo tương tự ❑ Khai thác thông tin bổ sung ❑ Số lượng cụm cho trước, số lượng cụm không cho trước 3
Sơ bộ tiếp cận phân cụm ⚫ Phân cụm mô hình và phân cụm phân vùng ❑ Mô hình: Kết quả là mô hình biểu diễn các cụm tài liệu ❑ Vùng: Danh sách cụm và vùng tài liệu thuộc cụm ⚫ Phân cụm đơn định và phân cụm xác suất ❑ Đơn định: Mỗi tài liệu thuộc duy nhất một cụm ❑ Xác suất: Danh sách cụm và xác suất một tài liệu thuộc vào các cụm ⚫ Phân cụm phẳng và phân cụm phân cấp ❑ Phẳng: Các cụm tài liệu không giao nhau ❑ Phân cấp: Các cụm tài liệu có quan hệ phân cấp cha- con ⚫ Phân cụm theo lô và phân cụm tăng ❑ Lô: Tại thời điểm phân cụm, toàn bộ tài liệu đã có ❑ Tăng: Tài liệu tiếp tục được bổ sung trong quá trình phân cụm 4
Các phương pháp phân cụm ⚫ Các phương pháp phổ biến ❑ Phân vùng, phân cấp, dựa theo mật độ, dựa theo lưới, dựa theo mô hình, và mờ ⚫ Phân cụm phân vùng ❑ Xây dựng từng bước phân hoạch các cụm và đánh giá chúng theo các tiêu chí tương ứng ❑ Độ đo tương tự / khoảng cách ❑ K-mean, k-mediod ❑ CLARANS, ⚫ Phân cụm phân cấp ❑ Xây dựng hợp (tách) dần các cụm tạo cấu trúc phân cấp và đánh giá theo các tiêu chí tương ứng ❑ Độ đo tương tự / khoảng cách ❑ HAC: Hierarchical agglomerative clustering ❑ CHAMELEON, BIRRCH và CURE, 5
Các phương pháp phân cụm ⚫ Phân cụm dựa theo mật độ ❑ Hàm mật độ: Tìm các phần tử chính tại nơi có mật độ cao ❑ Hàm liên kết: Xác định cụm là lân cận phần tử chính ❑ DBSCAN, OPTICS ⚫ Phân cụm dựa theo lưới ❑ Sử dụng lưới các ô cùng cỡ ❑ Tạo phân cấp ô lưới theo một số tiêu chí: số lượng đối tượng trong ô ❑ STING, CLIQUE, WaweCluster ⚫ Phân cụm dựa theo mô hình ❑ Sử dụng một số mô hình giả thiết được phân cụm ❑ Xác định mô hình tốt nhất phù hợp với dữ liệu ❑ MCLUST ⚫ Phân cụm mờ ❑ Giả thiết: không có phân cụm “cứng” cho dữ liệu và đối tượng có thể thuộc một số cụm ❑ Sử dụng hàm mờ từ các đối tượng tới các cụm ❑ FCM (Fuzzy CMEANS), 6
Chế độ và đặc điểm phân cụm web ⚫ Hai chế độ ❑ Trực tuyến: phân cụm kết quả tìm kiếm người dùng ❑ Ngoại tuyến: phân cụm tập văn bản cho trước ⚫ Đặc điểm ❑ Chế độ trực tuyến: tốc độ phân cụm ▪ Web số lượng lớn, tăng nhanh và biến động lớn ▪ Quan tâm tới phương pháp gia tăng ❑ Một lớp quan trọng: phân cụm liên quan tới câu hỏi tìm kiếm ▪ Trực tuyến ▪ Ngoại tuyến Carpineto C., Osinski S., Romano G., Weiss D. (2009). A survey of web clustering engines, ACM Comput. Surv. , 41(3), Article 17, 38 pages. 7
Thuât toán K-mean gán cứng ⚫ Một số lưu ý ❑ Điều kiện dừng ▪ Sau bước 2 không có sự thay đổi cụm ▪ Điều kiện dừng cưỡng bức ❖ Khống chế số lần lặp ❖ Giá trị mục tiêu đủ nhỏ ❑ Vấn đề chọn tập đại diện ban đầu ở bước Khởi động 8 ❑ Có thể dùng độ đo khoảng cách thay cho độ đo tương tự
Thuât toán K-mean gán cứng ⚫ Một số lưu ý (tiếp) và ví dụ ❑ Trong bước 2: các trọng tâm có thể không thuộc S ❑ Thực tế: số lần lặp 50 ❑ Thi hành k-mean với dữ liệu trên đĩa ▪ Toàn bộ dữ liệu quá lớn: không thể ở bộ nhớ trong ▪ Với mỗi vòng lặp: duyệt CSDL trên đĩa 1 lần ❖ Tính được độ tương tự của d với các ci. ❖ Tính lại ci mới: bước 2.1 khởi động (tổng, bộ đếm); bước 2.2 cộng và tăng bộ đếm; bước 2.3 chỉ thực hiện k phép chia. 9 Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Spinger, 2007.
Thuât toán K-mean dạng mềm ⚫ Input ❑ Số nguyên k > 0: số cụm biết trước ❑ Tập tài liệu D (cho trước) ⚫ Output ❑ Tập k “đại diện cụm” C làm tối ưu lỗi “lượng tử” ⚫ Định hướng ❑ Tinh chỉnh C dần với tỷ lệ học  (learning rate) 10
Thuât toán K-mean ⚫ Ưu điểm ❑ Đơn giản, dễ sử dụng ❑ Hiệu quả về thời gian: tuyến tính O(tkn), t số lần lặp, k số cụm, n là số phần tử ❑ Một thuật toán phân cụm phổ biến nhất ❑ Thường cho tối ưu cục bộ. Tối ưu toàn cục rất khó tìm ⚫ Nhược điểm ❑ Phải “tính trung bình được”: dữ liệu phân lớp thì dựa theo tần số ❑ Cần cho trước k : số cụm ❑ Nhạy cảm với ngoại lệ (cách xa so với đại đa số dữ liệu còn lại): ngoại lệ thực tế, ngoại lệ do quan sát sai (làm sạch dữ liệu) ❑ Nhạy cảm với mẫu ban đầu: cần phương pháp chọn mẫu thô tốt ❑ Không thích hợp với các tập dữ liệu không siêu-ellip hoặc siêu cầu (các thành phần con không ellip/cầu hóa) Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Spinger, 2007. 11
Thuât toán K-mean Trái: Nhạy cảm với chọn mẫu ban đầu Phải: Không thích hợp với bộ dữ liệu không siêu ellip/cầu hóa Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Spinger, 2007. 12
3. Phân cụm phân cấp từ dưới lên ⚫ HAC: Hierarchical agglomerative clustering ⚫ Một số độ đo phân biệt cụm ❑ Độ tương tự hai tài liệu ❑ Độ tương tư giữa hai cụm ⚫ Độ tương tự giữa hai đại diện ⚫ Độ tương tự cực đại giữa hai tài liệu thuộc hai cụm: single-link ⚫ Độ tương tự cực tiểu giữa hai tài liêu thuộc hai cum: complete-link ⚫ Độ tương tự trung bình giữa hai tài liêu thuộc hai cum ⚫ Sơ bộ về thuật toán ❑ Đặc điểm: Không cho trước số lượng cụm k, cho phép đưa ra các phương án phân cụm theo các giá trị k khác nhau ❑ Lưu ý: k là một tham số  “tìm k tốt nhất” ❑ Tinh chỉnh: Từ cụ thể tới khái quát 13
Phân cụm phân cấp từ dưới lên ⚫ Giải thích ❑ G là tập các cụm trong phân cụm ❑ Điều kiện |G| < k có thể thay thế bằng |G|=1 14
Phân cụm phân cấp từ dưới lên ⚫ Hoạt động HAC ❑ Cho phép với mọi k ❑ Chọn phân cụm theo “ngưỡng” về độ tương tự 15
HAC với các độ đo khác nhau ⚫ Ảnh hưởng của các độ đo ❑ Trên: Hoạt động thuật toán khác nhau theo các độ đo khác nhau: độ tương tự cực tiểu (complete-link) có tính cầu hơn so với cực đại ❑ Dưới: Độ tương tự cực đại (Single-link) tạo cụm chuỗi dòng 16
4. Biểu diễn cụm và gán nhãn ⚫ Các phương pháp biểu diễn điển dình ❑ Theo đại diện cụm ⚫ Đại diện cụm làm tâm ⚫ Tính bán kính và độ lệch chuẩn để xác định phạm vi của cụm ⚫ Cụm không ellip/cầu hóa: không tốt ❑ Theo mô hình phân lớp ⚫ Chỉ số cụm như nhãn lớp ⚫ Chạy thuật toán phân lớp để tìm ra biểu diễn cụm ❑ Theo mô hình tần số ⚫ Dùng cho dữ liệu phân loại ⚫ Tần số xuất hiện các giá trị đặc trưng cho từng cụm ⚫ Lưu ý ❑ Dữ liệu phân cụm ellip/cầu hóa: đại diện cụm cho biểu diễn tốt ❑ Cụm hình dạng bất thường rất khó biểu diễn 17
Gán nhãn cụm tài liệu ⚫ Phân biệt các cụm (MU) ⚫ Chọn từ khóa đặc trưng tương quan cụm ⚫ Nxy (x có từ khóa t, y tài liệu thuộc C) ⚫ N11 : số tài liệu chứa t thuộc cụm C ⚫ N10 : số tài liệu chứa t không thuộc cụm C ⚫ N01 : số tài liệu không chứa t thuộc cụm C ⚫ N00 : số tài liệu không chứa t không thuộc cụm C ⚫ N: Tổng số tài liệu ⚫ Hướng “trọng tâm” cụm ⚫ Dùng các từ khóa tần số cao tại trọng tâm cụm ⚫ Tiêu đề ⚫ Chon tiêu đề của tài liệu trong cụm gần trọng tâm nhất 18
Gán nhãn cụm tài liệu ⚫ Ví dụ ❑ Ba phương pháp chọn nhãn cụm đối với 3 cụm là cụm 4 (622 tài liệu), cụm 9 (1017 tài liệu), cụm 10 (1259 tài liệu) khi phân cụm 10000 tài liệu đầu tiên của bộ Reuters-RCV1 ❑ centroid: các từ khóa có tần số cao nhất trong trọng tâm; mutual information (MU): thông tin liên quan phân biệt các cụm; title: tiêu đề tài liệu gần trọng tâm nhất. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. 19
5. Đánh giá phân cụm ⚫ Đánh giá chất lượng phân cụm là khó khăn ❑ Chưa biết các cụm thực sự ⚫ Một số phương pháp điển hình ❑ Người dùng kiểm tra ▪ Nghiên cứu trọng tâm và miền phủ ▪ Luật từ cây quyết định ▪ Đọc các dữ liệu trong cụm ❑ Đánh giá theo các độ đo tương tự/khoảng cách ▪ Độ phân biệt giữa các cụm ▪ Phân ly theo trọng tâm ❑ Dùng thuật toán phân lớp ▪ Coi mỗi cụm là một lớp ▪ Học bộ phân lớp đa lớp (cụm) ▪ Xây dựng ma trận nhầm lẫn khi phân lớp ▪ Tính các độ đo: entropy, tinh khiết, chính xác, hồi tưởng, độ 20 đo F và đánh giá theo các độ đo này
Đánh giá theo độ đo tương tự ⚫ Độ phân biệt các cụm ❑ Cực đại hóa tổng độ tương tự nội tại của các cụm ❑ Cực tiểu hóa tổng độ tương tự các cặp cụm khác nhau ❑ Lấy độ tương tự cực tiểu (complete link), cực đại (single link) ⚫ Một số phương pháp điển hình ❑ Phân lý theo trọng tâm 21
Ví dụ 22