Cơ sở dữ liệu - Chương 4: Khai phá luật kết hợp

ppt 60 trang vanle 3640
Bạn đang xem 20 trang mẫu của tài liệu "Cơ sở dữ liệu - Chương 4: Khai phá luật kết hợp", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pptco_so_du_lieu_chuong_4_khai_pha_luat_ket_hop.ppt

Nội dung text: Cơ sở dữ liệu - Chương 4: Khai phá luật kết hợp

  1. Chương 4: Khai phá luật kết hợp Dựa theo “Data Mining: Concepts and Techniques” Chapter 6. Mining Association Rules in Large Databases ©Jiawei Han and Micheline Kamber www.cs.uiuc.edu/~hanj June 11, 2021 1
  2. Chương 4: Khai phá luật kết hợp ◼ Khai phá luật kết hợp (Association rule) ◼ Các thuật tốn khai phá vơ hướng luật kết hợp (giá trị lơgic đơn chiều) trong CSDL giao dịch ◼ Khai phá kiểu đa dạng luật kết hợp/tương quan ◼ Khai phá kết hợp dựa theo ràng buộc ◼ Khai phá mẫu dãy ◼ Ứng dụng/mở rộng khai phá mẫu phổ biến June 11, 2021 2
  3. Khái niệm cơ sở: Tập phổ biến và luật kết hợp Một số ví dụ về “luật kết hợp” (associate rule) • “98% khách hàng mà mua tạp chí thể thao thì đều mua các tạp chí về ơtơ”  sự kết hợp giữa “tạp chí thể thao” với “tạp chí về ơtơ” • “60% khách hàng mà mua bia tại siêu thị thì đều mua bỉm trẻ em”  sự kết hợp giữa “bia” với “bỉm trẻ em” • “Cĩ tới 70% người truy nhập Web vào địa chỉ Url 1 thì cũng vào địa chỉ Url 2 trong một phiên truy nhập web”  sự kết hợp giữa “Url 1” với “Url 2”. Khai phá dữ liệu sử dụng Web (Dữ liệu từ file log của các site, chẳng hạn được MS cung cấp). • Các Url cĩ gắn với nhãn “lớp” là các đặc trưng thì cĩ luật kết hợp liên quan giữa các lớp Url này. June 11, 2021 3
  4. Khái niệm cơ sở: Tập phổ biến và luật kết hợp [IV06] Renáta Iváncsy, István Vajk (2006). Frequent Pattern Mining in Web Log Data, Acta Polytechnica Hungarica, 3(1):77-90, 2006 June 11, 2021 4
  5. Khái niệm cơ sở: Tập phổ biến và luật kết hợp Cơ sở dữ liệu giao dịch (transaction database) • Giao dịch: danh sách các mặt hàng (mục: item) trong một phiếu mua hàng của khách hàng. Giao dịch T là một tập mục. • Tập tồn bộ các mục I = {i1, i2, , ik} “tất cả các mặt hàng”. Một giao dịch T là một tập con của I: T  I. Mỗi giao dịch T cĩ một định danh là TID. • A là một tập mục A  I và T là một giao dịch: Gọi T chứa A nếu A  T. • Luật kết hợp • Gọi A → B là một “luật kết hợp” nếu A  I, B  I và AB=. • Luật kết hợp A → B cĩ độ hỗ trợ (support) s trong CSDL giao dịch D nếu trong D cĩ s% các giao dịch T chứa AB: chính là xác suất P(AB). Tập mục A cĩ P(A) s>0 (với s cho trước) được gọi là tập phổ biến (frequent set). Luật kết hợp A → B cĩ độ tin cậy (confidence) c trong CSDL D nếu như trong D cĩ c% các giao dịch T chứa A thì cũng chứa B: chính là xác suất P(B|A). • Support (A → B) = P(AB) : 1 s (A → B) 0 • Confidence (A → B) = P(B|A) : 1 c (A → B) 0 • Luật A → B được gọi là đảm bảo độ hỗ trợ s trong D nếu s(A → B) s. Luật A→B được gọi là đảm bảo độ tin cậy c trong D nếu c(A → B) c. Tập mạnh. June 11, 2021 5
  6. Khái niệm cơ bản: Mẫu phổ biến và luật kết hợp ◼ Tập mục I={i1, , ik}. CSDL giao dịch D = {d  I} Transaction-id Items bought ◼ A, B  I, AB=: A→ B là luật kết hợp 10 A, B, C ◼ Bài tốn tìm luật kết hợp. 20 A, C Cho trước độ hỗ trợ tối thiểu s>0, độ 30 A, D tin cậy tối thiếu c>0. Hãy tìm mọi luật 40 B, E, F kết hợp mạnh X→Y. Giả sử min_support = 50%, Customer Customer buys both buys diaper min_conf = 50%: A → C (50%, 66.7%) C → A (50%, 100%) ◼ Hãy trình bày các nhận xét về khái niệm luật kết hợp với khái niệm phụ Customer thuộc hàm. buys beer ◼ Các tính chất Armstrong ở đây. June 11, 2021 6
  7. Một ví dụ tìm luật kết hợp Transaction-id Items bought Min. support 50% 10 A, B, C Min. confidence 50% 20 A, C Frequent pattern Support 30 A, D {A} 75% 40 B, E, F {B} 50% {C} 50% For rule A C: {A, C} 50% support = support({A}{C}) = 50% confidence = support({A}{C})/support({A}) = 66.6% June 11, 2021 7
  8. Khai niệm khai phá kết hợp June 11, 2021 8
  9. Khái niệm khai phá luật kết hợp ◼ Khai phá luệt kết hợp: ◼ Tìm tất cả mẫu phổ biến, kết hợp, tương quan, hoặc cấu trú nhan-quả trong tập các mục hoặc đối tượng trong CSDL quan hệ hoặc các kho chứa thơng tin khác. ◼ Mẫu phổ biến (Frequent pattern): là mẫu (tập mục, dãy mục ) mà xuất hiện phổ biến trong 1 CSDL [AIS93] ◼ Động lực: tìm mẫu chính quy (regularities pattern) trong DL ◼ Các mặt hàng nào được mua cùng nhau? — Bia và bỉm (diapers)?! ◼ Mặt hàng nào sẽ được mua sau khi mua một PC ? ◼ Kiểu DNA nào nhạy cảm với thuộc mới này? ◼ Cĩ khả năng tự động phân lớp Web hay khơng ? June 11, 2021 9
  10. Mẫu phổ biến và khai phá luật kết hợp là một bài tốn bản chất của khai phá DL ◼ Nền tảng của nhiều bài tốn KPDL bản chất ◼ Kết hợp, tương quan, nhân quả ◼ Mẫu tuần tự, kết hợp thời gian hoặc vịng, chu kỳ bộ phận, kết hợp khơng gian và đa phương tiện ◼ Phân lớp kết hợp, phân tích cụm, khối tảng băng, tích tụ (nén dữ liệu ngữ nghĩa) ◼ Ứng dụng rộng rãi ◼ Phân tích DL bĩng rổ, tiếp thị chéo (cross-marketing), thiết kế catalog, phân tích chiến dịch bán hàng ◼ Phân tích Web log (click stream), Phân tích chuỗi DNA v.v. June 11, 2021 10
  11. Chương 4: Khai phá luật kết hợp ◼ Khai phá luật kết hợp (Association rule) ◼ Các thuật tốn khai phá vơ hướng luật kết hợp (giá trị lơgic đơn chiều) trong CSDL giao dịch ◼ Khai phá kiểu đa dạng luật kết hợp/tương quan ◼ Khai phá kết hợp dựa theo ràng buộc ◼ Khai phá mẫu dãy ◼ Ứng dụng/mở rộng khai phá mẫu phổ biến June 11, 2021 11
  12. Apriori: Một tiếp cận sinh ứng viên và kiểm tra ◼ Khái quát: Khai phá luật kết hợp gồm hài bước: ◼ Tìm mọi tập mục phổ biến: theo min-sup ◼ Sinh luật mạnh từ tập mục phổ biến ◼ Mọi tập con của tập mục phổ biến cũng là tập mục phổ biến ◼ Nếu {bia, bỉm, hạnh nhân} là phổ biến thì {bia, bỉm} cũng vậy: Mọi giao dịch chứa {bia, bỉm, hạnh nhân} cũng chứa {bia, bỉm}. ◼ Nguyên lý tỉa Apriori: Với mọi tập mục khơng phổ biến thì mọi tập bao khơng cần phải sinh ra/kiểm tra! ◼ Phương pháp: ◼ Sinh các tập mục ứng viên dài (k+1) từ các tập mục phổ biến cĩ độ dài k (Độ dài tập mục là số phần tử của nĩ), ◼ Kiểm tra các tập ứng viên theo CSDL ◼ Các nghiên cứu hiệu năng chứng tỏ tính hiệu quả và khả năng mở rộng của thuật tốn ◼ Agrawal & Srikant 1994, Mannila, và cộng sự 1994 June 11, 2021 12
  13. Thuật tốn Apriori Trên cơ sở tính chất (nguyên lý tỉa) Apriori, thuật tốn hoạt động theo quy tắc quy hoạch động • Từ các tập Fi = {ci| ci tập phổ biến, |ci| = i} gồm mọi tập mục phổ biến cĩ độ dài i với 1 i k, • đi tìm tập Fk+1 gồm mọi tập mục phổ biến cĩ độ dài k+1. Trong thuật tốn, các tên mục i1, i2, in (n = |I|) được sắp xếp theo một thứ tự cố định (thường được đánh chỉ số 1, 2, , n). June 11, 2021 13
  14. Thuật tốn Apriori June 11, 2021 14
  15. Thuật tốn Apriori: Thủ tục con Apriori-gen Trong mỗi bước k, thuật tốn Apriori đều phải duyệt CSDL D. Khởi động, duyệt D để cĩ được F1. Các bước k sau đĩ, duyệt D để tính số lượng giao dịch t thoả từng ứng viên c của Ck+1: mỗi giao dịch t chỉ xem xét một lần cho mọi ứng viên c thuộc Ck+1. Thủ tục con Apriori-gen sinh tập phổ biến: tư tưởng June 11, 2021 15
  16. Thủ tục con Apriori-gen June 11, 2021 16
  17. Một ví dụ thuật tốn Apriori (s=0.5) Itemset sup Itemset sup Database TDB {A} 2 L {A} 2 Tid Items C {B} 3 1 1 {B} 3 10 A, C, D {C} 3 st {C} 3 20 B, C, E 1 scan {D} 1 {E} 3 30 A, B, C, E {E} 3 40 B, E C Itemset sup 2 C2 Itemset {A, B} 1 L Itemset sup nd 2 {A, C} 2 2 scan {A, B} {A, C} 2 {A, E} 1 {A, C} {B, C} 2 {B, C} 2 {A, E} {B, E} 3 {B, E} 3 {B, C} {C, E} 2 {C, E} 2 {B, E} {C, E} Itemset C3 3rd scan L3 Itemset sup {B, C, E} {B, C, E} 2 June 11, 2021 17
  18. Chi tiết quan trọng của Apriori ◼ Cách thức sinh các ứng viên: ◼ Bước 1: Tự kết nối Lk ◼ Step 2: Cắt tỉa ◼ Cách thức đếm hỗ trợ cho mỗi ứng viên. ◼ Ví dụ thủ tục con sinh ứng viên ◼ L3={abc, abd, acd, ace, bcd} ◼ Tự kết nối: L3*L3 ◼ abcd từ abc và abd ◼ acde từ acd và ace ◼ Tỉa: ◼ acde là bỏ đi vì ade khơng thuộc L3 ◼ C4={abcd} June 11, 2021 18
  19. Ví dụ: D, min_sup*|D| = 2 (C4 = ) June 11, 2021 19
  20. Sinh luật kết hợp Việc sinh luật kết hợp gồm hai bước ◼ Với mỗi tập phổ biến W tìm được hãy sinh ra mọi tập con thực sự X khác rỗng của nĩ. ◼ Với mỗi tập phố biến W và tập con X khác rỗng thực sự của nĩ: sinh luật X → (W – X) nếu P(W-X|X) c. Như ví dụ đã nêu cĩ L3 = {{I1, I2, I3}, {I1, I2, I5}} Với độ tin cậy tối thiểu 70%, xét tập mục phổ biến {I1, I2, I5} cĩ 3 luật như dưới đây: June 11, 2021 20
  21. Cách thức tính độ hỗ trợ của ứng viên ◼ Tính độ hỗ trợ ứng viên là vấn đề cần quan tâm ◼ Số lượng ứng viên là rất lớn ◼ Một giao dịch chứa nhiều ứng viên ◼ Phương pháp: ◼ Tập mục ứng viên được chứa trong một cây-băm (hash-tree) ◼ Lá của cây băm chứa một danh sách các tập mục và bộ đếm ◼ Nút trong chứa bảng băm ◼ Hàm tập con: tìm tất cả các ứng viên June 11, 2021 21
  22. Cách thức tính độ hỗ trợ của ứng viên ◼ Tập các ứng viên Ck được lưu trữ trong một cây-băm. ◼ Gốc của cây băm ở độ sâu 1. Lá chứa một danh sách tập mục ◼ Nút trong chứa một bảng băm: mỗi thùng của bảng trỏ tới một nút khác (Nút ở độ sâu d trỏ tới các nút ở độ sâu d+1). ◼ Khi khởi tạo, tất cả các nút là lá. ◼ Khi thêm một tập mục c: ◼ bắt đầu từ gốc đi xuống theo cây cho đến khi gặp một lá. ◼ Tại một nút trong độ sâu d: ◼ quyết định theo nhánh nào bằng cách áp dụng hàm băm tới mục thứ d của tập mục này. ◼ Khi số lượng tập mục tại một lá vượt quá ngưỡng quy định, nút lá được chuyển thành một nút trong. ◼ Bắt đầu từ gốc, tìm tất cả các ứng viên thuộc giao dịch t: ◼ Nếu ở nút gốc: băm vào mỗi mục trong t. ◼ Nếu ở một lá: tìm các tập mục ở lá này thuộc t và bổ sung chỉ dẫn tới các tập mục này tới tập trả lời. ◼ Nếu ở nút trong và đã đạt được nĩ bằng cách băm mục i, trên từng mục đứng sau i trong t và áp dụng đệ quy thủ tục này sang nút trong thùng tương ứng. June 11, 2021 22
  23. Ví dụ: Tính hỗ trợ các ứng viên Hàm tập con Transaction: 1 2 3 5 6 3,6,9 1,4,7 2,5,8 1 + 2 3 5 6 1 3 + 5 6 2 3 4 5 6 7 1 4 5 3 4 5 3 5 6 3 6 7 1 3 6 3 5 7 3 6 8 1 2 + 3 5 6 6 8 9 1 2 4 4 5 7 1 2 5 1 5 9 4 5 8 June 11, 2021 23
  24. Thi hành hiệu quả thuật tốn Apriori trong SQL ◼ Khĩ để cĩ thể cĩ một hiệu quả tốt nếu chỉ tiếp cận thuần SQL (SQL-92) ◼ Sử dụng các mở rộng quan hệ - đối tượng như UDFs, BLOBs, hàm bảng v.v. ◼ Nhận được các thứ tự tăng quan trọng ◼ Xem bải: S. Sarawagi, S. Thomas, and R. Agrawal. Integrating association rule mining with relational database systems: Alternatives and implications. In SIGMOD’98 June 11, 2021 24
  25. Thách thức khai phá mẫu phổ biến ◼ Thách thức ◼ Duyệt phức CSDL giao dịch ◼ Lượng rất lớn các ứng viên ◼ Tẻ nhạt việc tính tốn độ hỗ trợ ◼ Cải tiến Apriori: tư tưởng chung ◼ Giảm số lần duyệt CSDL giao dịch ◼ Rút số lượng các ứng viên ◼ Giảm nhẹ tính độ hỗ trợ của các ứng viên June 11, 2021 25
  26. DIC (Đếm tập mục động): Rút số lượng duyệt CSDL ABCD ◼ Mỗi khi A và D được xác định là phổ biến thì việc tính tốn cho AD được bắt đầu ABC ABD ACD BCD ◼ Mỗi khi mọi tập con độ dài 2 của BCD được xác định là phổ biến: việc tính tốn cho BCD được bắt đầu. AB AC BC AD BD CD Transactions 1-itemsets A B C D Apriori 2-itemsets {} Itemset lattice 1-itemsets S. Brin R. Motwani, J. Ullman, 2-items and S. Tsur. Dynamic itemset DIC 3-items counting and implication rules for market basket data. In SIGMOD’97 June 11, 2021 26
  27. Giải pháp Phân hoạch (Partition): Duyệt CSDL chỉ hai lần ◼ Mọi tập mục là phổ biến tiềm năng trong CSDL bắt buộc phải phổ biến ít nhất một vùng của DB ◼ Scan 1: Phân chia CSDL và tìm các mẫu cục bộ ◼ Scan 2: Hợp nhất các mẫu phổ biến tổng thể ◼ A. Savasere, E. Omiecinski, and S. Navathe. An efficient algorithm for mining association in large databases. In VLDB’95 June 11, 2021 27
  28. Ví dụ về mẫu phổ biến ◼ Chọn một mẫu của CSDL gốc, khai phá mẫu phổ biến nội bộ mẫu khi dùng Apriori ◼ Duyệt CSDL một lần để kiểm tra các tập mục phổ biến tìm thấy trong ví dụ, chỉ cĩ bao (borders ) đĩng của các mẫu phổ biến được kiểm tra ◼ Ví dụ: kiểm tra abcd thay cho ab, ac, , v.v. ◼ Duyệt CSDL một lần nữa để tìm các mẫu phổ biến bị mất (bỏ qua) H. Toivonen. Sampling large databases for association rules. In VLDB’96 June 11, 2021 28
  29. DHP: Rút gọn số lượng các ứng viên ◼ Một k-tập mục mà bộ đếm trong lơ băm tương ứng dưới ngưỡng thì khơng thể là tập mục phổ biến ◼ Ứng viên: a, b, c, d, e ◼ Điểm vào băm: {ab, ad, ae} {bd, be, de} ◼ 1-tập mục phổ biến: a, b, d, e ◼ ab khơng là một ứng viên 2-tập mục nếu tống bộ đếm của {ab, ad, ae} là dưới ngưỡng hỗ trợ J. Park, M. Chen, and P. Yu. An effective hash-based algorithm for mining association rules. In SIGMOD’95 June 11, 2021 29
  30. Eclat/MaxEclat và VIPER: Thăm dị dạng dữ liệu theo chiều ngang ◼ Dùng danh sách tid của giáo dịch trong một tập mục ◼ Nén danh sách tid ◼ Tập mục A: t1, t2, t3, sup(A)=3 ◼ Tập mục B: t2, t3, t4, sup(B)=3 ◼ Tập mục AB: t2, t3, sup(AB)=2 ◼ Thao tác chính: lấy giáo của các danh sách tid ◼ M. Zaki et al. New algorithms for fast discovery of association rules. In KDD’97 ◼ P. Shenoy et al. Turbo-charging vertical mining of large databases. In SIGMOD’00 June 11, 2021 30
  31. Thắt cơ chai của khai phá mẫu phổ biến ◼ Duyệt CSDL nhiều là tốn kém ◼ KP mẫu dài cần nhiều bước để duyệt và sinh nhiều ứng viên ◼ Để tìm các tập mục phổ biến i1i2 i100 ◼ # duyệt: 100 1 2 1 0 0 100 ◼ # ứng viên: (100 ) + (100 ) + + (1 0 0 ) = 2 -1 = 1.27*1030 ! ◼ Thắt cổ chai: sinh ứng viên và kiểm tra ◼ Tránh sinh ứng viên? June 11, 2021 31
  32. KP mẫu phổ biến khơng cần sinh ƯV ◼ Dùng các mục phổ biến để tăng độ dài mẫu từ các mẫu ngắn hơn ◼ “abc” là một mẫu phổ biến ◼ Nhận mọi giao dịch cĩ “abc”: DB|abc ◼ “d” là một mục phổ biến trong DB|abc → abcd là một mẫu phổ biến June 11, 2021 32
  33. Xây dựng cây FP từ một CSDL giao dịch TID Items bought (ordered) frequent items 100 {f, a, c, d, g, i, m, p} {f, c, a, m, p} 200 {a, b, c, f, l, m, o} {f, c, a, b, m} 300 {b, f, h, j, o, w} {f, b} min_support = 3 400 {b, c, k, s, p} {c, b, p} 500 {a, f, c, e, l, p, m, n} {f, c, a, m, p} {} Header Table 1. Duyết CSDL một lần, tìm các 1-tập mục phổ Item frequency head f:4 c:1 biến (mẫu mục đơn) f 4 c 4 c:3 b:1 b:1 2. Sắp xếp các mục phổ a 3 biến theo thứ tự giảm b 3 a:3 p:1 dần về bậc, f-list m 3 p 3 3. Duyệt CSDL lần nữa, m:2 b:1 xây dựng FP-tree F-list=f-c-a-b-m-p p:2 m:1 June 11, 2021 33
  34. Lợi ích của cấu trúc FP-tree ◼ Tính đầy đủ ◼ Duy trì tính đầy đủ thơng tin để khai phá mẫu phổ biến ◼ Khơng phá vỡ mẫu dài bới bất kỳ giao dich ◼ Tính cơ đọng ◼ Giảm các thơng tin khơng liên quan: mục khơng phổ biến bỏ đi ◼ Sắp mục theo tần số giảm: xuất hiện càng nhiều thì cành hiệu quả ◼ Khơng lớn hơn so với CSDL thơng thường June 11, 2021 34
  35. Chương 4: Khai phá luật kết hợp ◼ Khai phá luật kết hợp (Association rule) ◼ Các thuật tốn khai phá vơ hướng luật kết hợp (giá trị lơgic đơn chiều) trong CSDL giao dịch ◼ Khai phá kiểu đa dạng luật kết hợp/tương quan ◼ Khai phá kết hợp dựa theo ràng buộc ◼ Khai phá mẫu dãy ◼ Ứng dụng/mở rộng khai phá mẫu phổ biến June 11, 2021 35
  36. Luật kết hợp đa mức ◼ Các mục cĩ thể đa phân cấp ◼ Đặt hỗ trợ linh hoạt: Mục cấp thấp hơn là kỳ vọng hỗ trợ thấp hơn. ◼ CSDL giao dịch cĩ thể được mã hĩa theo chiều và mức ◼ Thăm dị KP đa mức chia sẻ uniform support reduced support Level 1 Milk Level 1 min_sup = 5% [support = 10%] min_sup = 5% Level 2 2% Milk Skim Milk Level 2 min_sup = 5% [support = 6%] [support = 4%] min_sup = 3% June 11, 2021 36
  37. Kết hợp đa chiều ◼ Luật đơn chiều: buys(X, “milk”) buys(X, “bread”) ◼ Luật đa chiều: 2 chiều hoặc thuộc tính ◼ Luật kết hợp liên chiều (khơng cĩ thuộc tính lặp) age(X,”19-25”)  occupation(X,“student”) buys(X,“coke”) ◼ Luật KH chiều-kết hợp (lai/hybrid) (lặp thuộc tính) age(X,”19-25”)  buys(X, “popcorn”) buys(X, “coke”) ◼ Thuộc tính phân lớp ◼ Tìm số lượng các giá trị khả năng khơng được sắp ◼ Thuộc tính định lượng ◼ Số, thứ tự ngầm định trong miền giá trị June 11, 2021 37
  38. Kết hợp đa mức: Rút gọn lọc ◼ Một vài luật cĩ thể dư thừa do cĩ quan hệ “tổ tiên” giữa các mục. ◼ Ví dụ ◼ milk wheat bread [support = 8%, confidence = 70%] ◼ 2% milk wheat bread [support = 2%, confidence = 72%] ◼ Nĩi rằng: luật đầu tiên là tổ tiên luật thứ hai. ◼ Một luật là dư thừa nếu độ hỗ trợ của nĩ là khít với giá trị “mong muốn”, dựa theo tổ tiên của luật. June 11, 2021 38
  39. Luật kết hợp định lượng ◼ Numeric attributes are dynamically discretized ◼ Such that the confidence or compactness of the rules mined is maximized ◼ 2-D quantitative association rules: Aquan1  Aquan2 Acat ◼ Cluster “adjacent” association rules to form general rules using a 2-D grid ◼ Example age(X,”30-34”)  income(X,”24K - 48K”) buys(X,”high resolution TV”) June 11, 2021 Data Mining: Concepts and Techniques 39
  40. Khai phá luật KH dựa theo khoảng cách ◼ Binning methods do not capture the semantics of interval data Equi-width Equi-depth Distance- Price($) (width $10) (depth 2) based 7 [0,10] [7,20] [7,7] 20 [11,20] [22,50] [20,22] 22 [21,30] [51,53] [50,53] 50 [31,40] 51 [41,50] 53 [51,60] ◼ Distance-based partitioning, more meaningful discretization considering: ◼ density/number of points in an interval ◼ “closeness” of points in an interval June 11, 2021 40
  41. Độ đo hấp dẫn: Tương quan (nâng cao) ◼ play basketball eat cereal [40%, 66.7%] là lạc ◼ Phần trăm chung của sinh viên ăn ngũ cố là 75% cao hơn so với 66.7%. ◼ play basketball not eat cereal [20%, 33.3%] là chính xác hơn, do độ hỗ trợ và tin cậy thâos hơn ◼ Độ đo sự kiện phụ thuộc/tương quan: lift (nâng cao) P(A B) Basketball Not basketball Sum (row) Cereal 2000 1750 3750 corrA,B = P(A)P(B) Not cereal 1000 250 1250 Sum(col.) 3000 2000 5000 June 11, 2021 41
  42. Chương 4: Khai phá luật kết hợp ◼ Khai phá luật kết hợp (Association rule) ◼ Các thuật tốn khai phá vơ hướng luật kết hợp (giá trị lơgic đơn chiều) trong CSDL giao dịch ◼ Khai phá kiểu đa dạng luật kết hợp/tương quan ◼ Khai phá kết hợp dựa theo ràng buộc ◼ Khai phá mẫu dãy ◼ Ứng dụng/mở rộng khai phá mẫu phổ biến June 11, 2021 42
  43. KPDL dựa trên ràng buộc ◼ Tìm tất cả các mẫu trong CSDL tự động? — phi hiện thực! ◼ Mẫu cĩ thể quá nhiều mà khơng mục đích! ◼ KPDL nên là quá trình tương tác ◼ Người dùng trực tiếp xác định KPDL gì khi dùng ngơn ngữ hỏi KPDL (hoặc giao diện đồ họa) ◼ KP dựa theo ràng buộc ◼ Linh hoạt người dùng: cung cấp ràng buộc trên cái mà KP ◼ Tối ưu hệ thống: thăm dị các ràng buộc để hiệu quả KP: KP dựa theo ràng buộc June 11, 2021 43
  44. Ràng buộc trong KPDL ◼ Ràng buộc kiểu tri thức: ◼ classification, association, etc. ◼ Ràng buộc dữ liệu — dùng câu hỏi kiếu SQL ◼ Tìm các cặp sản phẩn mua cùngnhau trong Vancouver vào Dec.’00 ◼ Ràng buộc chiều/cấp ◼ Liên quan tới vùng, giá, loại hàng, lớp khách hàng ◼ Ràng buộc luật (mẫu) ◼ Mua hàng nhỏ (price $200) ◼ Ràng buộc hấp dẫn ◼ Luật mạng: min_support 3%, min_confidence 60% June 11, 2021 44
  45. KP ràng buộc tìm/lập luận dựa theo ràng buộc ◼ Cả hai hướng tới rút gọn khơng gian tìm kiếm ◼ Tìm mọi mẫu bảm đảm ràng buộc tìm kiếm heuristic ◼ Tích hợp hai cái cho một bài tốn tìm kiếm thú vịi ◼ KP ràng buộc <> quá trình hỏi trong hệ CSDL quan hệ ◼ Quá trình hỏi trong CSDL quan hệ địi hỏi tìm tất cả ◼ KP mẫu ràng buộc chung một triết lý tương tựng như cố gắng chọn về chiều sâu của câu hỏi June 11, 2021 45
  46. KP mấu phổ biến ràng buộc: vấn đề tố ưu hĩa câu hỏi ◼ Cho một câu hỏi KP Mấu phổ biến với một tập ràng buộc C, thì thuật tốn nên là ◼ Mạnh mẽ: chỉ tìm các tập phố biến bảo đảm ràng buộc C ◼ đầy đủ: Tìm tất cả tập phổ biến bảo đảm ràng buộc C ◼ Giải pháp “thơ ngây/hồn nhiên” (nạve) ◼ Tìm tất cát tập PB sau đĩ kiểm tra ràng buộc ◼ Tiếp cận hiệu quả hơn ◼ Phân tích tính chất các ràng buộc một cách tồn diện ◼ Khai thác chúng sâu sắc cĩ thể nhất trong tính tốn mẫu PB. June 11, 2021 46
  47. Chống đơn điêu trong KP theo ràng buộc TDB (min_sup=2) ◼ Chống đon điệu (Anti-monotonicity) TID Transaction ◼ Một tập mục S vi phạm ràng buộc, 10 a, b, c, d, f mọi tập lớn hơn nĩ cũng vi phạm 20 b, c, d, f, g, h 30 a, c, d, e, f ◼ sum(S.Price) v là chống đơn điệu 40 c, e, f, g ◼ sum(S.Price) v là khơng chống đơn Item Profit điệu a 40 ◼ Ví dụ. C: range(S.profit) 15 là chống b 0 đơn điệu c -20 d 10 ◼ Tập mục ab vi phạm C e -30 f 30 ◼ Cũng vậy mọi tập chưa ab g 20 h -10 June 11, 2021 47
  48. Ràng buộc nào là chống đơn điệu Ràng buộc Chống đơn điệu v S No S  V no S  V yes min(S) v no min(S) v yes max(S) v yes max(S) v no count(S) v yes count(S) v no sum(S) v ( a S, a 0 ) yes sum(S) v ( a S, a 0 ) no range(S) v yes range(S) v no avg(S)  v,  { =, , } convertible support(S)  yes support(S)  no June 11, 2021 48
  49. Tính đơn điệu trong KP dựa theo ràng buộc TDB (min_sup=2) TID Transaction ◼ Tính đơn điệu 10 a, b, c, d, f ◼ Khi một tập mục S thỏa mãn ràng 20 b, c, d, f, g, h buộc, thì mọi tập lơn hơn của nĩ 30 a, c, d, e, f cung thỏa mãn 40 c, e, f, g ◼ sum(S.Price) v là đơn điệu Item Profit a 40 ◼ min(S.Price) v là đơn điệu b 0 ◼ Ví dụ. C: range(S.profit) 15 c -20 d 10 ◼ Tập mục ab đảm bảo C e -30 f 30 ◼ Cúng vậy mọi tập chứa ab g 20 h -10 June 11, 2021 49
  50. Ràng buộc đơn điệu Ràng buộc Đơn điệu v S yes S  V yes S  V no min(S) v yes min(S) v no max(S) v no max(S) v yes count(S) v no count(S) v yes sum(S) v ( a S, a 0 ) no sum(S) v ( a S, a 0 ) yes range(S) v no range(S) v yes avg(S)  v,  { =, , } convertible support(S)  no support(S)  yes June 11, 2021 50
  51. Tính cơ đọng ◼ Tính cơ đọng: ◼ Cho A1, là tập mục bảo đảm một ràng buộc cơ đọng C, thì mọi S bảm đảm C là dựa trên A1 , chằng hạn., S chưa một tập con thuộc A1 ◼ Tư tưởng: Bỏ qua xem xét CSDL giao dịch, cĩ chăng một tập mục S bảo đảm ràng buộc C cĩ thể được xác định dựa theo việc chọn các mục ◼ min(S.Price) v là cơ đọng ◼ sum(S.Price) v khơng cơ đọng ◼ Tối ưu hĩa: Nếu C là cơ đọng cĩ thể đẩy đếm trước June 11, 2021 51
  52. Ràng buộc cơ đọng Ràng buộc Cơ đọng v S yes S  V yes S  V yes min(S) v yes min(S) v yes max(S) v yes max(S) v yes count(S) v weakly count(S) v weakly sum(S) v ( a S, a 0 ) no sum(S) v ( a S, a 0 ) no range(S) v no range(S) v no avg(S)  v,  { =, , } no support(S)  no support(S)  no June 11, 2021 52
  53. Thuật tốn Apriori— Ví dụ Database D itemset sup. itemset sup. L1 TID Items C1 {1} 2 {1} 2 100 1 3 4 {2} 3 Scan D {2} 3 200 2 3 5 {3} 3 {3} 3 300 1 2 3 5 {4} 1 {5} 3 400 2 5 {5} 3 C itemset 2 itemset sup C2 {1 2} L2 itemset sup {1 2} 1 Scan D {1 3} 2 {1 3} 2 {1 3} {2 3} 2 {1 5} 1 {1 5} {2 5} 3 {2 3} 2 {2 3} {2 5} {3 5} 2 {2 5} 3 {3 5} 2 {3 5} C3 itemset Scan D L3 itemset sup {2 3 5} {2 3 5} 2 June 11, 2021 53
  54. Thuật tốn Nạve: Apriori +ràng buộc Database D itemset sup. itemset sup. L1 TID Items C1 {1} 2 {1} 2 100 1 3 4 {2} 3 Scan D {2} 3 200 2 3 5 {3} 3 {3} 3 300 1 2 3 5 {4} 1 {5} 3 400 2 5 {5} 3 C itemset 2 itemset sup C2 {1 2} L2 itemset sup {1 2} 1 Scan D {1 3} 2 {1 3} 2 {1 3} {2 3} 2 {1 5} 1 {1 5} {2 5} 3 {2 3} 2 {2 3} {2 5} {3 5} 2 {2 5} 3 {3 5} 2 {3 5} C3 itemset Scan D L3 itemset sup Constraint: {2 3 5} {2 3 5} 2 Sum{S.price < 5} June 11, 2021 54
  55. Thuật tốn Apriori ràng buộc: Đẩy ràng buộc chống đơn điệu xuống sâu Database D itemset sup. itemset sup. L1 TID Items C1 {1} 2 {1} 2 100 1 3 4 {2} 3 Scan D {2} 3 200 2 3 5 {3} 3 {3} 3 300 1 2 3 5 {4} 1 {5} 3 400 2 5 {5} 3 C itemset 2 itemset sup C2 {1 2} L2 itemset sup {1 2} 1 Scan D {1 3} 2 {1 3} 2 {1 3} {2 3} 2 {1 5} 1 {1 5} {2 5} 3 {2 3} 2 {2 3} {2 5} {3 5} 2 {2 5} 3 {3 5} 2 {3 5} C3 itemset Scan D L3 itemset sup Constraint: {2 3 5} {2 3 5} 2 Sum{S.price < 5} June 11, 2021 55
  56. The Constrained Apriori Algorithm: Push a Succinct Constraint Deep Database D itemset sup. itemset sup. L1 TID Items C1 {1} 2 {1} 2 100 1 3 4 {2} 3 Scan D {2} 3 200 2 3 5 {3} 3 {3} 3 300 1 2 3 5 {4} 1 {5} 3 400 2 5 {5} 3 C itemset 2 itemset sup C2 {1 2} L2 itemset sup {1 2} 1 Scan D {1 3} 2 {1 3} 2 {1 3} {2 3} 2 {1 5} 1 {1 5} {2 3} {2 5} 3 {2 3} 2 {2 5} {3 5} 2 {2 5} 3 {3 5} 2 {3 5} C3 itemset Scan D L3 itemset sup Constraint: {2 3 5} {2 3 5} 2 min{S.price <= 1 } June 11, 2021 56
  57. Chương 4: Khai phá luật kết hợp ◼ Khai phá luật kết hợp (Association rule) ◼ Các thuật tốn khai phá vơ hướng luật kết hợp (giá trị lơgic đơn chiều) trong CSDL giao dịch ◼ Khai phá kiểu đa dạng luật kết hợp/tương quan ◼ Khai phá kết hợp dựa theo ràng buộc ◼ Khai phá mẫu dãy ◼ Ứng dụng/mở rộng khai phá mẫu phổ biến June 11, 2021 57
  58. CSDL tuần tự và Phân tích mẫu tuần tự June 11, 2021 58
  59. CSDL TT và PT MTT (2) ◼ CSDL giao dịch, CSDL chuỗi thời gian mấu TT (PB) ◼ Ứng dụng của KP Mấu TT ◼ Tuần tự mua của khách hàng: ◼ Đầu tiên mua máy tính, sau đĩ CD-ROM, và sau đĩ là máy ảnh số, trong vịng 3 tháng. ◼ Phẫu thuật y tế, thảm họa tự nhiên (động đất ), quá trình KH và kỹ nghệ, chứng khốn và thị trường . ◼ Mẫu gọ điện thoại, dịng click tại Weblogs ◼ Dãy DNA và cấu trúc gene June 11, 2021 59
  60. Khái niệm KP mấu TT ◼ Cho một tập các dãy, tìm tập đầy đủ các dãy con phổ biến dãy TT : CSDL dãy TT SID sequence Một phần tử chứa một tập mục. 10 Tập mục trong một phần tử là khơng thứ tự , và viết chúng theo ABC. 20 30 là dãy con của 40 Cho độ hỗ trợ min_sup =2, là mẫu tuần tự sequential pattern June 11, 2021 60