Tìm kiếm và trình diễn thông tin - Mô hình nhị phân độc lập

34 trang vanle 3770

Download

Bạn đang xem 20 trang mẫu của tài liệu "Tìm kiếm và trình diễn thông tin - Mô hình nhị phân độc lập", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

tim_kiem_va_trinh_dien_thong_tin_mo_hinh_nhi_phan_doc_lap.pdf

Nội dung text: Tìm kiếm và trình diễn thông tin - Mô hình nhị phân độc lập

(IT4853) Tỡm kiếm và trỡnh diễn thụng tin Mụ hỡnh nhị phõn độc lập
Giảng viờn  TS. Nguyễn Bỏ Ngọc  Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603  Email: [email protected]  Website: 2
Nội dung chớnh  Tỡm kiếm dựa trờn xỏc suất  Mụ hỡnh nhị phõn độc lập  Mụ hỡnh (Okapi) BM25 3
Xỏc suất trong tỡm kiếm thụng tin Khụng bảo toàn Nhu cầu thụng tin Biểu diễn logic ngữ nghĩa người dựng truy vấn So sỏnh Kết luận phự hợp là khụng chắc chắn Văn bản Biểu diễn logic văn bản  So sỏnh văn bản và truy vấn dựa trờn ký tự.  Kết quả so sỏnh thể hiện khả năng phự hợp về ngữ nghĩa.  Hoàn toàn cú thể sử dụng xỏc suất để định lượng sự khụng chắc chắn trong tỡm kiếm. 4
Tỡm kiếm dựa trờn xỏc suất  Nguyờn tắc xếp hạng xỏc suất  Mụ hỡnh nhị phõn độc lập BIM  Okapi BM25  Mụ hỡnh ngụn ngữ. 5
Nguyờn tắc  Đỏnh giỏ trọng số từ:  “Với một truy vấn đó cho, nếu cú thể khẳng định một văn bản là phự hợp, thỡ từ xuất hiện trong văn bản đú phải cú trọng số lớn hơn những từ khỏc.”  Thứ tự sắp xếp văn bản là thứ tự giảm dần xỏc suất phự hợp:  P(R=1|văn bảni, truy vấn) 6
Nội dung chớnh  Tỡm kiếm dựa trờn xỏc suất  Mụ hỡnh nhị phõn độc lập  Mụ hỡnh (Okapi) BM25 7
Lý thuyết xỏc suất căn bản  Quy tắc nhõn xỏc suất (luật chuỗi): p(A, B) p(A  B) p(A, B) p(A | B) p(B) p(A, B) p(B | A) p(A)  Luật Bayes p(B | A) p(A) p(A | B) p(B) 8
Lý thuyết xỏc suất căn bản  Quy tắc phõn tớch xỏc suất (luật phõn tớch): p(B) p(A, B) p(A, B)  Kết hợp luật Bayes và luật phõn tớch p(B | A) p(A| B) p(A) p(B | X ) p(X ) X A,A 9
Lý thuyết xỏc suất căn bản  Cơ hội (Odds): p(A) p(A) O(A) p(A) 1 p(A) Liờn hệ giữa O và p 10
Mụ hỡnh nhị phõn độc lập  Nhị phõn: Văn bản được biểu diễn như vec-tơ nhị phõn đỏnh dấu sự xuất hiện của từ d (x1,, xn )  xi = 1 nếu thuật ngữ thứ i xuất hiện trong d, 0 nếu ngược lại  Độc lập: Sự xuất hiện của mỗi từ trong văn bản là độc lập với những từ cũn lại  Những văn bản khỏc nhau cú thể cú cựng một biểu diễn vec-tơ 11
Mụ hỡnh nhị phõn độc lập (1)  Cho truy vấn q  Với mỗi văn bản d cần tớnh p(R|q, d)  Chỉ quan tõm tới thứ hạng  Sử dụng cơ hội (Odds) và luật Bayes p(R 1| q) p(d | R 1,q) p(R 1| q,d) p(d | q) O(R | q,d) p(R 0 | q,d) p(R 0 | q) p(d | R 0,q) p(d | q) 12
Mụ hỡnh nhị phõn độc lập (2) p(R 1| q,d) p(R 1| q) p(d | R 1,q) O(R | q,d)  p(R 0 | q,d) p(R 0 | q) p(d | R 0,q) Hằng số với một truy vấn Cần xỏc định  Sử dụng giả thuyết độc lập p(d | R 1,q) n p(x | R 1,q)  i p(d | R 0,q) i 1 p(xi | R 0,q) n p(x | R 1,q) O(R | q,d) O(R | q) i i 1 p(xi | R 0,q) 13
Mụ hỡnh nhị phõn độc lập (3) n p(x | R 1,q) O(R | q,d) O(R | q) i i 1 p(xi | R 0,q) Vỡ x chỉ nhận giỏ trị 1 hoặc 0 i p(x 1| R 1,q) p(x 0 | R 1,q) O(R | q,d) O(R | q) i  i xi 1 p(xi 1| R 0,q) xi 0 p(xi 0 | R 0,q)  Đặt: pi p(xi 1| R 1,q); ri = p(xi =1| R= 0,q);  Giả sử với thuật ngữ khụng cú trong truy vấn thỡ pi = ri p (1 p ) O(R | q,d) O(R | q) i  i xi 1 ri xi 0 (1 ri ) qi 1 qi 1 14
Cỏc đại lượng xỏc suất cơ bản pi p(xi 1| R 1,q) 1 pi p(xi 0 | R 1,q) ri p(xi 1| R 0,q) 1 ri p(xi 0 | R 0,q) 15
Mụ hỡnh nhị phõn độc lập (4) p 1 p O(R | q,d) O(R | q)  i  i xi qi 1 ri xi 0 1 ri qi 1 Từ truy vấn cú Từ truy vấn khụng trong văn bản cú trong văn bản p 1 r 1 p 1 p O(R | q,d) O(R | q) i  i  i i  r  1 p 1 r  1 r xi 1 i xi 1 i i xi 0 i qi 1 qi 1 qi 1 p (1 r ) 1 p O(R | q,d) O(R | q)  i i  i xi qi 1 ri (1 pi ) qi 1 1 ri Từ truy vấn cú Tất cả từ truy vấn trong văn bản 16
Mụ hỡnh nhị phõn độc lập (5) p (1 r ) 1 p O(R | q,d) O(R | q)  i i  i xi qi 1 ri (1 pi ) qi 1 1 ri Hằng số với một truy vấn Đại lượng duy nhất cần xỏc định cho mục đớch xếp hạng Hàm xếp hạng p (1 r ) p (1 r ) Rank(d,q) log  i i  log i i xi qi 1 ri (1 pi ) xi qi 1 ri (1 pi ) 17
Mụ hỡnh nhị phõn độc lập (6)  Kết quả tỡm kiếm được xỏc định dựa trờn Rank p (1 r ) p (1 r ) Rank(d,q) log  i i  log i i xi qi 1 ri (1 pi ) xi qi 1 ri (1 pi ) pi (1 ri ) Rank(d,q) ci ; ci log xi qi 1 ri (1 pi ) ci cú vai trũ như trọng số thuật ngữ trong mụ hỡnh này Tớnh ci ntn từ bộ dữ liệu sẵn cú. 18
Những số liệu thống kờ cơ bản Đại lượng thống kờ ứng với từ thứ i: Văn bản Phự hợp Khụng phự Tổng hợp xi=1 s n-s n xi=0 S-s N-n-S+s N-n Tổng S N-S N s n s • Xỏc định: p r i S i N S s (S s) w K(N,n,S,s) log i (n s) (N n S s) 19
Trọng số của thuật ngữ  Cú thể thờm 0.5 vào mỗi tham số để đảm bảo cỏc trọng số khụng trở thành vụ cựng khi S, s nhỏ: (s 0.5)(N S n s 0.5) w log t (n s 0.5)(S s 0.5) 20
Tớnh toỏn xỏc suất/từ  Khi bắt đầu thực hiện truy vấn  Hoàn toàn khụng biết về R N n 0.5 w log i n 0.5 Tương tự trọng số idf. Cú thể sử dụng giỏ trị này để tớnh hạng ban đầu 21
Vớ dụ mụ hỡnh xỏc suất N n 0.5 wt log n 0.5 22
Cải thiện xếp hạng  Nếu người dựng phản hồi về văn bản phự hợp  Xỏc định lại pi và ri dựa trờn thụng tin này  Hoặc cú thể kết hợp với thụng tin mới |VR | p(1) s p(1) p(2) i i i κ là trọng i |VR |  S  số đó biết  Lặp lại để xỏc định chớnh xỏc hơn những văn bản phự hợp 23
Vớ dụ trọng số phự hợp (s 0.5)(N S n s 0.5) w log Văn bản số 2 là văn bản phự hợp t (n s 0.5)(S s 0.5) 24
Xỏc định pi và ri nhờ vũng lặp Phự hợp phản hồi giả lập  1. Giả sử pi là hằng số với mọi xi trong truy vấn. Vớ dụ, pi = 0.5 với văn bản bất kỳ  2. Giả sử tập V với những văn bản được xếp hạng cao nhất theo mụ hỡnh này là những văn bản phự hợp.  3. Cần xỏc định lại pi và ri, sử dụng phõn bố từ trong V. Đặt Vi là tập văn bản cú chứa xi , chỳng ta cú pi = |Vi| / |V|  4. Giả sử khụng được trả về đồng nghĩa với khụng phự hợp, ri = (ni – |Vi|) / (N – |V|)  5. Lặp cỏc bước 2-4 cho tới khi hội tụ và trả về kết quả. 25
Tổng kết mụ hỡnh BIM  Mụ hỡnh xỏc suất dựa trờn lý thuyết xỏc suất để mụ hỡnh húa sự khụng chắc chắn trong quỏ trỡnh tỡm kiếm  Sử dụng cỏc giả thuyết về sự độc lập trong quỏ trỡnh ước lượng giỏ trị xỏc suất  Trọng số ban đầu của thuật ngữ khi chưa cú thụng tin về văn bản phự hợp được xỏc định tương tự idf.  Phự hợp phản hồi giả lập cú thể giỳp cải thiện xếp hạng bằng cỏch xỏc định lại xỏc suất thuật ngữ  Khụng sử dụng cỏc tần suất thuật ngữ nội văn bản hoặc độ dài văn bản 26
Nội dung chớnh  Tỡm kiếm dựa trờn xỏc suất  Mụ hỡnh nhị phõn độc lập  Mụ hỡnh (Okapi) BM25 27
Okapi BM25  BM25 “Best Match 25”  Được phỏt triển trong hệ thống Okapi (City University London)  Hiệu quả đó được xỏc nhận trong thực nghiệm  Sử dụng tần suất từ và độ dài văn bản, nhưng khụng bổ xung quỏ nhiều tham số so với BIM (Robertson and Zaragoza 2009; Spọrck Jones et al. 2000) 28
Trọng số Okapi VRt 1/ 2 / VNRt 1/ 2 RSVd log  df VR 1/ 2 / N df VR VR 1/ 2 t q t t t t VRt – tập văn (k1 1)tft,d k3 1 tft,q bản phự hợp cú chứa t k1 (1 b) b (Ld / Lave ) tft,d k3 tft,q VNRt – khụng s 1/ 2 / S s 1/ 2 chứa t RSVd  log t q n s 1/ 2 / N n S s 1/ 2 (k1 1)tft,d k3 1 tft,q k1 (1 b) b (Ld / Lave ) tft,d k3 tft,q 29
Trọng số Okapi BM25  Khi từ xuất hiện trong quỏ nửa số văn bản và S = s = 0, thành phần: s 1/ 2 / S s 1/ 2 log n s 1/ 2 / N n S s 1/ 2 cú thể nhận giỏ trị õm  Trong trường hợp khụng cú thụng tin về văn bản phự hợp, cú thể sử dụng cụng thức: N (k1 1)tft,d k3 1 tft,q RSVd  log  t q dft k1 (1 b) b (Ld / Lave ) tft,d k3 tft,q 30
Trọng số Okapi  Trọng số Okapi sử dụng  thành phần “tf” tương tự như VSM  chuẩn húa độ dài văn bản và độ dài truy vấn độc lập  một vài tham số phụ thuộc bộ dữ liệu s 1/ 2 / S s 1/ 2 RSVd  log t q n s 1/ 2 / N n S s 1/ 2 (k1 1)tft,d k3 1 tft,q k1 (1 b) b (Ld / Lave ) tft,d k3 tft,q 31
Tớnh trọng số Okapi BM25 k1 = 1.2 k3 = 7 N (k1 1)tft,d k3 1 tft,q RSVd  log  b = 0.75 t q dft k1 (1 b) b (Ld / Lave ) tft,d k3 tft,q avdl = 3.66 32
Khi cú thụng tin về văn bản phự hợp s 1/ 2 / S s 1/ 2 RSVd  log k1 = 1.2 k3 = 7 t q n s 1/ 2 / N n S s 1/ 2 b = 0.75 (k1 1)tft,d k3 1 tft,q k1 (1 b) b (Ld / Lave ) tft,d k3 tft,q (Lave) avdl = 3.66 33