Tìm kiếm và trình diễn thông tin - Phần: Đánh giá kết quả tìm kiếm
Bạn đang xem 20 trang mẫu của tài liệu "Tìm kiếm và trình diễn thông tin - Phần: Đánh giá kết quả tìm kiếm", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- tim_kiem_va_trinh_dien_thong_tin_phan_danh_gia_ket_qua_tim_k.pdf
Nội dung text: Tìm kiếm và trình diễn thông tin - Phần: Đánh giá kết quả tìm kiếm
- (IT4853) Tìm kiếm và trình diễn thông tin Đánh giá kết quả tìm kiếm
- Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website:
- Nội dung chính 1. MRR 2. NDCG 3. Xây dựng bộ dữ liệu
- MRR MRR – Mean Reciprocal Rank Giả sử chỉ có một văn bản phù hợp duy nhất Tìm kiếm văn bản đã biết, Truy vấn định hướng, Tìm kiếm một sự khẳng định (fact). Thời gian tìm kiếm tỉ lệ với vị trí văn bản phù hợp Phản ánh thời gian người dùng cần bỏ ra để tìm thấy kết quả phù hợp. 4
- MRR Gọi K là vị trí của kết quả đầu tiên phù hợp với q 1 RR(q) K 1 MRR(Q) RR(q) | Q | q Q 1 1 MRR(Q) | Q | q Q Kq 5
- Nội dung chính 1. MRR 2. NDCG 3. Xây dựng bộ dữ liệu
- Sự phù hợp đa mức Có thể sử dụng sự phù hợp đa mức để đo mức độ hữu ích của tập kết quả; Người dùng đánh giá cao những kết quả phù hợp được trả về; Vị trí của văn bản trong danh sách kết quả có ảnh hưởng tới sự tiếp nhận của người dùng: Mức hữu ích bị thuyên giảm khi tăng dần khoảng cách tới đầu danh sách, Luật giảm giá trị phổ biến là 1/log (rank) 7
- DCG DCG – Discounted cumulative gain CG – Cumulative Gain CG tại vị trí xếp hạng n Đặt mức độ phù hợp của n văn bản là r1, r2, rn CG = r1+r2+ rn DCG tại vị trí n DCG = r1 + r2/log22 + r3/log23 + rn/log2n Có thể sử dụng hệ cơ số bất kỳ cho hàm log 8
- DCG DCG tại vị trí p: Công thức tương đương: Nhấn mạnh những văn bản có độ phù hợp cao 9
- Ví dụ 10 văn bản đã xếp hạng được đánh giá theo thang điểm phù hợp 0-3: 3, 2, 3, 0, 0, 1, 2, 2, 3, 0 DG: 3, 2/1, 3/1.59, 0, 0, 1/2.59, 2/2.81, 2/3, 3/3.17, 0 = 3, 2, 1.89, 0, 0, 0.39, 0.71, 0.67, 0.95, 0 DCG: 3, 5, 6.89, 6.89, 6.89, 7.28, 7.99, 8.66, 9.61, 9.61 10
- NDCG NDCG – Normalized Discounted Cumulative Gain NDCG tại vị trí n Chia DCG tại vị trí n cho DCG tại vị trí n của xếp hạng mẫu Xếp hạng mẫu là thứ tự giảm dần mức độ phù hợp. Giá trị chuẩn hóa phù hợp để so sánh những xếp hạng với số lượng văn bản phù hợp khác nhau NDCG là độ đo phổ biến trong đánh giá kết quả tìm kiếm trên Web 11
- Ví dụ 4 văn bản: d1, d2, d3, d4 Giá trị mẫu Hàm xếp hạng1 Hàm xếp hạng2 i Thứ tự Thứ tự Thứ tự r r r văn bản i văn bản i văn bản i 1 d4 2 d3 2 d3 2 2 d3 2 d4 2 d2 1 3 d2 1 d2 1 d4 2 4 d1 0 d1 0 d1 0 NDCGGT=1.00 NDCGRF1=1.00 NDCGRF2=0.9203 2 1 0 2 1 0 DCG 2 4.6309 DCGGT 2 4.6309 RF1 log2 2 log2 3 log2 4 log2 2 log2 3 log2 4 1 2 0 DCG 2 4.2619 MaxDCG DCG 4.6309 RF 2 log 2 log 3 log 4 GT 2 2 2 12
- Nội dung chính 1. MRR 2. NDCG 3. Xây dựng bộ dữ liệu đánh giá
- Đánh giá phù hợp Sự phù hợp là rất trừu tượng Người dùng thường kết luận văn bản có phù hợp hay không sau khi đọc, Những người dùng khác nhau có thể có đánh giá khác nhau về sự phù hợp của văn bản. Cần sử dụng chung một định nghĩa tường minh của sự phù hợp cho cả nhóm xây dựng tập kết quả mẫu. 14
- Ví dụ một truy vấn trong TREC Number: 351 Falkland petroleum exploration Description: What information is available on petroleum exploration in the South Atlantic near the Falkland islands? Narrative: Any document discussing petroleum exploration in the South Atlantic near the Falkland Islands is considered relevant. Documents discussing petroleum exploration in continental South America are not relevant. 15
- Định nghĩa sự phù hợp TREC định nghĩa sự phù hợp như sau: If you were writing a report on the subject of the topic and would use the information contained in the document in the report, then the document is relevant. Only binary judgments ("relevant" or "not relevant") are made, and a document is judged relevant if any piece of it is relevant (regardless of how small the piece is in relation to the rest of the document). Giả sử nếu bạn đang viết một báo cáo về chủ đề đang xét và bạn muốn sử dụng thông tin chứa trong một văn bản cụ thể trong báo cáo của mình thì văn bản đó được coi là phù hợp. Chỉ thực hiện đánh giá nhị phân (“phù hợp" hoặc “không phù hợp"), và một văn bản được coi là phù hợp nếu một phần bất kỳ của nó là phù hợp (không quan tâm phần đó nhỏ tới mức nào nếu so sánh với phần còn lại của văn bản). 16
- Kiểm định đánh giá phù hợp . Kết quả thu được bởi các thành viên có thể được sử dụng để đánh giá kết quả tìm kiếm nếu đảm bảo tính thống nhất trên một ngưỡng xác định . Đo sự thống nhất bằng cách nào? Mức độ thống nhất giữa các bộ kết quả thường được đo bằng hệ số Kappa 17
- Hệ số Kappa P(E) = giá trị mong đợi của tỉ lệ thống nhất ngẫu nhiên, P(A) = tỉ lệ số lần thống nhất giữa những đánh giá Thường chấp nhận к trong khoảng [2/3, 1.0]. Ngược lại, cần điều chỉnh phương pháp đánh giá phù hợp đang sử dụng nếu к quá nhỏ. 18
- Ví dụ tính chỉ số thống kê kappa Đánh giá 2 Yes No Total Yes 300 20 320 Đánh giá Theo dõi tỉ lệ số lần 1 No 10 70 80 thống nhất của kết quả Total 310 90 400 P(A) = (300 + 70)/400 = 370/400 = 0.925 Giá trị biên tổng hợp P(không phù hợp) = (80 + 90)/(400 + 400) = 170/800 = 0.2125 P(phù hợp) = (320 + 310)/(400 + 400) = 630/800 = 0.7878 Giá trị xác suất của sự thống nhất ngẫu nhiên P(E) = P(không phù hợp)2 + P(phù hợp)2 = 0.212522 + 0.787822 = 0.665 Chỉ số kappa к = (P(A) − P(E))/(1 − P(E)) = (0.925 − 0.665)/(1 − 0.665) = 0.776 (trong khoảng được chấp nhận) 19
- Bài tập GT1 GT2 q1 NRNNN NNNNR q2 NNRNN RNNNN So sánh hai giải thuật theo tham số MRR 20