Luận án Truy hồi thông tin dựa trên ontology

pdf 40 trang vanle 1720
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Truy hồi thông tin dựa trên ontology", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfluan_an_truy_hoi_thong_tin_dua_tren_ontology.pdf

Nội dung text: Luận án Truy hồi thông tin dựa trên ontology

  1. ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGÔ MINH VƢƠNG TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY Chuyên ngành: Khoa học Máy tính Mã số chuyên ngành: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP. HỒ CHÍ MINH NĂM 2013
  2. Công trình được hoàn thành tại: Trƣờng Đại học Bách Khoa - Đại học Quốc Gia TpHCM Người hướng dẫn khoa học: PGS. TS. Cao Hoàng Trụ Phản biện độc lập 1: PGS. TS. Đồng Thị Bích Thủy Phản biện độc lập 2: PGS. TS. Lê Thanh Hƣơng Phản biện 1: PGS. TS. Đỗ Phúc Phản biện 2: TS. Nguyễn Thị Minh Huyền Phản biện 3: PGS. TS. Dƣơng Tuấn Anh Luận án sẽ được bảo vệ trước Hội đồng chấm luận án họp tại: Vào lúc .giờ .ngày tháng năm . Có thể tìm hiểu luận án tại: - Thư viện Khoa học Tổng hợp Tp.HCM - Thư viện Trường Đại học Bách Khoa – ĐHQG-TpHCM
  3. 1 Chƣơng 1 - GIỚI THIỆU Dữ liệu trên Web phần lớn là văn bản và chỉ phù hợp cho con người đọc hiểu. Do đó, việc nghiên cứu và phát triển các mô hình truy hồi văn bản có độ đầy đủ và độ chính xác cao là cần thiết. Trong luận án này, khi không cần nhấn mạnh, chúng tôi dùng thuật ngữ “truy hồi tài liệu” với ý nghĩa là truy hồi văn bản. Nhằm khắc phục nhược điểm nói trên của các mô hình truy hồi tài liệu theo từ khóa, các mô hình truy hồi theo ngữ nghĩa khai thác và biểu diễn nghĩa của các từ và khái niệm tiềm ẩn trong truy vấn và tài liệu. Cùng với sự ra đời và phát triển của Web có ngữ nghĩa, ontology được sử dụng rộng rãi trong việc nghiên cứu và phát triển các mô hình truy hồi tài liệu theo ngữ nghĩa. Trong đó, nhiều công trình với mục đích nâng cao hiệu quả truy hồi tài liệu đã: (1) khai thác thực thể có tên; (2) khai thác từ WordNet; trong luận án, chúng tôi gọi từ WordNet là từ được mô tả trong một ontology về từ vựng như WordNet; hoặc (3) thêm thông tin vào truy vấn. Ví dụ với truy vấn tìm kiếm các tài liệu về “Earthquake in USA” thì các tài liệu về “Earthquake in United States of America”, về “Temblor in USA” hoặc về “Earthquake in Denali, Alaska 2002” đều phù hợp với truy vấn này. Điều này là do: (1) USA và United States of America là hai bí danh (alias) của cùng một thực thể có tên (Named Entity, NE); (2) Earthquake và Temblor là hai từ WordNet đồng nghĩa với nhau; và (3) Denali, Alaska 2002 là một trận động đất xảy ra ở USA. Trong khi đó, các tài liệu về “Earthquake in Fukushima 2011” không phù hợp với truy vấn trên vì Fukushima 2011 tuy cũng là một trận động đất nhưng xảy ra ở Japan, không phải ở USA. Để giải quyết các vấn đề này, cần khai thác các đặc điểm ontology về thực thể có tên, về từ WordNet, và về sự kiện. Mục tiêu của luận án là nghiên cứu khai thác các ontology về thực thể có tên, từ WordNet và sự kiện để nâng cao hiệu quả truy hồi 1
  4. tài liệu. Thứ nhất, luận án khảo sát tất cả các đặc điểm ontology của thực thể có tên và nghiên cứu ảnh hưởng của chúng đến hiệu quả truy hồi tài liệu. Đồng thời, luận án nghiên cứu các cách kết hợp giữa thực thể có tên và từ khóa trong truy hồi tài liệu. Trong đó, so với các công trình trước đây, luận án khai thác thêm cặp tên-lớp và định danh của thực thể có tên để biểu diễn truy vấn và tài liệu. Ngoài ra, luận án khai thác các lớp thực thể ở mức cụ thể tiềm ẩn trong từ để hỏi dạng Wh. Thứ hai, luận án nghiên cứu khai thác các đặc điểm ontology của từ WordNet và kết hợp chúng với từ khóa. Ngoài các đặc điểm ontology cơ bản của từ WordNet là nhãn và nghĩa đã được sử dụng trong các công trình trước đây, luận án sử dụng thêm cặp nhãn-nghĩa để biểu diễn từ WordNet trong trường hợp từ này có nhiều hơn một nghĩa trong ngữ cảnh xem xét. Thứ ba, luận án khai thác ontology về sự kiện để thêm vào truy vấn các thực thể tiềm ẩn liên quan với các thực thể theo các quan hệ tường minh trong truy vấn. Các mô hình đề xuất của luận án sử dụng các ontology về thực thể có tên, từ WordNet và sự kiện có độ bao phủ lớn, và các giải thuật nhận diện thực thể có tên và phân giải nhập nhằng nghĩa của từ có độ chính xác cao của các công trình khác. Vì vậy, các kết quả thí nghiệm trong luận án chịu ảnh hưởng của chất lượng của các ontology và công cụ xử lý được sử dụng. Tuy nhiên, ý nghĩa của luận án là nghiên cứu sự khác biệt về hiệu quả truy hồi tài liệu của các mô hình khác nhau trên cùng một nền tảng ontology và công cụ tiền xử lý. Việc xây dựng một hệ thống truy hồi tài liệu để dùng ngay trong thực tiễn nằm ngoài phạm vi của luận án. Vì vậy, trọng tâm của luận án không phải là vấn đề thời gian xử lý và truy hồi tài liệu, mà là về độ chính xác và độ đầy đủ của các mô hình và phương pháp đề xuất. Luận án đã đề xuất các mô hình truy hồi tài liệu khai thác các đặc điểm ontology về thực thể có tên, về từ WordNet và về sự kiện 2
  5. một cách tương đối đầy đủ và toàn diện nhằm nâng cao hiệu quả truy hồi, bao gồm: 1. Mô hình khai thác các đặc điểm ontology của thực thể có tên và kết hợp chúng với từ khóa. 2. Mô hình khai thác các đặc điểm ontology của từ WordNet kết hợp với từ khóa. 3. Mô hình mở rộng truy vấn với các thực thể có tên bằng cách lan truyền theo các quan hệ tường minh trong truy vấn. 4. Mô hình kết hợp các phương pháp trong các mô hình được đề xuất ở trên. Hiệu quả của các mô hình đề xuất được kiểm tra bằng thực nghiệm và qua bước kiểm định ý nghĩa thống kê. Luận án này gồm 123 trang được chia thành 7 chương. Chương 1 - Giới thiệu; Chương 2 - Cơ sở kiến thức; Chương 3 - Khai thác thực thể có tên; Chương 4 - Khai thác từ WordNet; Chương 5 - Khai thác thông tin tiềm ẩn; Chương 6 - Kết hợp các mô hình; Chương 7 - Tổng kết. Luận án có 35 bảng, 35 hình và sử dụng 178 tài liệu tham khảo trong đó có 8 bài báo khoa học đã được công bố của tác giả. 2 Chƣơng 2 - CƠ SỞ KIẾN THỨC 2.1 Ontology Ontology bắt nguồn từ triết học, được dẫn xuất từ tiếng Hy Lạp là “onto” và “logia”. Trong những năm gần đây, ontology được sử dụng nhiều trong khoa học máy tính và được định nghĩa khác với nghĩa ban đầu. Theo đó ontology là sự mô hình hóa và đặc tả các các khái niệm một cách hình thức, rõ ràng và chia sẻ được. Các ontology được sử dụng trong luận án là KIM ontology, WordNet và YAGO. KIM ontology chứa khoảng 300 lớp thực thể, 100 thuộc tính và kiểu quan hệ, và 77.500 thực thể có tên với hơn 110.000 bí danh. Thực thể có tên là con người, tổ chức, nơi chốn, và những đối tượng khác được tham khảo bằng tên. Mỗi thực thể có tên có ba đặc điểm 3
  6. ontology cơ bản là tên, lớp và định danh. Mỗi thực thể có tên có thể có nhiều tên khác nhau, được gọi là các bí danh của thực thể có tên đó. Mặt khác, cũng có nhiều thực thể có tên khác nhau nhưng có cùng tên. Mỗi thực thể có tên thuộc về một lớp trực tiếp của nó và đồng thời thuộc về các lớp cha của lớp trực tiếp đó. Mỗi thực thể có tên có một định danh xác định duy nhất nó. WordNet ở phiên bản 3.0 chứa khoảng 155.000 từ và 117.000 tập đồng nghĩa. Mỗi từ WordNet có các đặc điểm là nhãn (word form, form hoặc label) và nghĩa (word meaning hoặc sense). Trong đó, mỗi nhãn là sự phát âm hoặc sự ghi vật lý của một từ. Mỗi nghĩa của một từ có một định danh xác định duy nhất nó trong WordNet. Hai nhãn được gọi là đồng nghĩa của nhau nếu sự thay thế lẫn nhau của chúng trong một câu không làm thay đổi ý nghĩa của câu đó. Các nhãn là đồng nghĩa của nhau sẽ tạo thành một tập đồng nghĩa (synsets) và có thể được dùng để biểu diễn một nghĩa. YAGO chứa khoảng 1,95 triệu thực thể, 93 kiểu quan hệ và 19 triệu sự kiện mô tả quan hệ giữa các thực thể. Cũng như ở KIM ontology, các kiểu thuộc tính và quan hệ giữa các thực thể có tên trong YAGO là nhị phân. 2.2 Nhận diện thực thể có tên và phân giải nhập nhằng nghĩa của từ Nhận diện thực thể có tên (Named Entity Recognition – NER) là nhằm xác định đúng định danh hoặc lớp của một thực thể có tên trong ngữ cảnh xem xét. Tùy theo ngữ cảnh, một giải thuật NER có thể không xác định được định danh mà chỉ xác định được lớp của thực thể có tên, hoặc thậm chí cũng không xác định được lớp. Trong luận án, động cơ nhận diện thực thể có tên của KIM được dùng để rút trích các đặc điểm ontology của thực thể có tên trong truy vấn và tài liệu. Các đặc điểm ontology này được luận án khai thác để chú 4
  7. giải thực thể có tên trong truy vấn và tài liệu. Độ chính xác và độ đầy đủ của động cơ này lần lượt vào khoảng 90% và 86%. Phân giải nhập (Word Sense Disambiguation - WSD) là nhằm xác định đúng nghĩa của một từ trong ngữ cảnh xem xét. Trong Agirre và Soroa (2009), các tác giả cho thấy hiệu quả của giải thuật WSD dựa trên WordNet đề xuất hiệu quả hơn các giải thuật dựa trên WordNet khác và có độ chính xác khoảng 56.8%. Luận án áp dụng giải thuật WSD này để rút trích các đặc điểm ontology của từ WordNet, và dùng chúng để chú giải ngữ nghĩa của các từ WordNet trong truy vấn và tài liệu. 2.3 Tập dữ liệu kiểm tra Mỗi tập kiểm tra bao gồm 3 phần: (1) một tập tài liệu; (2) một tập truy vấn; và (3) một tập các cặp truy vấn và tài liệu có liên quan với nhau. Một số tập kiểm tra chuẩn là TREC, CISI, NTCIR, CLEF, Reuters-21578, TIME và WBR99. Trong đó, tập TIME gồm 425 tài liệu và 83 truy vấn, được cung cấp bởi SMART. TREC là hội thảo được tổ chức hàng năm bởi Viện Kỹ Thuật - Chất Lượng Hoa Kỳ và Bộ Quốc Phòng Hoa Kỳ nhằm tạo ra một cơ sở cho việc đánh giá các phương pháp truy hồi thông tin với quy mô lớn. Trong đó, tập tài liệu L.A. Times của TREC được sử dụng phổ biến trong các bài báo của SIGIR-2007 và SIGIR-2008. Tập tài liệu này chứa hơn 130.000 tài liệu, với gần 500MB. 2.4 Độ đo hiệu quả truy hồi và kiểm định ý nghĩa thống kê Các độ đo thường dùng cho việc đánh giá hiệu quả truy hồi của một mô hình truy hồi tài liệu là độ chính xác và độ đầy đủ. Hai độ đo này thường là bù trừ với nhau, tức là nếu độ chính xác cao thì độ đầy đủ thấp và ngược lại. Vì vậy một độ đo kết hợp cả hai được sử dụng là độ F (F-measure). Một cách khác để đánh giá hiệu quả truy hồi tài liệu là xây dựng đường cong P-R, cho thấy sự thay đổi của độ chính xác theo sự tăng dần của độ đầy đủ. Bên cạnh đó, độ chính xác trung 5
  8. bình nhóm (mean average precision - MAP) cũng là một trong những độ đo chuẩn của cộng đồng truy hồi tài liệu. Sự hơn thua giữa các mô hình thể hiện bởi các độ đo ở trên có thể là tình cờ. Do đó, khi tiến hành so sánh các mô hình, một giả thuyết null (null hypothesis) được đặt ra là các mô hình này tương đương nhau về hiệu quả truy hồi dù là độ đo hiệu quả của chúng khác nhau. Để phủ nhận giả thuyết null và khẳng định mô hình này thật sự hiệu quả hơn mô hình kia thì cần có bước kiểm định ý nghĩa thống kê (statistical significance test). Trong các phương pháp kiểm định ý nghĩa thống kê thì phương pháp kiểm định ngẫu nhiên Fisher có tính ổn định cao nên sẽ được luận án sử dụng. 3 Chƣơng 3 - KHAI THÁC THỰC THỂ CÓ TÊN 3.1 Giới thiệu Các đặc điểm ontology của thực thể có tên tiềm ẩn trong truy vấn và tài liệu là có ý nghĩa với hiệu quả truy hồi. Ví dụ như đối với lớp của thực thể có tên, các tài liệu chứa “Ha Noi”, “Paris”, hoặc “New York” có thể là các câu trả lời cho truy vấn tìm tài liệu về các thành phố (tức là các thực thể thuộc lớp thành phố) trên thế giới. Truy hồi tài liệu dựa trên từ khóa sẽ không tìm được các tài liệu ở trên cho truy vấn này, bởi vì nó không sử dụng thông tin lớp tiềm ẩn của các thực thể trong các tài liệu để so khớp với lớp của các thực thể mà người dùng quan tâm. Trong trường hợp định danh của thực thể có tên, các tài liệu về U.S., USA, United States, hoặc America nên được trả về cho truy vấn tìm các tài liệu về United States of America. Truy hồi tài liệu chỉ dựa trên từ khóa sẽ thất bại bởi vì nó không sử dụng tri thức là một thực thể có tên có thể có nhiều bí danh khác nhau. Trong trường hợp thông tin kết hợp bởi lớp và tên của thực thể, với truy vấn tìm kiếm các tài liệu về ông Washington, người dùng muốn nhận được các tài liệu nói về Washington như là 6
  9. một người. Trong khi các mô hình dựa trên từ khóa có thể trả về bất kỳ trang nào chứa từ Washington, cho dù đó là tên của một tiểu bang hay một trường đại học. Vì thế, một trong những mục tiêu của luận án này là nghiên cứu, khảo sát và khai thác các đặc điểm ontology khác nhau của thực thể có tên cho truy hồi tài liệu. Hơn nữa, sự xuất hiện của một thực thể có tên trong một tài liệu hàm chứa và kéo theo các thông tin tiềm ẩn khác. Thứ nhất, đó là các bí danh của thực thể đó. Ví dụ, nếu quốc gia Georgia xuất hiện trong một tài liệu thì xem như các bí danh của nó như Gruzia cũng có trong tài liệu đó. Thứ hai, đó là các lớp cha của lớp của thực thể đó. Ví dụ, nếu thành phố Paris xuất hiện trong một tài liệu thì xem như các lớp cha của lớp City như Location cũng có trong tài liệu đó. Vì vậy, để nâng cao hiệu quả truy hồi, các tài liệu cần được mở rộng bởi các đặc điểm ontology bao phủ, tức là được hàm ý và kéo theo bởi, các đặc điểm ontology gốc của các thực thể có tên xuất hiện trong các tài liệu đó. Mặt khác, một truy vấn thường không chỉ có thực thể có tên, ví dụ ở truy vấn “economic growth of Vietnam”, Vietnam là thực thể có tên có định danh, còn “economic” và “growth” là các từ khóa. Các từ khóa này cũng quan trọng trong việc thể hiện nội dung của truy vấn. Vì thế, việc kết hợp thực thể có tên và từ khóa là cần thiết để biểu diễn nội dung của các truy vấn và tài liệu. Thêm vào đó, trong các truy vấn có chứa từ để hỏi Wh như Who, Which, Where, When hoặc What, các từ để hỏi này hàm chứa lớp của các thực thể có tên được hỏi. Ví dụ ở truy vấn “Where did the Battle of the Bulge take place?”, từ để hỏi Where hàm ý về các thực thể có tên thuộc lớp Location. Vì thế, việc khai thác và ánh xạ từ để hỏi Wh đến lớp của thực thể có tên thích hợp cũng được luận án nghiên cứu nhằm nâng cao hiệu quả truy hồi tài liệu. Chương này đề xuất các mô hình không gian vectơ (Vector Space Model – VSM) dựa trên thực thể có tên và từ khóa, với bốn 7
  10. nội dung chính sau: (1) khai thác tất cả các đặc điểm ontology của thực thể có tên; (2) mở rộng tài liệu bằng các đặc điểm ontology bao phủ các đặc điểm ontology gốc của thực thể có tên; (3) khai thác lớp của thực thể có tên tiềm ẩn trong câu hỏi Wh; (4) kết hợp thực thể có tên và từ khóa. 3.2 Mô hình đa không gian vectơ cho thực thể có tên Các đặc điểm ontology của thực thể có tên Luận án đề xuất một mô hình trên nhiều không gian vectơ tương ứng với các đặc điểm ontology khác nhau của thực thể có tên. Để biểu diễn một cách hình thức các truy vấn và tài liệu bằng các đặc điểm ontology của thực thể có tên, luận án định nghĩa bộ ba (N, C, I), trong đó N, C, và I lần lượt là tập hợp các tên, lớp và định danh của các thực thể trong ontology về thực thể. Theo đó: 1. Mỗi truy vấn q hoặc tài liệu d được mô hình hóa như là một tập con của (N{*}) (C{*}) (I{*}). Mỗi bộ ba (tên/lớp/địnhdanh) trong tập này được xem là một thuật ngữ (term) ontology của thực thể có tên. Trong đó „*‟ biểu thị một tên, lớp hoặc định danh không xác định của một thực thể có tên trong truy vấn hoặc tài liệu. 2. Truy vấn q được mô tả bởi bộ bốn ( qN , qC , qNC , qI ), trong đó , , và lần lượt là các vectơ trên N, C, N C, và I. 3. Tài liệu d được biểu diễn bởi bộ bốn ( d N , d C , dNC , d I ), trong đó , , và lần lượt là các vectơ trên N, C, N C, và I. Độ tương tự của một tài liệu d và một truy vấn q được định nghĩa là: sim( d , q ) = wN.cosine( d N , qN ) + wC.cosine( dC , qC ) + wNC.cosine( dNC , qNC ) + wI.cosine( d I , qI ) (3-1) 8
  11. Trong đó wN + wC + wNC + wI = 1. Các trọng số wN, wC, wNC và wI của các vectơ thành phần có thể được điều chỉnh tùy theo mức độ quan trọng của bốn đặc điểm ontology trong từng miền ứng dụng cụ thể. Xử lý truy vấn và tài liệu Như trình bày ở trên, trong mô hình đa không gian vectơ NE đề xuất, mỗi truy vấn hoặc tài liệu được biểu diễn bằng bốn vectơ trên các không gian N, C, N C, và I. Mỗi vectơ được xây dựng trên một túi thuật ngữ ontology tên, lớp, cặp tên-lớp hoặc định danh tương ứng với truy vấn hoặc tài liệu. Mỗi truy vấn q trong mô hình đa không gian vectơ được xử lý theo các bước sau: 1. Các thực thể có tên trong truy vấn được rút trích bởi một động cơ nhận diện thực thể có tên. 2. Với mỗi thực thể có tên được nhận diện: Nếu thực thể chỉ được nhận diện có tên n, thì n được bổ sung vào túi thuật ngữ ontology tên biểu diễn q. Nếu thực thể chỉ được nhận diện có lớp c, thì c được bổ sung vào túi thuật ngữ ontology lớp biểu diễn q. Nếu thực thể chỉ được nhận diện có tên n và lớp c, thì được bổ sung vào túi thuật ngữ ontology cặp tên-lớp biểu diễn q. Nếu thực thể được nhận diện đầy đủ có tên n, lớp c và định danh id, thì id được bổ sung vào túi thuật ngữ ontology định danh biểu diễn q. Mỗi tài liệu d trong mô hình đa không gian vectơ được xử lý theo các bước sau: 1. Các thực thể có tên trong tài liệu được rút trích bởi một động cơ nhận diện thực thể có tên giống như trong xử lý truy vấn. 2. Với mỗi thực thể có tên được nhận diện: 9
  12. a. Nếu thực thể chỉ được nhận diện có tên n, thì n được bổ sung vào túi thuật ngữ ontology tên biểu diễn d. b. Nếu thực thể chỉ được nhận diện có lớp c, thì c và super_class(c) được bổ sung vào túi thuật ngữ ontology lớp biểu diễn d. c. Nếu thực thể chỉ được nhận diện có tên n và lớp c, thì lần lượt bổ sung vào các túi thuật ngữ ontology tên, lớp và cặp tên-lớp biểu diễn d các thuật ngữ sau: n c, super_class(c) , d. Nếu thực thể được nhận diện đầy đủ có tên n, lớp c và định danh id, thì lần lượt bổ sung vào các túi thuật ngữ ontology tên, lớp, cặp tên-lớp và định danh biểu diễn d các thuật ngữ sau: name(id) c, super_class(c) , id Ở đây, name(id) là một tên bất kỳ của thực thể có định danh là id và super_class(c) là một lớp cha bất kỳ của lớp c. Các thông tin này được định nghĩa trong ontology về thực thể có tên mà hệ thống sử dụng. 3.3 Kết hợp thực thể có tên và từ khóa Mô hình đa không gian vectơ kết hợp thực thể có tên và từ khóa Các truy vấn hoặc tài liệu không chỉ chứa thực thể có tên mà còn chứa từ khóa. Vì thế, ngoài bốn vectơ trên các thuật ngữ ontology của thực thể có tên, truy vấn hoặc tài liệu cần có thêm vectơ trên từ khóa. 10
  13. Độ tương tự của một tài liệu d và một truy vấn q được định nghĩa như sau: sim( d , q ) = .[wN.cosine( d N , qN ) + wC.cosine( dC , qC ) + wNC.cosine( dNC , qNC ) + wI.cosine( d I , qI )] + (1 – ).cosine( dKW , qKW ) (3-2) Trong đó wN + wC + wNC + wI = 1,  [0, 1], và d KW và qKW lần lượt là vectơ trên không gian từ khóa của tài liệu d và truy vấn q. Trọng số biểu diễn mức độ quan trọng của thực thể có tên và từ khóa trong việc biểu diễn truy vấn và tài liệu, và có thể được điều chỉnh tùy theo từng miền ứng dụng cụ thể. Với một truy vấn cho trước, sau giai đoạn lọc tài liệu, tập tài liệu thỏa mãn biểu thức Bool của các từ khóa có thể được giao hoặc hợp với tập tài liệu thỏa mãn biểu thức Bool của các thực thể có tên trong truy vấn này. Như vậy có hai mô hình biểu diễn cách kết hợp thực thể có tên và từ khóa, lần lượt được ký hiệu là NEKW và NEKW, tuỳ theo việc lấy giao hay hợp các tập tài liệu thoả mãn các biểu thức Bool của các từ khoá và thực thể biểu diễn truy vấn. Trong các mô hình đa không gian vectơ kết hợp thực thể có tên và từ khoá trình bày ở trên, cụm từ nào được xem là thực thể có tên thì cũng được xem là từ khóa. Mô hình tổng quát Với quan điểm xem các thực thể có tên và từ khóa đều là các thuật ngữ, luận án đề xuất một mô hình không gian vectơ khác, kết hợp thực thể có tên và từ khóa, được gọi là mô hình tổng quát và ký hiệu là NE+KW. Theo mô hình này, mỗi tài liệu hoặc truy vấn được biểu diễn bằng một vectơ trên một không gian hợp nhất của các thuật ngữ tổng quát là tên, lớp, cặp tên-lớp, định danh, và từ khóa.Việc 11
  14. xây dựng các vectơ, lọc và xếp hạng tài liệu giống như trong VSM truyền thống, nhưng trên các túi thuật ngữ tổng quát này. Mỗi truy vấn q trong mô hình NE+KW được xử lý theo các bước sau: 1. Loại bỏ các từ không chứa thông tin quan trọng (stop-words) và đưa các từ về dạng nguyên mẫu (stemming). 2. Các thực thể có tên trong truy vấn được rút trích bởi động cơ nhận diện thực thể có tên. 3. Với mỗi thực thể có tên được nhận diện: a. Nếu thực thể chỉ được nhận diện có tên n, thì bộ ba (n/*/*) được bổ sung vào túi thuật ngữ tổng quát biểu diễn q. b. Nếu thực thể chỉ được nhận diện có lớp c, thì bộ ba (*/c/*) được bổ sung vào túi thuật ngữ tổng quát biểu diễn q. c. Nếu thực thể chỉ được nhận diện có tên n và lớp c, thì bộ ba (n/c/*) được bổ sung vào túi thuật ngữ tổng quát biểu diễn q. d. Nếu thực thể được nhận diện đầy đủ có tên n, lớp c và định danh id, thì bộ ba (*/*/id) được bổ sung vào túi thuật ngữ tổng quát biểu diễn q. 4. Cụm từ nào không là thực thể có tên sẽ được xem là từ khóa và bổ sung vào túi thuật ngữ tổng quát biểu diễn q. Mỗi tài liệu d trong mô hình NE+KW được xử lý theo các bước sau: 1. Loại bỏ các từ không chứa thông tin quan trọng và đưa các từ về dạng nguyên mẫu tương tự như trong xử lý truy vấn. 2. Các thực thể có tên trong tài liệu được rút trích bởi động cơ nhận diện thực thể có tên tương tự như trong xử lý truy vấn. 3. Với mỗi thực thể có tên được nhận diện: a. Nếu thực thể chỉ được nhận diện có tên n, thì (n/*/*) được bổ sung vào túi thuật ngữ tổng quát biểu diễn d. 12
  15. b. Nếu thực thể chỉ được nhận diện có lớp c, thì (*/c/*) và (*/super_class(c)/*) được bổ sung vào túi thuật ngữ tổng quát biểu diễn d. c. Nếu thực thể chỉ được nhận diện có tên n và lớp c, thì bổ sung vào túi thuật ngữ tổng quát biểu diễn d các thuật ngữ sau: (n/*/*) (*/c/*), (*/super_class(c)/*) (n/c/*), (n/super_class(c)/*) d. Nếu thực thể được nhận diện đầy đủ có tên n, lớp c và định danh id, thì bổ sung vào túi thuật ngữ tổng quát biểu diễn d các thuật ngữ sau: (name(id)/*/*) (*/c/*), (*/super_class(c)/*) (name(id)/c/*), (name(id)/super_class(c)/*) (*/*/id) 4. Cụm từ nào không là thực thể có tên sẽ được xem là từ khóa và bổ sung vào túi thuật ngữ tổng quát biểu diễn d. Như vậy, so với việc xử lý truy vấn và tài liệu theo mô hình đa không gian vectơ, điểm khác biệt ở đây chỉ là các thuật ngữ ontology của thực thể có tên được biểu diễn bằng một định dạng chung là các bộ ba (tên/lớp/định danh), và được để trong một túi thuật ngữ ontology tổng quát chung thay vì các túi thuật ngữ ontology tên, lớp, cặp tên-lớp, và định danh riêng lẻ. Các từ để hỏi Wh như Who, Which, Where, When hoặc What trong truy vấn hàm chứa lớp của thực thể có tên được hỏi. Vì thế, từ để hỏi này được thay thế bằng một lớp của thực thể có tên trong ontology về thực thể, ưu tiên lớp cụ thể nhất có thể, nhằm biểu diễn nghĩa của từ để hỏi. Luận án đề xuất mở rộng mô hình tổng quát NE+KW với việc chuyển từ để hỏi sang lớp của thực thể. 13
  16. 3.4 Đánh giá thực nghiệm Khảo sát các cách kết hợp thực thể có tên và từ khóa Việc kết hợp thực thể có tên và từ khóa có thể được thực hiện thông qua việc kết hợp mô hình đa không gian vectơ cho thực thể và mô hình không gian vectơ cho từ khóa, hoặc thông qua mô hình thuật ngữ tổng quát. Cụ thể là luận án đánh giá các mô hình sau đây: 1. Lexical: là mô hình không gian vectơ dựa trên từ khóa truyền thống được hiện thực trong Lucene. 2. NE: là mô hình đa không gian vectơ dựa trên thực thể có tên. 3. NEKW: là mô hình kết hợp thực thể có tên và từ khóa bằng cách hợp hai tập tài liệu trả về của hai mô hình NE và KW. 4. NEKW: là mô hình kết hợp thực thể có tên và từ khóa bằng cách giao hai tập tài liệu trả về của hai mô hình NE và KW. 5. NE+KW: là mô hình kết hợp thực thể có tên và từ khóa bằng cách hợp nhất và xem các thuật ngữ ontology của thực thể có tên và từ khóa là các thuật ngữ tổng quát. Các mô hình trên được thực nghiệm trên tập TIME. Hầu hết các truy vấn (80 trong số 83) của tập TIME không chứa từ để hỏi. Do đó luận án không áp dụng việc ánh xạ từ để hỏi đến lớp của thực thể có tên trong mô hình NE+KW khi thực nghiệm trên tập TIME. Việc ánh xạ từ để hỏi này sẽ được kiểm tra trên tập TREC ở phần sau. Để kiểm tra xem sự hơn thua về độ MAP của các mô hình có phải là tình cờ hay không, phương pháp kiểm định ngẫu nhiên Fisher được áp dụng cho tất cả các thí nghiệm của luận án với số hoán vị là 100.000 và ngưỡng của trị số p hai chiều là 0,05. Các độ MAP được thể hiện ở Bảng 3.1 cho thấy mô hình dựa hoàn toàn trên thực thể có tên và mô hình dựa hoàn toàn trên từ khóa có sự khác biệt chút ít ở độ MAP, và độ MAP của hai mô hình này thấp hơn đáng kể so với độ MAP của các mô hình kết hợp thực thể 14
  17. có tên và từ khóa. Trong đó mô hình NE+KW có độ MAP cao nhất, với các mức độ cải thiện đáng kể so với các mô hình còn lại. Bảng 3.1. Các độ chính xác trung bình nhóm của các mô hình Lexical, NE, NEKW, NEKW và NE-KW Mô hình NE+KW Lexical NE NEKW NEKW MAP 0,7252 0,6167 0,6039 0,6977 0,681 Độ cải thiện 17,6% 20,1% 3,9% 6,5% Bảng 3.2. Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher của mô hình NE+KW so với các mô hình khác |MAP(A) – – + Trị số p Mô hình A Mô hình B N N MAP(B)| hai chiều Lexical 0,1085 0 5 0,00005 NE 0,1213 1 12 0,00013 NE+KW NEKW 0,0275 7.977 25.059 0,33036 NEKW 0,0442 3.512 12.327 0,15839 Bảng 3.2 thể hiện các trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Frisher giữa mô hình NE+KW với các mô hình khác. Luận án chọn mô hình NE+KW không chỉ bởi vì độ MAP cao nhất của nó, mà còn bởi tính đơn giản và tính đồng nhất của nó so với các mô hình đa không gian vectơ. Các kết quả cho thấy mô hình NE+KW thực sự hiệu quả hơn các mô hình Lexical và NE (do các trị số p hai chiều tương ứng nhỏ hơn 0,05). Cụ thể là với độ MAP, mô hình NE+KW thực sự hiệu quả hơn mô hình Lexical khoảng 17,6%. Trong khi đó mô hình NE+KW có hiệu quả tương đương với các mô hình NEKW và NEKW (do các trị số p hai chiều tương ứng lớn hơn 0,05). Điều này có thể được giải thích là ở mô hình NE+KW, tên, lớp, cặp tên-lớp, và định danh của thực thể có tên được đối xử như nhau, tương ứng với các trọng số giống nhau của các vectơ 15
  18. thành phần trên các không gian N, C, N C, và I ở các mô hình NEKW và NEKW. Khảo sát ảnh hƣởng của các đặc điểm ontology của thực thể có tên Như đã đề cập đến và phân tích trong Phần 3.1, các đặc điểm ontology của thực thể có tên như tên, lớp, cặp tên-lớp và định danh cần được nghiên cứu và khai thác. Vì thế trong phần này, luận án thực nghiệm và so sánh hiệu quả truy hồi tài liệu của việc sử dụng các đặc điểm ontology khác nhau để biểu diễn truy vấn và tài liệu. Bảng 3.3 trình bày việc khai thác các đặc điểm ontology khác nhau của thực thể có tên để biểu diễn truy vấn và tài liệu của các nhóm công trình liên quan và nhóm mô hình của luận án. Các nhóm mô hình liên quan được ký hiệu là Group_1, Group_2 và Group_3, tương ứng với các nhóm công trình liên quan được khảo sát. Nhóm mô hình của luận án gồm hai mô hình là NE+KW+notID và NE+KW. Bảng 3.3. Việc sử dụng các đặc điểm ontology của thực thể có tên để biểu diễn truy vấn và tài liệu Mô hình Nhóm công trình liên quan Nhóm mô hình của luận án Đặc điểm Group_1 Group_2 Group_3 NE+KW+notID NE+KW Tên x x x x Lớp x x x x Cặp Tên-Lớp x x Định danh x Tương tự như mô hình tổng quát NE+KW, các nhóm mô hình Group_1, Group_2, Group_3 và NE+KW+notID có cùng các đặc điểm là: (1) xem thực thể có tên và từ khóa là thuật ngữ tổng quát; (2) cụm từ không được nhận diện là thực thể có tên sẽ được xem như là từ khóa; và (3) sử dụng mô hình không gian vectơ để biểu diễn truy vấn và tài liệu. Tuy nhiên, khác với mô hình NE+KW, Group_1 16
  19. chỉ sử dụng tên, Group_2 chỉ sử dụng lớp và xem tên của thực thể như từ khóa, Group_3 chỉ sử dụng tên và lớp một cách riêng lẻ, và NE+KW+notID chỉ sử dụng tên, lớp và cặp tên-lớp, mà không sử dụng định danh thực thể. Cụ thể là: 1. Với mỗi thực thể có bộ ba đầy đủ (n/c/id) trong một truy vấn q, các thuật ngữ sau đây sẽ được sẽ bổ sung vào túi thuật ngữ tổng quát biểu diễn q, tuỳ theo từng nhóm mô hình: - Group_1: (n/*/*) - Group_2: (*/c/*) và từ khóa n - Group_3: (n/*/*) và (*/c/*) - NE+KW+notID: (n/c/*) - NE+KW: (*/*/id). 2. Với mỗi thực thể có bộ ba đầy đủ (n/c/id) trong một tài liệu d, các thuật ngữ sau đây sẽ được sẽ bổ sung vào túi thuật ngữ tổng quát biểu diễn d, bao gồm cả các thuật ngữ bao phủ các thuật ngữ gốc trong d, tuỳ theo từng nhóm mô hình: - Group_1: (name(id)/*/*) - Group_2: (*/c/*), (*/super_class(c)/*) và từ khóa n - Group_3: (name(id)/*/*), (*/c/*) và (*/super_class(c)/*) - NE+KW+notID: (name(id)/*/*), (*/c/*), (*/super_class(c)/*), (name(id)/c/*) và (name(id)/super_class(c)/*) - NE+KW: như NE+KW+notID cộng với (*/*/id). Các mô hình này cũng được luận án tiến thành thực nghiệm về hiệu quả truy hồi trên tập TIME. Bảng 3.4 trình bày các độ MAP của các mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW. Theo độ đo này, mô hình NE+KW có hiệu quả truy hồi cao nhất, nên tiếp theo đây được kiểm định ý nghĩa thống kê so với các mô hình còn lại. 17
  20. Bảng 3.4. Các độ chính xác trung bình nhóm của các mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW Mô hình NE+KW Lexical Group_1 Group_2 Group_3 NE+KW+notID MAP 0,7252 0,6167 0,6516 0,6259 0,6624 0,7120 Độ cải thiện 17,6% 11,3% 15,9% 9,5% 1,9% Bảng 3.5. Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher của mô hình NE+KW so với các mô hình Lexical, Group_1, Group_2, Group_3 và NE+KW+notID |MAP(A) – Trị số p Mô hình A Mô hình B N– N+ MAP(B)| hai chiều Lexical 0,1085 0 5 0,00005 Group_1 0,0736 1.452 1.354 0,02806 NE+KW Group_2 0,0993 381 376 0,00757 Group_3 0,0628 2.455 2.340 0,04795 NE+KW+notID 0,0132 8.259 8.295 0,16554 Các độ MAP và trị số p hai chiều ở Bảng 3.4 và Bảng 3.5 cho thấy mô hình NE+KW thực sự hiệu quả hơn các mô hình Lexical, Group_1, Group_2 và Group_3 lần lượt là 17,6%, 11,3%, 15,9% và 9,5% ở độ MAP. Điều này chứng tỏ việc khai thác thêm cặp tên-lớp và định danh của thực thể có tên giúp cải thiện hiệu quả truy hồi so với việc chỉ sử dụng từ khóa hoặc chỉ kết hợp từ khóa với tên và lớp của thực thể một cách riêng lẻ. Trong khi đó, mô hình NE+KW có hiệu quả tương đương với mô hình NE+KW+notID khi thí nghiệm trên tập TIME. Điều này có thể được giải thích là vì trong tập TIME phần lớn nếu hai thực thể có định danh khác nhau thì các cặp tên-lớp tương ứng cũng khác nhau. Ví dụ như trong tập TIME không có hai thành phố khác nhau có cùng tên xuất hiện trong các tài liệu. Tức là bản thân một cặp tên-lớp đã đủ xác định một thực thể, tương đương như một định danh. Do đó, trong trường hợp này, việc sử dụng thêm 18
  21. định danh thực thể của mô hình NE+KW không tạo nên sự khác biệt đáng kể so với mô hình NE+KW+notID. Khảo sát ảnh hƣởng của từ để hỏi Wh Phần này trình bày thí nghiệm đánh giá ảnh hưởng của việc khai thác lớp thực thể tiềm ẩn trong từ để hỏi Wh đối với hiệu quả truy hồi tài liệu, trên một tập dữ liệu kiểm tra có nhiều truy vấn loại Wh. Luận án chọn tập kiểm tra gồm tập tài liệu L.A. Times và tập truy vấn của QA-Track-99 của TREC, vì tập tài liệu L.A. Times được sử dụng nhiều trong cộng đồng truy hồi tài liệu và phần lớn các truy vấn của QA-Track-99 (102 trong số 124) có từ để hỏi Who, Which, Where, When hoặc What. Chúng thật sự biểu diễn các lớp của thực thể có tên và có thể chứa thông tin hữu ích trong việc tìm các tài liệu liên quan cho các truy vấn này. Luận án đặt tên cho mô hình NE+KW mở rộng với việc ánh xạ các từ để hỏi Wh đến các lớp thực thể tương ứng là NE+KW+Wh. Các độ MAP trong Bảng 3.6 và các trị số p hai chiều trong Bảng 3.7 cho thấy việc khai thác các thuật ngữ ontology của thực thể có tên trong truy vấn và tài liệu, và ánh xạ từ để hỏi đến lớp của thực thể có tên đã cải thiện hiệu quả truy hồi. Hiệu quả của mô hình NE+KW+Wh hiệu quả hơn 10,8% so với mô hình dựa trên từ khóa Lexical ở độ MAP. Độ khác biệt nhỏ giữa hai độ MAP của hai mô hình NE+KW+Wh và NE+KW (~3,35%) có thể được giải thích như sau. Thứ nhất, trong số 124 truy vấn, chỉ 68 câu có từ để hỏi Wh và được ánh xạ thành lớp của thực thể có tên. Trong khi có 22 câu không có từ để hỏi Wh và 34 câu có từ để hỏi Wh nhưng không tìm được trong KIM lớp của thực thể có tên tương ứng. Thứ hai, trong 68 câu có ánh xạ từ để hỏi, mô hình NE+KW+Wh hiệu quả hơn, bằng và thua mô hình NE+KW lần lượt ở 32, 24 và 12 truy vấn. 19
  22. Bảng 3.6. Các độ chính xác trung bình nhóm của các mô hình Lexical, NE+KW và NE+KW+Wh Model NE+KW+Wh Lexical NE+KW MAP 0,5652 0,5099 0,5469 Độ cải thiện 10,8% 3,3% Bảng 3.7. Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher giữa các mô hình NE+KW+Wh, NE+KW và Lexical |MAP(A) – Trị số p Mô hình A Mô hình B N– N+ MAP(B)| hai chiều NE+KW Lexical 0,037 1.751 2.500 0,04251 Lexical 0,0553 143 259 0,00402 NE+KW+Wh NE+KW 0,0183 77 52 0,00129 4 Chƣơng 4 - KHAI THÁC TỪ WORDNET 4.1 Giới thiệu Ngoài nhược điểm không xét đến các đặc điểm ontology tiềm ẩn của thực thể có tên xuất hiện trong truy vấn và tài liệu, truy hồi tài liệu theo từ khóa truyền thống chưa thỏa mãn nhu cầu tìm kiếm thông tin còn là do không xét đến nghĩa của các từ. Xét các ví dụ sau: (1) tìm kiếm các tài liệu về “movement”; (2) tìm kiếm các tài liệu về “movement belonging to change”; và (3) tìm kiếm các tài liệu về “movement belonging to the act of changing location from one place to another”. Bản thân từ “movement” có nhiều nghĩa khác nhau. Ở truy vấn thứ nhất, người dùng mong muốn tìm kiếm các tài liệu không chỉ chứa từ “movement” mà còn chứa các từ đồng nghĩa của nó như “motion”, “front”, “campaign” và “trend”, hoặc các các nghĩa con của nó như “opening”, “passing”, “travel”, “displacement” và “transfer”. Ở truy vấn thứ hai, người dùng không mong chờ nhận được các tài liệu chứa các từ cũng có nhãn là “movement” nhưng không phải là tác động thay đổi một cái gì đó (“change”), như 20
  23. “front” hoặc “trend”. Tức là, chỉ các tài liệu chứa từ “movement” đồng nghĩa với hoặc là nghĩa con của “change” thì mới phù hợp với truy vấn thứ hai. Trong khi đó, truy vấn thứ ba yêu cầu các tài liệu nói về “movement” với một nghĩa cụ thể và xác định là sự thay đổi vị trí từ nơi này đến nơi khác, như sự di cư của con người từ nông thôn ra thành thị. Vì thế, một trong những mục tiêu của luận án này là nghiên cứu, khảo sát và khai thác các đặc điểm ontology khác nhau của từ WordNet như nhãn, nghĩa của từ, nghĩa cha và nghĩa con cho truy hồi tài liệu. Các giải thuật WSD thường xếp hạng các nghĩa của một từ theo mức độ phù hợp của chúng với từ này trong ngữ cảnh xem xét. Tiếp theo, nghĩa có thứ hạng cao nhất sẽ được gán cho từ này. Trong trường hợp có nhiều hơn một nghĩa có cùng thứ hạng cao nhất, các giải thuật này sẽ chọn ngẫu nhiên một nghĩa hoặc chọn tất cả các nghĩa này. Nếu chọn ngẫu nhiên một nghĩa mà đó là nghĩa sai thì kết quả trả về sẽ không phù hợp với truy vấn. Còn nếu chọn tất cả các nghĩa thì nhiều kết quả trả về sẽ không phù hợp với truy vấn vì có nhiều nghĩa không đúng đã được chọn. Vì thế, trong trường hợp một từ có nhiều nghĩa được xác định bởi một giải thuật WSD, luận án đề xuất sử dụng nghĩa cha chung cụ thể nhất của các nghĩa này và kết hợp với nhãn của từ để biểu diễn thông tin cho từ này. Mặc khác, trong các truy vấn, thường có một số từ không phải là từ WordNet hoặc chưa được cập nhật vào ontology về từ vựng. Đó là một tên thực thể hoặc là một từ chưa có trong ontology về từ vựng được sử dụng. Ví dụ, với truy vấn “What are the best-selling blooks in USA?”, “best-selling” là từ WordNet, “USA” là một tên thực thể, và “blook” (có nghĩa là một quyển sách dựa trên nội dung của một blog) là một từ chưa được đưa vào WordNet. Trong chương này, chúng tôi đề xuất một mô hình truy hồi tài liệu dựa trên từ WordNet và từ khóa. Các từ không phải là từ WordNet được xem như các từ khoá thông thường. Trong đó, dựa 21
  24. trên một ontology về từ vựng, mỗi từ WordNet sẽ được biểu diễn bởi thuật ngữ ontology cụ thể nhất có thể trong một ngữ cảnh xem xét. 4.2 Mô hình không gian vectơ dựa trên từ WordNet Mỗi từ WordNet trong văn bản thường có một nghĩa xác định. Tuy nhiên, nghĩa của một từ WordNet có thể không được xác định đúng vì nhiều lý do. Thứ nhất, đó là sự mơ hồ về nghĩa của một từ trong truy vấn, do ngữ cảnh không rõ ràng của truy vấn hoặc do chủ ý của người dùng muốn tìm các tài liệu nói về bất kỳ nghĩa có thể nào của từ đó. Thứ hai, đó là do ngữ cảnh không rõ ràng của từ WordNet trong tài liệu. Thứ ba, giải thuật WSD có hạn chế trong việc xác định đúng nghĩa của một từ trong truy vấn hoặc tài liệu, dù trong ngữ cảnh đó con người hiểu được đúng nghĩa của từ đó. Như đã đề cập ở trên, trong trường hợp một từ có nhiều hơn một nghĩa phù hợp, luận án đề xuất biểu diễn từ này bằng một thông tin cụ thể nhất có thể. Đó là sự kết hợp giữa nhãn của từ đó với nghĩa cha chung cụ thể nhất của các nghĩa phù hợp của từ đó. Thông tin kết hợp này mang nghĩa rộng hơn một nghĩa ngẫu nhiên nhưng hẹp hơn tập hợp tất cả các nghĩa phù hợp. Nghĩa cha chung cụ thể nhất msc_hypernym là một quan hệ giữa một nghĩa và một tập nghĩa. Một nghĩa s được gọi là một msc_hypernym của một tập nghĩa {s1, s2, } nếu s là một nghĩa cha chung của chúng và không có nghĩa cha chung nào của chúng cụ thể hơn s. Tóm lại, nói một cách tổng quát, một từ WordNet có nhãn f có thể được chú giải thành một trong các định dạng sau: (1) nghĩa của f khi nó có một nghĩa duy nhất được xác định; hoặc (2) thông tin kết hợp khi nó có nhiều hơn một nghĩa được xác định. Ở đây, msc_hypernym(f) là nghĩa cha chung cụ thể nhất của các nghĩa có thể của nhãn f trong ngữ cảnh xem xét, theo một giải thuật WSD được sử dụng. 22
  25. Mô hình không gian vectơ dựa trên từ WordNet kết hợp với từ khoá (là những từ còn lại không được nhận diện như là một từ trong một ontology về từ vựng như WordNet) mà luận án đề xuất được ký hiệu là WN+KW. Tương tự như mô hình tổng quát NE+KW ở Chương 3, mô hình WN+KW biểu diễn mỗi truy vấn hoặc tài liệu bởi một vectơ đơn trên không gian thuật ngữ tổng quát. Một thuật ngữ tổng quát là một từ WordNet hoặc một từ khóa. Việc biểu diễn vectơ, lọc và xếp hạng tài liệu tương tự như trong mô hình không gian vectơ truyền thống. Điểm khác biệt là, như với mô hình không gian vectơ cho thực thể có tên, mô hình WN+KW cũng mở rộng tài liệu với các đặc điểm ontology bao phủ các đặc điểm ontology gốc của các từ WordNet xuất hiện trong tài liệu, khi tính các trọng số tf.idf cho vectơ biểu diễn tài liệu. Xử lý truy vấn và tài liệu Mỗi truy vấn q trong mô hình WN+KW được xử lý theo các bước sau: 1. Loại bỏ các từ không chứa thông tin quan trọng và đưa các từ về dạng nguyên mẫu. 2. Các từ WordNet trong truy vấn được nhận diện và xác định nghĩa bởi một giải thuật WSD. 3. Với mỗi từ WordNet được nhận diện: Nếu xác định được nghĩa s duy nhất của từ này, thì s (tức định danh của nghĩa) được bổ sung vào túi thuật ngữ tổng quát biểu diễn q. Nếu từ này có nhãn f và có nhiều hơn một nghĩa phù hợp, thì được bổ sung vào túi thuật ngữ tổng quát biểu diễn q. 4. Từ nào không là từ WordNet sẽ được xem là từ khóa và bổ sung vào túi thuật ngữ tổng quát biểu diễn q. 23
  26. Mỗi tài liệu d trong mô hình WN+KW được xử lý theo các bước sau: 1. Loại bỏ các từ không chứa thông tin quan trọng và đưa các từ về dạng nguyên mẫu tương tự như trong xử lý truy vấn. 2. Các từ WordNet trong tài liệu được nhận diện và xác định nghĩa bởi một giải thuật WSD như trong xử lý truy vấn. 3. Với mỗi từ WordNet được nhận diện: a. Nếu xác định được nghĩa s duy nhất của từ này, thì bổ sung vào túi thuật ngữ tổng quát biểu diễn d các thuật ngữ sau: s, hypernym(s) , b. Nếu từ này có nhãn f và có nhiều hơn một nghĩa phù hợp, thì bổ sung vào túi thuật ngữ tổng quát biểu diễn d các thuật ngữ sau: msc_hypernym(f), hypernym(msc_hypernym(f)) , 4. Từ nào không là từ WordNet sẽ được xem là từ khóa và bổ sung vào túi thuật ngữ tổng quát biểu diễn d. Ở đây, form(s) là một nhãn bất kỳ của một từ WordNet có nghĩa s, và hypernym(s) là một nghĩa cha bất kỳ của nghĩa s. Các thông tin này được định nghĩa trong ontology về từ vựng mà hệ thống sử dụng. 4.3 Đánh giá thực nghiệm Bảng 4.1. Việc sử dụng các đặc điểm ontology của từ WordNet để biểu diễn truy vấn và tài liệu Mô hình Nhóm công trình liên quan Mô hình của luận án Đặc điểm Group_1 Group_2 WN+KW Nhãn x Nghĩa x x Cặp Nhãn-Nghĩa x Trong phần này, luận án tiến hành thực nghiệm để so sánh hiệu quả truy hồi tài liệu của mô hình WN+KW đề xuất với các mô hình 24
  27. liên quan cũng khai thác từ WordNet kết hợp với từ khóa. Như trình bày ở Bảng 4.1, các nhóm mô hình liên quan được ký hiệu là Group_1 và Group_2, tương ứng với các nhóm công trình liên quan đã khảo sát, dựa trên cách khai thác các đặc điểm ontology của từ WordNet. Tương tự như với mô hình WN+KW, mô hình không gian vectơ được sử dụng để hiện thực hai nhóm mô hình Group_1 và Group_2, và từ WordNet và từ khóa được xem là thuật ngữ tổng quát để biểu diễn truy vấn và tài liệu. Trong đó, Group_1 chỉ sử dụng nhãn còn Group_2 chỉ sử dụng nghĩa để biểu diễn từ WordNet trong truy vấn và tài liệu. So với Group_2, mô hình WN+KW của luận án khai thác và sử dụng thêm cặp nhãn-nghĩa của từ WordNet trong trường hợp một từ WordNet có nhiều hơn một nghĩa trong ngữ cảnh xem xét. Cụ thể là: 1. Lexical: là mô hình không gian vectơ dựa trên từ khóa truyền thống được hiện thực trong Lucene, như ở Chương 3. 2. Group_1: ở nhóm mô hình này, với mỗi từ WordNet, nếu từ này ở truy vấn thì nó được biểu diễn bởi nhãn xuất hiện trong truy vấn, nếu từ này ở tài liệu thì nó được biểu diễn bằng tập đồng nghĩa của từ này. Các từ không được xác định là từ WordNet được xem là từ khóa. 3. Group_2: ở nhóm mô hình này, với mỗi từ WordNet có nghĩa s, nếu từ này ở truy vấn thì nó được biểu diễn bằng s, nếu từ này ở tài liệu thì nó sẽ được biểu diễn bằng s và hypernym(s). Các từ không được xác định là từ WordNet được xem là từ khóa. Tương tự như ở Chương 3, chúng tôi chọn tập tài liệu L.A. Times của TREC để tiến hành thực nghiệm hiệu quả truy hồi của các mô hình ở trên. Tiếp theo, chúng tôi chọn các truy vấn của Adhoc- Track-99 có tài liệu liên quan thuộc tập L.A. Times. Có 44 truy vấn trong tổng số 50 truy vấn của Adhoc-Track-99 được chọn. Mỗi truy vấn đầy đủ có 3 phần: tiêu đề (title), mô tả (description) và tường 25
  28. thuật (narrative). Trong đó, phần tiêu đề được sử dụng làm truy vấn trong tất cả các thí nghiệm của chương này. Bảng 4.2 trình bày các độ MAP của các mô hình này và Bảng 4.3 là kết quả kiểm định ý nghĩa thống kê theo phương pháp Fisher. Các kết quả này cho thấy mô hình WN+KW thật sự hiệu quả hơn ba mô hình còn lại, mà đặc biệt là việc sử dụng thêm cặp nhãn-nghĩa đã giúp cải thiện hiệu quả truy hồi so với các mô hình khai thác các đặc điểm ontology của từ WordNet trước đây. Ở độ MAP, mô hình WN+KW hiệu quả hơn so với các mô hình Lexical, Group_1 và Group_2 lần lượt là 30%, 19,7% và 14,9%. Bảng 4.2. Các độ chính xác trung bình nhóm của các mô hình Lexical, Group_1, Group_2 và WN+KW Mô hình WN+KW Lexical Group_1 Group_2 MAP 0,2866 0,2204 0,2395 0,2494 Độ cải thiện 30% 19,7% 14,9% Bảng 4.3. Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher giữa mô hình WN+KW với các mô hình Lexical, Group_1 và Group_2 |MAP(A) – Trị số p Mô hình A Mô hình B N– N+ MAP(B)| hai chiều Lexical 0,0662 2.079 2.060 0,04139 WN+KW Group_1 0,0471 2.471 2.427 0,04898 Group_2 0,0372 2.486 2.472 0,04958 5 Chƣơng 5 - KHAI THÁC THÔNG TIN TIỀM ẨN 5.1 Giới thiệu Một truy vấn thường ngắn gọn nên nhiều khi không diễn đạt hết ý muốn của người dùng. Để làm rõ nghĩa hơn nội dung của truy vấn, phương pháp mở rộng truy vấn được sử dụng rộng rãi trong cộng đồng truy hồi thông tin. Mở rộng truy vấn là thêm vào truy vấn các thông tin tiềm ẩn không xuất hiện ở truy vấn nhưng góp phần biểu 26
  29. diễn rõ hơn nghĩa của truy vấn, tức làm rõ hơn ý muốn của người dùng. Phương pháp kích hoạt lan truyền (Spreading Activation - SA), là một phương pháp mở rộng truy vấn, tìm kiếm trên ontology các khái niệm có liên quan với các khái niệm ở truy vấn theo các quan hệ trong ontology. Các khái niệm được kích hoạt sẽ được thêm vào truy vấn. Việc thêm thông tin phù hợp với ý muốn của người dùng thường làm tăng hiệu quả truy hồi tài liệu. Ngược lại, hiệu quả truy hồi của mô hình thường giảm nếu thêm các thông tin không phù hợp. Ví dụ, xét các truy vấn tìm các tài liệu về các nội dung sau: (1) “cities that are tourist destinations of Thailand”; (2) “Jewish settlements are built in the east of Jerusalem”; và (3) “works of Ernest Hemingway”. Ở truy vấn thứ nhất, Chiang Mai và Phuket nên được thêm vào truy vấn, vì chúng thuộc lớp City và là các điểm du lịch nổi tiếng của Thái Lan. Việc thêm vào truy vấn các thành phố du lịch nổi tiếng khác như Jakarta và Hanoi là không phù hợp, vì hai thành phố này không ở Thái Lan. Ở truy vấn thứ hai, các khu định cư Do Thái được xây dựng ở phía đông của thành phố Jerusalem như Beit Orot và Beit Yehonatan nên được thêm vào truy vấn. Ở truy vấn thứ ba, cần thêm The Old Man and the Sea và A Farewell to Arms vào truy vấn này vì chúng là các tác phẩm của nhà văn Ernest Hemingway. Khác với các phương pháp kích hoạt lan truyền trước đây, trong chương này luận án đề xuất phương pháp mở rộng truy vấn với các thực thể có tên tiềm ẩn bằng cách lan truyền trên ontology theo các quan hệ tường minh trong truy vấn. Các bí danh, lớp cha và lớp con của thực thể trong ontology được khai thác để thực hiện kích hoạt lan truyền. Tuy nhiên, sau khi các thực thể tiềm ẩn được thêm vào truy vấn, cả truy vấn và các tài liệu đều được xem như các túi từ khoá. Việc kết hợp phương pháp kích hoạt lan truyền đề xuất ở đây và các đặc điểm ontology về thực thể có tên và từ WordNet đã trình bày ở 27
  30. các chương trước sẽ được hiện thực trong mô hình hợp nhất ở Chương 6. 5.2 Mở rộng truy vấn Phương pháp kích hoạt lan truyền để mở rộng truy vấn mà luận án đề xuất trong chương này là phương pháp ràng buộc theo quan hệ, được gọi là R+CSA. Truy vấn ban đầu được mở rộng thông qua Phương pháp R+CSA. Tiếp theo các tài liệu và truy vấn mở rộng sẽ được biểu diễn bởi các không gian vectơ dựa trên từ khóa. Cuối cùng, việc lọc và xếp hạng tài liệu được thực hiện như với VSM truyền thống thông qua mô đun VSM dựa trên từ khóa, trong đó trọng số của các từ khóa được tính theo tf.idf. Phương pháp R+CSA xác định thông tin tiềm ẩn liên quan với truy vấn gồm năm bước chính sau: 1. Nhận diện quan hệ: nhận diện các cụm từ quan hệ trong truy vấn và ánh xạ chúng thành các quan hệ tương ứng trong ontology được sử dụng. 2. Nhận diện các khái niệm khởi động: nhận diện và chú giải các thực thể xuất hiện trong truy vấn. 3. Thiết lập các bộ quan hệ: biểu diễn truy vấn ban đầu thành các bộ quan hệ I-R-C (hoặc C-R-I) cho mỗi quan hệ R được xác định ở bước 1, với I và C lần lượt là một thực thể có tên xác định và một lớp thực thể được nhận diện ở bước 2. Ví dụ với truy vấn “Where is the actress, Marion Davies, buried?”, cụm từ quan hệ được xác định bởi hai từ “where” và “buried” được ánh xạ thành quan hệ R là buriedIn, Marion Davies được nhận diện là thực thể có tên có định danh I là #Marion_Davies và có lớp là Woman, và từ “where” được ánh xạ thành lớp C là Location. Vì vậy bộ quan hệ được thiết lập trong truy vấn này là [I: #Marion_Davies]-(R: buriedIn)-[C: Location]. 28
  31. 4. Kích hoạt lan truyền có ràng buộc theo quan hệ tường minh trong truy vấn: với mỗi bộ quan hệ I-R-C, tìm các thực thể có tên tiềm ẩn Ia có quan hệ R với I và Ia có lớp là C hoặc là lớp con của C trong ontology. Ví dụ, trong ontology được sử dụng có quan hệ: [I: #Marion_Davies]-(R: buriedIn)- [Ia: #Hollywood_Cemetery] và #Hollywood_Cemetery là thực thể có lớp là lớp con của Location, nên đó là một thực thể có tên tiềm ẩn cần tìm cho bộ quan hệ ví dụ thiết lập ở bước 3. 5. Mở rộng truy vấn: thêm vào truy vấn tên chính của mỗi Ia tiềm ẩn được tìm thấy. Ở ví dụ trên, “Hollywood Cemetery” được thêm vào truy vấn. Như vậy, so với phương pháp SA tự do, phương pháp R+CSA có ba ràng buộc. Thứ nhất là ràng buộc về khoảng cách. Tức là, dựa trên ontology về sự kiện được sử dụng, chỉ các thực thể có quan hệ trực tiếp với các thực thể ban đầu xuất hiện trong truy vấn mới được kích hoạt. Thứ hai là ràng buộc về quan hệ. Tức là, trên ontology về sự kiện, sự lan truyền chỉ được thực hiện trên các quan hệ xuất hiện tường minh trong truy vấn. Thứ ba là về lớp thực thể. Tức là, lớp của mỗi thực thể được kích hoạt phải giống với, hoặc là lớp con của, lớp theo quan hệ tương ứng trong truy vấn. 5.3 Đánh giá thực nghiệm Để tiến hành thực nghiệm mô hình R+CSA, tương tự như Chương 3, chúng tôi chọn tập tài liệu L.A. Times và tập truy vấn của QA-Track-99. Chương này so sánh hiệu quả truy hồi tài liệu giữa mô hình R+CSA do luận án đề xuất với hai mô hình sau: 1. Lexical: là mô hình không gian vectơ dựa trên từ khóa truyền thống được hiện thực trong Lucene, như ở Chương 3 và Chương 4. 29
  32. 2. CSA: là mô hình sử dụng phương pháp kích hoạt lan truyền có ràng buộc theo khoảng cách. Nó mở rộng truy vấn bằng cách lan truyền trên ontology theo tất cả các quan hệ trực tiếp với các thực thể ban đầu trong truy vấn. Các truy vấn mở rộng và các tài liệu sau đó cũng được biểu diễn theo mô hình không gian vectơ dựa trên từ khóa. Các độ MAP trong Bảng 5.1 và các trị số p hai chiều trong Bảng 5.2 cho thấy việc mở rộng truy vấn một cách hợp lý sẽ làm tăng hiệu quả của truy hồi văn bản. Ở độ MAP, mô hình R+CSA của luận án hiệu quả hơn lần lượt là 26,5% và 17,8% so với hai mô hình Lexical và CSA. Bảng 5.1. Các độ chính xác trung bình nhóm của các mô hình Lexical, CSA và R+CSA Mô hình R+CSA Lexical CSA MAP 0,6451 0,5099 0,5474 Độ cải thiện 26,5% 17,8% Bảng 5.2. Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên Fisher giữa mô hình R+CSA với hai mô hình Lexical và CSA |MAP(A) – Trị số p Mô hình A Mô hình B N– N+ MAP(B)| hai chiều Lexical 0,1352 1.691 1.630 0,03321 R+CSA CSA 0,0977 2.207 2.268 0,04475 6 Chƣơng 6 - MÔ HÌNH HỢP NHẤT 6.1 Giới thiệu Chương 3 và Chương 4 đã lần lượt giới thiệu mô hình khai thác thực thể có tên và mô hình khai thác từ WordNet mà luận án đề xuất cho truy hồi tài liệu. Tuy nhiên, các truy vấn và tài liệu thường chứa cả các thực thể có tên và các từ WordNet. Trong khi đó, Chương 5 đề xuất phương pháp kích hoạt lan truyền có ràng buộc theo quan hệ để thêm vào truy vấn các thực thể tiềm ẩn. Tuy nhiên, các truy vấn 30
  33. mở rộng và tài liệu vẫn được biểu diễn dưới dạng các từ khóa và việc so khớp giữa chúng là sự so khớp giữa các từ khóa. Do đó, trong chương này, chúng tôi đề xuất mô hình hợp nhất UM (Unified Model) kết hợp các phương pháp được đề xuất ở các Chương 3, 4 và 5, để thừa hưởng ưu điểm của từng phương pháp. Đây là mô hình không gian vectơ tổng quát khai thác và chú giải các đặc điểm ontology của thực thể có tên và từ WordNet trong các tài liệu và truy vấn, với sự mở rộng truy vấn bằng cách khai thác các thực thể tiềm ẩn liên quan đến các khái niệm và quan hệ trong truy vấn. 6.2 Mô hình hợp nhất dựa trên ontology Kiến trúc hệ thống của mô hình hợp nhất UM được trình bày trong Hình 6.1 có hai phần chính là phần1 chứa các mô đun chú giải và mở rộng truy vấn và phần 2 chứa các mô đun mở rộng và chú giải tài liệu. Mô hình hợp nhất sử dụng ba ontology KIM, WordNet và YAGO, lần lượt được khai thác như là ontology về thực thể có tên, ontology về từ WordNet, và ontology về sự kiện. Ở phần 1 của kiến trúc hệ thống, mô đun Phương pháp R+CSA, là phương pháp đã trình bày ở Chương 5, xác định các thực thể tiềm ẩn phù hợp để mở rộng truy vấn. Tiếp theo, từ truy vấn được mở rộng, mô đun Nhận diện và chú giải thực thể có tên, và mô đun Phân giải nhập nhằng và chú giải từ WordNet lần lượt xác định và nhúng các thuật ngữ ontology cụ thể nhất của thực thể có tên và từ WordNet vào trong truy vấn. Thêm vào đó, mô đun Nhận diện và chú giải từ để hỏi thay thế từ để hỏi, nếu có, bằng lớp của thực thể có tên thích hợp. Cuối cùng, việc truy hồi tài liệu theo ngữ nghĩa được thực hiện thông qua mô đun VSM tổng quát dựa trên thực thể có tên, từ WordNet và từ khóa. Ở phần 2 của kiến trúc hệ thống, mô đun Nhận diện và chú giải thực thể có tên, và mô đun Phân giải nhập nhằng và chú giải từ 31
  34. WordNet lần lượt xác định và nhúng các thuật ngữ ontology của thực thể có tên và từ WordNet vào trong tài liệu. Tiếp theo, tài liệu được mở rộng bằng các thuật ngữ ontology bao phủ các thuật ngữ ontology gốc của thực thể có tên và từ WordNet. Các thuật ngữ ontology này và từ khóa được đánh chỉ mục thông qua mô đun Mở rộng và đánh chỉ mục tài liệu theo các thuật ngữ ontology của thực thể có tên, từ WordNet và từ khóa và được lưu trữ ở Kho chứa tài liệu được chú giải và mở rộng theo thực thể có tên, từ WordNet và từ khóa. Truy vấn Phần 1 thô Phương pháp Các tài liệu R+CSA được xếp hạng Truy vấn mở rộng Truy vấn được Nhận diện và được chú giải theo mở rộng chú giải từ để hỏi NE, từ WordNet và KW Phân giải nhập nhằng Nhận diện và VSM tổng quát dựa trên và chú giải từ WordNet chú giải NE NE, từ WordNet và KW Ontology về Ontology về NE Kho chứa tài liệu được từ WordNet (KIM) chú giải và mở rộng theo NE, từ WordNet và KW Tài liệu thô Nhận diện và chú giải NE . . Mở rộng và đánh chỉ mục tài liệu theo các thuật ngữ ontology Phân giải nhập nhằng của NE, từ WordNet và KW và chú giải từ WordNet Phần 2 Hình 6.1. Kiến trúc hệ thống của mô hình UM Xử lý truy vấn Truy vấn ban đầu được mở rộng theo phương pháp đề xuất ở Chương 5, nhưng các thực thể tiềm ẩn thêm vào không được thay thế bằng các tên chính của chúng. Tiếp theo các từ không hàm chứa 32
  35. thông tin quan trọng trong truy vấn mở rộng được loại bỏ. Việc nhận diện và chú giải thực thể có tên và từ WordNet trong truy vấn mở rộng giống như ở mô hình NE+KW và mô hình WN+KW ở Chương 3 và Chương 4. Trong đó, nếu một từ vừa là thực thể có tên vừa là từ WordNet, thì sẽ được ưu tiên xem là thực thể có tên. Một từ không được nhận diện như là thực thể có tên hoặc từ WordNet thì sẽ được xem như là từ khóa. Bên cạnh đó, từ để hỏi (Who, Which, Where, When hoặc What) ở truy vấn cũng sẽ được ánh xạ đồng thời thành lớp tương ứng trong ontology về thực thể. Xử lý tài liệu Đối với mỗi tài liệu, đầu tiên hệ thống loại bỏ các từ không hàm chứa thông tin quan trọng. Tiếp theo hệ thống nhận diện các thực thể có tên và từ WordNet, và mở rộng chúng giống như ở mô hình NE+KW và mô hình WN+KW đã trình bày ở Chương 3 và Chương 4. Trong đó, nếu một cụm từ vừa là thực thể có tên vừa là từ WordNet thì sẽ được ưu tiên xem là thực thể có tên. Nếu một cụm từ không được nhận diện như là thực thể có tên hoặc từ WordNet thì sẽ được xem như là từ khóa. Cuối cùng, các tài liệu được đánh chỉ mục theo các thuật ngữ ontology của thực thể có tên, từ WordNet, và từ khóa. 6.3 Đánh giá thực nghiệm Trước hết, trong phần này, luận án giới thiệu mô hình NE+WN là kết hợp giữa mô hình NE+KW+Wh ở Chương 3 với mô hình WN+KW ở Chương 4. Tiếp theo, mô hình hợp nhất UM là mô hình kết hợp giữa mô hình NE+WN ở trên với mô hình R+CSA ở Chương 5. Luận án tiến hành đánh giá thực nghiệm để kiểm tra xem mô hình NE+WN có hiệu quả hơn hai mô hình NE+KW+Wh và WN+KW hay không, và mô hình UM có hiệu quả hơn hai mô hình NE+WN và R+CSA hay không. Năm mô hình này được thực nghiệm trên tập dữ 33
  36. liệu kiểm tra giống như ở Chương 3 và Chương 5, tức là tập tài liệu L.A. Times và tập truy vấn của QA-Track-99. Các độ MAP trong Bảng 6.1 và các trị số p hai chiều trong Bảng 6.2 cho thấy việc khai thác các đặc điểm ontology của thực thể có tên và từ WordNet cùng với các thực thể tiềm ẩn trong truy vấn đã thật sự làm tăng hiệu quả truy hồi tài liệu. Cụ thể là, mô hình UM có hiệu quả hơn bốn mô hình NE+KW+Wh, WN+KW, NE+WN và R+CSA lần lượt là 26.8%, 32.9%, 19% và 11,1% ở độ MAP. Bảng 6.1. Các độ chính xác trung bình nhóm của các mô hình NE+KW+Wh, WN+KW, NE+WN, R+CSA và UM Mô hình UM NE+KW+Wh WN+KW NE+WN R+CSA MAP 0,7166 0,5652 0,5391 0,6024 0,6451 Độ cải thiện 26.8% 32.9% 19% 11,1% Bảng 6.2. Trị số p hai chiều của phương pháp kiểm định ngẫu nhiên giữa mô hình NE+WN với các mô hình NE+KW+Wh và WN+KW, và giữa mô hình UM so với các mô hình NE+WN và R+CSA |MAP(A) – Trị số p Mô hình A Mô hình B N– N+ MAP(B)| hai chiều NE+KW+Wh 0,0372 1.716 1.643 0,03359 NE+WN WN+KW 0,0633 2.009 2.109 0,04118 NE+WN 0,1142 1.043 966 0,02009 UM R+CSA 0,0715 2.188 2.140 0,04328 7 Chƣơng 7 - TỔNG KẾT Mục tiêu của luận án là nghiên cứu và đề xuất các mô hình truy hồi tài liệu dựa trên ontology nhằm cải thiện hiệu quả truy hồi tài liệu. Các thông tin trong các tài liệu và truy vấn phần lớn được diễn đạt thông qua các khái niệm là thực thể có tên và từ WordNet. Do đó, luận án nghiên cứu các đặc điểm ontology khác nhau của thực thể có tên và từ WordNet và khai thác chúng để biểu diễn ngữ nghĩa của truy vấn và tài liệu. Mặt khác, mỗi truy vấn hàm ý các thực thể 34
  37. có tên tuy không xuất hiện trong truy vấn nhưng các tài liệu nói về chúng cũng nằm trong mong đợi của người đặt truy vấn. Vì vậy, luận án còn nghiên cứu các phương pháp để khám phá và thêm vào truy vấn các thực thể tiềm ẩn này. Các mô hình truy hồi tài liệu mà luận án đề xuất dựa trên ba loại ontology là ontology về thực thể có tên, ontology về từ vựng (như WordNet), và ontology về sự kiện. Các mô hình trong luận án được thí nghiệm trên các tập dữ liệu kiểm tra chuẩn TIME và TREC, theo các độ đo hiệu quả chuẩn là độ chính xác, độ đầy đủ, độ F và MAP. Đặc biệt là phương pháp kiểm định ý nghĩa thống kê được sử dụng để xác nhận lại sự tăng hiệu quả của các mô hình đề xuất. Ở Chương 3, luận án khảo sát các cách khai thác các đặc điểm ontology khác nhau của thực thể có tên ở các công trình liên quan về truy hồi tài liệu, và nhận thấy hai đặc điểm là cặp tên-lớp và định danh thực thể chưa được sử dụng. Luận án đã nghiên cứu đề xuất và làm thí nghiệm đánh giá các mô hình biểu diễn truy vấn và tài liệu có sử dụng đầy đủ các đặc điểm ontology của thực thể (tức là tên, lớp, cặp tên-lớp, và định danh) và kết hợp với từ khoá. Bên cạnh đó, luận án cũng đề xuất ánh xạ các từ để hỏi Wh vào các lớp thực thể tương ứng khi biểu diễn truy vấn. Ở Chương 4, luận án tập trung nghiên cứu khai thác các đặc điểm ontology về từ vựng được định nghĩa trong một cơ sở dữ liệu về từ vựng như WordNet. Luận án đề xuất một cách mới là sử dụng nhãn của từ đó kết hợp với nghĩa cha chung cụ thể nhất của các nghĩa có thể. Ở Chương 5, phương pháp mà luận án đề xuất là chỉ kích hoạt và thêm vào truy vấn các thực thể có tên có quan hệ với các thực thể xuất hiện trong truy vấn theo các quan hệ tường minh trong truy vấn đó. Cuối cùng, Chương 6 đề xuất một mô hình hợp nhất, kết hợp các mô hình đã được nghiên cứu và phát triển ở các Chương 3, 4 và 5. Kết quả thực nghiệm cho thấy mô hình hợp nhất thật sự hiệu quả hơn 35
  38. từng mô hình đề xuất riêng lẻ. Hình 7.1 là sơ đồ tóm tắt lại các mô hình chính mà luận án đã nghiên cứu và đề xuất, theo thứ tự phát triển và cải thiện dần, trên tập tài liệu L.A. Times và tập truy vấn QA-Track-99 của TREC. Sơ đồ này cho thấy các mô hình NE+KW, WN+KW và R+CSA có độ MAP cao hơn mô hình Lexical (là mô hình truy hồi tài liệu theo từ khoá thông dụng) lần lượt là 7,3%, 5,7% và 26,5%. Hơn nữa, mô hình NE+KW+Wh có độ MAP cao hơn mô hình NE+KW là 3,3%. Mô hình UM, kết hợp cả ba mô hình NE+KW+Wh, WN+KW và R+CSA, có độ MAP cao hơn các mô hình thành phần lần lượt là 26,8%, 32,9% và 11,1%. So với mô hình Lexical, mô hình UM đã làm tăng hiệu quả truy hồi một cách rất đáng kể là 40,5%, với độ MAP 0,7166 so với 0,5099. UM (MAP = 0,7166) +26,8% +11,1% R+CSA NE+KW+Wh +32,9% +3,3% +26,5% NE+KW WN+KW +7,3% +5,7% Lexical (MAP = 0,5099) Hình 7.1. Sự phát triển và hiệu quả của các mô hình đề xuất Từ các nghiên cứu và kết quả đạt được của luận án này, chúng tôi đề nghị một số vấn đề và hướng nghiên cứu tiếp theo như sau: Khai thác các thực thể tiềm ẩn có quan hệ bắc cầu với các thực thể trong truy vấn thông qua quan hệ tường minh trong đó. 36
  39. Kết hợp phương pháp R+CSA của luận án với phương pháp phản hồi liên quan giả (pseudo feedback). Áp dụng các đặc điểm ontology của thực thể có tên và từ WordNet trên các mô hình truy hồi thông tin khác mô hình không gian vectơ. Thể hiện chủ đề trong mô hình hoá chủ đề (topic modeling) bằng các khái niệm ontology như thực thể có tên và từ WordNet, và dùng các chủ đề này để biểu diễn các tài liệu và truy vấn CÁC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [1] T. H. Cao and V. M. Ngo, “Semantic Search by Latent Ontological Features,” in International Journal of New Generation Computing, Springer-Verlag, SCIE, Vol. 30, No.1, pp. 53-71, 2012. [2] V. M. Ngo and T. H. Cao, “Discovering Latent Concepts and Exploiting Ontological Features for Semantic Text Search,” in Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP-2011), pp. 571-579, 2011. [3] V. M. Ngo, T. H. Cao and T. M. V. Le, “WordNet-based Information Retrieval Using Common Hypernyms and Combined Features,” in Proceedings of the 5th International Conference on Intelligent Computing and Information Systems (ICICIS-2011), pp. 313-318, 2011. [4] V. M. Ngo, T. H. Cao and T. M. V. Le, “Combining Named Entities with WordNet and Using Query-Oriented Spreading Activation for Semantic Text Search,” in Proceedings of the 8th IEEE International Conference on Computing and 37
  40. Telecommunication Technologies (IEEE-RIVF-2010), pp. 13-18, 2010. [5] V. M. Ngo and T. H. Cao, “Ontology-based Query Expansion with Latently Related Named Entities for Semantic Text Search,” in Proceedings of the 2nd Asian Conference on Intelligent Information and Database Systems (ACIIDS-2010), Springer-Verlag, Studies in Computational Intelligence, Vol. 283, pp. 41-52, 2010. [6] V. M. Ngo and T. H. Cao, “A Generalized Vector Space Model for Ontology-based Information Retrieval,” in Vietnamese Journal on Information Technologies and Communications, Vol. 22, No.2, pp 43-53, 2009. [7] T. H. Cao, K. C. Le and V. M. Ngo, “Exploring Combinations of Ontological Features and Keywords for Text Retrieval,” in Proceedings of the 10th Pacific Rim International Conference on Artificial Intelligence (PRICAI-2008), Springer-Verlag, LNAI, Vol. 5351, pp. 603-613, 2008. [8] T. H. Cao, V. M. Ngo, D. T. Hong and T. T. Quan, “A Named- Entity-based Multi-Vector Space Model for Semantic Document Clustering,” in Proceeding of PAKDD-2008 Workshop on Web Mining and Web-Based Application (WMWA), pp. 139-150, 2008. 38