Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

pdf 22 trang vanle 2200
Bạn đang xem 20 trang mẫu của tài liệu "Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfxay_dung_mo_hinh_mo_rong_truy_van_trong_truy_xuat_thong_tin.pdf

Nội dung text: Xây dựng mô hình mở rộng truy vấn trong truy xuất thông tin văn bản

  1. ĐI H C QU C GIA TP. HCM TR ƯNG Đ I H C BÁCH KHOA TP. H CHÍ MINH NGUY N CHÁNH THÀNH XÂY D NG MƠ HÌNH M R NG TRUY V N TRONG TRUY XU T THƠNG TIN V ĂN B N Chuyên ngành: Khoa h c Máy tính Mã s : 62.48.01.01 TĨM T T LU N ÁN TI N S Ĩ K THU T TP. H CHÍ MINH – 2010 - 1 -
  2. Ch ươ ng 1- M Đ U 1.1. Đng c ơ nghiên c u Đ ph c v cho nh ng nhu c u tìm ki m thơng tin c a ng ưi s dng, các h th ng truy xu t thơng tin (IR) đã đưc nghiên c u và phát tri n, trong đĩ thành cơng nh t là m t s đ ng c ơ tìm ki m (search engine ) n i ti ng nh ư Google–Yahoo–Alta Vista và Bing trong th i gian g n đây Tuy nhiên, thơng qua các h th ng đĩ, vi c tìm ki m thơng tin th ưng khơng nh n đưc đ y đ k t qu c n thi t nh ư mong mu n c ũng nh ư hi u su t c a chúng cịn cĩ m t s gi i hn nh t đ nh. T các phân tích trên, chúng ta nh n th y nguyên nhân chính là các h th ng tìm ki m thơng tin ch ưa đ m nh nên k t qu đưa ra khơng th h tr ng ưi dùng nh ư mong đi. Truy v n c a ng ưi dùng c ũng ch ưa ph n ánh đ y đ ng ngh ĩa đ h tr cho các quá trình tìm ki m và truy xu t thơng tin đưc t t h ơn. Vì v y, vi c b sung ng ngh ĩa vào truy v n ban đ u c a ng ưi dùng là yêu c u c n thi t. T t m quan tr ng v tính hi u qu c a quá trình truy xu t thơng tin ti ng Anh (trên mơi tr ưng Web), cùng v i h ưng gi i quy t làm sao đ h th ng IR cĩ th hi u nhi u h ơn và thơng minh h ơn khi x lý truy v n ban đ u c a ng ưi dùng, thì yêu c u v m t h th ng truy xu t thơng tin cĩ kh n ăng t o ra nh ng truy v n đ ng ngh ĩa ho c cùng m c tiêu là bài tốn quan tr ng. Do đĩ, v n đ m r ng truy vn là bài tốn quan tr ng mà lu n án này nghiên c u và đ xu t ph ươ ng pháp gi i quy t. 1.2. Mc tiêu và ph m vi nghiên c u T đ ng c ơ nghiên c u nêu trên, lu n án đ xu t m t s ph ươ ng pháp m r ng truy v n ban đu c a ng ưi dùng. Đây là v n đ c t lõi và đng th i là m c tiêu nghiên c u c a lu n án. Nh ư đnh h ưng nêu trên, ph m vi nghiên c u c a lu n án đưc th hi n trong hình 1.1 ( trong khung đưng g ch đ t nét ). - 1 -
  3. (A) (B) Nh p: Xu t: B x lý Đ ng c ơ m r ng Câu truy v n Các câu truy tìm ki m dng cm truy v n vn: thơng tin danh t trên c ơ s - dng c m kt h p v i danh t , ontology - đã đư c m rng cĩ d ng truy v n hồn Kt qu tr v (t p tài ch nh . li u) (C) Hình 1.1. M i quan h gi a mơ hình c a lu n án và h th ng truy xu t thơng tin (c) (A) Mơ hình x lý c a lu n án (ph m vi nghiên c u c a lu n án) (B) Đng c ơ tìm ki m thơng tin (thu c h th ng truy xu t thơng tin) (C) K t qu tìm ki m thơng tin t yêu c u c a các câu truy v n đã m r ng Vi mơ hình đưc mơ t hình 1.1, trong m c (A), câu truy v n nh p (d ng c m danh t bao g m các thành ph n là tính t hay ch cĩ danh t đơn) đưc x lý đ tr v t p các câu truy v n đã đưc m r ng (c m danh t cĩ dng truy v n hồn ch nh d). Trong ph m vi lu n án, da trên gi i pháp rút trích các t đ c tr ưng c t lõi cho m t câu ([8] [39]), câu truy v n ban đ u c a ng ưi dùng đưc ti n x lý đ lo i b các thành ph n khơng quan tr ng nh m gi l i nh ng thành ph n chính th a điu ki n truy v n hồn ch nh. Điu đĩ s giúp gi m đưc đ ph c t p hay d ng bi u di n ph c h p c a truy vn, đ ng th i cịn giúp đm b o tính duy nh t c a t ng thành ph n trong truy v n th a điu ki n truy v n hồn ch nh . Mc (B) c a hình trên g m đ ng c ơ tìm ki m thơng tin ( search engine ). Đây là m t b ph n quan tr ng c a h th ng Truy xu t Thơng tin. ( Information Retrieval ). Đng c ơ tìm ki m thơng tin gi i c Trong tài li u này, ch s c a các hình, b ng bi u và tài li u tham kh o đưc gi đúng theo quy n lu n v ăn chính, khơng đánh s l i. d Tham kh o đ nh ngh ĩa 3.10-Truy v n hồn ch nh, mc 3.2.6, ch ươ ng 3. - 2 -
  4. quy t ba v n đ c t lõi là mơ hình bi u di n v ăn b n, thu t tốn tìm Conference on Principles and Practice of Knowledge Discovery in ki m so trùng t khĩa - đi sánh ng ngh ĩa t ươ ng ng v i các truy Databases. Dubrovnik, Croatia. 22 September 2003. vn và c ơ ch l c k t qu truy xu t. Hi n t i trên th gi i cĩ nh ng [35] Sandhya Revuri, Sujatha R Upadhyaya, P Sreenivasa Kumar. đng c ơ tìm ki m thơng tin n i ti ng nh ư Google, Yahoo, Microsoft Using Domain Ontologies for Efficient Information Retrieval . 13th International Conference on Management of Data (COMAD 2006), IIT, Bing Tuy nhiên, nghiên c u c a lu n án ch s d ng nh ng đ ng Delhi, India, 2006. cơ này nh ư m t cơng c h tr vi c tìm ki m thơng tin cho truy v n [36] Tru H. Cao, Khanh C. Le, Vuong M. Ngo. Exploring đã m r ng b ng ph ươ ng pháp x lý c a lu n án và khơng đt m c Combinations of Ontological Features and Keywords for Text Retrieval . tiêu nghiên c u ba v n đ nêu trên. Vì v y lu n án đã khơng trình Lecture Notes In Artificial Intelligence; Vol. 5351. The 10th Pacific Rim bày ba v n đ này. International Conference on Artificial Intelligence: Trends in Artificial Mơ hình x lý ca lu n án (trong m c (A)) ch th c hi n vi c Intelligence, pp.603-613. Hanoi, Vietnam. 2008. ISBN: 978-3-540-89196- m r ng n i dung c a truy v n nh p nên hồn tồn khơng làm 3. nh h ưng đn ba khía c nh nêu trên trong quá trình v n hành [37] Tru H. Cao, Truong D. Cao, Thang L. Tran. A Robust Ontology- Based Method for Translating Natural Language Queries to Conceptual ca đ ng c ơ tìm ki m m c (B). Điu này cịn cho th y ph m Graphs . Lecture Notes In Computer Science; Vol. 5367. The 3rd Asian vi nghiên c u c a lu n án h ưng đn bài tốn m r ng truy v n Semantic Web Conference on The Semantic Web, pp.479 - 492. Bangkok, da trên ontology và hồn tồn khác bi t so v i ba khía c nh Thailand. 2008. ISBN: 978-3-540-89703-3. đã nêu . [38] Van Dang, Bao-Quoc Ho, Minh Luong Vi, Bich-Thuy Dong. T nh ng trình bày trên, các bài tốn chính c n gi i quy t trong English-Vietnamese Cross-Language Information Retrieval: An Experimental Study . IEEE International Conference on Research, ph m vi lu n án bao g m: Innovation and Vision for the Future, RIVF 2008, pp.107-113. July 13-17, Bài tốn 1 - Xây d ng ontology OOMP 2008. Ho Chi Minh City, Vietnam. ISBN: 978-1-4244-2379-8. Nghiên c u và phát tri n c u trúc ontology OOMP (Ontology of Trang web Object-Member-Property ) cùng c ơ ch hu n luy n d li u. T đĩ t o [39] KEA, d li u ban đ u d a trên t p tài li u ti ng Anh t ngu n TREC c ũng [40] Lucene, nh ư khai thác d li u t WordNet đ cung c p ontology OOMP [41] TREC, nh m ph c v yêu c u c a bài tốn 2. Bài tốn 2 - Xây d ng ph ươ ng pháp hồn ch nh m r ng truy vn Da trên ontology bài tốn 1, nghiên c u xây d ng ph ươ ng pháp ti p c n m i cho vi c m r ng truy v n nh m t o truy v n k t qu cĩ dng truy v n hồn ch nh (bi u di n d ng c m danh t v m t ngơn ng h c) và xây d ng các gi i thu t h tr trong ph m vi bài tốn 2. - 3 - - 40 -
  5. - in Computing and Communications Technologies (RIVF'2008), pp.247- 1.3. Đĩng gĩp chính c a lu n án 254. July 13-17, 2008. HCM City, Vietnam. Các v n đ nghiên c u c a lu n án đã cĩ m t s đĩng gĩp m i v [26] Julio Gonzalo, Felisa Verdejo, Irina Chugur, Juan Cigarran. mt khoa h c t ph ươ ng pháp lu n đ n gi i pháp th c hi n: Indexing with WordNet synsets can improve text retrieval . Proceedings of the COLING/ACL'98 Workshop on Usage of WordNet for NLP, Montreal. * Đĩng gĩp th nh t: đ xu t ph ươ ng pháp xác đnh các quan h [27] Khanh Tran Dang. Ensuring Correctness, Completeness and ca các khái ni m bao g m: Freshness for Outsourced Tree-Indexed Data . Information Resources − Quan h Rm xác đnh thành ph n đ c tr ưng ( member ) c a Management Journal (IRMJ), Idea-Group Publisher, ISSN 1040-1628, Vol. đi t ưng ( object ). 21, Issue 1, pp.59-76. Jan-Mar 2008. p [28] Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, − Quan h R tính ch t đ c tr ưng ( property ) c a thành ph n. Zach Solan, Gadi Wolfman, Eytan Ruppin. Placing search in context: the − Các quan h xác đ nh tính ch t tr i Rm và Rp liên quan. concept revisited . ACM Transactions on Information Systems, volume 20, f f Các ph ươ ng pháp mà lu n án đ xu t khơng nh ng cĩ th áp d ng issue 1 (January 2002), pp.116–131. 2002. ISSN: 1046-8188. [29] Marti A. Hearst. Automatic acquisition of hyponyms from large trong ph m vi lu n án đ gi i quy t Bài tốn 1 và Bài tốn 2 nêu trên text corpora . International Conference On Computational Linguistics. mà cịn cĩ th áp d ng trong m t s l ĩnh v c khác đ t o ontology Proceedings of the 14th conference on Computational linguistics, Volume cho m t mi n khái ni m (trong l ĩnh v c x lý ngơn ng t nhiên). 2, pp.539–545.France. 1992. Ngồi ra, t gĩc đ tốn h c, vi c xây d ng các l p đ ng d ng ( liên [30] Phuc Do, Hung Xuan Mai. Using SOM based graph clustering for quan đn nhĩm các đ i t ưng, nhĩm các thành ph n đ c tr ưng và extracting main ideas from documents . IEEE International Conference on nhĩm các tính ch t đ c tr ưng e) t các quan h nêu trên s giúp cho Research, Innovation and Vision for the Future, RIVF 2008, pp. 209-214. vi c phân lo i đ i t ưng hi u qu h ơn. Cơng trình [ii] , [iv] , [v] và July 13-17, 2008. Ho Chi Minh City, Vietnam. ISBN: 978-1-4244-2379-8 [ix] f đã gi i thi u ph ươ ng pháp xác đnh các quan h cùng đnh ngh ĩa [31] Phuc Do, Phung Nguyen. Using Nạve Bayes Model and Natural ca nh ng khái ni m này. Language Processing for Classifying Messages on Online Forum . IEEE Ph n đĩng gĩp này s khơng th c s đ y đ n u khơng cĩ các đ nh International Conference on Research, Innovation and Vision for the +OB +OB +P +OB +OB +P Future, pp.247-252. March 5-9, 2007. Hanoi, Vietnam. ISBN: 1-4244- ngh ĩa MQE −IR , MQE −IR , MQE +IR , MQE +IR cùng khái 0694-3. ni m truy v n hồn ch nh, cây phân tích và d ng đ th ng ngh ĩa do [32] Robert Bossy, Alain Kotoujansky, Sophie Aubin, Claire Nedellec. tác gi đ xu t, liên quan đn vi c mơ hình hĩa bài tốn m r ng Close Integration of ML and NLP Tools in BioAlvis for Semantic Search in truy v n. Bacteriology . In Semantic Web Applications and Tools for Life Sciences, * Đĩng gĩp th hai: đ xu t mơ hình ontology OOMP cùng các SWAT4LS. 2008. ph ươ ng pháp hu n luy n d li u: [33] Robert Krovetz, W. Bruce Croft. Lexical ambiguity and information retrieval . ACM Transactions on Information Systems (TOIS), − Ph ươ ng pháp hu n luy n d a trên kho ng li u s n cĩ Volume 10, Issue 2 (April 1992), pp.115–141. 1992. ISSN: 1046-8188. (Corpus-Based Knowledge Base Training, CB-KBT ). [34] Roberto Navigli, Paola Velardi. An analysis of ontology-based query expansion strategies . Proceedings of the International Workshop on Adaptive Text Extraction and Mining held in conjunction with the 14th e Tham kh o thêm hình 3.3, trang 64 v các l p này. European Conference on Machine Learning and the 7th European f Tham kh o thêm ph n Các cơng trình khoa h c. - 4 - - 39 -
  6. − Ph ươ ng pháp hu n luy n d a trên ontology WordNet s n cĩ Intelligence - ICAI'09, vol. 1, pp. 137-141, Las Vegas, USA, July 13-16, (WordNet-Based Knowledge Base Training, WB-KBT ). 2009. ISBN: 1-60132-107-4, 1-60132-108-2. CSREA Press. − Ph ươ ng pháp t hu n luy n d a trên n i dung s n cĩ c a [18] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan. Natural Language Interaction-Based Document Retrieval . Proceedings of ontology t hai ph ươ ng pháp CB-KBT và WB-KBT cùng WordNet the 2nd IEEE International Conference on Computer Science and (Auto Knowledge Base Training, A-KBT ). Information Technology 2009 (ICCSIT 2009), vol. 4, pp. 544-548. Beijing, Ontology OOMP khơng nh ng đưc dùng đ ph c v bài tốn m China, August 8-11, 2009. ISBN: 978-1-4244-4520-2. rng truy v n mà cịn cĩ th đưc s d ng cho nh ng bài tốn khác [19] Dang Tuan Nguyen, Chinh Trong Nguyen. Cross-lingual theo h ưng khai thác các quan h khái ni m. Ngồi ra, t gĩc đ Information Retrieval Model for Vietnamese-English Web Sites . Accepted ngơn ng h c, các thành ph n c a ontology OOMP đưc phân l p paper, The 2nd International Conference on Computer Modeling and da trên m t s d ng t lo i chính (nh ư danh t , tính t ) nên c u trúc Simulation (ICCMS 2010), Sanya, China, January 22-24, 2010. Editions ca chúng ít ph thu c vào s khác nhau c a các ngơn ng t nhiên. IEEE. Do đĩ, vi c phát tri n ontology trên nh ng ngơn ng t nhiên khác [20] Dang Tuan Nguyen, Tuan Ngoc Pham, Quoc Tan Phan. A Semantic Model for Building the Vietnamese Language Query Processing (nh ư ti ng Vi t hay Pháp ) t ươ ng đi thu n l i. N i dung liên quan Framework in e-Library Searching Application . Accepted paper, The 2nd đn đĩng gĩp này đưc cơng b trong [iv] , [v] và [ix] . International Conference on Machine Learning and Computing (ICMLC * Đĩng gĩp th ba: đ xu t mơ hình x lý truy v n (truy v n ti ng 2010), Bangalore, India, February 9-11, 2010 . Editions IEEE. Anh, d ng c m danh t ) trên ontology OOMP , g m các gi i thu t: [21] Dat T. Huynh, Tru H. Cao, Hung Q. Ta, Le H. Nguyen. VN-KIM − Ki m tra tính hồn ch nh c a c m danh t ( Complete Noun KBM: A Distributed and Collective Tool for Managing Semantic Web Phrase Verification, CNPV ) Knowledge Bases . The 1st Workshop on Human Factors and the Semantic − Hồn ch nh c m danh t (Noun Phrase Completion, NPC ) Web (SWAHA'2008, December 08, Bangkok, Thailand, in conjunction − M r ng c m danh t tươ ng t ( Similar Noun Phrase with ASWC'2008), pp.153-158. Thailand 2008. [22] Ellen M. Voorhees. Using Wordnet to disambiguate word senses Expansion, SNPE ) for text retrieval . Annual ACM Conference on Research and Development Mơ hình cùng các ph ươ ng pháp x lý truy v n này cĩ th áp d ng in Information Retrieval. Proceedings of the 16th annual international ACM trong Bài tốn 2, c ũng nh ư trong các bài tốn khác nh ư: SIGIR conference on Research and development in information retrieval, − Ki m tra tính hồn ch nh c a c m danh t ti ng Anh theo pp.171–180. Pennsylvania, United States. 1993. ISBN: 0-89791-605-0 quan đim ngơn ng h c tính tốn ( ng d ng trong l ĩnh v c x lý [23] Ellen M. Voorhees. Query expansion using lexical-semantic ngơn ng t nhiên: truy xu t thơng tin, rút trích thơng tin, tĩm l ưc relations . Annual ACM Conference on Research and Development in ni dung v ăn b n). Information Retrieval. Proceedings of the 17th annual international ACM − Hồn ch nh và m r ng c m danh t t ươ ng đươ ng ( ng dng SIGIR conference on Research and development in information retrieval, pp.61 - 69. Dublin, Ireland. 1994. ISBN: 0-387-19889-X. trong l ĩnh v c x lý ngơn ng t nhiên: truy xu t thơng tin, rút trích [24] Franc A. Grootjen, Theo P. Van Der Weide. Conceptual query thơng tin, tĩm l ưc n i dung v ăn b n) . expansion . Data & Knowledge Engineering, Vvolume 56, Iissue 2 Các ph ươ ng pháp và gi i thu t liên quan đn đĩng gĩp này đưc gi i (February 2006), pp.174–193. 2006. ISSN: 0169-023X. thi u trong [ii] , [v] và [ix] . [25] Hien T Nguyen, Tru H Cao. Named Entity Disambiguation on an Ontology Enriched by Wikipedia . In Proceedings of the 6th IEEE - 5 - International Conference on Research, Innovation and Vision for the Future - 38 -
  7. [10] Chinh Trong Nguyen, Dang Tuan Nguyen. A New Model of * Đĩng gĩp th t ư: Ph ươ ng pháp xây d ng ch m c h ưng ng English-Vietnamese Bilingual Information Retrieval System . International ngh ĩa (Semantic Index Creation , SIC ) thơng qua vi c m r ng c u Conference on Information Technology (ICIT 2009), Venice, Italy, October trúc ch m c đ l ưu tr thêm thơng tin liên quan ng ngh ĩa đ n 28-30, 2009. ontology xác đnh. Đây chính là c u n i giúp tri n khai nh ng [11] Dang Tuan Nguyen, Ha Quy-Tinh Luong, Tuyen Thi-Thanh Do. nghiên c u lý thuy t vào ng d ng th c ti n trong l ĩnh v c truy xu t Building a Vietnamese language query processing framework for e-library thơng tin. K t qu thu đưc t ph ươ ng pháp này t o ti n đ cho searching systems . International Journal of Computer Science and Information Security (IJCSIS), pp. 092-096, Vol. 6, No. 1, October 2009. nhi u nghiên c u ng d ng liên quan đn truy xu t thơng tin. ISSN: 1947-5500. Ph ươ ng pháp này đưc trình này trong cơng trình [iv] và đưc phát [12] Dang Tuan Nguyen, Ha Quy-Tinh Luong. Document searching tri n trong [iii] và [viii] . System based on natural language query processing for Vietnam Open Nh ng k t qu đ t đưc này đng th i đưc áp d ng cho cơng trình Courseware library . International Journal of Computer Science Issues [xii] và d đ nh áp d ng cho cơng trình [xiii] . (IJCSI), pp.7-13,Vol. 6, No. 2, November 2009. ISSN (online): 1694-0784, ISSN (print): 1694-0814. [13] Dang Tuan Nguyen, Tuyen Thi-Thanh Do. e-Document Retrieval by Question Answering System . International Conference on Communication Technology, February 25-27, 2009, Penang, Malaysia. Proceedings of World Academy of Science, Engineering and Technology, vol. 38, 2009, pp.395-398, ISBN: 2070-3740. [14] Dang Tuan Nguyen, Tuyen Thi-Thanh Do. Natural Language Question Answering Model Applied To Document Retrieval System . International Conference on Computer Science and Technology, Hongkong, March 23-25, 2009. Proceedings of World Academy of Science, Engineering and Technology, vol. 39, 2009, pp. 36-39, ISBN: 2070-3740. [15] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan. A Document Retrieval Model Based-on Natural Language Queries Processing . Proceedings of the International Conference on Artificial Intelligence and Pattern Recognition (AIPR), pp. 216-220, Orlando, USA, July 13-16, 2009. ISBN: 978-1-60651-007-0. Editions ISRST. [16] Dang Tuan Nguyen. Interactive Document Retrieval System Based-on Natural Language Query Processing . Proceedings of the Eighth International Conference on Machine Learning and Cybernetics, pp. 2233- 2237, Baoding, Hebei, China, July 12-15, 2009. ISBN: 978-1-4244-3703-0. Editions IEEE. [17] Dang Tuan Nguyen, Tuyen Thi-Thanh Do, Quoc Tan Phan. Integrating Natural Language Query Processing and Database Search Engine . Proceedings of the 2009 International Conference on Artificialal - 6 - - 37 -
  8. Tĩm t t ni dung lu n án: TÀI LI U THAM KH O (L ƯC TRÍCH T LU N ÁN) Ti ng Vi t [1] Nguy n Chí Hi u. Mơ hình khai thác đc tính ngơn ng đích nh m xác đnh các c m danh t c ơ s t ươ ng ng Anh-Vi t. Lu n án ti n s ĩ. Đ i hc Qu c gia Tp.H Chí Minh. 2007. [2] Nguy n Chí Hi u, Phan Th T ươ i, Nguy n Xuân D ũng, Nguy n Quang Châu. S d ng k thu t Pruning vào bài tốn xác đnh t lo i. T p chí Phát tri n Khoa h c & Cơng ngh , t p 8, s 11, 14-23, 2005. [3] Nguy n Quang Châu, Phan Th T ươ i. Nh n di n c m t đ c tr ưng ng ngh ĩa trong ti ng Vi t. T p chí B ưu chính Vi n thơng và Cơng ngh thơng tin, s 19, 2/2008. [4] Nguy n Quang Châu, Phan Th T ươ i, Cao Hồng Tr . T đ ng rút trích các c m danh t Anh - Vi t t kho ng li u song ng . K y u h i th o khoa h c Qu c gia l n II “Nghiên c u c ơ b n và ng d ng cơng ngh thơng tin”, Đi h c Bách khoa Tp.HCM, Vi t nam, 23-24/9/2005. Ti ng Anh [5] Abraham Bernstein, Esther Kaufmann, Christian Kaiser, Christoph Kiefer. Ginseng, A Guided Input Natural Language Search Engine, for Querying Ontologies . Jena User Conference. Bristol. UK. 2005. [6] Bao Tu Ho, Thang Truong Nguyen, Chien Phu Nguyen, Mai Chi Luong. Towards a practical Framework for Vietnamese Natural Language Processing . Proceeding of Second Vietnam-Japan Symposium on Fuzzy Systems and Applications, 12/2001, pp297-304. [7] Baziz Mustapha, Boughanem Mohand,Aussenac-Gilles Nathalie. Conceptual indexing based on document content representation information context: nature, impact, and role . In 5th International Conference on Conceptions of Library and Information Sciences No5, Glasgow, Volume 3507, pp.171-186, UK (04/06/2005) [8] Chau Q. Nguyen, Tuoi T. Phan. An Ontology-Based Approach for Key Phrase Extraction . Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. [9] Chau Q.Nguyen, Tuoi T.Phan, Tru H.Cao. Vietnamese Proper Hình 1.2. Tĩm t t n i dung các v n đ trình bày trong lu n án Noun Recognition . Proceedings of the 4th IEEE International Conference on Computer Science, Research, Innovation & Vision for the Future, - 7 - February 12-16,2006 Ho Chi Minh City, Vietnam. - 36 -
  9. 40, 2010. Springer-Verlag. ISSN 1860-949X. DOI 10.1007/978-3- Ch ươ ng 2- NGHIÊN C U LIÊN QUAN 642-12090-9 Hi ngh Khoa h c Qu c t Vi t nam hi n cĩ các nhĩm nghiên c u v i nhi u cơng trình cơng ACM : Association for Computing Machinery ACS : b trong và ngồi n ưc. Tuy h ưng nghiên c u và k t qu cơng b Austrian Computer Society ca nh ng nhĩm này khơng hồn tồn liên quan đn các bài tốn m [vii] Thanh C.NGUYEN , Hai M.LE, Tuoi T.PHAN. Building Knowledge Base for Vietnamese Information Retrieval. The 11th rng truy v n c a lu n án, nh ưng trong m i h ưng x lý (liên quan International Conference on Information Integration and Web-based tng ph n đ n lu n án) v ontology, truy xu t và rút trích thơng tin Applications & Services, 2009, Malaysia, ACM & ACS. ACM ISBN cũng nh ư ng d ng x lý ngơn ng t nhiên, h đã đt đưc nh ng 978 –1–60558 –660 –1. kt qu quan tr ng cùng v i nhi u cơng trình khoa h c cơng b trong [viii] Thanh C.NGUYEN , Tuoi T.PHAN. The effect of Semantic và ngồi n ưc nh ư [1] [2] [3] [4] [8] [9] trong n ăm 2007-2009 và Index in Information Retrieval development . The 10th International năm 2010 (nhĩm TS.Phan Th T ươ i), nh ư [36] [37] trong n ăm 2007- Conference on Information Integration and Web-based Applications ơ & Services, 2008, Austria, ACM & ACS, pp.438–441. ACM ISBN 2009 (nhĩm TS.Cao Hồng Tr -Qu n Thành Th ) và [27] (nhĩm 978 –1–60558 –349 –5. TS. Đng Tr n Khánh) cùng thu c ĐH-BK.HCM, nh ư [10] [11] [12] [ix] Thanh C.NGUYEN , Tuoi T.PHAN. An ontology-based [13] [14] [15] [16] [17] [18] [19] [20], [30] [31] năm 2008-2009 approach of query expansion . The 9th International Conference on (nhĩm TS.Nguy n Tu n Đă ng, nhĩm TS. Đ Phúc, ĐH- Information Integration and Web Based Application & Service, CNTT.HCM), nh ư [38] (nhĩm TS. Đng Th Bích Th y-H B o 2007, Indonesia, ACS, pp.113–123. ISBN 978 –3–85403 –229 –8. Qu c, ĐH-KHTN.HCM), [6] ca Vi n Cơng ngh Thơng tin (nhĩm [x] Thanh C.NGUYEN , Tuoi T.PHAN. A hybrid approach of noun TS.L ươ ng Chi Mai, TS.B ch H ưng Khang, và TS.H Tú B o). phrase translation in Cross-Language Information Retrieval . The 9th International Conference on Information Integration and Web Vi c ng d ng ontology đ tr giúp v n đ m r ng truy v n đưc Based Application & Service, 2007, Indonesia, ACS, pp.389–394. nghiên c u t nh ng n ăm đ u th p niên 1990 v i m t s thành ISBN 978 –3–85403 –229 –8. cơng g. WordNet là m t ontology t ng quát ph d ng đưc dùng [xi] Thanh C. Nguyen , Tuoi T.Phan. Applying Key-Phrase in Cross- trong bài tốn m r ng truy v n c a các nhĩm Gonzalo [26], Language Information Retrieval . The Eighth International Voorhees [22] [23], Hearst [29] Ngồi ra, vi c phát tri n m t Conference on Information Integration and Web Based Application ontology chuyên d ng ph c v nhu c u m r ng truy v n c ũng đưc & Service, 2006, Indonesia, ACS, pp.451–460. ISSN 3 –85403 –214 – ti n hành b i các nhĩm Finkelstein [28], Navigli và Velardi [34] hay 5, ISBN 978 –3–85403 –3–214 –4. NGHIÊN C U KHOA H C Baziz [7], Grootjen và V.D.Weide [24] Đc bi t, nhĩm Abraham [xii] Tham gia đ tài nghiên c u khoa h c tr ng đim c p Đi h c [5] phát tri n b n th h c v i các thành ph n l p ( class ), đi t ưng Qu c gia Tp.HCM “Xây d ng ch ươ ng trình tr giúp truy xu t thơng th hi n ( instance ), thu c tính ( property ) và tìm ki m, phát sinh các tin b ng ti ng Vi t” (B2005-20-01-TD), 2005-2007 ( đã hồn t t), do t đ ng ngh ĩa. Sandhya [35] đã xây d ng b n th h c d a trên các PGS.TS. Phan Th T ươ i ch nhi m. khái ni m đ i t ưng th hi n, thu c tính, khái ni m ( concept ) và m t [xiii] Tham gia đ tài nghiên c u khoa h c c p Nhà n ưc “Nghiên s quan h nh ư IS-A, r i r c ( disjointness ) và t ươ ng đươ ng cu, xây d ng m t s h th ng khai thác thơng tin đa ph ươ ng ti n cĩ h tr ti ng Vi t” (KC.01/06-10/02), thu c Ch ươ ng trình Nghiên cu, phát tri n và ng d ng Cơng ngh Thơng tin và Truy n thơng, g Ph n này ch trình bày m t s cơng trình nghiên c u đ c tr ưng, các cơng 2009-2010 ( đang th c hi n), do PGS.TS. Phan Th Tươ i trình nghiên c u cịn l i khác đưc trình bày chi ti t trong Ch ươ ng 2 c a quy n Lu n án. - 35 - - 8 -
  10. (equivalence ) cùng m t gi i thu t x lý cho k t qu cĩ đ chính xác hưng nghiên c u trong t ươ ng lai. ng d ng nh ng ph ươ ng pháp 23% và đ bao ph 34%. [32] [33] đ xu t m t mơ hình m i v đưc đ xu t trong lu n án vào x lý ngơn ng t nhiên ti ng Vi t là mng ng ngh ĩa d a trên m t s quan h trích d n t WordNet nh ư mc tiêu lâu dài và đng th i là h ưng nghiên c u phát tri n c a tác quan h th ưng danh ( hypernymy ), h danh ( hyponymy ), tồn th gi . Nh ng ng d ng này s đĩng gĩp m t ph n trong h ưng nghiên (meronymy ), b ph n ( holonymy ), tính ch t ( attribute ), t ươ ng đng cu l ĩnh v c x lý ngơn ng t nhiên ti ng Vi t. (similarity ), và mt s quan h đưc đ nh ngh ĩa thêm nh ư chú gi i (gloss ), ch đ ( topic ) và mi n ( domain ). DANH M C CƠNG TRÌNH C A TÁC GI [ BÁO CÁO KHOA H C Ch ươ ng 3- XÂY D NG N N T NG H TH NG Tp chí Khoa h c [i] Tuoi T.Phan, Thanh C.Nguyen . Vietnamese knowledge base 3.1. Gi i thi u development and exploitation . The International Journal of Business Ch ươ ng này trình bày nh ng khái ni m n n t ng c a mơ hình m Intelligence and Data Mining (IJBIDM), 2010. ISSN (Online): 1743- 8195 , ISSN (Print) : 1743-8187 ( Đưc ch p nh n đă ng bài) rng truy v n d a trên ontology. Lý thuy t đưc đ xu t v các quan [ii] Nguy n Chánh Thành , Phan Th T ươ i. Mơ hình m r ng truy h hai ngơi m c 3.2 s là c ơ s đ xây d ng nh ng quan h ng vn trong truy xu t thơng tin . T p chí Cơng Ngh Thơng tin & ngh ĩa gi a các đ i t ưng trong th gi i th c. m c 3.3, thơng qua Truy n Thơng: Các cơng trình nghiên c u khoa h c, nghiên c u các đnh ngh ĩa v mơ hình bài tốn m r ng truy v n, s cung c p tri n khai Cơng ngh Thơng tin và Truy n thơng, s 2 (23) k ỳ 3, Vi t mt lý thuy t giúp đ m b o tính t ng quát và tính đúng ca v n đ . nam, 2010. ISSN 0866 –7039 . Ph n 3.4 h ưng ng ưi đ c đ n v n đ c u trúc c m danh t trong [iii] Nguy n Chánh Thành , Phan Th T ươ i. Truy xu t thơng tin v i ti ng Anh, sau đĩ trình bày v đ xu t c a lu n án v m u xác đ nh ch m c h ưng đ n ng ngh ĩa. T p chí Cơng Ngh Thơng tin & Truy n Thơng: Các cơng trình nghiên c u khoa h c, nghiên c u cm danh t đ ph c v vi c hu n luy n ontology OOMP cũng nh ư tri n khai Cơng ngh Thơng tin và Truy n thơng, s 20, Vi t nam, vi c phân tích các truy v n. Các m c cịn l i c a ch ương gi i thi u 2008, tr. 49–59. ISSN 0866 –7039 . ph ươ ng pháp đánh giá k t qu , mơi tr ưng, cơng c h tr và d li u [iv] Thanh C.Nguyen , Tuoi T.Phan. A hybrid solution of ontology- th c nghi m các ch ươ ng ti p theo. Mt ph n k t qu c a ch ươ ng based query expansion . The International Journal of Web này đã cơng b trong cơng trình [ii], [iv], [v] và [ix] . Information Systems, Volume 4 Number 2, 2008, pp.215–227, 2008. ISSN 1744 –0084 . 3.2. Bài tốn Xây d ng ontology và bài tốn Hồn ch nh m [v] Nguy n Chánh Thành , Phan Th T ươ i. Truy xu t thơng tin: rng truy v n Gi i pháp b n th h c cho hồn ch nh truy v n. T p chí Cơng Ngh T hai bài tốn xác đnh trong ch ươ ng 1, tác gi đ xu t c ơ s lý Thơng tin & Truy n Thơng: Các cơng trình nghiên c u khoa h c, thuy t v các quan h ng ngh ĩa m r ng đĩng vai trị n n t ng trong nghiên c u tri n khai Cơng ngh Thơng tin và Truy n thơng, s 19, Vi t nam, tr. 84–92, 2008. ISSN 0866 –7039 . vi c phát tri n c u trúc ontology và các ph ươ ng pháp m r ng truy Ch ươ ng sách vn c ũng nh ư hồn thi n truy v n. [vi] Tuoi T.PHAN, Thanh C.NGUYEN , Thuy N.T.HUYNH. Gi s : Question Semantic Analysis in Vietnamese QA System . The − D={w i} t p danh m c t c a ngơn ng t nhiên Advances in Intelligent Information and Database Systems book, − O={o i} t p danh m c t mơ t đi t ưng (object ) Serie of Studies in Computational Intelligence, Volume 283, pp.29- - 9 - - 34 -
  11. * V n đ 4: Ti ưu chi phí v th i gian x lý ca ph ươ ng pháp m − M={m j} t p danh m c t mơ t thành ph n c a đ i t ưng rng k t qu tìm ki m. Đ nh h ưng c a ph ươ ng pháp t i ưu này nh ư (member ) minh h a hình 7.1 − P={p k} t p danh m c t mơ t tính ch t c a thành ph n (property ) Các đnh ngh ĩa đưc đ xu t: Đnh ngh ĩa 3.1 –Đ liên k t (Sim) tươ ng quan gi a hai đ i t ưng. Đnh ngh ĩa 3.2 –Đ ph thu c (Dep) ca đ i t ưng x vào đi t ưng y. Đnh ngh ĩa 3.3 –Thành ph n c a đ i t ưng (Mem) xác đnh thành Hình 7.1. Ph ươ ng pháp th c hi n c a v n đ 4 ph n c a đ i t ưng. Nh ư trình bày trong hình 7.1, ph ươ ng pháp gi i quy t trong tr ưng Đnh ngh ĩa 3.4 –Thu c tính c a thành ph n (Pro) xác đnh thu c hp này h ưng đ n vi c thu gi m th i gian th c hi n trong các hai tính c a thành ph n. bưc x lý, điu đĩ cĩ th tác đ ng đ n s l ưng tài li u k t qu tìm Đnh ngh ĩa 3.5 –Quan h Thành ph n đ c tr ưng c a m t đ i đưc c a gi i thu t HS nh ưng t l cách bi t v th i gian tìm ki m tưng R m ca gi i thu t HS so v i ph ươ ng pháp thơ s gi m thi u đáng k . V n Ví d : R m (“dung l ưng”, “b nh ”) đ này c n đưc xem xét và ti n hành các th c nghi m đ ki m Đnh ngh ĩa 3.6 –Quan h Tr i gi a các thành ph n đ c tr ưng R m f ch ng m c đ t i ưu thu đưc t ph ươ ng pháp c i ti n. Ví d : R m (“dung l ưng”, “ch ng lo i”) cho đ i t ưng RAM. f Nhìn chung, các v n đ trên là t p h p nh ng bài tốn con khơng Đnh ngh ĩa 3.7 –Quan h Tính ch t đ c tr ưng c a m t thành ph n p quá ph c t p nh ưng c n đưc xem xét và nghiên c u trong t ươ ng lai, R p đ cĩ th h tr cho vi c xây d ng m t h th ng truy xu t thơng tin Ví d : R (“l n nh t”, “dung l ưng”) vì “dung l ưng” là thành ph n hưng ng ngh ĩa cho ti ng Vi t. Nh ng v n đ này cĩ t m quan đc tr ưng c a đ i t ưng “b nh ”. Đnh ngh ĩa 3.8 –Quan h Tr i gi a các tính ch t đc tr ưng R p tr ng đ n h ưng nghiên c u c a tác gi trong l ĩnh v c truy xu t f thơng tin, đc bi t là trong vi c h tr truy xu t thơng tin ti ng Vi t. Ví d : đ i t ưng là “RAM”, R p (“l n nh t”, “b n nh t”). f 7.3. Li k t Các quan h ng ngh ĩa đã đưc đ nh ngh ĩa trên s đưc xác đ nh bng các bi u th c lu n lý sau: Tồn b n i dung trình bày trong lu n án là cơng trình nghiên c u m ⇔ > ∨ = ∧ > lâu dài và và c ũng là thành qu mà tác gi đ t đưc trong quá trình R (mj,o i) (Dep(mj,o i) 0 Mem(mj,o i) 1 )Sim ( (mj,0o i) ) ( 3 . 8 ) R m (m ,m ) ⇔ (R m (m ,)o ∧ R m (m ,o )) ∧((℘ m >) ℘(m )) )9.3( nghiên c u đĩ. Đây là k t qu đ t đưc thu c các l ĩnh v c x lý f j1 j2 j1 i j2 i j1 j2 ngơn ng t nhiên, truy xu t thơng tin và ontology. Các đĩng gĩp p ⇔ > ∨ = ∧ > R (pk ,m j ) (Dep(pk ,m j ) 0 Pr o(pk ,m j ) 1) (Sim(pk ,m j ) (0) 3 . 10 ) đưc trình bày trong ph n 7.1 cùng nh ng k t qu đ t đưc v m t R p (p , p ) ⇔ (R p (p ,m ) ∧ R p (m ,m )) ∧((℘ p >) ℘(p ()) 3 . 11 ) f k1 k2 k1 j k2 j k1 k2 th c nghi m đã nh n m nh ý ngh ĩa v lý thuy t và th c ti n c a lu n án. Nh ng v n đ đưc trình bày trong ph n 7.2 là đng l c giúp tác Đnh ngh ĩa v quan h ng ngh ĩa nêu trên cĩ th đưc áp d ng vào gi hồn thi n nh ng k t qu đ t đưc trong lu n án và ti p t c lĩnh v c x lý ngơn ng t nhiên và các l ĩnh v c khác. Trong ph m - 33 - - 10 -
  12. vi xác đnh, các quan h nêu trên đưc áp d ng đ t o ontology cho 7.2. Hưng phát tri n mt mi n khái ni m trong l ĩnh v c Trí tu nhân t o, X lý ngơn ng Các th c nghi m trong các ch ươ ng tr ưc đã đã th nghi m cho t t c t nhiên; ngồi ra cĩ th đưc dùng đ ki m tra tính hồn ch nh c a gi i thu t mà lu n án đ xu t v i các ngu n d li u liên quan đưc cm danh t hay t o (m r ng) c m danh t t ươ ng đươ ng trong ch n l c, đã thu đưc nh ng k t qu kh quan. Tuy nhiên, m t s các l ĩnh v c thu c X lý ngơn ng t nhiên nh ư D ch máy, Truy vn đ . Tuy nhiên, m t s v n đ c n đưc nghiên c u trong giai xu t thơng tin, Rút trích thơng tin, Tĩm l ưc v ăn b n T gĩc đ đon ti p theo. tốn h c, vi c xây d ng các l p t ươ ng đươ ng t các quan h nêu trên đ th c hi n phân lo i đ i t ưng c ũng là nh ng gi i pháp c n đưc * V n đ 1 : Ti ưu h ơn ph n cài đt c a các gi i thu t và tn d ng quan tâm. tính ưu vi t ca m t s ph n m m chuyên d ng v t ch c qu n tr Đnh ngh ĩa 3.9 –Quan h gi a đ i t ưng, thành ph n đ c trưng và cơ s d li u h ưng đ i t ưng đ cĩ th ti t ki m nhi u h ơn v chi tính ch t đ c tr ưng ROMP (minh h a Hình 3.1) phí th i gian th c hi n gi i thu t và c i ti n hi u su t c a các Đnh ngh ĩa 3.10 – Truy v n hồn ch nh ph ươ ng pháp liên quan. V n đ 1 cĩ tính th c ti n cao, nên c n đưc Đnh ngh ĩa 3.11 – Dng bi u di n c a truy v n hồn ch nh ưu tiên xem xét. Đnh ngh ĩa 3.12 – Cây phân tích c a truy v n hồn ch nh (minh h a * V n đ 2 : Hi u ch nh m t s b ưc ti n x lý cho các ph ươ ng pháp Hình 3.1 và 3.2) Đnh ngh ĩa 3.12 – Đ th ng ngh ĩa đ cĩ th áp d ng cho ti ng Vi t ho c ngơn ng khác, c th : Đnh ngh ĩa 3.14 – Tính ch t liên quan c a cây phân tích − (2a) Xây d ng kho tài li u ti ng Vi t đã đưc chu n hĩa cĩ Đnh ngh ĩa 3.15 – Tp ng ngh ĩa c a truy v n s l ưng và ch t l ưng phù h p. object − (2b) H th ng ISE cn t o đưc các t p ch m c trên tài li u : R m : R p ti ng Vi t đ ng th i h tr tìm ki m truy v n ti ng Vi t. key member 1 key member 2 − (2c) C n th c hi n vi c ti n x lý nh m phân tích truy v n key property 1 1 key property 1 2 key property n (a) 1 ti ng Vi t (phân đon t , gán nhãn t lo i) tr ưc quá trình th c thi key property m 2 computer HDD các gi i thu t đã đ xu t trong lu n án. memory main -board Đây c ũng là v n đ c n đưc ưu tiên xem xét trong t ươ ng lai. processing unit capacity brand price * V n đ 3 : Ti p t c phát tri n các nghiên c u v ch m c h ưng content size quality ng ngh ĩa và các ng d ng liên quan . Nh ư v y, bài tốn ch m c (b) hưng ng ngh ĩa cĩ th đưc phân tích và khai thác theo nhi u gĩc largest well -known strongest smallest đ khác nhau nh m h tr các nghiên c u phát tri n h th ng web highest lowest Hình 3.1. Ví d v cây phân tích (b) đưc xây d ng t quan h R OMP (a) ng ngh ĩa. V n đ này đang đưc quan tâm x lý và đã cĩ m t s kt qu đưc cơng b trong cơng trình [iii] và [viii] . - 11 - - 32 -
  13. laptop d li u trong gi i thu t CB-KBT . Các k t qu th c nghi m này đã t o disc computer HDD notebook s n đ nh cho các th nghi m ti p theo. memory main -board Object − Nhĩm các gi i thu t x lý truy v n cĩ nh ng th c nghi m khá ph c t p qua nhi u b ưc đ xác đ nh tính kh thi và tính hi u qu t ươ ng ng. K t qu th c nghi m trong các gi i thu t NPC , SNPE processing unit capacity brand content price và NPMR cho th y giá tr đ chính xác t ươ ng đi cao trong các size quality Member ngu n d li u N 6, N 11 và N 12 liên quan đn ch đ tin h c, và giá tr đ ph cao m c t ng quát. T đây, chúng ta nh n th y đưc tính hi u qu c a các gi i thu t trong nh ng mi n cĩ liên quan m t thi t largest well-known strongest smallest highest lowest đn n i dung truy v n và tài li u ngu n. Các so sánh trình bày trong Property th c nghi m c a m i ph ươ ng pháp này c ũng cho th y nh ng ưu m p : R : R : synonymy/hypernymy (trong WordNet) đim c a t ng ph ươ ng pháp so v i cách tìm ki m thơ mà ng ưi s Hình 3.2. Đ th ng ngh ĩa G cĩ phân l p dng th c hi n trên các đng c ơ tìm ki m thơng tin hi n nay. − Kt qu t gi i thu t SIC trong nhĩm gi i thu t x lý khai 3.3. Các mơ hình cho bài tốn m r ng truy v n thác ch mc cho th y s l ưng các liên k t m r ng đ n ontology Liên quan đn h th ng m r ng và hồn ch nh truy v n là các đnh OOMP đt m c đ t ươ ng đi cao ph thu c vào s l ưng đ u m c ngh ĩa v mơ hình đ xu t sau đây: trong m i t p ch m c t ươ ng ng c ũng nh ư m c đ t ươ ng h p gi a − H th ng m r ng truy v n d a trên ontology và đc l p v i nh ng đ u m c đĩ v i các ph n t trong ontology OOMP . Điu này h th ng truy xu t thơng tin ( Query Expansion Model with Ontology- nh h ưng đ n k t qu th c nghi m c a gi i thu t HS trong nh ng +OB Based without Information Retrieval , QEM −IR ). tr ưng h p tìm ki m m r ng trong ph m vi c c b và tồn c c. Các − H th ng m r ng truy v n d a trên ontology k t h p xác so sánh trong th c nghi m c a gi i thu t này cho th y kh n ăng bao su t và đc l p v i h th ng truy xu t thơng tin ( Query Expansion ph trong k t qu c a gi i thu t HS tt h ơn so v i nh ng gi i thu t Model with Ontology-Based and Probability without Information va nêu trên. +OB +P Nhìn chung, k t qu b ưc đ u c a nh ng th c nghi m ch ươ ng 6 Retrieval , QEM −IR ). th hi n tính kh thi c a h ưng nghiên c u c a lu n án đ ng th i − H th ng m r ng truy v n d a trên ontology và k t h p h ph n ánh tính hi u qu c a các gi i thu t. H ưng nghiên c u x lý th ng truy xu t thơng tin ( Query Expansion Model with Ontology- truy v n và nâng cao ch t l ưng thơng tin truy xu t da trên +OB Based with Information Retrieval , QEM +IR ). ontology mang l i nhi u k t qu kh quan. Nh ng th c nghi m, − H th ng m r ng truy v n d a trên ontology k t h p xác nghiên c u c ũng nh ư vi c c i ti n các gi i thu t là c n thi t trong su t và tích h p h th ng truy xu t thơng tin ( Query Expansion tươ ng lai đ nâng cao tính hi u qu c a mơ hình mà lu n án đã đ Model with Ontology-Based and Probability with Information xu t. +OB +P Retrieval , QEM +IR ). Các mơ hình này đưc t ch c theo tính k th a nh ư hình 3.4. - 31 - - 12 -
  14. +OB Vn d ng ph ươ ng pháp phân tích c m danh t (trong l ĩnh v c x lý QEM −IR ngơn ng t nhiên) đ nh n d ng các thành ph n truy v n, t đĩ k t QEM +OB QEM +OB + P + IR −IR hp ontology OOMP đ h tr vi c hồn ch nh và m r ng truy v n, +OB + P QEM + IR gĩp ph n xây d ng m t mơ hình x lý truy v n x lý trong lu n án. Mơ hình này cùng v i nh ng gi i thu t liên quan đã gĩp ph n gi i Hình 3.4. T ch c phân c p các mơ hình quy t Bài tốn 2 c a lu n án, đ ng th i cĩ th m r ng áp d ng cho +OB Đnh ngh ĩa 3.16 – Mơ hình QEM −IR (Mơ hình 1) các bài tốn khác trong l ĩnh v c x lý ngơn ng t nhiên (truy xu t +OB +P Đnh ngh ĩa 3.17 – Mơ hình QEM −IR (Mơ hình 2) thơng tin, rút trích thơng tin, tĩm l ưc n i dung v ăn b n). +OB Các ph ươ ng pháp và gi i thu t liên quan đn đĩng gĩp này đưc gi i Đnh ngh ĩa 3.18 – Mơ hình QEM + (Mơ hình 3) IR thi u trong [ii], [v] và [ix] . +OB +P Đnh ngh ĩa 3.19 – Mơ hình QEM +IR (Mơ hình 4) * Đĩng gĩp th t ư: ph ươ ng pháp xây d ng ch m c h ưng ng ngh ĩa: 3.4. Mu nh n d ng c m danh t Ph ươ ng pháp này giúp phát tri n m t h th ng truy xu t thơng tin cĩ Đnh ngh ĩa 3.20 – Mu nh n d ng c m danh t và các thành ph n th tìm ki m thơng tin t t h ơn cho ng ưi dùng. Nĩ t o c ơ s cho các 3.5. Ph ươ ng pháp th c nghi m và đánh giá nghiên c u ng d ng liên quan đn truy xu t thơng tin, qua đĩ xác đnh h ưng nghiên c u chuyên bi t trong l ĩnh v c truy xu t thơng tin Trong truy xu t thơng tin, các đ đo đưc s d ng đ đánh giá là đ và web ng ngh ĩa. chính xác P ( precision ), đ bao ph R ( recall ) và đ trung bình điu Ph ươ ng pháp này đã đưc trình này trong [iv] và đưc phát tri n hịa F. Sau đây là đnh ngh ĩa liên quan các đ đo này [103]. trong [iii] cùng [viii] . Đnh ngh ĩa 3.21 – Đ chính xác (P) Nh ng k t qu đ t đưc c a lu n án cùng các đĩng gĩp nêu trên t o Đnh ngh ĩa 3.22 – Đ bao ph (R) cơ s cho các h ưng nghiên c u ti p theo c a tác gi và gĩp ph n Đnh ngh ĩa 3.23 – Đ trung bình điu hịa F phát tri n các ng d ng cho cơng trình [xii] và Error! Reference source not found Trong th c nghi m, các gi i thu t đ xu t trong lu n án đưc cài đt bng ngơn ng T-SQL th c hi n trong ph n m m qu n tr c ơ s d Ngồi ra, lu n án đưc hi n th c các th c nghi m cho nh ng gi i li u Microsoft SQL Server 2005. C u hình h th ng máy ch s thu t đã đưc trình bày các ch ươ ng, g m nhĩm gi i thu t hu n dng trong th c nghi m g m b x lý Intel(R) Core(TM) 2 Duo luy n ontology CB-KBT, WB-KBT và A-KBT ; nhĩm gi i thu t x lý T.7300 2.2GHz, b nh trong 2GB, b nh ngồi cĩ ph n dung truy v n CNPV , NPC , SNPE , NPMR , CNPG , RNPG , và nhĩm gi i lưng tr ng kh d ng 15GB. thu t xây d ng và khai thác ch m c h ưng ng ngh ĩa SIC, HS . M t Các cơng vi c h tr th c nghi m c n th c hi n bao g m: s k t qu đ t đưc cĩ ý ngh ĩa v th c t nh ư sau: − Xây d ng m t kho ng li u các tài li u ti ng Anh. − Kt qu th c nghi m c a các gi i thu t hu n luy n ontology − Xây d ng m t đ ng c ơ tìm ki m thơng tin c c b ( Internal cho th y s l ưng đáng k các d li u rút trích đưc cùng đ tin c y Search Engine, ISE ) d a trên cơng c Lucene [104] cho kho ng li u cao 80,41% cho d li u d ng Object , 97,09% cho d li u d ng nêu trên và đc l p v i các ph n ch ươ ng trình c a lu n án. Property trong gi i thu t WB-KBT , t i thi u là 98,02% cho các d ng − T ch c khai thác kho d li u WordNet - 13 - - 30 -
  15. − Th nh t, nh ng đ nh ngh ĩa v quan h ng ngh ĩa nh ư Rm , Ontology OOMP đĩng vai trị quan tr ng trong th c nghi m c a các gi i thu t trong vi c cung c p các d li u ng ngh ĩa c n thi t cho các R p , Rm và R p , và các khái ni m v truy v n hồn ch nh, cây phân f f gi i thu t đ b sung các thành ph n khi m khuy t. Trong ti n trình tích và d ng đ th ng ngh ĩa (trình bày trong ch ươ ng 3) t o ti n đ th c nghi m, cơng c ISE khơng nh ng tìm ki m tài li u cho các +OB cho vi c ki n t o các mơ hình m r ng truy v n nh ư MQE −IR , truy v n k t qu t nh ng gi i thu t đ xu t trong ch ươ ng 5 và 6, mà +OB +P +OB +OB +P cịn h tr xác đ nh các s li u (nh ư t n su t xu t hi n, đ ph thu c) MQE −IR , MQE +IR và MQE +IR . Nh ng mơ hình này ph n ca nh ng ph n t trong ontology, t đĩ giúp nâng cao ch t l ưng ánh k t qu kh quan c a s v n d ng h p lý các nghiên c u trong ca ontology này. lĩnh v c x lý ngơn ng vào bài tốn m r ng truy v n và web ng Da trên th ư vi n mã ngu n m Lucene [40], tác gi phát tri n m t ngh ĩa. H ơn n a, chúng khơng nh ng đưc áp d ng trong ph m vi đng c ơ tìm ki m thơng tin trong m t t p d liu c c b đ h tr lu n án đ gi i quy t Bài tốn 1 và Bài tốn 2, mà cịn cĩ th áp d ng các th c nghi m c a nh ng gi i thu t đ xu t trong lu n án. Đng c ơ trong m t s nghiên c u thu c l ĩnh v c x lý ngơn ng t nhiên. này đưc đ t tên “ Đng c ơ tìm ki m thơng tin c c b ” ( Internal − Th hai, vi c xây d ng các l p t ươ ng đng t các quan h Search Engine , ISE ). Đng c ơ này đưc cài đt b ng ngơn ng C# nêu trên s giúp cho vi c phân lo i đ i tưng hi u qu h ơn, t đĩ cĩ trên n n Microsoft DotNet Framework 2.0, cĩ h tr tìm ki m cho t th áp d ng vào ph ươ ng pháp phân tích truy v n CNPV c a lu n án khố đơ n và c m t , bao g m c c ơ ch tìm ki m g n đúng hay và cĩ th m r ng cho các tác v phân l p ng ngh ĩa trong các chính xác. ontology khác. Cơng trình [ii] , [iv] , [v] và [ix] đã gi i thi u ph ươ ng pháp lu n cùng 3.6. Ngu n d li u th c nghi m đnh ngh ĩa c a nh ng khái ni m này. Ngu n d li u tham kh o t t ch c TREC [41]. * Đĩng gĩp th hai: mơ hình ontology OOMP đ xu t và phươ ng Bng 3.1. Th ng kê thành ph n d li u t TREC pháp hu n luy n d li u CB-KBT, WB-KBT và A-KBT: Ký Ngu n d li u S l ưng Dung Trong ph m vi lu n án, ontology OOMP ph c v bài tốn m r ng hi u (t p tin) lưng truy v n và nh ng bài tốn khác theo h ưng khai thác các quan h (MB) N1 Associated Press (AP) 1.044 272 khái ni m. N2 Congressional Record (CR) 222 91,6 T gĩc đ ngơn ng h c, nh ng thành ph n c a ontology này đưc N3 Department of Energy abstracts (DOE) 178 72,1 phân l p d a trên các d ng t lo i nh ư danh t , tính t nên c u trúc N4 Foreign Broadcast Information Service (FB) 492 149 ca chúng ít ph thu c vào s khác nhau c a ngơn ng t nhiên. N5 Federal Register (FR) 828 244 N Financial Times Limited (FT) 593 197 Điu này t o s thu n l i cho vi c phát tri n ontology trên các ngơn 6 N7 Los Angeles Times (LA) 730 169 ng t nhiên khác (nh ư ti ng Vi t, Pháp ), t đĩ h ưng t i vi c N8 U.S. Patents (PATN) 235 249 xây d ng m t ontology h tr nhi u ngơn ng t nhiên khác nhau. N9 San Jose Mercury News (SJM) 301 294 Ni dung liên quan đn đĩng gĩp này đã đưc cơng b trong cơng N10 Wall Street Journal (WSJ) 572 159 trình [iv], [v] và [ix] . N11 Ziff-Davis-part 2 (ZF2) 427 424 N12 Ziff-Davis-part 1 (ZF) 354 353 * Đĩng gĩp th ba: mơ hình x lý truy v n (truy v n d ng c m danh t) d a trên ontology OOMP cùng v i nh ng gi i thu t CNPV , NPC , SNPE và NPMR : - 29 - - 14 -
  16. D li u ph c v vi c hu n luy n ontology OOMP đưc l ưu trong t p Ch ươ ng 7- KT LU N TRAINING_DATA cĩ s l ưng 247.988 c m danh t thu c chín T ch ươ ng 1 đn ch ươ ng 6, lu n án đã trình bày tồn b nghiên c u dng m u. ca tác gi v m r ng truy v n d a trên c ơ s ontology. Các ch ươ ng D li u ph c v vi c th nghi m cho các gi i thu t đưc l ưu trong đu l n l ưt cung c p c ơ s lý thuy t làm c ơ s cho tồn b các tp d li u TEST_DATA g m 12.282 c m danh t đưc ch n l c đ ph ươ ng pháp phân tích, hồn ch nh và m r ng truy v n đưc trình ki m tra th nghi m trong các gi i thu t khác c a lu n án. bày các ch ươ ng ti p theo. M i ch ươ ng k ti p đ xu t mơ hình, Bng 3.2. Danh sách t p ch m c xây d ng cho h th ng ISE ph ươ ng pháp c ũng nh ư nh ng gi i thu t x lý phù h p d a trên c ơ Ngu n Dung l ưng t p Ngu n Dung l ưng t p s lý thuy t đã đưc trình bày các ch ươ ng tr ưc. Nh ng n i dung d li u ch m c (MB) d li u ch m c (MB) đưc trình bày các ch ươ ng đã bám sát m c tiêu đ ra hai bài tốn AP (N 1) 552 LA (N 7) 518 CR (N 2) 276 PATN (N8) 257 ban đu. Điu này c ũng th hi n thơng qua nh ng k t qu đ t đưc DOE (N 3) 214 SJM (N 9) 313 v m t lý thuy t và th c ti n c a lu n án. Các k t qu nghiên c u FB (N 4) 198 WSJ (N 10 ) 307 ca lu n án đã gĩp ph n xác đnh nh ng v n đ c n nghiên c u, phát FR (N ) 287 ZF2 (N ) 417 5 11 tri n trong th i gian t i. FT (N 6) 663 ZF (N 12 ) 511 7.1. Kt qu đ t đưc Bng 3.3. Th ng kê c m danh t theo m u trong TEST_DATA Mu S l ưng T l (%) Mu S l ưng T l (%) T ý t ưng khai thác nét đ c tr ưng c a truy v n d ng c m danh t , M3 305 2,48 M149 201 1,64 lu n án đã đ xu t mơ hình và ph ươ ng pháp lu n nghiên c u v m M60 2.592 21,10 M150 159 1,29 rng truy v n trên c ơ s ontology trong lĩnh v c truy xu t thơng tin. M 276 2,25 M 542 4,41 71 178 T vi c m r ng truy v n lu n án cịn th c hi n xây d ng c m danh M81 712 5,80 M184 592 4,82 t hồn ch nh, là d ng c m danh t v a th a mãn ch c n ăng ng M85 186 1,51 M186 1.027 8,36 M87 189 1,54 M192 331 2,70 pháp c a ngơn ng t nhiên, v a mang ng ngh ĩa c n thi t đ tìm M89 154 1,25 M195 192 1,56 ki m thơng tin cho cĩ k t qu t t hơn. Tác gi đã xây d ng c ơ s lý M99 1.463 11,91 M196 211 1,72 thuy t cho mơ hình m r ng truy v n và các gi i thu t th c hi n vi c M 143 1,16 M 165 1,34 102 203 ki m tra, hồn thi n, m r ng truy v n. M t h ưng phát tri n khác M103 584 4,75 M204 155 1,26 M116 1048 8,53 M205 162 1,32 ca lu n án là xây d ng h th ng ch m c h ưng ng ngh ĩa, nh m M125 431 3,51 M209 148 1,21 m r ng kh n ăng x lý m r ng truy v n cho m t h th ng truy M142 314 2,56 xu t thơng tin. Nh ng k t qu này đã đáp ng đưc m c tiêu c a Bài tốn 1 và Bài tốn 2 mà lu n án đã đư a ra. Ch ươ ng 4- XÂY D NG ONTOLOGY OOMP Kt qu nghiên c u c a lu n án cĩ ý ngh ĩa v khoa h c và th c ti n vi các đĩng gĩp m i nh ư sau. 4.1. Gi i thi u * Đĩng gĩp đu tiên: đ xu t m t s ph ươ ng pháp xác đnh các Vi nh ng ưu đim và l i ích khi ng d ng ontology vào vi c m quan h c a các khái ni m ph c v vi c x lý các bài tốn và rng truy v n và truy xu t thơng tin (trình bày trong ph n 2.2, ph ươ ng pháp đưc đ xu t trong lu n án: ch ươ ng 2), vi c phát tri n m t ontology nh m ph c v bài tốn m - 15 - - 28 -
  17. Bng 6.2. So sánh k t qu th c nghi m 1 rng truy v n c a lu n án đĩng vai trị quan tr ng. H ơn n a, do các STT S li u trung bình PP-Thơ PP-HS T l bài tốn x lý trong lu n án liên quan đn khái ni m c m danh t 1 S k t qu tìm đưc 687 721 1,05 hồn ch nh cùng nh ng quan h ng ngh ĩa nh ư R OMP , R m và R p, tuy 2 Th i gian th c thi 276,43 1.127,33 4,08 nhiên WordNet ch ưa đáp ng đ y đ các yêu c u c n thi t này đng Kt qu này ph n ánh t l t t h ơn (1,05 l n) đ t đưc v m t k t qu th i gi i pháp m r ng WordNet đ b sung các d ng quan h nêu tìm đưc trung bình c a PP-HS so v i kt qu c a PP-Thơ. Tuy trên địi h i nhi u th i gian, cơng s c khơng hồn tồn kh thi cho nhiên, chi phí trung bình v th i gian tìm ki m c a gi i thu t HS lu n án, nên vi c xây d ng riêng bi t ontology OOMP là v n đ c n cũng cao h ơn (4,08 l n) so v i tìm ki m thơ. Đây là v n đ nh thi t nh m ki n t o nhĩm các m ng ng ngh ĩa t ươ ng ng cho các hưng đ n tính hi u qu c a gi i thu t HS. quan h này. Bng 6.3. So sánh k t qu th c nghi m 2 Da trên c ơ s lý thuy t đ xu t ch ươ ng 3, trong ch ươ ng 4 này các STT S li u trung bình PP-Thơ PP-HS T l vn đ l n l ưt đưc trình bày liên quan đn vi c phát tri n ontology 1 S k t qu tìm đưc 354 354 1,00 2 Th i gian th c thi 837,17 1.936,43 2,31 OOMP (Ontology of Object–Member–Property ) nh ư xác đnh c u trúc t ch c, ph ươ ng pháp hu n luy n, th c nghi m và k t qu thu C hai ph ươ ng pháp đu thu đưc giá tr bình quân c a s tài li u tìm đưc. M t ph n k t qu c a ch ươ ng này đã cơng b trong cơng trình đưc ngang nhau. M t ngh ch lý x y ra liên quan đn th i gian th c [v] và [ix] . thi trung bình c a c hai ph ươ ng pháp. C hai giá tr c a “PP-Thơ” và “PP-HS” đu cao h ơn so v i k t qu t ươ ng ng trong th c 4.2. Xây d ng ontology OOMP nghi m tr ưc đĩ. Tuy nhiên, t l cách bi t v th i gian th c thi gi a So v i các ontology khác, đ c tr ưng n i b t nh t c a ontology hai ph ươ ng pháp đưc thu gi m t 4,08 (trong th c nghi m 1) xu ng OOMP chính là t ch c phân c p các khái ni m ng ngh ĩa da theo cịn 2,31. Kt qu này ph n ánh m c c i thi n đáng k v th i gian quan h ROMP . th c thi trung bình c a gi i thu t HS so v i k t qu c a tìm ki m thơ. Cu trúc này đưc th hi n chi ti t trong hình 4.1 vi các thành ph n Đây là m t b ưc c i ti n khách quan nh h ưng đ n tính hi u qu d li u t ươ ng ng cho t ng th c th , thơng qua đĩ chúng ta cĩ th ca gi i thu t HS. hi n th c b ng m t mơ hình c ơ s d li u trong th c t . Bng 6.4. So sánh k t qu th c nghi m 3 STT S li u trung bình PP-Thơ PP-HS T l Object Rm KeyMember Rp KeyProperty 1 S k t qu tìm đưc 104 167 1,61 oID oIDmI mID mID pID 2 Th i gian th c thi 354,86 388,83 1,10 oValue D mValue pID pValue oType Dep mType Dep pType Kt qu này ph n ánh t l t t h ơn khá cao (1,61 l n) đ t đưc v m t mPriority pPriority mProbability pProbability kt qu tìm đưc trung bình c a gi i thu t HS so v i k t qu c a tìm kim thơ. Đ ng th i, cách bi t v chi phí trung bình v th i gian tìm Hình 4.1. C u trúc ontology OOMP v t ch c c ơ s d li u quan h ki m gi a gi i thu t HS và tìm ki m thơ c ũng đưc thu gi m đáng k Vi c hu n luy n ontoloy OOMP đưc gi i quy t b ng m t trong hai (ch cịn l i 1,10 l n so v i 2,31 l n th c nghi m 2) so v i tìm cách ti p c n. ki m thơ. So v i k t qu t ươ ng ng th c nghi m 1 và 2, đây là c i − Cách th nh t h ưng đ n vi c khai thác các thơng tin trong ti n khách quan nh h ưng đ n tính hi u qu c a gi i thu t HS. kho ng li u cho tr ưc thơng qua vi c s d ng các m u (trong m c 3.4 ch ươ ng 3) đ tìm các thành ph n d tuy n nh m xác đ nh các giá tr phù h p cho vi c l ưu tr . - 27 - - 16 -
  18. − Cách th hai h ưng đ n vi c khai thác các thơng tin ng Gi i thu t 6.2. To ch m c h ưng ng ngh ĩa (Semantic Index ngh ĩa đã cĩ s n trong WordNet. Creation, SIC) (đ ph c t p là O(n 2)) Gi i thu t 6.3. Tìm ki m k t h p (Hybrid Search, HS) (O(n)) 4.3. Ph ươ ng pháp hu n luy n da trên kho ng li u Kt qu th c nghi m: Gi i thu t 4.1. Hu n luy n ontology d a trên kho ng li u (Corpus- 3,866 3,966 2 Based Knowledge Base Training, CB-KBT) (đ ph c t p O(n )) . 3,285 3,261 3,248 3,125 3,102 3,203 7,278 7,429 3,102 2,797 2,727 6,400 6,321 6,360 6,393 5,943 5,907 5,974 5,637 95738 5,195 7,307 1,224 7,197 5,004 4,543 5,179 4,660 5,015 2,756 5,100 4,677 5,145 5,300 2,240 46751 47710 20632 18810 N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 6453 8463 2857 574 Liên k t đ n ph n t d ng Object Liên k t đ n ph n t d ng Member M3 M178 M184 M186 M192 M195 M196 M204 M209 Liên k t đ n ph n t d ng Property Hình 4.2. Phân b c m danh t trong t p TRAINING_DATA theo d ng m u Hình 6.7. So sánh s liên k t t o thành theo ngu n d li u t SIC Bng 4.1. D li u d tuy n rút trích đưc trong gi i thu t CB-KBT STT Tp d li u S l ưng S l ưng chính xác Đ tin c y (%) 10.48 10.75 1 Object 11.396 11.378 99,84 8.8 8.9 8.68 8.84 8.41 8.47 8.41 7.58 2 Member 9.210 9.173 99,60 7.39 10.17 10.38 8.93 8.25 8.94 8.83 8.88 3 Property 16.515 16.188 98,02 8.3 8.34 7.87 7.26 m 4 Quan h R 85.687 85.428 99,70 3.32 11.73 11.91 8.44 8.31 8.38 8.64 5 Quan h R p 104.001 70.110 67,41 8.15 7.4 7.59 8.17 3.85 7.62 3.65 4.4. Ph ươ ng pháp hu n luy n d a trên WordNet N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 Liên k t đ n ph n t d ng Object (%) Liên k t đ n ph n t d ng Member (%) Gi i thu t 4.2. Hu n luy n ontology d a trên WordNet (WordNet- Liên k t đ n ph n t d ng Property (%) 2 based Knowledge Base Training, WB-KBT) (đ ph c t p O(n )) . Hình 6.8. So sánh t l liên k t t o thành theo ngu n d li u t SIC Bng 4.2. D li u đưc rút trích trong gi i thu t WB-KBT STT Lo i S l ưng S l ưng chính xác Đ chính xác (%) Các liên k t này đĩng vai trị quan tr ng trong vi c m r ng các k t 1 Object 7.193 5.784 80,41 2 Member 11.221 3.618 32,24 qu tìm ki m trong ph n th c nghi m c a gi i thu t HS sau đây. 3 Property 824 800 97,09 Các b ưc ti n hành th c nghi m ca gi i thu t HS nh ư sau: 4 Quan h R m 34.945 1.178 3,37 − Th c nghi m 1 : bài tốn tìm ki m m r ng tồn c c trong p 5 Quan h R 2.815 1.662 59,04 ph m vi tồn c c. 4.5. Cơ ch t hu n luy n c a ontology OOMP − Th c nghi m 2 : bài tốn tìm ki m m r ng tồn c c trong ph m vi c c b . Gi i thu t 4.3. Hu n luy n ontology t đ ng (Automatic Knowledge 2 − Th c nghi m 3 : bài tốn tìm ki m m r ng c c b trong Base Training, A-KBT) (đ ph c t p O(n )) . ph m vi c c b . - 17 - - 26 -
  19. Bng 4.3. D li u b sung t o b i gi i thu t A-KBT f(A) Y -1 STT Lo i S l ưng S l ưng chính xác Đ chính xác f m f 1 Quan h R 3.953 1.611 40,75% 2 Quan h R p 2.807 1.074 38,26% f-1(f(A)) A X 4.6. Các ng d ng c a ontology và quan h Hình 6.3. Minh h a tính ch t (6.1) Trong l ĩnh v c này, m t s ph ươ ng pháp cĩ th ng d ng đ: Ph ươ ng pháp ti p c n c a h th ng d a trên tính ch t (6.1): − Ki m tra tính hồn ch nh c a c m danh t ( Complete Noun Phrase Verification, CNPV ) − To c m danh t hồn ch nh ( Complete Noun Phrase (gi i thu t HS ) Generation, CNPG ) (gi i thu t SIC ) − To c m danh t rút g n ( Reductive Noun Phrase Generation, RNPG ) (tp k t qu m r ng ) − Hồn ch nh thành ph n c m danh t ( đ b sung m t hay nhi u tính ch t tr i) ( Noun Phrase Completion, NPC ) (tìm ki m thơ ) (tp k t qu thơ ) − M r ng c m danh t t ươ ng đươ ng ( đ b sung m t hay nhi u tính ch t đ c tr ưng cho m t đ i t ưng trong truy v n) ( Similar Noun Phrase Expansion, SNPE ) Hình 6.4.ng d ng tính ch t (6.1) vào m r ng k t qu truy v n − Rút g n thành ph n c m danh t ( đ lo i b hay thay th Mơ hình h th ng x lý m r ng này th hi n trong hình 6.8. mt s thành ph n trong c m danh t b ng m t hay nhi u thu c tính đc tr ưng) ( Noun Phrase Member Reduction, NPMR ) Ch ươ ng 5- HỒN CH NH VÀ RÚT G N TRUY V N 5.1. Gi i thi u Hình 6.5. Mơ hình th ng m r ng truy v n k t h p h th ng truy xu t thơng tin cĩ s n Ch ươ ng 5 l n l ưt trình bày các tác v liên quan đn bài tốn hồn ch nh. M i ph n c a ch ươ ng này l n l ưt trình bày m c tiêu c a Index id 1 id 2 id i id i+1 id n-1 id n tng tác v , gi i thu t hi n th c tác v , ví d minh h a và th c nghi m v i đ y đ s li u th c nghi m th c t . Mt ph n k t qu ca ch ươ ng này đã cơng b trong cơng trình [v]. Object Member 1 Object Member 2 Member 1 Property 1 1 Member 2 Property 1 2 Property 1 1 Property n 1 Object Property m 2 Ontology Property 1 2 Member 1 5.2. Hồn ch nh và rút g n truy v n Member 2 Property n 1 Property m 2 Property 1 1 Property 1 2 Object Property n 1 Property m 2 Member 1 +OB +P Member 2 Object Property 1 1 Member 1 Ngồi ra, trên c ơ s lý thuy t ph n 3.2 v mơ hình MQE − , Property 1 2 Member 2 IR Property n 1 Property 1 1 Property m 2 Property 1 2 Property n 1 Property m 2 vi c m r ng truy v n và b sung các c m t t ươ ng đươ ng cịn đưc Hình 6.6.Mơ hình t ch c ch m c trong h th ng truy xu t thơng tin h tr b i gi i thu t hồn ch nh truy v n cho các tr ưng h p ch ưa rõ - 25 - - 18 -
  20. ngh ĩa. Trong m t s tr ưng h p c th , truy v n cĩ th đưc bi u nh ng ng c nh nh t đ nh, t đĩ nh h ưng đ n đ nh h ưng nghiên di n d ng rút g n thơng qua vi c lo i b m t s thành ph n khơng cu trong t ươ ng lai v v n đ c i ti n ph ươ ng pháp SNPE. quan tr ng. Mơ hình h th ng hồn ch nh và rút g n truy v n đưc Bng 6.1. So sánh k t qu c a ph ươ ng pháp tìm ki m thơ và SNPE mơ t nh ư sau. Giá tr bình quân theo truy v n PP-Thơ PP-SNPE T l (a) S l ưt tài li u tìm đưc 7.925659 37.90736 4.782865 (b) S l ưt tài li u tìm đưc chính xác 4.983213 24.08883 4.833995 (c) S l ưt tài li u tìm đưc phân bi t 1.62542 0.363176 0.223435 (d) S l ưt tài li u tìm đưc chính xác 0.37458 0.060854 0.162459 phân bi t Hình 5.1. Mơ hình h th ng hồn ch nh và rút g n truy v n Ph ươ ng pháp x lý c a nh ng mơ-đun này đưc trình bày thơng qua 6.2. M r ng truy v n cho h th ng truy xu t thơng tin cĩ s n gi i thu t NPC và NPMR m c 5.6 và 5.7, trong đĩ s d ng h tr So v i mơ hình ph n 6.1, m t h ưng ti p c n khác là liên k t t nh ng gi i thu t gi i thi u trong m c 5.3, 5.4 và 5.5 sau đây. ontology OOMP vi m t h th ng truy xu t thơng tin cĩ s n b ng vi c t o s k t h p ontology OOMP vi t p ch m c c a h th ng. 5.3. Ki m tra c m danh t hồn ch nh Mơ hình này đ tri n khai vi c tìm ki m d li u đưc m r ng thơng Gi i thu t 5.1 . Ki m tra c m danh t hồn ch nh (Complete Noun qua gi i thut tìm ki m k t h p ( Hybrid Search , HS ). Mơ hình lý Phrase Verification, CNPV) (đ ph c t p O(n)) +OB+P thuy t MQE+ đĩng vai trị n n t ng cho ph ươ ng pháp này. Kt qu th c nghi m: IR ⊆ 2000 Nu f : X Y là m t ánh x t t p h p X đ n t p h p Y, A X là 1800 tp h p các ph n t , y=f(x) là nh c a ph n t x qua f, A∈X là t p 1600 hp các ph n t , f(A) là nh c a t p h p A qua f, B ∈Y là t p h p 1400 -1 1200 các ph n t , f (B)={x ∈X / f(x) ∈B} là t o nh c a B qua ánh x f − 1000 thì: A ⊆ f 1((f A)) ⊆ X )1.6( (minh h a hình 6.3) 800 600 Da theo phân tích trên, ph ươ ng pháp ti p c n c a gi i thu t là s 400 dng ontology OOMP đ m r ng h th ng ch m c m c đ nh ( đưc 200 to b i m t cơng c t o ch m c nh ư Lucene, Lemure ) nh m t o 0 M3 ra h th ng ch m c h ưng ng ngh ĩa. B ưc x lý này đưc th hi n M60 M85 M89 M60 M85 M89 M60 M81 M87 M71 M85 M60 M85 M99 M99 M184 M192 M196 M209 M192 M205 M125 M149 M178 M205 M184 M203 M102 M116 M142 M178 M178 M203 M186 M209 M103 M149 M142 M150 M192 M186 M195 M204 M102 M125 M149 TH0 TH1 TH10 TH11 TH15 TH2 TH3 TH4 TH5TH6 TH7 TH9 bi v i gi i thu t T o ch m c h ưng ng ngh ĩa ( Semantic Index Hình 5.2. Các tr ưng h p x lý trong gi i thu t CNPV theo d ng l i & mu Creation , SIC ), trong đĩ gi i thu t SIC đĩng vai trị ánh x f nh ư th hi n trong hình 6.6 trên. T đĩ, v i m t truy v n q ban đ u, thơng 5.4. To cm danh t hồn ch nh qua vi c tham kh o ( đưc th c hi n b i gi i thu t Tìm ki m k t h p Gi i thu t 5.2. To c m danh t hồn ch nh (Complete Noun Phrase (Hybrid Search , HS ) đn h th ng ch m c m r ng này, vi c tìm Generation, CNPG) (đ ph c t p O(n)) ki m xác đ nh đưc t p m c t trong ch m c ( đĩng vai trị nh ư t p A) và t p m r ng c a nh ng m c t liên k t ( đĩng vai trị nh ư f - 1(f(A) ) (minh h a hình 6.4). - 19 - - 24 -
  21. Đim đ c bi t c a mơ hình đ xu t này là s t ươ ng tác gi a h th ng 5.5. To c m danh t rút g n m r ng truy v n và đng c ơ tìm ki m thơng tin ch di n ra m c Gi i thu t 5.3. To c m danh t rút g n (Reductive Noun Phrase d li u lu n lý thơng qua k t qu d ng bi u di n trung gian g m t Generation, RNPG) (đ ph c t p O(n)) hp đ nh d ng lu n lý c a các c m danh t đưc m r ng. 5.6. Hồn chnh c m danh t Gi i thu t 5.4. Hồn ch nh c m danh t (Noun Phrase Completion, NPC) (đ ph c t p O(n 2)) Kt qu th c nghi m: Hình 6.1. Mơ hình h th ng m r ng truy v n v i đ ng c ơ tìm ki m thơng 653 650 tin 590 Gi i thu t 6.1 . M r ng c m danh t t ươ ng đươ ng (Similar Noun 452 427 Phrase Expansion, SNPE) (đ ph c t p O(n2)) 425 354 354 304 295 Kt qu th c nghi m: 307 201 178 99.3% 100.0% 100.0% 99.3% 100.0% 100.0% 98.7% 99.0% 100.0% 156 169 92.9% 95.2% 93.8% 100.0% 100.0% 151 92.1% 133 85.6% 86.0% 86.2% 75.3% 75.9% 14 20 8 1 13 2 16 59.8% N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 42.9% Kt qu (s tài li u) Kt qu chính xác (s tài li u) 16.6% Hình 5.3. Th ng kê s l ưng k t qu th c nghi m theo ngu n d li u 9.1% 8.6% 9.5% 4.5% 5.0% 3.9% 2.0% 0.4% 0.2% 3.8% 1.9%2.0% 1.0% N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 100.0% 100.0% 100.0% 100.0% 100.0% 95.2% 98.5% 99.8% 98.1% 99.7% 99.5% 92.9% 99.5% 99.5% Đ chính xác Đ bao ph Đ F 92.7% 85.0% 86.7% 86.7% Hình 6.1. Th ng kê s li u các đ đo theo ngu n d li u 74.7% 76.6% 59.4% 724 42.7% 659 593 18.0% 10.0% 10.3% 480 9.8% 5.1% 5.4% 450 427 4.2% 2.1% 0.7% 0.3% 3.9% 2.0%2.3% 1.2% 354 354 N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 301 305 220 178 177 194 Đ chính xác Đ bao ph Đ F 134 152 13 20 8 1 14 2 15 Hình 5.4. Th ng kê s li u các đ đo theo ngu n d li u N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 Bng 5.1. So sánh k t qu c a ph ươ ng pháp tìm ki m thơ và NPC Giá tr bình quân theo truy v n PP-Thơ PP-NPC T l Kt qu (s tài li u) Kt qu chính xác (s tài li u) Hình 6.2. Th ng kê s l ưng k t qu th c nghi m theo ngu n d li u (a) S l ưt tài li u tìm đưc 52,7445 48,91685 0,92743 So sánh trên cho th y ph ươ ng pháp SNPE cĩ k t qu tr i n i b t (b) S l ưt tài li u tìm đưc chính xác 23,60186 28,07387 1,189477 trong các m t (a), (b) nh ưng ch ưa th t s tr i m t (c) và (d). Điu (c) S l ưt tài li u tìm đưc phân bi t 0,938901 1,607647 1,712264 này ph n ánh ưu và nh ưc đim c a ph ươ ng pháp SNPE trong (d) S l ưt tài li u tìm đưc chính xác 0,15493 0,289903 1,871195 phân bi t - 23 - - 20 -
  22. So sánh trên cho th y ph ươ ng pháp NPC cĩ k t qu t t h ơn các So sánh (a), (b) và (c) trên cho th y s c i thi n đáng k v ch t mt (b), (c) và (d). Điu này ch ng t ph ươ ng pháp NPC cĩ tác đng lưng và s l ưng c a ph ươ ng pháp NPMR. Đây chính là m t k t tích c c đ n vi c c i thi n ch t l ưng truy v n, nĩi cách khác là t l qu khích l mà bài tốn rút g n truy v n đ t đưc. đ chính xác c a k t qu thu đưc t ăng lên. Ch ươ ng 6- M R NG TRUY V N 5.7. Gi i thu t rút g n thành ph n c m danh t +OB +OB +OB +P Gi i thu t 5.5. Rút g n thành ph n c m danh t (Noun Phrase Thơng qua các mơ hình MQE −IR , MQE +IR , MQE −IR , 2 Member Reduction, NPMR) (đ ph c t p là O(n )) +OB +P MQE + đ xu t m c 3.2 ch ươ ng 3, v n đ m r ng truy v n Kt qu th c nghi m: IR đưc ti p c n theo hai h ưng: 97.0% 100.0% 100.0% 98.2% 100.0% 100.0% 99.7% 99.8% 95.2% 94.2% 92.7% − Hưng tồn c c: th c hi n m r ng truy v n cho các đ ng 85.7% 85.1% 86.7% 83.7% 81.3% 73.6% 75.0% cơ tìm ki m thơng tin trên Web, nh ư n i dung chi ti t ph n 6.1 57.1% − Hưng c c b : th c hi n m r ng truy v n cho các h th ng 41.0% truy xu t thơng tin cĩ s n dùng kho ng li u c c b k t h p vi c phát 16.6% tri n h th ng ch m c h ưng đ n ng ngh ĩa (t đây đưc g i là h 9.1% 8.4% 8.2% 3.4% 4.4% 3.8% 4.3% 1.7% 0.2%0.4% 1.9% 0.9%1.8% th ng truy xu t thơng tin cĩ s n) nh ư n i dung chi ti t trong ph n 6.2 N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12 Trên c ơ s hai h ưng này, vi c phát tri n các h th ng m r ng truy Đ chính xác Đ bao ph Đ F vn đưc th c hi n d a trên vi c k t h p ontology OOMP cùng các Hình 5.5. Th ng kê s li u các đ đo theo ngu n d li u ng d ng c a b quan h Rm , Rm , R p , R p đ t đĩ s xác đ nh 730 f f 691 ph ươ ng th c x lý c n thi t. M i ph n c a ch ươ ng này s l n l ưt 593 480 trình bày m c tiêu, gi i thu t hi n th c cùng ví d minh h a cho t ng 445 427426 354 354 ph ươ ng pháp, th c nghi m liên quan cùng s li u th c t . 301 307 Mt ph n k t qu c a ch ươ ng này đã cơng b trong cơng trình [iv] , 220 225 178 182 131 145 [ix] và m t s phát tri n đưc gi i thi u trong [iii] [viii] . 20 12 8 1 14 2 13 6.1. M r ng truy v n cho đ ng c ơ tìm ki m trên Web 1 2 3 4 5 6 7 8 9 101112 Kt qu (s tài li u) Kt qu chính xác (s tài li u) Mơ hình h th ng đưc đ xu t nh ư hình 6.1. Trong mơ hình, h Hình 5.6 Th ng kê s l ưng k t qu th c nghi m theo ngu n d li u th ng m r ng truy v n đĩng vai trị nh ư m t mơ-đun liên k t v i Bng 5.2. So sánh k t qu c a ph ươ ng pháp tìm ki m thơ và NPMR đng c ơ tìm ki m thơng tin. Trong h th ng này, ch c n ăng m r ng Giá tr bình quân theo truy v n PP-Thơ NPMR T l truy v n b ng gi i thu t SNPE đưc th c hi n cho phép truy v n nh p d ng c m danh t ti ng Anh. Gi i thu t này b sung m t ho c (a) S l ưt tài li u tìm đưc 7.925659 197.0885 24.86714 nhi u tính ch t đ c tr ưng cho m t đ i t ưng trong truy v n. Vi c b (b) S l ưt tài li u tìm đưc chính xác 4.983213 74.40406 14.93094 sung này s thêm các ph n t m i o ∈O, m ∈M, p ∈P, nh ư v y c m (c) S l ưt tài li u tìm đưc phân bi t 1.62542 2.137698 1.315167 i j k danh t m i s đưc t o ra. (d) S l ưt tài li u tìm đưc chính xác 0.37458 0.352596 0.941309 phân bi t - 21 - - 22 -