跨語檢索檢視原始碼討論檢視歷史
跨語檢索 |
---|
|
跨語檢索,或稱「跨語資訊檢索」(Cross-Language Information Retrieval,CLIR),其定義採用 Oard, D. W.在1997年發表的文章《Cross-Language Information Retrieval Defined》[1]。跨語檢索意指使用者使用某種自然語言的檢索詞彙檢索由另一種語言表達的文件。
舉例來說,使用者使用(自己熟悉的)中文產生一組檢索詞彙進行檢索,而其檢索結果皆以(使用者完全不懂或不熟悉)的日文,所撰寫的文件。
起源與發展
1969年,Salton,G.發表《Automatic processing of foreign language documents》文章。Salton 以智能文本信息檢索系統當作實驗對象,智能檢索系統背後有多國語言語料庫的支援,藉由該系統,Salton 使用英文為主要檢索詞彙的語言,檢索德文的文件和資料,反之亦然。實驗結果發現,採用全自動文件處理方法(fully automatic text processing methods)的 SMART 文件檢索系統可以用相對簡單而有效率的方式,進行文獻索引、分類、搜尋,和檢索等工作。這也是文獻中,第一次提到跨語檢索概念的文章,不過這篇文章尚未正式使用跨語檢索或跨語資訊檢索一詞。
1992年,美國國家標準和科技機構 (National Institute of Standards and Technology, 簡稱 NIST)和美國情報局先進研發活動 (Advanced Research and Development Activity center of the U.S. Department of Defense, 簡稱 DARDA ] 合作舉辦「文字檢索會議」(The Text REtrieval Conference, TREC[2]),一開始是附屬於 TIPSTER Text program[3]底下的計畫,從1992年之後,每年都會舉辦一次TREC會議。TREC 會議成立目的是輔導與支援資訊檢索相關研究,提供標準測試集協助研究者進行測試等。
1996年,美國計算機協會(Association of Computing Machinery,ACM)在瑞士所舉辦的SIGIR-96會議中,首次出現以跨語檢索為研究主題的研討會,與跨語檢索相關的討論,可在這本會議論文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》找到。
1998年,召開第一次 NII Test Collection for IR Systems program 會議(NTCIR)[4]。NTCIR會議主要是由日本學術振興會(JSPS[5])、日本國家科學資訊系統中心(NACSIS),以及日本國立情報學研究所(NII) 共同合作舉辦。其目的是希望,在資訊檢索與自然語言檢索的研究領域中,能發展出以日文為主的標準測試集。至今,已發展出NTCIR1~6的文件集。
2000年,歐盟成立「跨語言資訊檢索論壇」(Cross Language Evaluation Forum,CLEF[6]) ,每年定期舉辦跨語檢索研討會,並且推動跨語檢索技術評比。目前有文字資訊檢索評比,或稱文本信息檢索(text retrieval)評比和跨語圖片資訊檢索評比,或稱跨語圖像檢索(Cross-Language Image Retrieval] )項目,除了跨語檢索技術評比之外,尚包括發展以歐洲語系為主的單語資訊檢索系統(monolingual information retrieval system)的基礎建設,包含測試 (testing)和評鑑(evaluating)等工作,該組織也包含在歐盟的數位圖書館 (digital library)計畫中。
特徵
跨語檢索的特徵,根據陳信希教授在2002年的《跨語檢資訊檢索:理論、技術與應用》這篇文章指出,共具有六項特徵,將內容統整如下:
- 檢索詞彙的歧義性(ambiguity):翻譯檢索詞彙的過程,不只會遇到檢索詞彙一詞多義的情形,翻譯後的目標檢索詞彙(target query)的多義性(polysemy)也是需要解決的問題之一。
- 檢索詞彙(query)和文件(document)分屬不同語言:其為跨語檢索最主要的特徵。檢索詞彙和文件間必須要有特定的對應關係,翻譯技術是建立其關係的重要運算之一。
- 檢索詞太短:跨語檢索者所輸入的檢索詞彙往往太簡短,因而造成翻譯和歧義性的困難度。
- 語言識別(language identification)困難:如果跨語檢索系統無法辨識該檢索詞彙是何種語言,如中文、英文、拉丁文和俄文等,就無法檢索出使用者所需要的資料。
- 斷詞和書寫符號的問題:因為中文的詞與詞之間沒有明顯的分隔符號,因此會有斷詞(segmentation)的問題。而俄文、西班牙文等語文,電腦沒有自動產生文字的功能,如當使用者欲於搜尋引擎或文件中,輸入俄文,必須利用其他的應用軟體,才能產生俄文,而不像英文或中文可直接從輸入法中選擇。
- 輸出結果的呈現(visualization):包含檢索結果得到的多語言文件要如何合併,介面該如何呈現,才能使檢索者一目了然等問題。
使用技術
根據陳信希和陳光華的文章,目前跨語檢索相關技術,可分成三大類,分述如下:
- 翻譯文件:此法可分成兩種,一種為文本的翻譯,另一種為特徵向量的翻譯。
- 不翻譯。