開啟主選單
求真百科
搜尋
檢視 跨語檢索 的原始碼
←
跨語檢索
由於下列原因,您沒有權限進行 編輯此頁面 的動作:
您請求的操作只有這個群組的使用者能使用:
用戶
您可以檢視並複製此頁面的原始碼。
{| class="wikitable" style="float:right; margin: -10px 0px 10px 20px; text-align:left" ! <p style="background: #D6A4AB; color: #000000; margin:auto; padding:5px 0; "> '''跨語檢索''' </p> |- |<center><img src="https://static.wixstatic.com/media/a637f2_de51ef6bdf5b47b4a46fa5668eb93272~mv2.png/v1/fill/w_560,h_236,al_c,q_85,usm_0.66_1.00_0.01/%E5%9C%964s%20(1).webp" width="280"></center><small>[https://www.iisr.csie.ncu.edu.tw/copy-of-11 圖片來自iisr] </small> |} '''跨語檢索''',或稱「'''跨語資訊檢索'''」(Cross-Language Information Retrieval,CLIR),其定義採用 Oard, D. W.在1997年發表的文章《Cross-Language Information Retrieval Defined》<ref>{{Cite web |url=http://www.glue.umd.edu/~dlrg/clir/mlir_definition.html |title=存档副本 |accessdate=2007-06-18 |archive-date=2005-03-18 |archive-url=https://web.archive.org/web/20050318035641/http://www.glue.umd.edu/%7Edlrg/clir/mlir_definition.html |dead-url=no }}</ref>。跨語檢索意指使用者使用某種[[自然語言]]的[[檢索詞彙]]檢索由另一種語言表達的文件。 舉例來說,使用者使用(自己熟悉的)中文產生一組檢索詞彙進行檢索,而其檢索結果皆以(使用者完全不懂或不熟悉)的日文,所撰寫的文件。 ==起源與發展== 1969年,Salton,G.發表《Automatic processing of foreign language documents》文章。Salton 以智能[[文本信息检索]]系統當作實驗對象,智能檢索系統背後有多國語言[[語料庫]]的支援,藉由該系統,Salton 使用英文為主要檢索詞彙的語言,檢索德文的文件和資料,反之亦然。實驗結果發現,採用全自動文件處理方法(fully automatic text processing methods)的 SMART 文件檢索系統可以用相對簡單而有效率的方式,進行[[文獻]][[索引]]、[[分類]]、[[搜尋]],和[[檢索]]等工作。這也是[[文獻]]中,第一次提到跨語檢索概念的文章,不過這篇文章尚未正式使用跨語檢索或[[跨語資訊檢索]]一詞。 1992年,美國國家標準和科技機構 (National Institute of Standards and Technology, 簡稱 NIST)和美國情報局先進研發活動 (Advanced Research and Development Activity center of the U.S. Department of Defense, 簡稱 DARDA ] 合作舉辦「文字檢索會議」(The Text REtrieval Conference, TREC<ref>{{Cite web |url=http://trec.nist.gov/ |title=存档副本 |accessdate=2007-06-19 |archive-date=2007-06-24 |archive-url=https://web.archive.org/web/20070624093459/http://trec.nist.gov/ |dead-url=no }}</ref>),一開始是附屬於 TIPSTER Text program<ref>{{Cite web |url=http://www-nlpir.nist.gov/related_projects/tipster/ |title=存档副本 |accessdate=2007-06-19 |archive-date=2007-03-22 |archive-url=https://web.archive.org/web/20070322203836/http://www-nlpir.nist.gov/related_projects/tipster/ |dead-url=no }}</ref>底下的計畫,從1992年之後,每年都會舉辦一次TREC會議。TREC 會議成立目的是輔導與支援[[資訊檢索]]相關研究,提供[[標準測試集]]協助研究者進行測試等。 1996年,[[美國計算機協會]](Association of Computing Machinery,ACM)在[[瑞士]]所舉辦的[[SIGIR]]-96會議中,首次出現以跨語檢索為研究主題的[[研討會]],與跨語檢索相關的討論,可在這本會議論文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》找到。 1998年,召開第一次 NII Test Collection for IR Systems program 會議(NTCIR)<ref>{{Cite web |url=http://research.nii.ac.jp/ntcir/ |title=存档副本 |accessdate=2007-06-19 |archive-date=2007-07-01 |archive-url=https://web.archive.org/web/20070701134454/http://research.nii.ac.jp/ntcir/ |dead-url=no }}</ref>。NTCIR會議主要是由日本學術振興會(JSPS<ref>{{Cite web |url=http://www.jsps.go.jp/english/ |title=存档副本 |accessdate=2007-06-19 |archive-date=2008-10-11 |archive-url=https://web.archive.org/web/20081011095440/http://www.jsps.go.jp/english/ |dead-url=no }}</ref>)、日本國家科學資訊系統中心(NACSIS),以及日本國立情報學研究所(NII) 共同合作舉辦。其目的是希望,在資訊檢索與自然語言檢索的研究領域中,能發展出以[[日文]]為主的[[標準測試集]]。至今,已發展出NTCIR1~6的[[文件集]]。 2000年,歐盟成立「[[跨語言資訊檢索論壇]]」(Cross Language Evaluation Forum,CLEF<ref>{{Cite web |url=http://www.clef-campaign.org/ |title=存档副本 |accessdate=2007-06-19 |archive-date=2007-06-23 |archive-url=https://web.archive.org/web/20070623121601/http://www.clef-campaign.org/ |dead-url=no }}</ref>) ,每年定期舉辦跨語檢索研討會,並且推動跨語檢索技術評比。目前有文字資訊檢索評比,或稱[[文本信息檢索]](text retrieval)評比和跨語圖片資訊檢索評比,或稱跨語[[圖像檢索]](Cross-Language Image Retrieval] )項目,除了跨語檢索技術評比之外,尚包括發展以歐洲語系為主的[[單語資訊檢索系統]](monolingual information retrieval system)的基礎建設,包含測試 (testing)和評鑑(evaluating)等工作,該組織也包含在歐盟的[[數位圖書館]] (digital library)計畫中。 ==特徵== 跨語檢索的特徵,根據[[陳信希]]教授在2002年的《跨語檢資訊檢索:理論、技術與應用》這篇文章指出,共具有六項特徵,將內容統整如下: # 檢索詞彙的[[歧義性]](ambiguity):[[翻譯]]檢索詞彙的過程,不只會遇到檢索詞彙一詞多義的情形,翻譯後的目標檢索詞彙(target query)的[[多義性]](polysemy)也是需要解決的問題之一。 # 檢索詞彙(query)和文件(document)分屬不同語言:其為跨語檢索最主要的特徵。檢索詞彙和文件間必須要有特定的對應關係,翻譯技術是建立其關係的重要運算之一。 # 檢索詞太短:跨語檢索者所輸入的檢索詞彙往往太簡短,因而造成翻譯和歧義性的困難度。 # [[語言識別]](language identification)困難:如果跨語檢索系統無法辨識該檢索詞彙是何種語言,如[[中文]]、[[英文]]、[[拉丁文]]和[[俄文]]等,就無法檢索出使用者所需要的資料。 # 斷詞和[[書寫]][[符號]]的問題:因為中文的詞與詞之間沒有明顯的分隔符號,因此會有[[斷詞]](segmentation)的問題。而俄文、[[西班牙文]]等語文,電腦沒有自動產生文字的功能,如當使用者欲於[[搜尋引擎]]或文件中,輸入俄文,必須利用其他的[[應用軟體]],才能產生俄文,而不像英文或中文可直接從[[輸入法]]中選擇。 # 輸出結果的呈現(visualization):包含檢索結果得到的多語言文件要如何合併,介面該如何呈現,才能使檢索者一目了然等問題。 ==使用技術== 根據[[陳信希]]和[[陳光華]]的文章,目前跨語檢索相關技術,可分成三大類,分述如下: * 翻譯檢索詞彙:此法視處理檢索詞彙的方式,又區分成兩種方法,一種是[[控制詞彙]],另一種是[[自由詞彙]]。 :*控制詞彙:使用控制詞彙進行檢索時,由於為系統內定的詞彙,所以,雖然使得檢索的過程比較順利,可是能找到的資料有限。 :*自由詞彙:可分成三種策略,分別是[[知識庫]]策略、[[語料庫]]策略和混合式策略。 ::*知識庫策略:一種是採用[[辭典]]的方法,另一種則是採用[[索引典]]策略的知識架構。 ::*語料庫策略:此法比較複雜,包含了四種方法,分別是「詞彙對列方式」、「文句對列方式」、「文件對列」和「不採用對列方式」。 * 翻譯文件:此法可分成兩種,一種為文本的翻譯,另一種為[[特徵向量]]的翻譯。 * 不翻譯。 == 參考文獻 == {{reflist}} [[Category: 020 圖書資訊學總論]]
此頁面使用了以下模板:
Template:Cite web
(
檢視原始碼
)
Template:Main other
(
檢視原始碼
)
Template:Reflist
(
檢視原始碼
)
模块:Check for unknown parameters
(
檢視原始碼
)
模块:Citation/CS1
(
檢視原始碼
)
模块:Citation/CS1/Configuration
(
檢視原始碼
)
模块:Citation/CS1/Date validation
(
檢視原始碼
)
模块:Citation/CS1/Whitelist
(
檢視原始碼
)
返回「
跨語檢索
」頁面