檢視資訊抽取的原始碼

{| class="wikitable" style="float:right; margin: -10px 0px 10px 20px; text-align:left"
! <p style="background:	#D6A4AB; color: #000000; margin:auto; padding:5px 0; "> '''信息抽取''' </p>
|-
|<center><img src="https://mdimg.wxwenku.com/getimg/356ed03bdc643f9448b3f6485edc229b2b9813c803aa45f096fd2ccf1019eaf77aadb124117893ba410fa59caccff040.jpg" width="280"></center><small>[https://www.gushiciku.cn/pl/paTt/zh-tw 圖片來自gushiciku]
</small> 
|}

'''信息抽取'''（'''Information Extraction'''，簡稱'''IE'''，又譯'''資訊擷取技術'''）主要是從大量[[文字]][[資料]]中自動抽取特定[[訊息]]（Particular Information），以作為[[資料庫]]存取（Database Access）之用的[[技術]]。<ref>[https://www.gushiciku.cn/pl/paTt/zh-tw 信息抽取]，gushiciku</ref> 

信息抽取的一個廣泛目標是允許對以往非結構化的[[資料]]去做[[計算]]，具體來說就是要允許[[邏輯推理]]能對輸入[[資料]]的[[邏輯]]內容可以舉一反三。其意義在於決定了例如在[[網際網路]]上其非結構化（例：不包含[[元數據]]）形式中有用[[資訊]][[數量]]的成長。在這方面的[[技術]]上是透過轉換到[[關係]][[形式]]或是經由[[XML]][[標籤]]的標記來達到更多的可存取性──一個智慧型代理程序，[[監督]]一[[新聞]][[資料]]饋流，需要[[資訊擷取技術]]來轉換非結構化[[資料]]到某種可推論的方式。

==起源==
資訊檢索技術又稱為「訊息理解」，其主流[[研究]]起源於1987年訊息理解會議，這個[[會議]]主要提倡利用[[自然語言處理]][[技術]]，對[[文字]][[資訊]]作更深度的剖析，以提高[[資訊檢索]]的[[認知]]程度。從1987年第一屆[[會議]]迄今，Message Understanding Conference已經舉辦過六次[[會議]]，每年會中皆會提供[[文字]][[資料]]以及[[標準]][[問題]]，供與會者以所發展的[[系統]]自動抽取[[訊息]]，這種[[競賽]]方式對於整個領域的[[技術]]提昇有很大的助益。

==目的==
信息抽取的基本任務包含了：
*命名实体识别（[[命名实体识别|Named entity recognition]]，又譯「專名辨識」）
*[[指代|共指消解]]（[[指代|Coreference]]）
*术语抽取（Terminology extraction|Terminology_extraction）
在[[自然語言處理]][[範疇]]，[[資訊擷取技術]]是雷同於[[資訊檢索]]領域的一種[[類型]]，它的目的是要以[[自動化]]的方式來擷取結構化資訊，例如：在某一個特定領域或是從非結構化機器可讀的[[文件]]中，對明確的[[資料]]進行分類、[[判斷]]上下文以及語義化的[[分析]]。

===模板分類===
[[資訊擷取技術]]一般借助事先準備的[[模板]]（Template）以擷取特定[[新聞]][[事件]]包括人（Who）、事（What）、地（where）與[[時間]]（When）等事實（Fact）。因為擷取事實必須對所[[分析]]的[[文件]]有某種程度的剖析理解能力，在各種[[資訊檢索]]研究課題中，[[資訊擷取技術]]一直相當仰賴[[自然語言]]處理技術，因此是[[傳統]]上最典型的智慧型檢索技術之ㄧ。

===判斷文句===
一般[[資訊擷取技術]]的做法包括具備文件過濾程式（Text Filter），藉此從大量[[文件]]中[[過濾]]出較[[相關]]的[[文字]]片段，其作法與[[資訊過濾]]技術（Information Filtering）較為類似。接著利用剖析程式（Parser），將文件片段轉化成剖析樹（Parsing Tree）。剖析樹類似我們[[閱讀]][[英文]]時的[[文法]][[結構]]，是對文句做[[語法]]的[[分析]]（例如找出[[動詞]]、[[主詞]]、[[受詞]]），之後再將這些剖析樹與原先欲抽取的[[模板]]比對，擷取出有關人事地物的事實出來。

===語義化分析===
[[資訊擷取]]的[[研究]]，主要還是針對特定領域的文件進行深度[[分析]]，因此過程中還包括詞彙語意標定（Semantic Tagging）、重要名詞片語抽取（Noun Phrase Extraction），文句部分剖析（Partial Parsing）、產生語意格框（Semantic Frame）等相關[[技術]]，因此[[软件开发|開發]]一個資訊擷取系統必須事先建立很完整的領域[[知識]]，包括相關[[詞彙]]、[[片語]]、文法規則、語意規則等。

== 參考文獻 == 
{{reflist}}
[[Category: 020 圖書資訊學總論]]