開啟主選單
求真百科
搜尋
檢視 資訊抽取 的原始碼
←
資訊抽取
由於下列原因,您沒有權限進行 編輯此頁面 的動作:
您請求的操作只有這個群組的使用者能使用:
用戶
您可以檢視並複製此頁面的原始碼。
{| class="wikitable" style="float:right; margin: -10px 0px 10px 20px; text-align:left" ! <p style="background: #D6A4AB; color: #000000; margin:auto; padding:5px 0; "> '''信息抽取''' </p> |- |<center><img src="https://mdimg.wxwenku.com/getimg/356ed03bdc643f9448b3f6485edc229b2b9813c803aa45f096fd2ccf1019eaf77aadb124117893ba410fa59caccff040.jpg" width="280"></center><small>[https://www.gushiciku.cn/pl/paTt/zh-tw 圖片來自gushiciku] </small> |} '''信息抽取'''('''Information Extraction''',簡稱'''IE''',又譯'''資訊擷取技術''')主要是從大量[[文字]][[資料]]中自動抽取特定[[訊息]](Particular Information),以作為[[資料庫]]存取(Database Access)之用的[[技術]]。<ref>[https://www.gushiciku.cn/pl/paTt/zh-tw 信息抽取],gushiciku</ref> 信息抽取的一個廣泛目標是允許對以往非結構化的[[資料]]去做[[計算]],具體來說就是要允許[[邏輯推理]]能對輸入[[資料]]的[[邏輯]]內容可以舉一反三。其意義在於決定了例如在[[網際網路]]上其非結構化(例:不包含[[元數據]])形式中有用[[資訊]][[數量]]的成長。在這方面的[[技術]]上是透過轉換到[[關係]][[形式]]或是經由[[XML]][[標籤]]的標記來達到更多的可存取性──一個智慧型代理程序,[[監督]]一[[新聞]][[資料]]饋流,需要[[資訊擷取技術]]來轉換非結構化[[資料]]到某種可推論的方式。 ==起源== 資訊檢索技術又稱為「訊息理解」,其主流[[研究]]起源於1987年訊息理解會議,這個[[會議]]主要提倡利用[[自然語言處理]][[技術]],對[[文字]][[資訊]]作更深度的剖析,以提高[[資訊檢索]]的[[認知]]程度。從1987年第一屆[[會議]]迄今,Message Understanding Conference已經舉辦過六次[[會議]],每年會中皆會提供[[文字]][[資料]]以及[[標準]][[問題]],供與會者以所發展的[[系統]]自動抽取[[訊息]],這種[[競賽]]方式對於整個領域的[[技術]]提昇有很大的助益。 ==目的== 信息抽取的基本任務包含了: *命名实体识别([[命名实体识别|Named entity recognition]],又譯「專名辨識」) *[[指代|共指消解]]([[指代|Coreference]]) *术语抽取(Terminology extraction|Terminology_extraction) 在[[自然語言處理]][[範疇]],[[資訊擷取技術]]是雷同於[[資訊檢索]]領域的一種[[類型]],它的目的是要以[[自動化]]的方式來擷取結構化資訊,例如:在某一個特定領域或是從非結構化機器可讀的[[文件]]中,對明確的[[資料]]進行分類、[[判斷]]上下文以及語義化的[[分析]]。 ===模板分類=== [[資訊擷取技術]]一般借助事先準備的[[模板]](Template)以擷取特定[[新聞]][[事件]]包括人(Who)、事(What)、地(where)與[[時間]](When)等事實(Fact)。因為擷取事實必須對所[[分析]]的[[文件]]有某種程度的剖析理解能力,在各種[[資訊檢索]]研究課題中,[[資訊擷取技術]]一直相當仰賴[[自然語言]]處理技術,因此是[[傳統]]上最典型的智慧型檢索技術之ㄧ。 ===判斷文句=== 一般[[資訊擷取技術]]的做法包括具備文件過濾程式(Text Filter),藉此從大量[[文件]]中[[過濾]]出較[[相關]]的[[文字]]片段,其作法與[[資訊過濾]]技術(Information Filtering)較為類似。接著利用剖析程式(Parser),將文件片段轉化成剖析樹(Parsing Tree)。剖析樹類似我們[[閱讀]][[英文]]時的[[文法]][[結構]],是對文句做[[語法]]的[[分析]](例如找出[[動詞]]、[[主詞]]、[[受詞]]),之後再將這些剖析樹與原先欲抽取的[[模板]]比對,擷取出有關人事地物的事實出來。 ===語義化分析=== [[資訊擷取]]的[[研究]],主要還是針對特定領域的文件進行深度[[分析]],因此過程中還包括詞彙語意標定(Semantic Tagging)、重要名詞片語抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、產生語意格框(Semantic Frame)等相關[[技術]],因此[[软件开发|開發]]一個資訊擷取系統必須事先建立很完整的領域[[知識]],包括相關[[詞彙]]、[[片語]]、文法規則、語意規則等。 == 參考文獻 == {{reflist}} [[Category: 020 圖書資訊學總論]]
此頁面使用了以下模板:
Template:Main other
(
檢視原始碼
)
Template:Reflist
(
檢視原始碼
)
模块:Check for unknown parameters
(
檢視原始碼
)
返回「
資訊抽取
」頁面