自動標引檢視原始碼討論檢視歷史
自動標引 |
---|
|
自動標引(Automatic Indexing)包括關鍵詞自動提取(又稱自動抽詞標引)與自動賦詞標引兩種類型。
關鍵詞自動提取是一種識別有意義且具有代表性片段或詞彙的自動化技術[1]。關鍵詞自動提取在文本挖掘域被稱為關鍵詞抽取,在計算語言學領域通常着眼於術語自動識別,在訊息檢索領域,就是指自動標引。自動標引屬於文本訊息抽取的範疇。文本訊息抽取是從文本數據中抽取人們關注的特定的訊息。
作用
由於關鍵詞是表達文件主題意義的最小單位,因此大部分對非結構化文件的自動處理,如自動標引、自動文摘、自動分類、自動聚類、相關反饋、自動過濾、事件檢測與跟蹤、知識挖掘、訊息可視化、概念檢索、檢索提示、關聯知識分析、自動問答等,都必須先進行關鍵詞提取的動作,再進行其他的處理。可以說,關鍵詞提取是所有文件自動處理的基礎與核心技術。目前大多文檔都不具有關鍵詞,同時手工標引費力費時且主觀性較強, 因此關鍵詞自動標引是一項值得研究的技術。
發展過程
自動標引研究可以分為三個階段: 從Luhn於1957年開始進行自動標引後開始,到目前為止,自動標引研究經歷了50年的發展歷程。一直到20世紀90年代初,關於關鍵詞自動提取的研究一直就沒有停止過。 20世紀90年代初到90年代末,自動標引研究漸漸冷卻,原因主要包括:全文索引逐漸被人採用,並且基本上能滿足用戶需要;傳統的自動標引方法的效率到了極限;網絡興起之初的衝擊與信息需求環境的改變。20世紀90年代末一直到現在,關鍵詞自動提取的研究逐漸升溫,尤其是最近幾年,關鍵詞自動提取研究進行的如火如荼,產生該現象的主要原因為:全文索引的功能越來越難以滿足實際需求,用戶需要更加精確的結果;另外互聯網的很多服務,例如自動摘要,文檔分類與聚類,文本分析,主題檢索等都要依賴於關鍵詞自動提取的結果,只有這樣才能有希望從根本上提高訊息服務品質。
參考文獻
- ↑ 曾元顯. 關鍵詞自動提取技術與相關詞反饋. 中國圖書館學會會報, 1997, 59: 59-64.