一體化醫學語言系統
一體化醫學語言系統 |
---|
|
一體化醫學語言系統(英語:Unified Medical Language System,UMLS),又稱為統一醫學語言系統,是對生物醫學科學領域內許多受控詞表的一部綱目式匯編。
目錄
介紹
UMLS提供的是一種位於這些詞表之間的映射結構,使這些不同的術語系統之間能夠彼此轉換;同時,UMLS也被看作是生物醫學概念所構成的一部廣泛全面的敘詞表和本體。UMLS還進一步提供有若干適用於自然語言處理的工具。UMLS主要旨在供醫學信息學領域的信息系統開發人員使用。[1]
UMLS由下列組件構成:
美國國立醫學圖書館(英文:National Library of Medicine,NLM)設計了並負責維護着UMLS。UMLS每季度更新一次,且可以免費使用。該項目最初是由Donald Lindberg醫學士於1986年發起的(Donald Lindberg後來擔任了國立醫學圖書館館長)。[2]
目的和應用
目前,研究人員所能獲得和使用的生物醫學資源數量龐大。當對醫學文獻進行搜索的時候,檢索到的文檔數量巨大於是就成了一個問題。UMLS旨在通過促進那些能夠理解生物醫學語言的計算機系統的開發工作,來加強對於這些文獻的獲得和使用。這一目標是通過攻克兩大障礙來實現的:「不同機讀型來源和不同人員表達相同概念時所採用的形形色色的方式」與「有益的信息在許多互不相同的數據庫和系統之間的分發和傳播」。
UMLS可用於設計信息檢索或病歷系統,促進不同系統之間的通訊交流,或者用於開發能夠解析生物醫學文獻的系統。對於許多此類應用而言,將不得不以某種自定義形式來使用UMLS;比如,排除某些與當前應用並不相關的源詞表。國立醫學圖書館本身則正在將UMLS用於自己的PubMed和ClinicalTrials.gov臨床試驗系統。
UMLS用戶必須簽署「UMLS協議」並且就自己的使用情況填報簡要的年度報告。學術用戶可以將UMLS免費用於科學研究工作。就其中所收錄的某些源詞表而言,商業或生產方面的用途則要求籤署版權協議。
超級敘詞表
超級敘詞表 Metathesaurus 構成的是UMLS的基礎。Metathesaurus 之中收錄有100多萬個生物醫學概念和500多萬個概念名稱,而所有這些都源自UMLS所收錄的100多部受控詞表和分類系統,如ICD-9-CM、ICD-10、MeSH、SNOMED CT、LOINC、世界衛生組織藥物不良反應術語集(WHO Adverse Drug Reaction Terminology,WHO-ART)、英國臨床術語(UK Clinical Terms,又稱為Read Codes)、RxNORM、基因本體(英文:Gene Ontology,GO)和OMIM(參見完整的源詞表列表)。
Metathesaurus是按照概念來組織編排的。每個概念分別都擁有若干用來定義其含義的具體屬性,並且分別與各個源詞表之中相應的概念名稱相鏈接。而且,不同概念之間還表達有眾多的關係;比如,「is a」(是一種...)之類用於表示子類關係的層級結構關係、用於表示亞單位關係的「is part of」(是...的組成部分)以及「is caused by」(由...引起)之類的關聯關係或「in the literature often occurs close to」(在文獻之中常常出現在...附近)(後者源自Medline)。
源詞表的適用範圍決定着Metathesaurus的適用範圍。不同的詞表對於同一概念採用的是不同的名稱,或者它們對於不同的概念採用的是相同的名稱,這些情況都會忠實地體現在Metathesaurus之中。Metathesaurus之中保留了所有來自源詞表的層級結構信息。Metathesaurus概念尚可鏈接到該數據庫之外的資源,如基因序列數據庫。
Metathesaurus本身是通過自動化處理源詞表的機讀型版本,並隨後在編輯和審核方面進行人工干預而產生的。Metathesaurus的分發形式為一種SQL關係數據庫,且可以通過一種Java面向對象型應用編程接口(API)來加以訪問。
語義網絡
Metathesaurus之中的每個概念都指定有至少一種「語義類型(Semantic type)」(即一種類別)。某些「語義關係」可以存在於多種語義類型的成員之間。語義網絡正是這些語義類型和語義關系所構成的一種網絡式目錄。這是一種相當寬泛的分類;目前,其中共計有135種語義類型和54種語義關係。
主要的語義類型包括生物、解剖學結構、生物學功能、化學物質、事件、有形對象(物理對象;英文:physical objects)以及概念。
語義類型之間的鏈接為語義網絡提供的是結構,顯示了分組與概念之間的重要關係。語義類型之間的基本鏈接是「isa」鏈接,又可稱為類屬關係。依靠這種關係建立起來的是一種由類型構成的層級結構,使我們能夠找出最為特殊的語義類型,從而將其賦予某個Metathesaurus概念。語義網絡同時還備有5種主要類型的非層級結構關係,或者稱為關聯關係;它們分別是「physically related to」(物理上與...相關)、「spatially related to」(空間上與...相關)、「temporally related to」(時間上與...相關)、「functionally related to」(功能上與...相關)以及「conceptually related to」(概念上與...相關)。
語義類型的有關信息包括標識符、定義、示例、關於上級語義類型的層級結構信息以及關聯關係。語義網絡之中關聯關係的強度非常弱。它們所採集的頂多是某些-某些型關係(some-some relationships);也就是說,此類關係記錄的事實就是,前一類型的某些實例可能與後一類型的某些實例之間具有顯著的這種關係。換句話說,它們所記錄的事實就是,相應的關係斷言具有實際意義(儘管對於所有情況來說,這種斷言並不一定都成立)。
參考文獻
- ↑ Unified Medical Language System, 1996
- ↑ Ellison D, Humphreys BL, Mitchell J. Presentation of the 2009 Morris F Collen Award to Betsy L Humphreys, with remarks from the recipient. Journal of the American Medical Informatics Association. July 2010, 17 (4): 481–5. PMC 2995660. PMID 20595319. doi:10.1136/jamia.2010.005728.