求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。

語料庫檢視原始碼討論檢視歷史

事實揭露 揭密真相
前往: 導覽搜尋
  語料庫

語料庫指經科學取樣和加工的大規模電子文本庫,其中存放的是在語言的實際使用中真實出現過的語言材料。

簡介

語料庫是語料庫語言學研究的基礎資源,也是經驗主義語言研究方法的主要資源。應用於詞典編纂,語言教學,傳統語言研究,自然語言處理中基於統計或實例的研究等方面。語料庫有多種類型,確定類型的主要依據是它的研究目的和用途,這一點往往能夠在語料採集的原則和方式上有所體現。有人曾經把語料庫分成四種類型:⑴異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集並原樣存儲各種語料;⑵同質的(Homogeneous):只收集同一類內容的語料;⑶系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一範圍內的語言事實;⑷專用的(Specialized):只收集用於某一特定用途的語料

評價

除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的採集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關係,多用於機器翻譯、雙語詞典編撰等應用領域,後者將表述同樣內容的不同語言文本收集到一起,多用於語言對比研究。已經累積了大量各種類型的語料庫,如:葡萄牙語料庫、面向文本分類研究的中英文新聞分類語料庫、路透社文本分類訓練語料庫、中文文本分類語料庫、大開放字幕庫OpenSubtitles的多語言平行語料數據(OpenSubtitles Corpus)、《聖經》雙語語料庫("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服務(SMS)語料)等。[1]

參考文獻

  1. 語料庫搜狗