全文检索查看源代码讨论查看历史
全文检索 |
---|
|
全文检索从文本或资料库中,不限定资料栏位,自由地萃取出讯息的技术。[1]
执行全文检索任务的程式,一般称作搜寻引擎,它将使用者随意输入的文字,试图从资料库中,找到符合的内容。
全文索引的相关议题
- 语根处理 (stemming)
- 符素解析器 (token parser) 1-gram, 2-gram , n-gram
- 断词/分词 word segmentation
- 倒排索引;反向索引- inverted index
演算法、搜寻策略之模型
- 布林式 boolean
- 统计模型 Probabilistic model
- 向量空间模型 vector base model
- 隐性语义模型 Latent semantic model
评量之准则
- 查全率(recall rate),查准率(precision)
开放原始码之全文检索系统
- Apache Solr
- BaseX
- Clusterpoint Server (freeware licence for a single-server)
- DataparkSearch
- Ferret
- Ht-//Dig
- Hyper Estraier
- KinoSearch
- Lemur/Indri
- Lucene
- mnoGoSearch
- Sphinx
- Swish-e
- Xapian
- ElasticSearch
和中文有关的议题
- 断词
- 语法解析
- 古籍议题
- 多语言混合
优化
- 剔除字(Stopwords)
- 词性标注
- -规范文件;权威档-(authority file)
- 知识体系,本体论(ontology)
- 超连结分析(page rank)技术
历史及未来之趋势
- 自由语句搜寻