學(xué)習(xí)啦>知識(shí)大全>知識(shí)百科>百科知識(shí)>

什么是全文檢索全文檢索的簡介

時(shí)間: 謝君787 分享

  全文檢索是一種將文件中所有文本與檢索項(xiàng)匹配的文字資料檢索方法。那么你對全文檢索了解多少呢?以下是由學(xué)習(xí)啦小編整理關(guān)于什么是全文檢索的內(nèi)容,希望大家喜歡!

  全文檢索的簡介

  基本介紹

  全文檢索是將存儲(chǔ)于數(shù)據(jù)庫中整本書、整篇文章中的任意內(nèi)容信息查找出來的檢索。它可以根據(jù)需要獲得全文中有關(guān)章、節(jié)、段、句、詞等信息,也就是說類似于給整本書的每個(gè)字詞添加一個(gè)標(biāo)簽,也可以進(jìn)行各種統(tǒng)計(jì)和分析。例如,它可以很快的回答“《紅樓夢》一書中“林黛玉”一共出現(xiàn)多少次?”的問題。

  與之相關(guān)的議題

  語根處理 (stemming)

  符素解析器 (token parser) 1-gram, 2-gram , n-gram

  斷詞/分詞 word segmentation

  倒排索引 inverted index

  算法、搜尋策略之模型

  布爾式 boolean

  統(tǒng)計(jì)模型 Probabilistic model

  向量空間模型 vector base model

  隱性語義模型 Latent semantic model

  系統(tǒng)檢索的介紹

  評(píng)量之準(zhǔn)則

  判斷檢索效果的兩個(gè)指標(biāo):

  查全率=被檢出相關(guān)信息量/相關(guān)信息總量(%)

  查準(zhǔn)率=被檢出相關(guān)信息量/被檢出信息總量(%)

  開放源代碼之全文檢索系統(tǒng)

  Apache Solr

  BaseX

  Clusterpoint Server(freeware licence for a single-server)

  DataparkSearch

  Ferret

  Ht-//Dig

  Hyper Estraier

  KinoSearch

  Lemur/Indri

  Lucene

  mnoGoSearch

  Sphinx

  Swish-e

  Xapian

  ElasticSearch

  議題優(yōu)化的概念

  和中文有關(guān)的議題

  斷詞(分詞)

  語法解析

  古籍議題

  多語言混合

  優(yōu)化

  剔除字(Stopwords)

  詞性標(biāo)注

  權(quán)威檔(authority file)

  知識(shí)體系,本體論(ontology)

  超鏈接分析(page rank)技術(shù)

  歷史及未來之趨勢

  自由語句搜尋

  基于自然語言的分詞
看過“全文檢索的簡介”的人還看了:

1.淺談檔案信息計(jì)算機(jī)的檢索論文

2.ei論文怎么發(fā)表

3.淺談圖書館古籍的數(shù)字化管理論文

4.使用Word2010翻譯英文的三種方法

5.高中生物必修一課本目錄

1697773