目錄搜索引擎
目錄搜索引擎 |
中文名: 目錄搜索引擎 外文名: Directory search engine 應 用: 人工方式或半自動方式搜集信息 面向對象: 網站 本 質: 按目錄分類的網站鏈接列表 |
目錄搜索引擎是以人工方式或半自動方式搜集信息,由編輯員查看信息之後,人工形成信息摘要,並將信息置於事先確定的分類框架中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務。[1]
目錄
功能
目錄搜索引擎雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。
主要技術
一個搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。
搜索器
搜索器的功能是在互聯網中漫遊,發現和搜集信息。它常常是一個計算機程序,日夜不停地運行。它要儘可能多、儘可能快地搜集各種類型的新信息,同時因為互聯網上的信息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。有兩種搜集信息的策略:
● 從一個起始URL集合開始,順着這些URL中的超鏈(Hyperlink),以寬度優先、深度優先或啟發式方式循環地在互聯網中發現信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如雅虎)。
● 將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡搜索。
搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。
搜索器的實現常常用分布式、並行計算技術,以提高信息發現和更新的速度。商業搜索引擎的信息發現可以達到每天幾百萬網頁。
索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內容索引項是用來反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對於英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對於中文等連續書寫的語言,必須進行詞語的切分。
在搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區分度,同時用來計算查詢結果的相關度。使用的方法一般有統計法、信息論法和概率法。短語索引項的提取方法有統計法、概率法和語言學法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或接近關係(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。當數據量很大時,必須實現即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決於索引的質量。
檢索器
檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。
檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。
用戶接口
用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶接口的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。 用戶輸入接口可 以分為簡單接口和複雜接口兩種。
簡單接口只提供用戶輸入查詢串的文本框;複雜接口可以讓用戶對查詢進行限制,如邏輯運算(與、或、非;+、-)、相近關係(相鄰、NEAR)、域名範圍(如。edu、。com)、出現位置(如標題、內容)、信息時間、長度等等。一些公司和機構正在考慮制定查詢選項的標準。
特點
首先,搜索引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站後,目錄編輯人員會親自瀏覽你的網站,然後根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。
其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo這樣的超級索引,登錄更是困難。
此外,在登錄搜索引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
最後,搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟搜索引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。
搜索引擎與目錄搜索引擎有相互融合滲透的趨勢。一些純粹的全文搜索引擎也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而像 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索範圍(注)。在默認搜索模式下,一些目錄搜索引擎首先返回的是自己目錄中匹配的網站,如國內搜狐、新浪、網易等;而另外一些則默認的是網頁搜索,如Yahoo。
應用趨減
分類目錄的信息有效性下降意味着其網絡營銷價值的降低,登錄分類目錄的網站難以獲得有效的訪問量。與技術型的搜索引擎自動收錄網站、自動更新網站索引信息相比,網站信息不能及時更新正是分類目錄的致命缺陷 。由於已經收錄的網站信息無法自動更新,即使分類 目錄中的一些網站已經關閉,或者域名被用於其他完全無關的領域,但顯示在分類目錄網站上的信息仍然是最初登錄的內容。即使分類目錄網站提供了用戶自行修改網站信息的功能,但有些網站因關閉或者其他原因,通常也不會主動更新信息,因此結果造成分類目錄網站信息有效性降低,使得用戶查找信息非常不便,最終影響了分類目錄作為網站推廣方法的效果。
網絡營銷
1、通常只能收錄網站首頁(或者若干頻道),而不能將大量網頁都提交給分類目錄;
2、網站一旦被收錄將在一定時期內保持穩定,有些分類目錄允許用戶自行修改網站介紹等部分信息;
3、無法通過「搜索引擎優化」等手段提高網站在分類目錄中的排名;
4、對於付費分類目錄登錄,通常需要交納年度費用;
5、在高質量的分類目錄登錄,對於提高網站在搜索引擎檢索結果中的排名有一定價值;
6、由於分類目錄收錄大量同類網站,並且多數用戶更習慣於用搜索引擎直接檢索,因此僅靠分類目錄被用戶發現的機會相對較小,難以 帶來很高的訪問量,通常還需要與其他網站推廣手段共同使用。