一、搜索引擎的分類
獲得網(wǎng)站網(wǎng)頁(yè)資料,能夠建立數(shù)據(jù)庫(kù)并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個(gè)基本類別:全文搜索引擎(FullText Search Engine)和分類目錄Directory)。
全文搜索引擎的數(shù)據(jù)庫(kù)是依靠一個(gè)叫“網(wǎng)絡(luò)機(jī)器人(Spider)”或叫“網(wǎng)絡(luò)蜘蛛(crawlers)”的軟件,通過(guò)網(wǎng)絡(luò)上的各種鏈接自動(dòng)獲取大量網(wǎng)頁(yè)信息內(nèi)容,并按以定的規(guī)則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。
分類目錄則是通過(guò)人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫(kù)的,比如雅虎中國(guó)以及國(guó)內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。另外,在網(wǎng)上的一些導(dǎo)航站點(diǎn),也可以歸屬為原始的分類目錄,比如“網(wǎng)址之家”(http://www.hao123.com/)。
全文搜索引擎和分類目錄在使用上各有長(zhǎng)短。全文搜索引擎因?yàn)橐揽寇浖M(jìn)行,所以數(shù)據(jù)庫(kù)的容量非常龐大,但是,它的查詢結(jié)果往往不夠準(zhǔn)確;分類目錄依靠人 工收集和整理網(wǎng)站,能夠提供更為準(zhǔn)確的查詢結(jié)果,但收集的內(nèi)容卻非常有限。為了取長(zhǎng)補(bǔ)短,現(xiàn)在的很多搜索引擎,都同時(shí)提供這兩類查詢,一般對(duì)全文搜索引擎 的查詢稱為搜索“所有網(wǎng)站”或“全部網(wǎng)站”,比如Google的全文搜索(http://www.google.com/intl/zh-CN/);把對(duì)分類目錄的查詢稱為搜索“分類目錄”或搜索“分類網(wǎng)站”,比如新浪搜索(http://dir.sina.com.cn/)和雅虎中國(guó)搜索(http://cn.search.yahoo.com/dirsrch/)。
在網(wǎng)上,對(duì)這兩類搜索引擎進(jìn)行整合,還產(chǎn)生了其它的搜索服務(wù),在這里,我們權(quán)且也把它們稱作搜索引擎,主要有這兩類:
?、痹阉饕?META Search Engine)。
這類搜索引擎一般都沒(méi)有自己網(wǎng)絡(luò)機(jī)器人及數(shù)據(jù)庫(kù),它們的搜索結(jié)果是通過(guò)調(diào)用、控制和優(yōu)化其它多個(gè)獨(dú)立搜索引擎的搜索結(jié)果并以統(tǒng)一的格式在同一界面集中顯
示。元搜索引擎雖沒(méi)有“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”,也無(wú)獨(dú)立的索引數(shù)據(jù)庫(kù),但在檢索請(qǐng)求提交、檢索接口代理和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元
搜索技術(shù)。比如“metaFisher元搜索引擎”
(http://www./fish/),它就調(diào)用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的數(shù)據(jù)。
?、布伤阉饕妫ˋll-in-One Search Page)。
集成搜索引擎是通過(guò)網(wǎng)絡(luò)技術(shù),在一個(gè)網(wǎng)頁(yè)上鏈接很多個(gè)獨(dú)立搜索引擎,查詢時(shí),點(diǎn)選或指定搜索引擎,一次輸入,多個(gè)搜索引擎同時(shí)查詢,搜索結(jié)果由各搜索引擎分別以不同頁(yè)面顯示,比如“網(wǎng)際瑞士軍刀”(http://free./%7Efree/search1.htm)。
二、搜索引擎的工作原理
全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)絡(luò)蜘蛛”是一種網(wǎng)絡(luò)上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁(yè) 到另一個(gè)網(wǎng)頁(yè),從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁(yè)資料。它為保證采集的資料最新,還會(huì)回訪已抓取過(guò)的網(wǎng)頁(yè)。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁(yè),還要有其它程序 進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁(yè)索引,才能添加到索引數(shù)據(jù)庫(kù)中。我們平時(shí)看到的全文搜索引擎,實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界 面,當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢時(shí),搜索引擎會(huì)從龐大的數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁(yè) 索引數(shù)據(jù)庫(kù)不同,排名規(guī)則也不盡相同,所以,當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢時(shí),搜索結(jié)果也就不盡相同。
和全文搜索引擎一樣, 分類目錄的整個(gè)工作過(guò)程也同樣分為收集信息、分析信息和查詢信息三部分,只不過(guò)分類目錄的收集、分析信息兩部分主要依靠人工完成。分類目錄一般都有專門的 編輯人員,負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點(diǎn)的增多,現(xiàn)在一般都是由站點(diǎn)管理者遞交自己的網(wǎng)站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網(wǎng)站, 以決定是否收錄該站點(diǎn)。如果該站點(diǎn)審核通過(guò),分類目錄的編輯人員還需要分析該站點(diǎn)的內(nèi)容,并將該站點(diǎn)放在相應(yīng)的類別和目錄中。所有這些收錄的站點(diǎn)同樣被存 放在一個(gè)“索引數(shù)據(jù)庫(kù)”中。用戶在查詢信息時(shí),可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根 據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是,分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡(jiǎn)介等內(nèi)容中進(jìn)行,它的查詢結(jié)果也只是被收錄網(wǎng)站首頁(yè)的URL地 址,而不是具體的頁(yè)面。分類目錄就像一個(gè)電話號(hào)碼薄一樣,按照各個(gè)網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個(gè)網(wǎng)站的詳細(xì)地址, 一般還會(huì)提供各個(gè)網(wǎng)站的內(nèi)容簡(jiǎn)介,用戶不使用關(guān)鍵詞也可進(jìn)行查詢,只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站(注意:是相關(guān)的網(wǎng)站,而不是這個(gè)網(wǎng)站上某 個(gè)網(wǎng)頁(yè)的內(nèi)容,某一目錄中網(wǎng)站的排名一般是按照標(biāo)題字母的先后順序或者收錄的時(shí)間順序決定的)。
三、搜索引擎的發(fā)展趨勢(shì)。
一個(gè)好的搜索引擎,不僅數(shù)據(jù)庫(kù)容量要大,更新頻率、檢索速度要快,支持對(duì)多語(yǔ)言的搜索,而且隨著數(shù)據(jù)庫(kù)容量的不斷膨脹,還要能從龐大的資料庫(kù)中精確地找到正確的資料。
?、碧岣咚阉饕鎸?duì)用戶檢索提問(wèn)的理解。
為了提高搜索引擎對(duì)用戶檢索提問(wèn)的理解,就必須有一個(gè)好的檢索提問(wèn)語(yǔ)言。為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語(yǔ)言智能答詢。用戶可
以輸入簡(jiǎn)單的疑問(wèn)句,比如“如何能殺死計(jì)算機(jī)中的病毒”,搜索引擎在對(duì)提問(wèn)進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問(wèn)的答案,或引導(dǎo)用戶從幾個(gè)可選擇的問(wèn)
題中進(jìn)行再選擇。自然語(yǔ)言的優(yōu)勢(shì)在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來(lái)講,如果用關(guān)鍵詞查詢,多半人會(huì)
用“病毒”這個(gè)詞來(lái)檢索,結(jié)果中必然會(huì)包括各類病毒的介紹,病毒是怎樣產(chǎn)生的等等許多無(wú)用信息,而用“如何能殺死計(jì)算機(jī)中的病毒”檢索,搜索引擎會(huì)將怎樣
殺死病毒的信息提供給用戶,提高了檢索效率。
?、泊怪敝黝}搜索引擎有著極大的發(fā)展空間。
網(wǎng)上的信息浩如煙海,網(wǎng)絡(luò)資源以驚人
的速度增長(zhǎng),一個(gè)搜索引擎很難收集全所有主題的網(wǎng)絡(luò)信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業(yè),使得檢索結(jié)果
垃圾太多。這樣以來(lái),垂直主題的搜索引擎以其高度的目標(biāo)化和專業(yè)化在各類搜索引擎中占據(jù)了一席之地。目前,一些主要的搜索引擎,都提供了新聞、Mp3、圖
片、Flash等的搜索,加強(qiáng)了檢索的針對(duì)性。
?、吃阉饕?,能夠提供全面且較為準(zhǔn)確的查詢結(jié)果。
現(xiàn)在的許多搜索引擎,其
收集信息的范圍、索引方法、排名規(guī)則等都各不相同,每個(gè)搜索引擎平均只能涉及到整個(gè)Web資源的30-50%,這樣導(dǎo)致同一個(gè)搜索請(qǐng)求在不同搜索引擎中獲
得的查詢結(jié)果的重復(fù)率不足34%,而每一個(gè)搜索引擎的查準(zhǔn)率不到45%。元搜索引擎(META Search
Engine)是將用戶提交的檢索請(qǐng)求發(fā)送到多個(gè)獨(dú)立的搜索引擎上去搜索,并將檢索結(jié)果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,因此有搜索引擎之上的搜索
引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結(jié)果、個(gè)性化搜索功能的設(shè)置和用戶檢索界面的友好性上,查全率和查準(zhǔn)率都比較高。
四、主要的搜索引擎介紹
這里介紹的是在國(guó)內(nèi)外影響比較大的主要的一些搜索引擎和分類目錄站點(diǎn),由于現(xiàn)在的站點(diǎn)一般都同時(shí)提供全文搜索和分類目錄兩種服務(wù),所以我們按照其自有的技術(shù)進(jìn)行分類和介紹。
?、逯饕娜乃阉饕?/p>
⒈Google(http://www.google.com/)。Google成立于1997年,幾年間迅速發(fā)展成為世界范圍內(nèi)規(guī)模最大的搜索引擎。Google數(shù)據(jù)庫(kù)現(xiàn)存有42.8億個(gè)Web文件,每天處理的搜索請(qǐng)求已達(dá)2億次,而且這一數(shù)字還在不斷增長(zhǎng)。Google借用Dmoz(http:///)的分類目錄提供“網(wǎng)頁(yè)目錄”查詢(http://www.google.com/dirhp?hl=zh-CN&tab=wd&ie=UTF-8&oe=UTF-8&q=),但默認(rèn)網(wǎng)站排列順序并非按照字母順序,而是根據(jù)網(wǎng)站PageRank的分值高低排列。
?、舶俣龋?a >http://www.baidu.com/)。 百度是國(guó)內(nèi)最早的商業(yè)化(早期為其它門戶網(wǎng)站提供搜索服務(wù),現(xiàn)在的競(jìng)價(jià)排名更是日進(jìn)斗金)全文搜索引擎,擁有自己的網(wǎng)絡(luò)機(jī)器人和索引數(shù)據(jù)庫(kù),專注于中文的 搜索引擎市場(chǎng),除有網(wǎng)頁(yè)搜索外,百度還有新聞、MP3、圖片等搜索,并在2003年底推出“貼吧”、按地域搜索等功能。
?、持袊?guó)搜索(http://www./)。 中國(guó)搜索的前身是慧聰搜索,原慧聰搜索在聯(lián)合中國(guó)網(wǎng)等30多家知名網(wǎng)站的基礎(chǔ)上,2002年9月25日,正式組建了中國(guó)搜索聯(lián)盟,經(jīng)過(guò)一年多的發(fā)展,聯(lián)盟 成員就已達(dá)630多家,成為中國(guó)互聯(lián)網(wǎng)一支重要的力量。由于發(fā)展迅速,慧聰集團(tuán)借上市之機(jī),將慧聰搜索更名為中國(guó)搜索,全力發(fā)展其在搜索引擎方面的業(yè)務(wù), 以打造中文搜索領(lǐng)域的全新品牌。
?、嬷饕诸惸夸?/p>
?、毖呕⒅袊?guó)分類目錄(http://cn.yahoo.com/)。雅虎中國(guó)的分類目錄是最早的分類目錄,現(xiàn)有14個(gè)主類目,包括“商業(yè)與經(jīng)濟(jì)”、“藝術(shù)與人文”等,可以逐層進(jìn)入進(jìn)行檢索,也可以利用關(guān)鍵詞對(duì)“分類網(wǎng)站”進(jìn)行搜索(http://m6.search.cnb.yahoo.com/dirsrch/)。此外,雅虎中國(guó)也可以對(duì)“所有網(wǎng)站”進(jìn)行關(guān)鍵詞搜索(http://cn.search.yahoo.com/websrch/),早期,他的搜索結(jié)果使用Google的數(shù)據(jù),2004年2月正式推出自己的全文搜索引擎,并結(jié)束了與Google的合作。
⒉新浪分類目錄(http://dir.sina.com.cn/)。 新浪的分類目錄目前共有18個(gè)大類目,用戶可按目錄逐級(jí)向下瀏覽,直到找到所需網(wǎng)站。就好像用戶到圖書館找書一樣,按照類別大小,層層查找,最終找到需要 的網(wǎng)站或內(nèi)容。通過(guò)和其它全文搜索引擎的合作,現(xiàn)在,也可以使用關(guān)鍵詞對(duì)新浪的“分類網(wǎng)站”或“全部網(wǎng)站”進(jìn)行搜索。
?、乘押诸惸夸洠?a >http://dir.sohu.com/)。搜狐分類目錄把網(wǎng)站作為收錄對(duì)象,具體的方法就是將每個(gè)網(wǎng)站首頁(yè)的URL地址提供給搜索用戶,并且將網(wǎng)站的題名和整個(gè)網(wǎng)站的內(nèi)容簡(jiǎn)單描述一下,但是并不揭示網(wǎng)站中每個(gè)網(wǎng)頁(yè)的信息內(nèi)容。除此之外,也可以使用關(guān)鍵詞對(duì)搜狐的“分類目錄”或所有網(wǎng)站進(jìn)行搜索。
?、淳W(wǎng)易分類目錄(http://search.163.com/)。
網(wǎng)易的分類目錄采用“開放式目錄”管理方式,在功能齊全的分布式編輯和管理系統(tǒng)的支持下,現(xiàn)有5000多位各界專業(yè)人士參與可瀏覽分類目錄的編輯工作,極
大地適應(yīng)了互聯(lián)網(wǎng)信息爆炸式增長(zhǎng)的趨勢(shì)。在加強(qiáng)與其它搜索引擎合作的基礎(chǔ)上,新版搜索引擎支持使用關(guān)鍵詞對(duì)所有網(wǎng)站進(jìn)行檢索。
Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=484099




