|
搜索引擎中鏈接分析的HITS算法
[ 2007/04/10 15:29 | by Sangern King ]
HITS算法是由Kleinberg在90年代末提出的一種鏈接分析算法,與隨后我們將介紹的PageRank等實(shí)用性算法不同,HITS算法更大程度上是一種實(shí)驗(yàn)性質(zhì)的嘗試。它必須在網(wǎng)絡(luò)信息檢索系統(tǒng)進(jìn)行面向內(nèi)容的檢索操作之后,基于內(nèi)容檢索的結(jié)果頁面及其直接相連的頁面之間的鏈接關(guān)系進(jìn)行計(jì)算。這使得在實(shí)際應(yīng)用環(huán)境中使用HITS算法變得十分困難,盡管有人嘗試通過算法改進(jìn)和專門設(shè)立鏈接結(jié)構(gòu)計(jì)算服務(wù)器(Connectivity Server)等操作,可以實(shí)現(xiàn)一定程度的在線實(shí)時計(jì)算,但這對于每天要處理超過幾十億次用戶需求的商用搜索引擎而言,這樣的計(jì)算代價仍然是不可接受的。 盡管如此,但HITS算法仍在學(xué)術(shù)界和產(chǎn)業(yè)界都獲得了非常多的關(guān)注,IBM公司甚至基于改進(jìn)后的HITS算法開發(fā)了專門的檢索應(yīng)用系統(tǒng)Clever系統(tǒng)(盡管此系統(tǒng)并沒有投入真實(shí)的網(wǎng)絡(luò)信息檢索服務(wù))。這是與HITS算法設(shè)計(jì)本身所具有的高度的數(shù)學(xué)嚴(yán)謹(jǐn)性相關(guān)的,但更重要的,是因?yàn)镠ITS算法的設(shè)計(jì)符合網(wǎng)絡(luò)用戶評價網(wǎng)絡(luò)資源質(zhì)量的普遍標(biāo)準(zhǔn),因此能夠?yàn)橛脩舾玫睦镁W(wǎng)絡(luò)信息檢索工具訪問互聯(lián)網(wǎng)資源帶來便利。 HITS算法對網(wǎng)頁進(jìn)行質(zhì)量評估的結(jié)果反映在它對每個網(wǎng)頁給出的兩個評價數(shù)值——內(nèi)容權(quán)威度(Authority)和鏈接權(quán)威度(Hub)上。 內(nèi)容權(quán)威度與網(wǎng)頁自身直接提供內(nèi)容信息的質(zhì)量相關(guān),被越多網(wǎng)頁所引用的網(wǎng)頁,其內(nèi)容權(quán)威度越高;與之相對應(yīng)的,鏈接權(quán)威度與網(wǎng)頁提供的超鏈接的質(zhì)量相關(guān),引用越多內(nèi)容質(zhì)量高網(wǎng)頁的網(wǎng)頁,其鏈接權(quán)威度越高。如果我們把一個內(nèi)容權(quán)威度高的網(wǎng)頁比作一個味道不錯的飯館的話,那么鏈接權(quán)威度高的網(wǎng)頁就是旅游雜志中美食家撰寫的一篇推薦飲食地點(diǎn)的文章。 由于網(wǎng)絡(luò)信息檢索所面臨的數(shù)據(jù)對象即萬維網(wǎng)數(shù)據(jù)具有極為繁雜的數(shù)據(jù)規(guī)模,因此,用戶所涉及到的絕大多數(shù)查詢主題都會返回?cái)?shù)量繁多的相關(guān)查詢結(jié)果。面對數(shù)目動輒上千上萬的相關(guān)結(jié)果集合,絕大多數(shù)用戶會傾向于查找出結(jié)果集合中對自己獲取信息最有價值的那一部分網(wǎng)頁。HITS算法所解決的正是這一問題:它所施行的數(shù)據(jù)集合,就是網(wǎng)絡(luò)信息檢索工具返回的與查詢主題相關(guān)的結(jié)果集合,而其輸出的結(jié)果,就是對此結(jié)果集合中網(wǎng)頁的內(nèi)容權(quán)威度和鏈接權(quán)威度的評價。HITS算法因而被認(rèn)為能夠極大地改善用戶的檢索體驗(yàn),也得到了眾多研究人員的關(guān)注。 從具體施行步驟而言,HITS算法的施行是一個“迭代—收斂”的過程,由于具體的算法流程比較復(fù)雜,我們不準(zhǔn)備詳細(xì)描述其運(yùn)行過程,只是說明:網(wǎng)頁A鏈接權(quán)威度的數(shù)值是通過其鏈向的網(wǎng)頁的內(nèi)容權(quán)威度決定的,而網(wǎng)頁A的內(nèi)容權(quán)威度的數(shù)值則是由鏈向其的網(wǎng)頁的鏈接權(quán)威度所決定的。是不是有點(diǎn)像雞生蛋與蛋生雞的關(guān)系呢? HITS算法在特定的應(yīng)用環(huán)境中取得了一定的成功,如在Chakrabarti等基于HITS算法的小規(guī)模試驗(yàn)嘗試中,研究者獲得了超過Yahoo!和AltaVista手工分類結(jié)果的檢索性能,但其實(shí)驗(yàn)數(shù)據(jù)的規(guī)模較小,實(shí)驗(yàn)結(jié)果測試集合的標(biāo)注也缺乏足夠的客觀性。 HITS算法的施行對象及其迭代算法的本質(zhì)決定了其不可能在網(wǎng)絡(luò)信息檢索系統(tǒng)中取得大規(guī)模的應(yīng)用。而更多的基于實(shí)際網(wǎng)絡(luò)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果證明,這個算法本身在挑選內(nèi)容或鏈接質(zhì)量較高的頁面時也并非格外有效,究其原因而言,大致包括以下幾點(diǎn): A. 站點(diǎn)內(nèi)部網(wǎng)頁在權(quán)威度數(shù)值上的的相互加強(qiáng); B. 網(wǎng)頁輔助制作工具自動生成的鏈接條目的干擾; C. 與主題無關(guān)的網(wǎng)頁或者主題漂移。 針對上述缺點(diǎn), Bharat等人對HITS算法進(jìn)行了相關(guān)的修改,具體內(nèi)容包括忽略站點(diǎn)內(nèi)部的鏈接、或者利用網(wǎng)頁的內(nèi)容相似度對Hub/Authority值進(jìn)行初始化等。這些改進(jìn)獲得了有限的成功,但從算法的核心思想而言與HITS并沒有實(shí)質(zhì)的改變,因此在此不再贅述。 |
|
|