| 1 聚類搜索引擎概念和工作流程 所謂聚類搜索引擎,就是運(yùn)用聚類技術(shù)對 搜索結(jié)果進(jìn)行自動聚類分析的搜索工具。其特點(diǎn)是去重性強(qiáng)、分類性強(qiáng)、匯集性強(qiáng),即可以及時去除重復(fù)信息,對搜索的結(jié)果進(jìn)行分門別類,并可以匯集各大知名搜 索引擎的信息資源。目前,典型的聚類搜索引擎的基本工作步驟為:①依據(jù)用戶查詢的關(guān)鍵字,從一個或多個搜索引擎獲取搜索結(jié)果;②對搜索結(jié)果進(jìn)行預(yù)處理,過 濾掉重復(fù)、無效信息;③將文檔中關(guān)鍵短語作為特征提取出來生成聚類標(biāo)簽;④將文檔分配到生成的聚類標(biāo)簽下;⑤將聚類后的搜索結(jié)果進(jìn)行排序并顯示給用戶。 2 國內(nèi)外聚類搜索引擎的發(fā)展現(xiàn)狀 搜索引擎的發(fā)展階段總共經(jīng)歷了三個階段[3],其中第1代搜索引擎主要是基于人工分類的通用搜索;第2代主要依靠機(jī)器進(jìn)行自動爬取和分析,利用鏈接分析 技術(shù)實(shí)現(xiàn)更為準(zhǔn)確的搜索,如Google、百度等;第3代搜索引擎更加體現(xiàn)了智能化、互動式和人性化。功能包括自動聚類、去重、用戶習(xí)慣記憶等方面,是未 來搜索引擎主要的發(fā)展方向。 近幾年,國際上對聚類搜索引擎系統(tǒng)的研究日漸火熱,已經(jīng)出現(xiàn)了一些知名的聚類搜 索系統(tǒng)。其中,Scatter/Gather系統(tǒng)[4]是第一個在搜索引擎上使用聚類方法的系統(tǒng);Vivisimo[5]是一種商業(yè)化聚類搜索引擎,符合 用戶使用習(xí)慣,搜索效率高?;贘ava的開源Carrot2聚類搜索引擎[5]可自動的把搜索結(jié)果歸類到相應(yīng)的語義類別中,它的一個亮點(diǎn)是速度和易用性 的提高。中文搜索領(lǐng)域,早期比較有實(shí)力的聚類搜索引擎有Bbmao,Bbmao搜索系統(tǒng)推出了去重功能,為網(wǎng)民解決了大量閱讀重復(fù)信息的煩惱。Bbmao 的聚類功能,能夠提高查找信息的效率,它還具有云集各大搜索引擎結(jié)果的功能,同時完成海量信息的分門別類。近期出現(xiàn)的baigoogleledu綜合了谷 歌、百度兩大搜索引擎。其基本出發(fā)點(diǎn)是兩大搜索引擎的搜索結(jié)果的很大的差異性。這類系統(tǒng)對搜索結(jié)果進(jìn)行聚類分析,在一定程度上緩解了廣告泛濫的局面,使用 戶更便捷地找到需要的信息。 有關(guān)國內(nèi)外聚類搜索引擎的相關(guān)技術(shù),主要有聚類分析、聚類算法、中文信息處理等 技術(shù)。Anton等人[7]致力于把分類體系引入評估體系來評價聚類效果質(zhì)量的研究。Sudipto Guha等研究人員[8]應(yīng)用概念關(guān)聯(lián)代替?zhèn)鹘y(tǒng)的計(jì)算歐式距離,來衡量數(shù)據(jù)之間的相似度,從而確定聚類,達(dá)到了很好的效果。 國內(nèi)一些學(xué)術(shù)組織和團(tuán)體很早就開始對自動文本分類、聚類領(lǐng)域等相關(guān)內(nèi)容進(jìn)行研究,從“天網(wǎng)”和“網(wǎng)絡(luò)指南針”開始北京大學(xué)和清華大學(xué)就開始致力于網(wǎng)頁的 聚類技術(shù)研究。此外,北京科技大學(xué)的麻雪云提出了一種基于關(guān)鍵名詞短語聚類的中文搜索結(jié)果聚類方法[9],利用百度、谷歌、雅虎三大搜索引擎來獲取互聯(lián)網(wǎng) 信息,對搜索結(jié)果進(jìn)行聚類分析。國防科技大學(xué)的肖坤對STC算法和Lingo算法進(jìn)行了比較,并對STC算法進(jìn)行了改進(jìn),設(shè)計(jì)實(shí)現(xiàn)了一個面向校園網(wǎng)聚類搜 索引擎系統(tǒng)[10]。 2 聚類搜索引擎的功能分析 2.1 聚類對象分析 現(xiàn)有聚類搜索引擎的聚類對象主要包括三類數(shù)據(jù):商業(yè)數(shù)據(jù)、評價數(shù)據(jù)、社交數(shù)據(jù)。 商品數(shù)據(jù)主要包括對服裝、電器、化妝品等數(shù)據(jù)信息進(jìn)行分類整理,例如用戶在淘寶網(wǎng)輸入“牙膏”關(guān)鍵字,在網(wǎng)頁上立馬顯示出“功能”、“品牌”、“產(chǎn)地” 等分類信息,并按照銷量、價格、信用進(jìn)行了排序,對商品的聚類分析清晰明確。評價數(shù)據(jù)主要包括論壇對相關(guān)主題的討論信息,博客的交流信息,商業(yè)網(wǎng)站對商品 的滿意度評價信息等。大連海事大學(xué)的魯明羽、姚曉娜等人提出一種基于模糊聚類的網(wǎng)絡(luò)論壇熱點(diǎn)話題挖掘算法,通過分析帖子和用戶間的影響力傳遞,來判斷是否 為焦點(diǎn)人物和熱門話題[11]。社交數(shù)據(jù)主要包括社交網(wǎng)絡(luò)注冊用戶個人資料信息、用戶關(guān)注度信息、用戶之間交互信息等社交數(shù)據(jù)資源。社交數(shù)據(jù)隱含了大量可 以用于聚類的關(guān)聯(lián)信息,對實(shí)現(xiàn)智能和個性化聚類搜索具有重要意義。此外,聚類對象按數(shù)據(jù)類型還可以劃分為文本數(shù)據(jù)、多媒體數(shù)據(jù)等。 2.2 聚類功能分析 聚類搜索引擎的聚類功能主要有智能聚類、去重、多媒體、覆蓋性等能力。 智能聚類:聚類搜索引擎大多具有這項(xiàng)功能。目前做得最好的如Vivisimo系統(tǒng),它最大的特色是會對搜索結(jié)果自動分類,采用專門開發(fā)的啟發(fā)式算法來集合或聚類原文文獻(xiàn)。 去重:去重可以取掉大部分的廣告網(wǎng)頁并節(jié)省掉用戶的選擇時間,是十分實(shí)用的一項(xiàng)聚類功能。國內(nèi)的比比貓的去重功能非常出色,在用戶獲得多個搜索引擎的搜索結(jié)果后,比比貓可以自動為用戶獲取最有搜索結(jié)果并取掉重復(fù)的信息。 多媒體:除了文本聚類,聚類搜索引擎還關(guān)注視頻、音頻等多媒體信息進(jìn)行聚類的功能,商業(yè)化、集成化、多媒體化的氣息更加濃厚。搜狗音樂推出了新版的聚類頁面,可視化強(qiáng),用戶輸入重慶陽光房名稱,將獲得全新的聚類結(jié)果,該結(jié)果首先按照音頻特征聚類,再按照文本信息聚類,保證搜索界面顯示的音樂相關(guān)度最高。 覆蓋性:聚類搜索引擎一般基于一些大型通用搜索引擎的數(shù)據(jù)資源,這樣能夠保證搜索的結(jié)果覆蓋全面,可聚類的對象內(nèi)容豐富。 2.3 聚類算法分析 聚類搜索引擎的聚類算法主要有層次聚類、樹狀聚類、網(wǎng)狀聚類、圓形聚類。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系統(tǒng)使用層次聚類的方法,按照來源及站點(diǎn)進(jìn)行聚類。PinkySeach[12]和 Mnemomap(mnemomap.org)系統(tǒng)是使用樹狀結(jié)構(gòu)的聚類算法如重慶不銹鋼裝飾, 將聚類的結(jié)果以列表的形式展示出來。UJIKO系統(tǒng)(ujiko.com)是使用圓形結(jié)構(gòu)的聚類算法,它將搜索結(jié)果聚類后按照主題自動分類成圖形界面顯示 出來。Quintura系統(tǒng)(quintura.com)是使用網(wǎng)狀結(jié)構(gòu)的聚類算法,是通過標(biāo)簽云的形式將在語義上相關(guān)的詞聚類,構(gòu)成網(wǎng)狀鏈接。 3 典型聚類搜索引擎 3.1 Vivisimo系統(tǒng) Vivisimo系統(tǒng)[5]的基本步驟包括:首先系統(tǒng)自動地、并行地向多個大型搜索引擎提交查詢請求,然后匯集每個查詢返回的結(jié)果,對查詢的結(jié)果進(jìn)行聚 類分析,經(jīng)過去重、合并、分類等步驟后,通過輸出處理顯示給用戶。Vivisimo的聚類對象是從多個搜索引擎返回的搜索結(jié)果,主要是文本信息。 Vivisimo的聚類功能主要是文本的聚類,通過對文本內(nèi)容進(jìn)行對重慶不銹鋼宣傳欄搜索和歸類分析,vivisimo的軟件可以使用戶從沒有預(yù)先標(biāo)記或分類的資源中整合、分類內(nèi)容。Vivisimo采用啟發(fā)式算法,借鑒了人工智能的理念,對檢索的結(jié)果進(jìn)行聚類,可以把文本信息自動地分成等級排序的類目,它的每一步都是自動化的,不需要人工干預(yù)。 目前Vivisimo的商業(yè)應(yīng)用十分廣泛,它對信息的分類很體貼,具有人性化。其細(xì)致的檢索結(jié)果顯示方式使它成為了業(yè)界的精品,連續(xù)多年成為“最佳元搜索引擎”。但是,Vivisimo于沒有自身的數(shù)據(jù)資源庫,依附于其他大型搜索引擎,獨(dú)立性較差,檢索功能有待加強(qiáng)。 3.2 Carrot2系統(tǒng) Carrot2是基于Java開發(fā)的開源聚類搜索系統(tǒng)[6],主要用于對搜索結(jié)果進(jìn)行聚類。與Vivisimo相似,首先也是用戶輸入關(guān)鍵字在 Bing、baidu、google等知名搜索引擎進(jìn)行搜索,然后對返回的搜索結(jié)果進(jìn)行聚類,并通過樹形的分類圖進(jìn)行顯示出來。Carrot2的聚類對象 主要是各大搜索引擎返回的搜索結(jié)果,其通過文檔聚類平臺workbench,對搜索的數(shù)據(jù)進(jìn)行聚類分析,并通過文檔聚類服務(wù)器DCS,將聚類結(jié)果作為 REST服務(wù)呈現(xiàn)。最后,Carrot2以WebApp方式將聚類結(jié)果作為網(wǎng)絡(luò)應(yīng)用呈現(xiàn)給終端用戶。Carrot2采用的聚類算法主要是Lingo(基于 奇異值分解的索引結(jié)果聚類)算法和STC(Suffix Tree Clustering)后綴樹聚類算法。 目前Carrot2支持的聚類算法較多,代碼開源可以進(jìn)行版本的更新和改進(jìn)。該系統(tǒng)應(yīng)用廣泛、可移植性較好。但是Carrot2中文分詞效果不好,可視化效果不佳。 4 聚類搜索引擎發(fā)展趨勢 文獻(xiàn)[1]通過對大量搜索引擎的評測,發(fā)現(xiàn)獨(dú)立性差、專用算法欠缺、搜索速度慢等一系列問題,但該文主要對搜索結(jié)果的聚類方法進(jìn)行了評測,對聚類搜索引 擎的趨勢的分析也主要側(cè)重于聚類方法。本文認(rèn)為聚類搜索引擎未來將向數(shù)據(jù)海量化,鏈接社交化,聚類綜合化三個方向發(fā)展。 4.1 數(shù)據(jù)海量化 現(xiàn)階段的聚類搜索由于數(shù)據(jù)集較為單一,聚類算法過于老舊,造成呈現(xiàn)給用戶的檢索結(jié)果數(shù)量少,內(nèi)容貧乏,這樣必然影響聚類搜索的發(fā)展壯大。所以未來聚類搜 索必然要向數(shù)據(jù)海量化發(fā)展。近期,美國互聯(lián)網(wǎng)公司“耶寶”日前推出一種更具人性化的搜索引擎,有別于當(dāng)今主流搜索引擎網(wǎng)站提供的單維搜索,并非一般的羅列 搜索結(jié)果,而是通過對搜索的詞條和海量的網(wǎng)頁的內(nèi)容進(jìn)行分析,自動對搜索結(jié)果進(jìn)行聚類和分類,為用戶提供豐富而直觀的結(jié)果。 4.2 鏈接社交化 在搜索引擎中引入社交元素,由于目前Web社交網(wǎng)絡(luò)形成了一個巨大的Deep Web(針對網(wǎng)絡(luò)爬蟲而言),而這個數(shù)據(jù)量對搜索引擎來說是非常大而且有用的,搜索引擎作為用戶獲取信息的主要渠道,勢必需要這些用戶活躍度和新鮮度很高 的數(shù)據(jù)資源。由于社交數(shù)據(jù)中蘊(yùn)含著大量數(shù)據(jù)之間的潛在鏈接,因此基于社交數(shù)據(jù)進(jìn)行聚類搜索可望更好滿足用戶的個性化需求。 4.3 聚類綜合化 聚類的多元化、跨領(lǐng)域、綜合化將是新型聚類搜索的重要特點(diǎn)。局限于單個應(yīng)用領(lǐng)域的聚類搜索已經(jīng)難以適應(yīng)需要,跨領(lǐng)域聚類將是未來聚類搜索面臨的主要挑戰(zhàn)。 | 
|  |