小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

漫談聚類搜索引擎的研究現(xiàn)狀

 看見就非常 2012-04-24
1 聚類搜索引擎概念和工作流程

  所謂聚類搜索引擎,就是運(yùn)用聚類技術(shù)對 搜索結(jié)果進(jìn)行自動聚類分析的搜索工具。其特點(diǎn)是去重性強(qiáng)、分類性強(qiáng)、匯集性強(qiáng),即可以及時去除重復(fù)信息,對搜索的結(jié)果進(jìn)行分門別類,并可以匯集各大知名搜 索引擎的信息資源。目前,典型的聚類搜索引擎的基本工作步驟為:①依據(jù)用戶查詢的關(guān)鍵字,從一個或多個搜索引擎獲取搜索結(jié)果;②對搜索結(jié)果進(jìn)行預(yù)處理,過 濾掉重復(fù)、無效信息;③將文檔中關(guān)鍵短語作為特征提取出來生成聚類標(biāo)簽;④將文檔分配到生成的聚類標(biāo)簽下;⑤將聚類后的搜索結(jié)果進(jìn)行排序并顯示給用戶。

  2 國內(nèi)外聚類搜索引擎的發(fā)展現(xiàn)狀

   搜索引擎的發(fā)展階段總共經(jīng)歷了三個階段[3],其中第1代搜索引擎主要是基于人工分類的通用搜索;第2代主要依靠機(jī)器進(jìn)行自動爬取和分析,利用鏈接分析 技術(shù)實(shí)現(xiàn)更為準(zhǔn)確的搜索,如Google、百度等;第3代搜索引擎更加體現(xiàn)了智能化、互動式和人性化。功能包括自動聚類、去重、用戶習(xí)慣記憶等方面,是未 來搜索引擎主要的發(fā)展方向。

  近幾年,國際上對聚類搜索引擎系統(tǒng)的研究日漸火熱,已經(jīng)出現(xiàn)了一些知名的聚類搜 索系統(tǒng)。其中,Scatter/Gather系統(tǒng)[4]是第一個在搜索引擎上使用聚類方法的系統(tǒng);Vivisimo[5]是一種商業(yè)化聚類搜索引擎,符合 用戶使用習(xí)慣,搜索效率高?;贘ava的開源Carrot2聚類搜索引擎[5]可自動的把搜索結(jié)果歸類到相應(yīng)的語義類別中,它的一個亮點(diǎn)是速度和易用性 的提高。中文搜索領(lǐng)域,早期比較有實(shí)力的聚類搜索引擎有Bbmao,Bbmao搜索系統(tǒng)推出了去重功能,為網(wǎng)民解決了大量閱讀重復(fù)信息的煩惱。Bbmao 的聚類功能,能夠提高查找信息的效率,它還具有云集各大搜索引擎結(jié)果的功能,同時完成海量信息的分門別類。近期出現(xiàn)的baigoogleledu綜合了谷 歌、百度兩大搜索引擎。其基本出發(fā)點(diǎn)是兩大搜索引擎的搜索結(jié)果的很大的差異性。這類系統(tǒng)對搜索結(jié)果進(jìn)行聚類分析,在一定程度上緩解了廣告泛濫的局面,使用 戶更便捷地找到需要的信息。

  有關(guān)國內(nèi)外聚類搜索引擎的相關(guān)技術(shù),主要有聚類分析、聚類算法、中文信息處理等 技術(shù)。Anton等人[7]致力于把分類體系引入評估體系來評價聚類效果質(zhì)量的研究。Sudipto Guha等研究人員[8]應(yīng)用概念關(guān)聯(lián)代替?zhèn)鹘y(tǒng)的計(jì)算歐式距離,來衡量數(shù)據(jù)之間的相似度,從而確定聚類,達(dá)到了很好的效果。

   國內(nèi)一些學(xué)術(shù)組織和團(tuán)體很早就開始對自動文本分類、聚類領(lǐng)域等相關(guān)內(nèi)容進(jìn)行研究,從“天網(wǎng)”和“網(wǎng)絡(luò)指南針”開始北京大學(xué)和清華大學(xué)就開始致力于網(wǎng)頁的 聚類技術(shù)研究。此外,北京科技大學(xué)的麻雪云提出了一種基于關(guān)鍵名詞短語聚類的中文搜索結(jié)果聚類方法[9],利用百度、谷歌、雅虎三大搜索引擎來獲取互聯(lián)網(wǎng) 信息,對搜索結(jié)果進(jìn)行聚類分析。國防科技大學(xué)的肖坤對STC算法和Lingo算法進(jìn)行了比較,并對STC算法進(jìn)行了改進(jìn),設(shè)計(jì)實(shí)現(xiàn)了一個面向校園網(wǎng)聚類搜 索引擎系統(tǒng)[10]。

  2 聚類搜索引擎的功能分析

  2.1 聚類對象分析

  現(xiàn)有聚類搜索引擎的聚類對象主要包括三類數(shù)據(jù):商業(yè)數(shù)據(jù)、評價數(shù)據(jù)、社交數(shù)據(jù)。

   商品數(shù)據(jù)主要包括對服裝、電器、化妝品等數(shù)據(jù)信息進(jìn)行分類整理,例如用戶在淘寶網(wǎng)輸入“牙膏”關(guān)鍵字,在網(wǎng)頁上立馬顯示出“功能”、“品牌”、“產(chǎn)地” 等分類信息,并按照銷量、價格、信用進(jìn)行了排序,對商品的聚類分析清晰明確。評價數(shù)據(jù)主要包括論壇對相關(guān)主題的討論信息,博客的交流信息,商業(yè)網(wǎng)站對商品 的滿意度評價信息等。大連海事大學(xué)的魯明羽、姚曉娜等人提出一種基于模糊聚類的網(wǎng)絡(luò)論壇熱點(diǎn)話題挖掘算法,通過分析帖子和用戶間的影響力傳遞,來判斷是否 為焦點(diǎn)人物和熱門話題[11]。社交數(shù)據(jù)主要包括社交網(wǎng)絡(luò)注冊用戶個人資料信息、用戶關(guān)注度信息、用戶之間交互信息等社交數(shù)據(jù)資源。社交數(shù)據(jù)隱含了大量可 以用于聚類的關(guān)聯(lián)信息,對實(shí)現(xiàn)智能和個性化聚類搜索具有重要意義。此外,聚類對象按數(shù)據(jù)類型還可以劃分為文本數(shù)據(jù)、多媒體數(shù)據(jù)等。

  2.2 聚類功能分析

  聚類搜索引擎的聚類功能主要有智能聚類、去重、多媒體、覆蓋性等能力。

  智能聚類:聚類搜索引擎大多具有這項(xiàng)功能。目前做得最好的如Vivisimo系統(tǒng),它最大的特色是會對搜索結(jié)果自動分類,采用專門開發(fā)的啟發(fā)式算法來集合或聚類原文文獻(xiàn)。

  去重:去重可以取掉大部分的廣告網(wǎng)頁并節(jié)省掉用戶的選擇時間,是十分實(shí)用的一項(xiàng)聚類功能。國內(nèi)的比比貓的去重功能非常出色,在用戶獲得多個搜索引擎的搜索結(jié)果后,比比貓可以自動為用戶獲取最有搜索結(jié)果并取掉重復(fù)的信息。

  多媒體:除了文本聚類,聚類搜索引擎還關(guān)注視頻、音頻等多媒體信息進(jìn)行聚類的功能,商業(yè)化、集成化、多媒體化的氣息更加濃厚。搜狗音樂推出了新版的聚類頁面,可視化強(qiáng),用戶輸入重慶陽光房名稱,將獲得全新的聚類結(jié)果,該結(jié)果首先按照音頻特征聚類,再按照文本信息聚類,保證搜索界面顯示的音樂相關(guān)度最高。

  覆蓋性:聚類搜索引擎一般基于一些大型通用搜索引擎的數(shù)據(jù)資源,這樣能夠保證搜索的結(jié)果覆蓋全面,可聚類的對象內(nèi)容豐富。

  2.3 聚類算法分析

   聚類搜索引擎的聚類算法主要有層次聚類、樹狀聚類、網(wǎng)狀聚類、圓形聚類。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系統(tǒng)使用層次聚類的方法,按照來源及站點(diǎn)進(jìn)行聚類。PinkySeach[12]和 Mnemomap(mnemomap.org)系統(tǒng)是使用樹狀結(jié)構(gòu)的聚類算法如重慶不銹鋼裝飾, 將聚類的結(jié)果以列表的形式展示出來。UJIKO系統(tǒng)(ujiko.com)是使用圓形結(jié)構(gòu)的聚類算法,它將搜索結(jié)果聚類后按照主題自動分類成圖形界面顯示 出來。Quintura系統(tǒng)(quintura.com)是使用網(wǎng)狀結(jié)構(gòu)的聚類算法,是通過標(biāo)簽云的形式將在語義上相關(guān)的詞聚類,構(gòu)成網(wǎng)狀鏈接。

  3 典型聚類搜索引擎

  3.1 Vivisimo系統(tǒng)

   Vivisimo系統(tǒng)[5]的基本步驟包括:首先系統(tǒng)自動地、并行地向多個大型搜索引擎提交查詢請求,然后匯集每個查詢返回的結(jié)果,對查詢的結(jié)果進(jìn)行聚 類分析,經(jīng)過去重、合并、分類等步驟后,通過輸出處理顯示給用戶。Vivisimo的聚類對象是從多個搜索引擎返回的搜索結(jié)果,主要是文本信息。 Vivisimo的聚類功能主要是文本的聚類,通過對文本內(nèi)容進(jìn)行對重慶不銹鋼宣傳欄搜索和歸類分析,vivisimo的軟件可以使用戶從沒有預(yù)先標(biāo)記或分類的資源中整合、分類內(nèi)容。Vivisimo采用啟發(fā)式算法,借鑒了人工智能的理念,對檢索的結(jié)果進(jìn)行聚類,可以把文本信息自動地分成等級排序的類目,它的每一步都是自動化的,不需要人工干預(yù)。

  目前Vivisimo的商業(yè)應(yīng)用十分廣泛,它對信息的分類很體貼,具有人性化。其細(xì)致的檢索結(jié)果顯示方式使它成為了業(yè)界的精品,連續(xù)多年成為“最佳元搜索引擎”。但是,Vivisimo于沒有自身的數(shù)據(jù)資源庫,依附于其他大型搜索引擎,獨(dú)立性較差,檢索功能有待加強(qiáng)。

  3.2 Carrot2系統(tǒng)

   Carrot2是基于Java開發(fā)的開源聚類搜索系統(tǒng)[6],主要用于對搜索結(jié)果進(jìn)行聚類。與Vivisimo相似,首先也是用戶輸入關(guān)鍵字在 Bing、baidu、google等知名搜索引擎進(jìn)行搜索,然后對返回的搜索結(jié)果進(jìn)行聚類,并通過樹形的分類圖進(jìn)行顯示出來。Carrot2的聚類對象 主要是各大搜索引擎返回的搜索結(jié)果,其通過文檔聚類平臺workbench,對搜索的數(shù)據(jù)進(jìn)行聚類分析,并通過文檔聚類服務(wù)器DCS,將聚類結(jié)果作為 REST服務(wù)呈現(xiàn)。最后,Carrot2以WebApp方式將聚類結(jié)果作為網(wǎng)絡(luò)應(yīng)用呈現(xiàn)給終端用戶。Carrot2采用的聚類算法主要是Lingo(基于 奇異值分解的索引結(jié)果聚類)算法和STC(Suffix Tree Clustering)后綴樹聚類算法。

  目前Carrot2支持的聚類算法較多,代碼開源可以進(jìn)行版本的更新和改進(jìn)。該系統(tǒng)應(yīng)用廣泛、可移植性較好。但是Carrot2中文分詞效果不好,可視化效果不佳。

  4 聚類搜索引擎發(fā)展趨勢

   文獻(xiàn)[1]通過對大量搜索引擎的評測,發(fā)現(xiàn)獨(dú)立性差、專用算法欠缺、搜索速度慢等一系列問題,但該文主要對搜索結(jié)果的聚類方法進(jìn)行了評測,對聚類搜索引 擎的趨勢的分析也主要側(cè)重于聚類方法。本文認(rèn)為聚類搜索引擎未來將向數(shù)據(jù)海量化,鏈接社交化,聚類綜合化三個方向發(fā)展。

  4.1 數(shù)據(jù)海量化

   現(xiàn)階段的聚類搜索由于數(shù)據(jù)集較為單一,聚類算法過于老舊,造成呈現(xiàn)給用戶的檢索結(jié)果數(shù)量少,內(nèi)容貧乏,這樣必然影響聚類搜索的發(fā)展壯大。所以未來聚類搜 索必然要向數(shù)據(jù)海量化發(fā)展。近期,美國互聯(lián)網(wǎng)公司“耶寶”日前推出一種更具人性化的搜索引擎,有別于當(dāng)今主流搜索引擎網(wǎng)站提供的單維搜索,并非一般的羅列 搜索結(jié)果,而是通過對搜索的詞條和海量的網(wǎng)頁的內(nèi)容進(jìn)行分析,自動對搜索結(jié)果進(jìn)行聚類和分類,為用戶提供豐富而直觀的結(jié)果。

  4.2 鏈接社交化

   在搜索引擎中引入社交元素,由于目前Web社交網(wǎng)絡(luò)形成了一個巨大的Deep Web(針對網(wǎng)絡(luò)爬蟲而言),而這個數(shù)據(jù)量對搜索引擎來說是非常大而且有用的,搜索引擎作為用戶獲取信息的主要渠道,勢必需要這些用戶活躍度和新鮮度很高 的數(shù)據(jù)資源。由于社交數(shù)據(jù)中蘊(yùn)含著大量數(shù)據(jù)之間的潛在鏈接,因此基于社交數(shù)據(jù)進(jìn)行聚類搜索可望更好滿足用戶的個性化需求。

  4.3 聚類綜合化

  聚類的多元化、跨領(lǐng)域、綜合化將是新型聚類搜索的重要特點(diǎn)。局限于單個應(yīng)用領(lǐng)域的聚類搜索已經(jīng)難以適應(yīng)需要,跨領(lǐng)域聚類將是未來聚類搜索面臨的主要挑戰(zhàn)。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多