小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

如何做好一個(gè)垂直搜索引擎[原創(chuàng)] 中文全文檢索網(wǎng)

 tom lee 2007-12-02
 

原創(chuàng)文章,無(wú)版權(quán),可以任意轉(zhuǎn)載,但是轉(zhuǎn)載必須完整轉(zhuǎn)載全文、本文url和內(nèi)部解釋性鏈接。
隨筆、歡迎批評(píng)指正。



本文先引用幾句話:
1.“確解用戶之意,切返用戶之需?!?br>2.“門戶網(wǎng)站都想著是怎樣省錢,而不是怎樣花錢來(lái)買技術(shù)?!?br>3.“搜索引擎不是人人都能做的領(lǐng)域,進(jìn)入的門檻比較高?!?br>4.“只是優(yōu)秀還不夠,最好的方式是將一件事情做到極致?!保?a href="http://www./n2005410194942735.asp" target="_blank">google十大真理)
5.“做搜索引擎需要專注” “對(duì)于一項(xiàng)排到第四的業(yè)務(wù),門戶很難做到專注?!?br>6.“用戶無(wú)法描述道他要找什么,除非讓他看到想找的東西?!?br>7. “所謂楔形,其實(shí)就是個(gè)倒三角,倒三角的尖端部分代表搜索技術(shù),中部是基于技術(shù)的產(chǎn)品應(yīng)用平臺(tái),最上端是對(duì)整個(gè)搜索引擎用戶人群文化的認(rèn)識(shí)和理解,以及現(xiàn)代公司競(jìng)爭(zhēng)最關(guān)鍵也最捉摸不定的所謂品牌?!?“楔形”蘊(yùn)涵的另一個(gè)意義是:楔子要打到墻里,尖端是否銳利很重要,但楔子的破壞性有多強(qiáng),究竟能在墻面擠壓出多大的空間,其中端、后端的沉穩(wěn)與厚重才是關(guān)鍵。


垂直搜索是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。
   垂直搜索引擎和普通的網(wǎng)頁(yè)搜索引擎的最大區(qū)別是對(duì)網(wǎng)頁(yè)信息進(jìn)行了結(jié)構(gòu)化信息抽取,也就是將網(wǎng)頁(yè)的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比網(wǎng)頁(yè)搜索是以網(wǎng)頁(yè)為最小單位,基于視覺(jué)的網(wǎng)頁(yè)塊分析是以網(wǎng)頁(yè)塊為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后將這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù),進(jìn)行進(jìn)一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。
  整個(gè)過(guò)程中,數(shù)據(jù)由非結(jié)構(gòu)化數(shù)據(jù)抽取成結(jié)構(gòu)化數(shù)據(jù),經(jīng)過(guò)深度加工處理后以非結(jié)構(gòu)化的方式和結(jié)構(gòu)化的方式返回給用戶。
    垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫(kù)搜索、供求信息搜索引擎、購(gòu)物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、
mp3搜索、圖片搜索……幾乎各行各業(yè)各類信息都可以進(jìn)一步細(xì)化成各類的垂直搜索引擎。
    舉個(gè)例子來(lái)說(shuō)明會(huì)更容易理解,比如購(gòu)物搜索引擎,整體流程大致如下:抓取網(wǎng)頁(yè)后,對(duì)網(wǎng)頁(yè)商品信息進(jìn)行抽取,抽取出商品名稱、價(jià)格、簡(jiǎn)介……甚至可以進(jìn)一步將筆記本簡(jiǎn)介細(xì)分成“品牌、型號(hào)、
CPU、內(nèi)存、硬盤、顯示屏、……”然后對(duì)信息進(jìn)行清洗、去重、分類、分析比較、數(shù)據(jù)挖掘,最后通過(guò)分詞索引提供用戶搜索、通過(guò)分析挖掘提供市場(chǎng)行情報(bào)告。
   垂直搜索引擎大體上需要以下技術(shù)

    1.Spider
    2.網(wǎng)頁(yè)結(jié)構(gòu)化信息抽取技術(shù)
或元數(shù)據(jù)采集技術(shù)
    3.
分詞、索引
    4.
其他信息處理技術(shù)

   垂直搜索引擎的技術(shù)評(píng)估應(yīng)從以下幾點(diǎn)來(lái)判斷
    1.
全面性
    2.
更新性
    3.
準(zhǔn)確性
    4.
功能性
  垂直搜索的進(jìn)入門檻很低,但是競(jìng)爭(zhēng)的門檻很高。沒(méi)有專注的精神和精湛的技術(shù)是不行的。行業(yè)門戶網(wǎng)站具備行業(yè)優(yōu)勢(shì)但他們又是沒(méi)有技術(shù)優(yōu)勢(shì)的,絕對(duì)不要想像著招幾個(gè)人就可以搞定垂直搜索的全部技術(shù),作為一個(gè)需要持續(xù)改進(jìn)可運(yùn)營(yíng)的產(chǎn)品而不是一個(gè)項(xiàng)目來(lái)說(shuō)對(duì)技術(shù)的把握控制程度又是垂直搜索成功的重要因素之一。

搜索引擎的技術(shù)和理念都是需要時(shí)間和經(jīng)驗(yàn)的積累的,更是需要長(zhǎng)期不斷的完善進(jìn)步的,絕對(duì)不要認(rèn)為可以一蹴而就,要達(dá)到一個(gè)相對(duì)成熟領(lǐng)先的搜索引擎從開始到領(lǐng)先的周期一般需要是四年。著急不得。原因是因?yàn)樗阉饕嫣珡?fù)雜,而且“用戶無(wú)法描述他要找什么,除非讓他看到想找的東西。” 一切都需要摸索,嘗試,問(wèn)題需要一個(gè)一個(gè)解決,用戶的需要得一點(diǎn)點(diǎn)的挖掘。
搜索引擎是一個(gè)產(chǎn)品,給用戶提供服務(wù)的產(chǎn)品,需要長(zhǎng)期的不斷的改進(jìn)升級(jí)調(diào)整才能持續(xù)不斷的提用戶體驗(yàn),需要滿足用戶不斷增長(zhǎng)并且變化的需求、需要不斷適應(yīng)網(wǎng)絡(luò)的變化。這是因?yàn)榫W(wǎng)絡(luò)環(huán)境是不斷變化的、網(wǎng)民的需求也是不斷變化的。千萬(wàn)不要把搜索當(dāng)成項(xiàng)目來(lái)做,做完了撂那讓用戶去用那你肯定沒(méi)戲。在搜索引擎領(lǐng)域是講體驗(yàn)的、新的引擎如果用戶體驗(yàn)一旦整體上有領(lǐng)先一年以上的差距并且持續(xù)2年,那前期的領(lǐng)先者的優(yōu)勢(shì)就蕩然無(wú)存,因?yàn)樗阉饕娴挠脩艮D(zhuǎn)移成本相對(duì)而言是比較低的而且口碑是最佳的傳播方式。如果一個(gè)搜索引擎不能持續(xù)不斷的技術(shù)創(chuàng)新理念創(chuàng)新,那對(duì)于這個(gè)搜索引擎來(lái)說(shuō)就等于死亡。我們一般形容搜索引擎的領(lǐng)先是以時(shí)間計(jì)算的。比如:中搜離百度整體差距×年,百度離google的整體差距×年,……只要你能在用戶體驗(yàn)上保持一年的領(lǐng)先優(yōu)勢(shì)持續(xù)2年,不需要炒作,一切紛至沓來(lái)。在用戶體驗(yàn)面前,任何的炒作都顯得很渺小。
垂直搜索引擎,麻雀雖小,但是五臟俱全。無(wú)論理念文化、產(chǎn)品管理、應(yīng)用、技術(shù)都和搜索引擎的楔形理論沒(méi)有什么區(qū)別。所以要做好一垂直搜索必須解決這幾個(gè)方面。


楔形的尖:垂直搜索技術(shù)。
垂直搜索技術(shù)主要分為兩個(gè)層次:模板級(jí)和網(wǎng)頁(yè)庫(kù)級(jí)。模板級(jí)是針對(duì)網(wǎng)頁(yè)進(jìn)行模板設(shè)定或者自動(dòng)生成模板的方式抽取數(shù)據(jù),對(duì)網(wǎng)頁(yè)的采集也是針對(duì)性的采集,適合規(guī)模比較小、信息源少且穩(wěn)定的需求,優(yōu)點(diǎn)是快速實(shí)施、成本低、靈活性強(qiáng),缺點(diǎn)是后期維護(hù)成本高,信息源和信息量小。網(wǎng)頁(yè)庫(kù)級(jí)就是在信息源數(shù)量上、數(shù)據(jù)容量上檢索容量上、穩(wěn)定性可靠性上都是網(wǎng)頁(yè)庫(kù)搜索引擎級(jí)別的要求,和模板方式最大的區(qū)別是對(duì)具體網(wǎng)頁(yè)不依賴,可針對(duì)任意正常的網(wǎng)頁(yè)進(jìn)信息采集信息抽取……。這就導(dǎo)致這種方式數(shù)據(jù)容量上和模板方式有質(zhì)的區(qū)別,但是其靈活性差、成本高。當(dāng)然模板方式和網(wǎng)頁(yè)庫(kù)級(jí)的方式不是對(duì)立的,這兩者對(duì)于垂直搜索引擎來(lái)說(shuō)是相互補(bǔ)充的,因?yàn)榧夹g(shù)只是手段,目的是切反用戶之需。本文談及的技術(shù)主要是指網(wǎng)頁(yè)庫(kù)級(jí)別垂直搜索引擎技術(shù)。
搜索引擎的確是一項(xiàng)對(duì)技術(shù)要求比較高的應(yīng)用,幾年前相關(guān)的人才也比較少?,F(xiàn)在搜索技術(shù)人才多了,相關(guān)的技術(shù)和技術(shù)的應(yīng)用得相對(duì)以前而言更加成熟,但是競(jìng)爭(zhēng)也更加激烈了。垂直搜索大致需要以下技術(shù):
1. 信息采集技術(shù)
2. 網(wǎng)頁(yè)信息抽取技術(shù)
3. 信息的處理技術(shù),包括:重復(fù)識(shí)別、重復(fù)識(shí)別、聚類、比較、分析、語(yǔ)料分析等
4. 語(yǔ)意相關(guān)性分析
5. 分詞
6. 索引
信息采集技術(shù),垂直搜索引擎spider和網(wǎng)頁(yè)庫(kù)的spider相比應(yīng)該是更加專業(yè),可定制化。可定向性的采集和垂直搜索范圍相關(guān)的網(wǎng)頁(yè)忽略不相關(guān)的網(wǎng)頁(yè)和不必要的網(wǎng)頁(yè),選擇內(nèi)容相關(guān)的以及適合做進(jìn)一步處理的網(wǎng)頁(yè)深度優(yōu)先采集、對(duì)頁(yè)面有選擇的調(diào)整更新頻率……,采集可通過(guò)人工設(shè)定網(wǎng)址和網(wǎng)頁(yè)分析url方式共同進(jìn)行。垂直搜索對(duì)信息的更新有著特別的要求,根據(jù)這些特點(diǎn)可以從以下幾點(diǎn)考慮1.信息源的穩(wěn)定性(不能讓信息源網(wǎng)站感覺(jué)到spider的壓力)2.抓取的成本問(wèn)題3.對(duì)用戶體驗(yàn)改善程度。根據(jù)以上幾點(diǎn)制定一種比較好的策略,要做到恰到好處。策略上可以評(píng)估網(wǎng)站/網(wǎng)頁(yè)更新的系數(shù)、網(wǎng)站/網(wǎng)頁(yè)的重要系數(shù)、用戶點(diǎn)擊系數(shù)(或曝光系數(shù))、網(wǎng)站穩(wěn)定系數(shù)……,根據(jù)這些系數(shù)來(lái)確定對(duì)這些網(wǎng)站/網(wǎng)頁(yè)更新的頻率。再由于新信息和更新了的信息list頁(yè)面前面或者首頁(yè),所以對(duì)網(wǎng)頁(yè)進(jìn)行很好的分級(jí)可以以低成本很好的解決更新問(wèn)題,系數(shù)比較低的網(wǎng)頁(yè)一月update一次,稍微高點(diǎn)的一周update一次、中等的幾天到一天一次、高的幾小時(shí)到幾分鐘一次。類似搜索引擎的大庫(kù)、周庫(kù)、日庫(kù),小時(shí)庫(kù)……
基于視覺(jué)網(wǎng)頁(yè)塊分析技術(shù),模擬IE瀏覽器的顯示方式,對(duì)網(wǎng)頁(yè)進(jìn)行解析。根據(jù)人類視覺(jué)原理,把網(wǎng)頁(yè)解析處理的結(jié)果,進(jìn)行分塊,再根據(jù)需要,對(duì)這些塊進(jìn)行處理,如:采集定向、介紹抽取和一些必要的內(nèi)容的抽取正文抽取……
結(jié)構(gòu)化信息抽取技術(shù),將網(wǎng)頁(yè)中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)。有兩種方式,簡(jiǎn)單的就是模板方式,另外就是對(duì)網(wǎng)頁(yè)不依賴web結(jié)構(gòu)化信息抽取方式,這兩種方式可以互取長(zhǎng)處,以最簡(jiǎn)單最有效的辦法滿足需求。垂直搜索引擎和通用搜索引擎最大的區(qū)別就是對(duì)網(wǎng)頁(yè)信息結(jié)構(gòu)化抽取后再結(jié)構(gòu)化數(shù)據(jù)進(jìn)行深度的處理,提供專業(yè)的搜索服務(wù)。所以web結(jié)構(gòu)化信息抽取的技術(shù)水平是決定垂直搜索引擎質(zhì)量的重要技術(shù)指標(biāo)。其實(shí)web結(jié)構(gòu)化信息抽取在百度、google早已經(jīng)廣泛應(yīng)用了,如:MP3、圖片搜索、google的本地搜索就是從網(wǎng)頁(yè)庫(kù)抽取出企業(yè)信息,添加到其地圖搜索中的,google通過(guò)這種技術(shù)正在顛覆做內(nèi)容的方式。同樣的技術(shù)應(yīng)用還在qihoo、sogou購(gòu)物、shopping等各種應(yīng)用中體現(xiàn)。
簡(jiǎn)單的語(yǔ)法分析,簡(jiǎn)單的語(yǔ)法分析在搜索引擎中非常重要,可以通過(guò)簡(jiǎn)單的語(yǔ)法分析來(lái)改善數(shù)據(jù)的質(zhì)量,低成本的獲得某類信息,改善排序,尋找需要的內(nèi)容……
信息處理技術(shù),信息處理包括的范圍比較廣,主要包括去重、聚類、分析……,這根據(jù)需要相關(guān)的技術(shù)就非常多。
數(shù)據(jù)挖掘,找出您的信息的關(guān)聯(lián)性對(duì)于垂直搜索來(lái)說(shuō)非常重要,有效,可以在這些相關(guān)性上為用戶提供更細(xì)致的服務(wù)。
分詞技術(shù),面向搜索的分詞技術(shù),建立和您的行業(yè)相關(guān)的詞庫(kù)。注意這是面向搜索的分詞,不是面向識(shí)別和準(zhǔn)確的分詞。就這個(gè)工作安排十幾個(gè)人不停的維護(hù)也不會(huì)嫌多。
索引技術(shù),索引技術(shù)對(duì)于垂直搜索非常關(guān)鍵,一個(gè)網(wǎng)頁(yè)庫(kù)級(jí)的搜索引擎必須要支持分布索引、分層建庫(kù)、分布檢索、靈活的更新、靈活的權(quán)值調(diào)整、靈活的索引和靈活的升級(jí)擴(kuò)展、高可靠性穩(wěn)定性冗余性。還需要支持各種技術(shù)的擴(kuò)展,如偏移量計(jì)算等。
其它技術(shù),略。


垂直搜索引擎的技術(shù)評(píng)估應(yīng)從以下幾點(diǎn)來(lái)判斷
1. 全面性
2. 更新性
3. 準(zhǔn)確性
4. 功能性


鍥形的中和尾:產(chǎn)品應(yīng)用平臺(tái)和對(duì)搜索引擎文化理念的理解
對(duì)于任何一個(gè)產(chǎn)品來(lái)說(shuō),產(chǎn)品的模式是最重要的,技術(shù)只是手段、工具、途徑。用戶不會(huì)關(guān)心你的技術(shù)是如何實(shí)現(xiàn)的、更不會(huì)關(guān)心你的技術(shù)水平是什么樣的,只要用戶感覺(jué):這就是我需要的東西,很好用,而且是最好用的。那么你的產(chǎn)品就OK了。
考慮一個(gè)產(chǎn)品的模式需要考慮的東西很多,如:用戶需要什么?需求有多大?能不能完整的實(shí)現(xiàn)用戶的需求?需要什么資源?怎么做到?競(jìng)爭(zhēng)分析?差異化?根據(jù)自身情況能做到什么程度?怎么樣保持領(lǐng)先優(yōu)勢(shì)?能否收到錢?怎么樣收錢?怎么樣推廣?需要多少時(shí)間?如何保證在時(shí)間窗口期內(nèi)有效完成進(jìn)度?如何分步分期優(yōu)先完成用戶最需要的需求?如何建立有效的反饋機(jī)制讓我可以了解用戶的需求變化和挖掘用戶自己也無(wú)法表達(dá)的需求?如何進(jìn)一步改善?分期需要多大的投入?如何降低整體成本和前期成本?如何分期投入?投資回報(bào)比?周期?……
1. 確解用戶之意
任何應(yīng)用最難的就是了解用戶的需求,甚至是用戶自己都不知道的需求。
建立完善的、快速的用戶意見反饋機(jī)制和用戶需求調(diào)查機(jī)制,所有人都應(yīng)傾聽用戶的牢騷、建議。不斷的分析、修改。
2. 切返用戶之需
滿足用戶的需求,一切紛至沓來(lái)。不需要炒作,請(qǐng)把您的資源多多花費(fèi)在為用戶提供良好的體驗(yàn)上來(lái)。
3. 不要干擾用戶的意圖,培養(yǎng)用戶的使用習(xí)慣和技巧
有一個(gè)故事是這樣的:還在yahoo使用google的搜索的時(shí)候,華爾街的幾個(gè)分析師來(lái)評(píng)估這兩個(gè)搜索哪個(gè)好用,去掉logo。結(jié)果一致評(píng)價(jià)yahoo的檢索效果好。因?yàn)閥ahoo是使用的google檢索結(jié)果,并且對(duì)熱點(diǎn)關(guān)鍵詞進(jìn)行了人工調(diào)整。但是一轉(zhuǎn)身這些分析師回到自己的電腦邊查詢東西,不約而同的打開了google。
4. 細(xì)節(jié)決定成敗
信息不是越多越好,在海量的信息時(shí)代,如果不能妥善的整理信息,那就等于沒(méi)有信息。每個(gè)頁(yè)面的每個(gè)字,每個(gè)像素、圖片的放置都值得花費(fèi)時(shí)間去琢磨。把用戶最需要的放在最顯眼的位置,次需要的放置到更多頁(yè)面,不需要的扔掉。
5. 將一件事情做到極致
不僅僅要關(guān)注80%的用戶的80%的需求,20%的用戶的20%的需求是您成敗關(guān)鍵所在。
6. 專注
這么多需要你解決的問(wèn)題,你還能干其它事情?對(duì)于一個(gè)排在第四的業(yè)務(wù)你是沒(méi)有機(jī)會(huì)的。所以垂直搜索引擎的成功肯定不是具備良好資源的行業(yè)門戶、也不會(huì)是大搜索的公司,必然是專注于某一行業(yè)的搜索引擎公司。因?yàn)橹挥袑W?,才能將一件事情做到極致。
7. 創(chuàng)新
失敗不要緊,但是如果搜索引擎公司沒(méi)有創(chuàng)新,那這個(gè)搜索引擎公司必然面向的就是死亡。
8. 需要完全掌握主要技術(shù)。
一個(gè)核心業(yè)務(wù)不可能通過(guò)外包手段來(lái)解決技術(shù)問(wèn)題。雖然找個(gè)大公司外包技術(shù)看起來(lái)很美麗,很快速,甚至成本比較低。但是這是在毀滅你的將來(lái)。因?yàn)檫@是產(chǎn)品,不是項(xiàng)目。產(chǎn)品是需要不斷完善調(diào)整的,用戶的需求也是變化的需要挖掘的,互聯(lián)網(wǎng)也是變化的,你外包技術(shù)絕對(duì)不可能做到靈活、及時(shí)滿足各種變化。在和競(jìng)爭(zhēng)對(duì)手競(jìng)爭(zhēng)的時(shí)候您如何保持您的領(lǐng)先優(yōu)勢(shì)?(前文說(shuō)了,如果被對(duì)手保持領(lǐng)先一段時(shí)間,那么你之前的領(lǐng)先優(yōu)勢(shì)就蕩然無(wú)存)。這里還沒(méi)有考慮競(jìng)爭(zhēng)問(wèn)題,購(gòu)買其它搜索引擎公司的技術(shù),對(duì)方會(huì)不會(huì)把真正的技術(shù)毫不保留的賣給你。再說(shuō),賣你你你能搞懂嗎?技術(shù)再困難也要自行解決。否則你注定失敗。最好的辦法就是購(gòu)買核心技術(shù)縮短研發(fā)周期、成本、風(fēng)險(xiǎn),再在這個(gè)核心技術(shù)進(jìn)行自主研發(fā)。
這是垂直搜索的技術(shù)門檻,看似不高,其實(shí)很高。
對(duì)于技術(shù)問(wèn)題可以迂回解決,用最簡(jiǎn)單的技術(shù)滿足用戶最迫切的需求。用戶是不會(huì)關(guān)心技術(shù)實(shí)現(xiàn)的。
模板方式可以是網(wǎng)頁(yè)結(jié)構(gòu)化信息抽取技術(shù)的補(bǔ)充。對(duì)于可行的應(yīng)用早期采用模板技術(shù)也是不錯(cuò)的選擇。比如chinabbs就做的很好,用戶的主要需求是要瀏覽到好的帖子,所以加強(qiáng)內(nèi)容的建設(shè),找高水平的編輯做推薦,而且在界面和易用性上也很不錯(cuò)。領(lǐng)先qihoo。技術(shù)方面他們初期采用的應(yīng)該是模板自動(dòng)生成方式采集論壇信息,比qihoo技術(shù)水平差,但是這目前不是用戶需求的關(guān)鍵,而且qihoo技術(shù)水平層次雖然高但是如果不成熟,體現(xiàn)給用戶的東西未必就強(qiáng)。Chinabbs接下來(lái)再解決技術(shù)難點(diǎn),在技術(shù)上有提升,那么他就能持續(xù)保持領(lǐng)先優(yōu)勢(shì)了。(但是話又說(shuō)回來(lái),招聘好的編輯很容易,技術(shù)要提升一個(gè)層次并且成熟很難,而且很耗費(fèi)時(shí)間,當(dāng)然用戶習(xí)慣和知名度也是需要很長(zhǎng)時(shí)間培養(yǎng)的)
9. 用最簡(jiǎn)單的技術(shù)實(shí)現(xiàn)用戶最迫切的需要
技術(shù)重要,但是技術(shù)的使用得當(dāng)更重要,技術(shù)是為用戶體驗(yàn)服務(wù)的。只要能滿足用戶需要,什么技術(shù)都可以,簡(jiǎn)單不代表不行,用最簡(jiǎn)單的技術(shù)實(shí)現(xiàn)用戶最迫切的需要。百度的整體技術(shù)我認(rèn)為離google中文至少有1年以上差距,很多方面差距更大,但是百度的效果比google好,原因就是將簡(jiǎn)單的技術(shù)用于實(shí)現(xiàn)用戶迫切的需求。
舉個(gè)我身邊的例子來(lái)描述簡(jiǎn)單的技術(shù)實(shí)現(xiàn)需求:我把我們的基于視覺(jué)的網(wǎng)頁(yè)塊分析的正文抽取技術(shù)演示給一好友看,好友看后說(shuō):我們也實(shí)現(xiàn)了。我大驚,他們不是做搜索的,居然也實(shí)現(xiàn)了! 他告訴我他們實(shí)現(xiàn)的方法后,我再次吃驚,深感簡(jiǎn)單的技術(shù)也可以很好的解決問(wèn)題,雖然不完全解決,但是能滿足自己的需求就好。他們的解決方法是:對(duì)網(wǎng)頁(yè)的html進(jìn)行分析,將整段文字中沒(méi)有html代碼的文字提取出來(lái),這就是正文。(驚嘆??!如此簡(jiǎn)單??!注:他們的信息源都是這樣的格式)
10. 根據(jù)中國(guó)本土互聯(lián)網(wǎng)特點(diǎn),強(qiáng)力的antispam,對(duì)信息進(jìn)行清洗。
11. 很多人誤解垂直搜索就是把相關(guān)的行業(yè)網(wǎng)頁(yè)做一個(gè)采集,進(jìn)行正文抽取,實(shí)現(xiàn)搜索,完成信息冊(cè)查詢。其實(shí)并非如此。如果這樣無(wú)法和網(wǎng)頁(yè)搜索競(jìng)爭(zhēng),網(wǎng)頁(yè)搜索很容易就可以將網(wǎng)頁(yè)庫(kù)按行業(yè)分類、按地區(qū)分類。
    垂直搜索應(yīng)該是對(duì)垂直行業(yè)信息進(jìn)行深度的加工,有效的整合,為用戶提供網(wǎng)頁(yè)搜索無(wú)法做到的專業(yè)性、功能性,為用戶提供深一步的服務(wù)和完整的體驗(yàn),而且不僅僅是提供信息的檢索。垂直搜索是和信息搜索有本質(zhì)的差異化的。
12.專注用戶體驗(yàn)的改善,任何的宣傳炒作都是空乏無(wú)意義的,搜索引擎的核心在于用戶體驗(yàn),你只要改善用戶體驗(yàn),比別人強(qiáng)一點(diǎn)點(diǎn),那么其它人的炒作和宣傳都在為你打工


 










  【eNet特約評(píng)論】中國(guó)谷歌模仿酷訊推出生活搜索,一度吸引了媒體和用戶對(duì)于所謂“垂直搜索”的關(guān)注。有觀者認(rèn)為,在百度、中國(guó)谷歌和雅虎通吃將近九成的網(wǎng)絡(luò)搜索份額之后,搜索市場(chǎng)的遲到者或許可以在“垂直搜索”中分到一杯羹。

  然而,由于定義的模糊,垂直搜索在不同人那里指稱著不同的事物,許多搜索行業(yè)的外行,甚至可以向風(fēng)險(xiǎn)資本家冒充自己搞的是“垂直搜索”,和百度不是一路,但“錢景”十分光明。

  筆者認(rèn)為,除了目前搜索技術(shù)的限制、可以按照信息媒體類型進(jìn)行垂直的劃分之外,其他的垂直搜索不是要么是和搜索本意背道而馳,要么就根本不是搜索。

  何謂搜索?搜索就是從海量的互聯(lián)網(wǎng)信息中尋找到自己需要的內(nèi)容,其兩個(gè)特點(diǎn)一是信息海量,二是信息非結(jié)構(gòu)化,即這些信息都以網(wǎng)頁(yè)、語(yǔ)音、圖片等各種離散形式存在,還不是保存在許多IT業(yè)者所夢(mèng)想的XML文件中。

  由于圖像、視頻識(shí)別技術(shù)遠(yuǎn)未成熟,音頻的文本化尚未普及(技術(shù)已經(jīng)存在),今天的搜索引擎不得不分為網(wǎng)頁(yè)搜索、視頻搜索、音樂(lè)、圖片搜索等類型。在OpenV等的技術(shù)之下,視頻中的音頻信息可以轉(zhuǎn)換為可以搜索的文本,那么視頻只不過(guò)是網(wǎng)頁(yè)搜索中的一種。舉例說(shuō),如果您想知道一種嬰兒用藥的注意事項(xiàng),如果一個(gè)專家剛好在央視2套的一個(gè)節(jié)目中進(jìn)行了詳細(xì)的解答,這個(gè)視頻不也是您所希望看到的呢?

  媒體類型的分類是不得以而為之,而其他按照網(wǎng)頁(yè)內(nèi)容進(jìn)行的搜索分類則是畫蛇添足,純屬添亂。搜索就是要搜幾十億張網(wǎng)頁(yè)的海量信息,如果按照“論壇”、“百科”、“博客”等人為類別把五十億張網(wǎng)頁(yè)分為五類、十類,然后推出五個(gè)、十個(gè)搜索產(chǎn)品、讓用戶點(diǎn)擊五次、十次,則完全是背道而馳、浪費(fèi)用戶時(shí)間的行為。

  由此看來(lái),按照內(nèi)容進(jìn)行劃分的所謂“垂直搜索”是一個(gè)非常誤導(dǎo)的概念,降低了搜索效率,禍害無(wú)窮。

  今天,還有一種所謂的“搜索”也被貼上了“垂直搜索”的標(biāo)簽,最典型的是火車票和機(jī)票。在筆者看來(lái),這些業(yè)務(wù)根本就不是搜索,而只是檢索。判斷依據(jù)就是所查詢的信息是不是海量,信息是不是結(jié)構(gòu)化。

  火車車次,航班班次(含折扣價(jià))的數(shù)據(jù)是有限的,而且發(fā)生變動(dòng)的頻率也就是一年一兩次,其信息量遠(yuǎn)遠(yuǎn)未到可供“搜索”的地步。從國(guó)內(nèi)網(wǎng)站來(lái)看,提供火車票、機(jī)票搜索的網(wǎng)站不計(jì)其數(shù),其差別不是檢索技術(shù)的高低,而是數(shù)據(jù)庫(kù)更新是不是及時(shí)。

  從技術(shù)角度來(lái)看,在獲得權(quán)威數(shù)據(jù)庫(kù)之后,開發(fā)一個(gè)基于SQL語(yǔ)句的WEB查詢功能只需要幾個(gè)工作日的時(shí)間,和布林佩奇和李彥宏做的搜索可謂天壤之別。當(dāng)然,一個(gè)SQL開發(fā)高手想到百度謀得一職也是幻想。

  技術(shù)開發(fā)十分簡(jiǎn)單的本質(zhì)原因,是因?yàn)闄C(jī)票車票這些信息都是結(jié)構(gòu)化的,檢索過(guò)程可以依賴現(xiàn)有技術(shù),而不用自行開發(fā)極度復(fù)雜的HTML文本搜索技術(shù)。

  諸如火車票機(jī)票的專業(yè)查詢還有很多,比如醫(yī)學(xué)方面的病歷查詢,警方所用的在逃犯檢索,以及網(wǎng)上零售網(wǎng)站的商品檢索。這些都不是現(xiàn)代意義上的搜索引擎,稱之為“垂直搜索”可能是想沾點(diǎn)搜索引擎的“時(shí)髦”。

  綜上所述,在目前這一代的搜索技術(shù)之下,我們暫且按照信息媒體的類型來(lái)對(duì)搜索分類,這種分類談不上所謂的“垂直化”。而許多號(hào)稱“垂直搜索”的服務(wù)其實(shí)是毫無(wú)技術(shù)含量的“檢索”。

  需要強(qiáng)調(diào)的是,搜索的目標(biāo)是用復(fù)雜的算法和分布式計(jì)算技術(shù)從海量非結(jié)構(gòu)化信息中找出用戶最想要的東西。遲來(lái)的搜索業(yè)者如果對(duì)于“算法”和“計(jì)算”沒(méi)有自信,就干脆不要把海量信息的分門別類當(dāng)成自己的事業(yè),美國(guó)Google和中國(guó)百度的進(jìn)步遲早會(huì)讓這種低技術(shù)含量的工作變成無(wú)用功。 (令狐達(dá)評(píng)論 

【責(zé)任編輯 朱青】

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多