小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

網(wǎng)絡(luò)搜索

 agile05 2007-07-06
行業(yè)搜索引擎簡(jiǎn)介 演示

  WSSE 是北京西方源點(diǎn)軟件技術(shù)有限公司剛剛開(kāi)發(fā)完成的一款新型web搜索引擎。主要用于建設(shè)行業(yè)縱向?qū)I(yè)搜索引擎。

  WSSE致力于讓每個(gè)人能很容易, 同時(shí)花費(fèi)很少就可以配置世界一流的Web搜索引擎. 為了完成這一宏偉的目標(biāo), WSSE必須能夠做到:

  每個(gè)月取幾十億網(wǎng)頁(yè)

  為這些網(wǎng)頁(yè)維護(hù)一個(gè)索引

  對(duì)索引文件進(jìn)行每秒上千次的搜索

  提供高質(zhì)量的搜索結(jié)果

  以最小的成本運(yùn)作

隨著互聯(lián)網(wǎng)技術(shù)和互聯(lián)網(wǎng)應(yīng)用的發(fā)展,網(wǎng)上內(nèi)容極大豐富,信息海量化正在導(dǎo)致信息垃圾化,信息本身的價(jià)值正在被創(chuàng)造海量信息的網(wǎng)絡(luò)本身所消減。搜索引擎的價(jià)值就在于從海量的信息中搜集、分析、甄別、加工、整理、提取出我們所需要的有用的信息。

一、 建設(shè)行業(yè)主題搜索引擎的必要性
1、搜索催生互聯(lián)網(wǎng)革命
互聯(lián)網(wǎng)發(fā)展的初期,強(qiáng)調(diào)信息本身的價(jià)值,認(rèn)為只要解決信息資源的短缺問(wèn)題就會(huì)帶來(lái)價(jià)值提升;而經(jīng)過(guò)十多年發(fā)展的今天,則認(rèn)為信息本身并不稀缺,只有解決了信息的甄別、加工、提純和挖掘,只有從海量形如垃圾的信息中發(fā)現(xiàn)真正的知識(shí),才能帶來(lái)價(jià)值的提升。

互聯(lián)網(wǎng)發(fā)展的重心和焦點(diǎn)經(jīng)歷了網(wǎng)絡(luò)、溝通、內(nèi)容和搜索這么幾個(gè)階段:互聯(lián)網(wǎng)的發(fā)展促進(jìn)了信息溝通,信息溝通的便利促進(jìn)了網(wǎng)上內(nèi)容的豐富,網(wǎng)上內(nèi)容的豐富又促進(jìn)了搜索引擎的發(fā)展和應(yīng)用。這個(gè)自然而然的發(fā)展過(guò)程提示我們:在網(wǎng)上內(nèi)容極大豐富的今天,搜索引擎將比以往任何一個(gè)時(shí)候都更加重要。

在網(wǎng)絡(luò)尤其是網(wǎng)上內(nèi)容已經(jīng)極大豐富的今天,忽視或者不充分重視這一動(dòng)向必將付出極大的代價(jià),不論他是從事網(wǎng)絡(luò)媒體,還是電子商務(wù)。

搜索催生的互聯(lián)網(wǎng)革命的第一個(gè)標(biāo)志是互聯(lián)網(wǎng)已經(jīng)從“內(nèi)容為王”(在經(jīng)歷了“網(wǎng)絡(luò)為王”和“溝通為王”之后)走進(jìn)“搜索為王”的時(shí)代。是的,任何對(duì)搜索無(wú)動(dòng)于衷或者投入不力的網(wǎng)站,無(wú)論在內(nèi)容時(shí)代如何杰出,都必然為搜索催生的互聯(lián)網(wǎng)革命所淘汰。

除此以外,搜索催生的互聯(lián)網(wǎng)革命還表現(xiàn)在互聯(lián)網(wǎng)的“商務(wù)模式”和“業(yè)務(wù)形態(tài)”等方面。

商務(wù)模式:

隨著互聯(lián)網(wǎng)發(fā)展的焦點(diǎn)從“內(nèi)容”升華到“搜索”和“搜索增值服務(wù)”,互聯(lián)網(wǎng)商務(wù)模式的基本結(jié)構(gòu)也必然隨之發(fā)生根本性的變革——在新的層次上回歸yahoo曾經(jīng)的以搜索為基礎(chǔ)的商務(wù)模式。

搜索將不再只是網(wǎng)站(特別是門戶網(wǎng)站)一個(gè)附屬的甚至可有可無(wú)、錦上添花的工具,搜索將成為網(wǎng)站一切服務(wù)和功能的基礎(chǔ),將居于網(wǎng)站商務(wù)模式架構(gòu)的中心位置;離開(kāi)搜索,網(wǎng)站的服務(wù)和功能至少不能以有競(jìng)爭(zhēng)力的滿意度提供。

互聯(lián)網(wǎng)商務(wù)模式變革的另一支力量來(lái)自專業(yè)搜索引擎(如google)的“綜合化”(如前所述)。以強(qiáng)大的搜索引擎為技術(shù)支撐,這些專業(yè)搜索引擎將大力擴(kuò)展和整合,發(fā)展一系列以搜索為核心和基礎(chǔ)的協(xié)同業(yè)務(wù)——如google推出(包括收購(gòu))的廣告、新聞、blog和Email等,從而構(gòu)建嶄新的具備強(qiáng)大競(jìng)爭(zhēng)力的互聯(lián)網(wǎng)商務(wù)模式。

業(yè)務(wù)形態(tài):

網(wǎng)上搜索或搜索引擎改變了眾多互聯(lián)網(wǎng)業(yè)務(wù)的面貌,也創(chuàng)新了一批原來(lái)所沒(méi)有的新的互聯(lián)網(wǎng)業(yè)務(wù),搜索催生了互聯(lián)網(wǎng)業(yè)務(wù)形態(tài)的巨大變革。

網(wǎng)絡(luò)廣告的歷史可謂早矣,即使在中國(guó)也有十年的歷史。然而,直到2001年前后,網(wǎng)絡(luò)廣告依然沒(méi)有擺脫傳統(tǒng)廣告的基本模式,依然與傳統(tǒng)的電視廣告、報(bào)刊廣告沒(méi)有本質(zhì)上的區(qū)別,唯一的不同僅僅表現(xiàn)在媒體上——從傳統(tǒng)媒體到網(wǎng)絡(luò)媒體。網(wǎng)絡(luò)廣告的真正創(chuàng)新是從與搜索的結(jié)合開(kāi)始了,有了搜索,網(wǎng)絡(luò)廣告才第一次真正有了屬于自己的業(yè)務(wù)形態(tài)或商務(wù)模式,才第一次有可能從根本上與傳統(tǒng)廣告區(qū)別開(kāi)來(lái),才第一次踏上向傳統(tǒng)廣告夢(mèng)寐以求而不得其門的廣告“精準(zhǔn)化”的歷程。競(jìng)價(jià)排名廣告是這樣,內(nèi)容關(guān)聯(lián)廣告也是這樣......。

Google、百度等一大批專業(yè)搜索引擎憑此敲開(kāi)了互聯(lián)網(wǎng)財(cái)富之門,開(kāi)創(chuàng)了搜索引擎引領(lǐng)互聯(lián)網(wǎng)發(fā)展的新時(shí)代。

變革所及已經(jīng)超出網(wǎng)絡(luò)廣告的范圍:基于搜索引擎的信息增值業(yè)務(wù)——競(jìng)爭(zhēng)情報(bào)系統(tǒng)、阿里巴巴網(wǎng)商搜索、8848的購(gòu)物搜索、google的基于搜索和網(wǎng)絡(luò)廣告的大容量電子郵箱業(yè)務(wù),等等。

事實(shí)上,幾乎所有互聯(lián)網(wǎng)業(yè)務(wù)形態(tài)都或多或少地在搜索的巨大影響下或者改變形態(tài),或者被創(chuàng)新出來(lái)。

2、搜索的價(jià)值
電子郵件和搜索引擎長(zhǎng)期以來(lái)一直是兩項(xiàng)最受歡迎、最熱門的互聯(lián)網(wǎng)業(yè)務(wù)。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)截止2004年6月底的統(tǒng)計(jì)表明,互聯(lián)網(wǎng)用戶使用電子郵件和搜索引擎的比率分別為84.3%和64.4%,在30余種網(wǎng)絡(luò)服務(wù)中高居前三位。用戶對(duì)搜索引擎的滿意度也很高,其中,對(duì)搜索引擎服務(wù)表示非常滿意和比較滿意的分別為26.9%和52.5%(居各項(xiàng)服務(wù)之首),表示不太滿意和很不滿意的僅為2.8%和0.6%(居各項(xiàng)服務(wù)之末)。搜索引擎在互聯(lián)網(wǎng)世界的重要地位由來(lái)已久。當(dāng)年,Yahoo作為門戶網(wǎng)站奇跡般崛起所仰仗的正是搜索引擎。在日益復(fù)雜的互聯(lián)網(wǎng)世界里,面對(duì)日益繁雜和海量的網(wǎng)上信息,Yahoo的搜索引擎曾經(jīng)為人們?cè)诨ヂ?lián)網(wǎng)世界遨游、沖浪提供了幾乎無(wú)可替代的工具和手段。Yahoo在通過(guò)搜索引擎為用戶提供價(jià)值的同時(shí),也極大地贏得和提升了自身的價(jià)值。

今天,搜索引擎的地位不僅沒(méi)有被削弱,反而更加強(qiáng)化了。繼Yahoo之后,Google又以其搜索引擎的技術(shù)創(chuàng)新、競(jìng)價(jià)排名和專業(yè)風(fēng)格等創(chuàng)造了新的奇跡。在國(guó)內(nèi),百度、慧聰也在很短時(shí)間里憑借搜索引擎取得很大成功。隨著互聯(lián)網(wǎng)行業(yè)的持續(xù)發(fā)展,隨著搜索引擎技術(shù)和業(yè)務(wù)模式的持續(xù)創(chuàng)新(尤其是與網(wǎng)絡(luò)廣告的整合和贏利模式的創(chuàng)新),2002年下半年以來(lái),搜索引擎又一次引起了全球互聯(lián)網(wǎng)行業(yè)的高度關(guān)注,一場(chǎng)由搜索引擎創(chuàng)新引發(fā)的互聯(lián)網(wǎng)行業(yè)大變局正在醞釀和發(fā)生之中。

歷史和現(xiàn)實(shí)一再證明:搜索是互聯(lián)網(wǎng)世界的制高點(diǎn)。

這是一個(gè)無(wú)可爭(zhēng)議的事實(shí)。這個(gè)事實(shí)也是另一個(gè)事實(shí)的必然結(jié)果,這就是:世界正在通過(guò)互聯(lián)網(wǎng)非常急速地從“信息時(shí)代”走進(jìn)“信息經(jīng)濟(jì)時(shí)代”。今天,如果還在津津樂(lè)道于“信息時(shí)代”,還在不知疲倦地重復(fù)“信息就是金錢”的口號(hào),肯定(至少在許多地方)是過(guò)時(shí)了。“信息時(shí)代”與“信息經(jīng)濟(jì)時(shí)代”的重大區(qū)別在于:前者強(qiáng)調(diào)信息本身的價(jià)值,認(rèn)為只要解決信息資源的短缺問(wèn)題就會(huì)帶來(lái)價(jià)值的提升;后者認(rèn)為信息并不稀缺,相反,信息技術(shù)特別是互聯(lián)網(wǎng)的出現(xiàn)正在使信息泛濫,以前視為寶貝的信息正在走向“垃圾化”,只有解決了信息的甄別、加工、提純和挖掘,只有從巨量的、形如垃圾的信息中發(fā)現(xiàn)真正的知識(shí),才能帶來(lái)價(jià)值的提升。

Yahoo和Google的成功說(shuō)明深刻理解互聯(lián)網(wǎng)并占據(jù)其制高點(diǎn)是多么的關(guān)鍵。什么叫深刻?深刻就是能夠透過(guò)事物暫時(shí)和表面的現(xiàn)象把握長(zhǎng)久和內(nèi)在的東西?;ヂ?lián)網(wǎng)是一種信息提供和傳遞的工具,是一種新的信息媒介,這是顯而易見(jiàn)的。但是,隱藏在這些顯而易見(jiàn)的表象背后的則是一些非常不同的東西:互聯(lián)網(wǎng)的發(fā)展正在導(dǎo)致信息提供和傳遞的“公共化”,信息提供和傳遞的商業(yè)價(jià)值正在消減,事情的關(guān)鍵不是能否快速、海量地提供和傳遞信息,而是能否在期望的時(shí)間和地點(diǎn),以期望的方式和成本,獲取所期望的信息;也就是說(shuō),商業(yè)價(jià)值的重點(diǎn)正在從信息的“發(fā)送端”向“接收端”延伸和轉(zhuǎn)移;或者說(shuō),在當(dāng)今的互聯(lián)網(wǎng)上,幫人有效地接收信息較之幫人有效地發(fā)送信息至少同等重要。

3、未來(lái)發(fā)展
  搜索引擎已成為一個(gè)新的研究、開(kāi)發(fā)領(lǐng)域。因?yàn)樗玫叫畔z索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語(yǔ)言處理等多領(lǐng)域的理論和技術(shù),所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶,有很好的經(jīng)濟(jì)價(jià)值,所以引起了世界各國(guó)計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開(kāi)發(fā)十分活躍,并出現(xiàn)了很多值得注意的動(dòng)向。

 提高信息查詢結(jié)果的精度,提高檢索的有效性—用戶在搜索引擎上進(jìn)行信息查詢時(shí),并不十分關(guān)注返回結(jié)果的多少,而是看結(jié)果是否和自己的需求吻合。對(duì)于一個(gè)查詢,傳統(tǒng)的搜索引擎動(dòng)輒返回幾十萬(wàn)、幾百萬(wàn)篇文檔,用戶不得不在結(jié)果中篩選。解決查詢結(jié)果過(guò)多的現(xiàn)象目前出現(xiàn)了幾種方法:一是通過(guò)各種方法獲得用戶沒(méi)有在查詢語(yǔ)句中表達(dá)出來(lái)的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關(guān)度反饋機(jī)制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(guān)(及其相關(guān)的程度),哪些不相關(guān),通過(guò)多次交互逐步求精。二是用正文分類(Text Categorization)技術(shù)將結(jié)果分類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶可以只瀏覽自己感興趣的類別。三是進(jìn)行站點(diǎn)類聚或內(nèi)容類聚,減少信息的總量。

 基于智能代理的信息過(guò)濾和個(gè)性化服務(wù)—信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機(jī)制。它使用自動(dòng)獲得的領(lǐng)域模型(如Web知識(shí)、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織結(jié)構(gòu))、用戶模型(如用戶背景、興趣、行為、風(fēng)格)知識(shí)進(jìn)行信息搜集、索引、過(guò)濾(包括興趣過(guò)濾和不良信息過(guò)濾),并自動(dòng)地將用戶感興趣的、對(duì)用戶有用的信息提交給用戶。智能代理具有不斷學(xué)習(xí)、適應(yīng)信息和用戶興趣動(dòng)態(tài)變化的能力,從而提供個(gè)性化的服務(wù)。智能代理可以在用戶端進(jìn)行,也可以在服務(wù)器端運(yùn)行。

 采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和性能—搜索引擎的實(shí)現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu),兩種方法各有千秋。但當(dāng)系統(tǒng)規(guī)模到達(dá)一定程度(如網(wǎng)頁(yè)數(shù)達(dá)到億級(jí))時(shí),必然要采用某種分布式方法,以提高系統(tǒng)性能。搜索引擎的各個(gè)組成部分,除了用戶接口之外,都可以進(jìn)行分布:搜索器可以在多臺(tái)機(jī)器上相互合作、相互分工進(jìn)行信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度;索引器可以將索引分布在不同的機(jī)器上,以減小索引對(duì)機(jī)器的要求;檢索器可以在不同的機(jī)器上進(jìn)行文檔的并行檢索,以提高檢索的速度和性能。

事實(shí)上,搜索引擎要解決的基本問(wèn)題仍然準(zhǔn)、全、快。其中“快”是最好解決的,通過(guò)增加設(shè)備、帶寬等網(wǎng)絡(luò)資源,能大體上滿足用戶的要求。而要解決“準(zhǔn)和全”的問(wèn)題就沒(méi)有那么簡(jiǎn)單了。除去改進(jìn)算法、提高系統(tǒng)容量外,更加有效的方法是開(kāi)發(fā)建設(shè)所謂垂直內(nèi)容的搜索引擎—行業(yè)主題搜索引擎。

在Google、百度等專業(yè)搜索引擎服務(wù)商在搜索服務(wù)行業(yè)形成壟斷地位后,留下的更加寬廣的發(fā)展空間正是向深度發(fā)展的行業(yè)主題搜索引擎。

二、 建設(shè)行業(yè)主題搜索引擎的可行性
  到目前為止,國(guó)內(nèi)還沒(méi)有被廣泛認(rèn)可的專注于行業(yè)的專業(yè)搜索引擎。而行業(yè)所具有的從業(yè)人員多、廠商多、產(chǎn)品多、專業(yè)化程度高、知識(shí)更新快等特點(diǎn),決定了該行業(yè)對(duì)互聯(lián)網(wǎng)的依賴程度高,從業(yè)人員需要通過(guò)互聯(lián)網(wǎng)獲取各種專業(yè)知識(shí)、專業(yè)信息,用戶需要通過(guò)互聯(lián)網(wǎng)享受各種服務(wù)。

  符合互聯(lián)網(wǎng)發(fā)展方向—互聯(lián)網(wǎng)正快速的從“內(nèi)容”朝著“搜索”的方向發(fā)展,網(wǎng)站本身的體系結(jié)構(gòu)也逐步的從內(nèi)容為主、搜索為輔向搜索為主、內(nèi)容為輔過(guò)渡;

  相關(guān)技術(shù)基本成熟—在建設(shè)行業(yè)搜索引擎的第一階段,我們建議盡量采用成熟技術(shù),減少技術(shù)風(fēng)險(xiǎn)。搜索引擎開(kāi)發(fā)建設(shè)中涉及到網(wǎng)頁(yè)蜘蛛、關(guān)鍵詞管理、目錄分類、索引排序、信息檢索等技術(shù);

  建設(shè)速度快—采用元搜索與目錄搜索混合技術(shù)方案,能大大加快系統(tǒng)建設(shè)速度。包括軟件開(kāi)發(fā)調(diào)試、行業(yè)關(guān)鍵詞庫(kù)建設(shè)和行業(yè)目錄分類庫(kù)建設(shè)等工作,預(yù)計(jì)六個(gè)自然月能完成全部軟件和調(diào)試工作;

  市場(chǎng)潛力大—行業(yè)涉及的設(shè)備廠商和增值服務(wù)廠商眾多,最終用戶量大,因此未來(lái)的市場(chǎng)潛力巨大。因行業(yè)從業(yè)人員和其最終用戶對(duì)互聯(lián)網(wǎng)(信息)的依賴較大,因此,行業(yè)搜索引擎的開(kāi)發(fā)建設(shè),能大幅提高網(wǎng)站的人氣和網(wǎng)站訪問(wèn)流量;

  投資風(fēng)險(xiǎn)小—可采用分階段投資、滾動(dòng)開(kāi)發(fā)的模式,也可采用合作開(kāi)發(fā)運(yùn)營(yíng)的模式,能有效的降低投資風(fēng)險(xiǎn)。

三、 行業(yè)主題搜索引擎建設(shè)的關(guān)鍵技術(shù)
  開(kāi)發(fā)、建設(shè)行業(yè)主題搜索引擎涉及到多項(xiàng)復(fù)雜的計(jì)算機(jī)技術(shù),包括網(wǎng)絡(luò)技術(shù)、分布式處理技術(shù)、多文字解析處理技術(shù)等。

  科學(xué)準(zhǔn)確的行業(yè)主題關(guān)鍵詞庫(kù)—關(guān)鍵詞庫(kù)建立的好壞,在一定程度上決定了該行業(yè)搜索引擎的成敗。索引庫(kù)的建立、中文目標(biāo)詞的切分等都依賴于關(guān)鍵詞庫(kù)。關(guān)鍵詞庫(kù)的規(guī)模與準(zhǔn)確性,直接決定搜索服務(wù)的精準(zhǔn)和全面(限定范圍的全?。?;

  重點(diǎn)突出的網(wǎng)站目錄集合—在有限資源投入的前提下,必須限定網(wǎng)絡(luò)蜘蛛的搜索范圍,從而保證信息的質(zhì)量,并做到及時(shí)更新;

  高效的元搜索引擎技術(shù)—為彌補(bǔ)有限范圍搜索的不足,采用元搜索技術(shù),直接其它搜索引擎中抓取信息,并進(jìn)行必要的分析、過(guò)濾、排序處理,存入索引數(shù)據(jù)庫(kù)。元搜索引擎中采用先進(jìn)的數(shù)據(jù)排序、匹配算法,剔除重復(fù)數(shù)據(jù);

  快速實(shí)用的信息檢索算法—采用合理切分、分布檢索技術(shù),保證檢索的快速準(zhǔn)確;

  模塊化、分布式體系結(jié)構(gòu)—整個(gè)應(yīng)用軟件由定向信息采集模塊、目錄網(wǎng)站信息采集模塊(蜘蛛程序)、信息分類處理與索引模塊、檢索信息分析模塊、模式匹配處理模塊、查詢結(jié)果輸出處理模塊等組成。關(guān)鍵模塊均支持分布式處理。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多