小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

search engine

 accesine 2005-09-12

歡迎來(lái)到姿的神奇的信息檢索世界!

信息檢索(Information Retrieval)是一門(mén)研究從一定規(guī)模的文檔庫(kù)(Document Collection)中找出滿足用戶提出的需求(User Information Need)的信息的學(xué)問(wèn)。和數(shù)據(jù)庫(kù)檢索不同的是,一方面,IR處理的主要數(shù)據(jù)往往是無(wú)結(jié)構(gòu)(Unstructured)或者半結(jié)構(gòu)的(Semi-structured),最典型的例子如沒(méi)有任何結(jié)構(gòu)的文章或者有tag標(biāo)記的Html文檔;另一方面, IR的檢索結(jié)果也往往是不精確的,而不象數(shù)據(jù)庫(kù)查詢那樣正確率一定是100%。比如,查關(guān)于“伊拉克戰(zhàn)爭(zhēng)”的文章,可能會(huì)漏掉有關(guān)“巴格達(dá)”或者其它城市的戰(zhàn)斗。因此,IR系統(tǒng)有可以相比較的性能評(píng)價(jià)指標(biāo)。
信息檢索起源于圖書(shū)情報(bào)的查詢,一開(kāi)始處理的文檔數(shù)目和規(guī)模極其有限,隨著硬件處理能力的提高、大規(guī)模數(shù)據(jù)以及WWW的出現(xiàn),IR技術(shù)也日益發(fā)展。
從處理對(duì)象的格式來(lái)說(shuō),現(xiàn)代IR不僅處理單純的文本格式數(shù)據(jù)(text),而且處理包括圖像、圖形、音頻、視頻在內(nèi)的各種載體格式,甚至WEB這種復(fù)雜的載體。
從處理的技術(shù)來(lái)說(shuō), 包括自然語(yǔ)言處理(NLP)、人工智能、模式識(shí)別、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)、運(yùn)籌學(xué)等等學(xué)科和科目在內(nèi)的技術(shù)紛紛被應(yīng)用于現(xiàn)代IR。
從應(yīng)用來(lái)說(shuō),IR技術(shù)不僅可以用于搜索引擎、信息代理等一些傳統(tǒng)的信息應(yīng)用,還可以用于話題跟蹤、內(nèi)容安全、生物信息學(xué)等度中應(yīng)用。
從概念或者名詞來(lái)說(shuō),最近一些年來(lái)出現(xiàn)了WEB挖掘(WEB Mining)、知識(shí)挖掘(Knowledge Mining)、知識(shí)發(fā)現(xiàn)(Knowledge Discovery)、內(nèi)容管理(Content Management)、內(nèi)容計(jì)算(Content Computing)等等新名詞、新學(xué)科,有些其實(shí)就是IR,有些可能學(xué)科淵源或者處理內(nèi)容有所不同,但是IR技術(shù)是這些名詞的主要內(nèi)容,或者說(shuō)這些都是傳統(tǒng)IR的拓展,是現(xiàn)代IR的內(nèi)容??梢哉f(shuō),現(xiàn)代IR的發(fā)展可以說(shuō)是百花齊放、絢麗多彩,引無(wú)數(shù)英雄盡折腰。
WEB的出現(xiàn)大大地促進(jìn)了IR技術(shù)的發(fā)展。WEB上有異常豐富但又充滿垃圾的信息資源,其中絕大部分有用的信息還沒(méi)有發(fā)掘出來(lái)。這是因?yàn)槟壳斑€沒(méi)有特別好的信息處理和檢索工具。人們常常抱怨搜索引擎表現(xiàn)太差,可又沒(méi)辦法,只能用它。這一領(lǐng)域的開(kāi)發(fā)仍然處于初級(jí)階段。
傳統(tǒng)的數(shù)據(jù)庫(kù)是靜態(tài)的,結(jié)構(gòu)化的,有中央嚴(yán)格組織的。而Web是自發(fā)形成和發(fā)展的,Web上的頁(yè)面是動(dòng)態(tài)的,半結(jié)構(gòu)化的,通過(guò)超鏈接彼此纏繞。因此對(duì)Web的查詢和對(duì)數(shù)據(jù)庫(kù)的查詢完全不同。
據(jù)說(shuō)WEB上每天要新增大約一百萬(wàn)個(gè)網(wǎng)頁(yè), 目前的網(wǎng)頁(yè)數(shù)目達(dá)到上百億。這給信息組織和檢索技術(shù)提出了十分嚴(yán)峻的挑戰(zhàn)。對(duì)如此海量的數(shù)據(jù)幾秒鐘內(nèi)就要完成快而準(zhǔn)的檢索,傳統(tǒng)的檢索技術(shù)顯得力不從心。
為此,人們提出各種各樣的辦法:或?qū)z索算法、數(shù)據(jù)結(jié)構(gòu)加以改進(jìn);或在應(yīng)用時(shí),縮小查詢范圍局限于某一個(gè)領(lǐng)域,某一個(gè)站點(diǎn);或采用一定人工參與;還有在用戶查詢界面上,誘導(dǎo)用戶與機(jī)器多次交互,或采用圖形界面;或?qū)τ脩艚o出的查詢悄悄做一下變換或修改。
WEB上的大部分網(wǎng)頁(yè)都是有一定格式的(如HTML),有豐富的標(biāo)記。比如TITLE信 息、字體著重信息、大小信息,以及META信息等等或許都暗示了些什么?
最富有革命性的想法是WEB的鏈接分析。人們意識(shí)到WEB上異常豐富的超鏈接是非常寶貴的資源,它在一定程度上反映了頁(yè)面的意義。
總而言之,八仙過(guò)海,各顯神通。見(jiàn)仁見(jiàn)智,任君評(píng)說(shuō)。
今天的Internet還處于幼年時(shí)期,它一直在進(jìn)化。很難想象它會(huì)發(fā)展成什么樣子,或許那時(shí)我們對(duì)網(wǎng)絡(luò)搜索的基本觀念已經(jīng)發(fā)生了根本變化。
我們這個(gè)站點(diǎn)試圖收集國(guó)內(nèi)外IR領(lǐng)域的重要資料,希望跟蹤這方面最先進(jìn)的成果,也希望能夠吸引更多的仁人志士加入到IR的行列中來(lái),我們誠(chéng)懇歡迎您的積極參與。

如果您有什么想法或者遇到這方面有價(jià)值的文章,請(qǐng)和我們聯(lián)系。謝謝!

梁焰 王海波 寫(xiě)于2001年 王斌于2003年5月做了部分修改

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多