小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

發(fā)現(xiàn)搜索的價(jià)值:走出語(yǔ)義搜索的誤區(qū)

 軟件團(tuán)隊(duì)頭目 2006-09-25
發(fā)現(xiàn)搜索的價(jià)值:走出語(yǔ)義搜索的誤區(qū)
黃華 | 原創(chuàng)IT文章 | 出處:原創(chuàng)-IT| 2006年09月25日 10:18 | 閱讀 253 次
        

第三代搜索,作為對(duì)以Google為代表的第二代搜索范式的超越或者說革新,時(shí)下正逼近一個(gè)重要的時(shí)間拐點(diǎn)。這股范式轉(zhuǎn)型潮流由多條支流組成,其中一個(gè)支流是包含本地化搜索、社區(qū)內(nèi)容搜索、知識(shí)問答社區(qū)等在內(nèi)的社會(huì)化搜索,另一個(gè)支流則是人工智能、模式識(shí)別、語(yǔ)義分析、神經(jīng)網(wǎng)絡(luò)等智能搜索。

可以說,就技術(shù)門檻而言,智能搜索代表了下一代搜索的主流趨勢(shì)。但鑒于基于神經(jīng)網(wǎng)絡(luò)、人工智能的搜索耗資巨大,目前還處在試驗(yàn)階段,尚無一家成型的搜索引擎上線;至于全球搜索界窮20年之力埋首研發(fā)的自然語(yǔ)言分析或者語(yǔ)義分析,由于語(yǔ)言本身的復(fù)雜性,其結(jié)果及性能迄今還不能解決現(xiàn)實(shí)世界的問題,也因此,迄今還沒有一家完全基于語(yǔ)義分析的搜索引擎獲得商業(yè)成功。

語(yǔ)義搜索的局限

完全采用語(yǔ)法和詞匯原則來理解文字信息的語(yǔ)義搜索的一大局限,是不能處理例如雙關(guān)語(yǔ)、多義詞等模糊信息。這是因?yàn)橛?jì)算機(jī)本身缺乏理解能力,尤其是缺乏理解不確定性信息或模糊信息的能力,所以當(dāng)計(jì)算機(jī)嘗試通過解析整段話來提取含義時(shí),就會(huì)頗為棘手。一些高級(jí)的系統(tǒng)能夠建立一套使機(jī)器解決不確定性所遵循的原則。但是,其指令集極為煩雜而且難以維護(hù),基本沒有可操作性。

與基于關(guān)鍵字的搜索方法一樣,語(yǔ)義搜索方法也不能確定思想的相對(duì)重要性。換句話說,計(jì)算機(jī)會(huì)給一句話中的不同詞匯分配相同的重要性值,而這與自然語(yǔ)言的實(shí)際內(nèi)涵可能大相徑庭。

固然,在最好的情況下,語(yǔ)義搜索方法可以處理少數(shù)簡(jiǎn)單的句子,但在采用包含大量概念的大型文件時(shí),要從整段話、整篇文章中提取含義,其語(yǔ)言模式就只能望洋興嘆了。由于語(yǔ)義分析是基于真/假?zèng)Q策樹和規(guī)則結(jié)構(gòu)進(jìn)行推理的,一個(gè)不正確的決策或者一個(gè)未知的查詢的出現(xiàn),會(huì)導(dǎo)致整個(gè)分析全盤皆錯(cuò)。

此外,語(yǔ)義分析都是基于特定語(yǔ)言及其語(yǔ)法結(jié)構(gòu)的,這意味著它在俚語(yǔ)或語(yǔ)法方面非常容易出錯(cuò)。而且一旦有新單詞或者變更出現(xiàn),則必須對(duì)系統(tǒng)進(jìn)行調(diào)整,從而保證系統(tǒng)能夠理解這些新單詞或變更,對(duì)系統(tǒng)進(jìn)行拓展是一項(xiàng)復(fù)雜的工程。通常,語(yǔ)義搜索引擎只能支持有限的一些語(yǔ)言,如果要增加一種新的比較難的語(yǔ)言,則會(huì)產(chǎn)生很多問題。此前國(guó)內(nèi)的問一問、21ilink、悠游等基于自然語(yǔ)言處理的搜索引擎之所以曇花一現(xiàn),然后即迅速地被甚囂塵上的第二代關(guān)鍵詞搜索所淹沒,與此有關(guān)。

另一種方法

與完全基于語(yǔ)法結(jié)構(gòu)分析的語(yǔ)義搜索不同,以Autonomy為代表的核心概念匹配技術(shù)并不單純依賴于一種語(yǔ)言的語(yǔ)法結(jié)構(gòu),而是把文字當(dāng)作語(yǔ)意的抽象符號(hào)或者另一種“類型”的信息,采用可預(yù)測(cè)的統(tǒng)計(jì)詞方式表示概念和功能,并通過有意義的概念詞出現(xiàn)的上下文環(huán)境(而不是通過嚴(yán)格的語(yǔ)法定義)來形成對(duì)該概念詞的理解,以此確定文檔中每個(gè)主題的相關(guān)性及重要性。由于其系統(tǒng)由所輸入的實(shí)際數(shù)據(jù)驅(qū)動(dòng),而不是由與內(nèi)容無關(guān)的輔助規(guī)則所驅(qū)動(dòng),所以,Autonomy的系統(tǒng)可以支持基于俚語(yǔ)、行業(yè)術(shù)語(yǔ)、自然語(yǔ)言的檢索。

因?yàn)橥瑯拥脑?,Autonomy還能夠不受語(yǔ)言語(yǔ)種限制(支持超過80種語(yǔ)言),支持任意信息片斷的檢索,只要該語(yǔ)言的信息足夠多,就可以讓系統(tǒng)形成對(duì)該語(yǔ)言的理解。例如將一句話、一段或者整頁(yè)文本作為輸入的搜索條件,由此可返回與搜索條件概念相關(guān)的結(jié)果,這些結(jié)果可按照概念相關(guān)性或文檔上下文關(guān)聯(lián)排序。Autonomy 的技術(shù)甚至能自動(dòng)檢測(cè)輸入文檔的語(yǔ)言并改變相應(yīng)配置以自動(dòng)處理每一種語(yǔ)言。

Autonomy的技術(shù)內(nèi)核,是一個(gè)被稱為IDOL的智能信息處理層。IDOL由動(dòng)態(tài)推理引擎 (DRE)、分類服務(wù)器、用戶服務(wù)器等模塊組成,DRE 可實(shí)現(xiàn)概念識(shí)別、自動(dòng)摘要、有效識(shí)別、自動(dòng)超鏈接、自然語(yǔ)言檢索等核心操作,分類服務(wù)器可實(shí)現(xiàn)自動(dòng)聚類、自動(dòng)分類、自動(dòng)目錄生成等功能操作,用戶服務(wù)器則可以實(shí)現(xiàn)個(gè)人化信息創(chuàng)建、個(gè)性化信息提示、個(gè)性化信息訓(xùn)練、專家定位等個(gè)性化操作。

可以說, IDOL提供了一個(gè)對(duì)語(yǔ)言模式進(jìn)行文字分析、進(jìn)而推斷出有序概念的智能內(nèi)核。正是以此為基礎(chǔ),Autonomy才能夠發(fā)展出一整套基于“模式匹配”的功能應(yīng)用,比如二維島圖、二維趨勢(shì)圖、三維立體圖等圖形化結(jié)果,比如自動(dòng)建檔、社區(qū)及協(xié)作、專家搜索、信息推送等行業(yè)應(yīng)用,比如電子通訊和管理技術(shù)的安全監(jiān)控、訴訟及風(fēng)險(xiǎn)管理自動(dòng)化的Aungate,比如下一代呼叫中心技術(shù)Qfiniti(現(xiàn)在是Autonomy etalk部門的一部分),比如視頻關(guān)鍵幀識(shí)別技術(shù)和語(yǔ)音識(shí)別技術(shù),如此等等。而這些Autonomy早在上世紀(jì)90年代末即已研發(fā)成熟并投入使用的搜索應(yīng)用,正是眼下第三代搜索潮流中最被看好的主流應(yīng)用。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多