|
可以負(fù)責(zé)任地說,今年元旦之后的一個(gè)傳言將與去年年中的一條消息一樣,將引起Google、雅虎、微軟等搜索巨頭們的嚴(yán)重警惕。 Autonomy的“樣板工程”Blinkx 2004年7月,一個(gè)位于美國舊金山的創(chuàng)業(yè)公司推出了一種新型搜索工具Blinkx,該工具可以提供類似“模糊搜索”或“語義搜索”的功能。也就是說,系統(tǒng)經(jīng)過“學(xué)習(xí)”積累了一定“經(jīng)驗(yàn)”后,可以滿足用戶類似“最便宜的筆記本電腦是什么”這樣的搜索需求。 有媒體把這種搜索方式稱為“占卜式”搜索,也有人將其稱為“職能搜索”,提供Blinkx搜索工具的公司也叫Blinkx。 Blinkx不僅可以搜索文本內(nèi)容,還可以搜索電影電視等多媒體內(nèi)容,不僅可以搜索互聯(lián)網(wǎng)內(nèi)容,還可以搜索本機(jī)和局域網(wǎng)上的內(nèi)容。Blinkx同時(shí)還可以搜索不同的文本格式內(nèi)容,如Text、Word、Excel、PPT、PDF以及各種數(shù)據(jù)庫中的數(shù)據(jù)格式。 Blinkx公司同時(shí)發(fā)布了提供這種新型搜索功能的兩個(gè)服務(wù)工具,一個(gè)是門戶網(wǎng)站(www.blinkx.com),一個(gè)是在該網(wǎng)站上可以下載的客戶端軟件,該軟件大小約7MB。盡管這兩個(gè)工具目前僅支持英德兩種語言,而且都只是測(cè)試版,但它提供的震撼性功能已經(jīng)開始讓傳統(tǒng)搜索巨頭們?yōu)橹毮俊?br>與傳統(tǒng)搜索網(wǎng)站不同的是,在Blinkx的搜索框中鍵入用戶指令,比如“CDMA”,出現(xiàn)的結(jié)果可能被系統(tǒng)自動(dòng)分為10類,可能其中9類與用戶的查詢期望距離較大,用戶就可以將接近的那個(gè)結(jié)果作為查詢條件,進(jìn)行第二次查詢,完成“進(jìn)階式”查詢,通過這種方式逐步接近目標(biāo),最后達(dá)到用戶期望查詢的結(jié)果。 如果安裝了Blinkx的客戶端軟件,一個(gè)小的菜單窗口就會(huì)出現(xiàn)在Windows Word、Outlook等幾乎所有文檔處理窗口的右上方。用戶在這些窗口中處理文檔時(shí),系統(tǒng)會(huì)自動(dòng)分析這個(gè)文檔,然后自動(dòng)從本機(jī)或網(wǎng)絡(luò)上抓取相關(guān)文章或鏈接,以供用戶參考。不僅如此,它還可以及時(shí)提供與文章內(nèi)容相關(guān)的新聞、產(chǎn)品信息、視頻內(nèi)容等分類信息。簡單地說,用戶完全可以拿一篇文章來作為“查詢關(guān)鍵詞”,Blinkx通過對(duì)這篇文章進(jìn)行分析,會(huì)給出與這篇文章內(nèi)容最接近的網(wǎng)絡(luò)鏈接或本機(jī)文檔。這無疑給需要處理大量數(shù)據(jù)的個(gè)人和企業(yè)提供了巨大便利。 美中不足的是,Blinkx目前在中國境內(nèi)沒有設(shè)立服務(wù)器,所以瀏覽網(wǎng)頁的速度會(huì)受到較大影響。目前,Blinkx還處于測(cè)試階段,它從網(wǎng)上抓取的數(shù)據(jù)還不夠多,其數(shù)據(jù)庫中裝載的信息還不夠完善,更新頻度也不夠快,所以,用戶可能找到結(jié)果(文檔)常常比較陳舊。 2005年元旦剛過,又有消息傳來:Blinkx將進(jìn)入中國市場(chǎng),其中文測(cè)試版已經(jīng)“竣工”。據(jù)英國Autonomy公司在國內(nèi)的代理商卓越動(dòng)力軟件(北京)有限公司稱,目前已經(jīng)在國內(nèi)某數(shù)據(jù)中心建立了一個(gè)試驗(yàn)平臺(tái),大約有30多臺(tái)服務(wù)器正在運(yùn)行著Blinkx的后臺(tái)系統(tǒng)。 Autonomy公司是Blinkx公司的股東之一,后者的核心技術(shù)也來自前者,因?yàn)檫@種密切關(guān)系,Blinkx被認(rèn)為是Autonomy的“樣板工程”。此前,Autonomy一直像汽車發(fā)動(dòng)機(jī)一樣隱藏在幕后。Blinkx發(fā)布之前,Autonomy在公眾中并沒有太大名氣;Blinkx發(fā)布之后,Autonomy僅有的名氣也很快被Blinkx所超越。 Autonomy雖然在公眾中的知名度不太大,但在商業(yè)應(yīng)用領(lǐng)域中卻名聲煊赫,并在政府、國防、新聞、金融、電信、教育等領(lǐng)域擁有大量中堅(jiān)客戶。而且,Autonomy還是一個(gè)“歷史悠久”的IT公司,同時(shí)在美國和英國上市,擁有超過1.47億美元的現(xiàn)金。 正如Autonomy產(chǎn)品所體現(xiàn)出的人文設(shè)計(jì)思想一樣,Autonomy公司也誕生在人文氣息十分濃厚的英國劍橋大學(xué)。 貝葉斯概率論與香農(nóng)信息論的混血兒 Autonomy的創(chuàng)始人是劍橋大學(xué)的邁克·林克(Mike Lynch)教授。1991年,林克教授創(chuàng)立了Autonomy的前身Nurodynamic公司,后者是林克從一個(gè)樂隊(duì)老板融資3000多美元?jiǎng)?chuàng)建的,該公司主要致力于劍橋大學(xué)模式識(shí)別研究成果的產(chǎn)業(yè)化工作。 到1996年時(shí),林克教授已經(jīng)積累了足夠多的客戶資源。于是,他向風(fēng)險(xiǎn)投資商借貸了1500萬美元,創(chuàng)立了Autonomy。同年,Autonomy推出了世界上第一套智能個(gè)性化信息系統(tǒng),同時(shí)發(fā)布了它的拳頭產(chǎn)品DRE(Dynamic Reasoning Engine,動(dòng)態(tài)推理引擎)和Portal產(chǎn)品系列。 Autonomy產(chǎn)品的核心算法是兩種數(shù)學(xué)理論的獨(dú)特結(jié)合:貝葉斯概率理論和香農(nóng)信息論。 18世紀(jì),英國牧師托馬斯·貝葉斯曾經(jīng)試圖利用概率論證明上帝的存在,但他未能如愿,不過,他所創(chuàng)立的貝葉斯定律卻奠定了現(xiàn)代概率論的基礎(chǔ)。兩個(gè)多世紀(jì)以后,這個(gè)定律成了Autonomy發(fā)家致富的敲門磚。不少數(shù)學(xué)家認(rèn)為,貝葉斯定律描述的邏輯是一種跟人類思維模式最接近的數(shù)學(xué)邏輯,它通過一個(gè)概念出現(xiàn)頻率的多少和與其他概念之間的關(guān)系來決定其成分的重要性。 香農(nóng)信息論則提供一種方法來提取一篇文章諸多概念之中最有意義的部分。香農(nóng)信息論最基本的理論是:一個(gè)詞重復(fù)頻率越高,其內(nèi)容越不具有概括性,反之,一個(gè)詞重復(fù)頻率越低,其內(nèi)容越豐富。 Autonomy中含有一個(gè)動(dòng)態(tài)推理引擎(Dynamic Reasoning Engine,DRE),它是一個(gè)擴(kuò)展性很強(qiáng)的、多線程的核心引擎。信息的概念分析、內(nèi)容提取、概念模式識(shí)別、相關(guān)度計(jì)算等關(guān)鍵工作都由動(dòng)態(tài)推理引擎來完成。它是一個(gè)跨平臺(tái)的引擎,可以在多種硬件和操作系統(tǒng)環(huán)境下優(yōu)化運(yùn)行,支持從Intel PC使用的Windows NT到多處理器小型機(jī)運(yùn)行的UNIX等系統(tǒng)環(huán)境。它可以與各種不同信息源相連,如互聯(lián)網(wǎng)、數(shù)據(jù)庫、內(nèi)部網(wǎng)和本機(jī)數(shù)據(jù)庫、文件系統(tǒng)等。當(dāng)用戶發(fā)出搜索指令后,它可以通過概念分析、模式識(shí)別、相關(guān)度計(jì)算等方法,從不同的數(shù)據(jù)源中找到與用戶要求最匹配的信息。 從“搜索(search)”到“發(fā)現(xiàn)(discover)” Autonomy在保留了傳統(tǒng)搜索方法的基礎(chǔ)上,還發(fā)展了新的方法。 目前,人類研究的信息搜索技術(shù)有四個(gè)方向:關(guān)鍵字搜索,模式識(shí)別,語義分析,神經(jīng)網(wǎng)絡(luò)。除了關(guān)鍵詞搜索比較成熟外,其他三項(xiàng)技術(shù)還處于待開發(fā)狀態(tài)。模式識(shí)別的代表者就是Autonomy,語義分析和神經(jīng)網(wǎng)絡(luò)兩個(gè)技術(shù)方向目前尚無壓倒性的代表者,這兩個(gè)技術(shù)方向的研究難度相對(duì)較大,估計(jì)一時(shí)半會(huì)不會(huì)有突破性研究成果。所以,模式識(shí)別就成了目前比較先進(jìn)的信息搜索技術(shù)。 傳統(tǒng)搜索基本上采用“關(guān)鍵詞”搜索方式,也就是“非0即1”的方式,它基于嚴(yán)格定義和分類的布爾表達(dá)式,即“與、或、非”表達(dá)式。這樣搜索的最大弊病就是:如果關(guān)鍵詞不確定,或者有錯(cuò)誤疏漏,用戶往往得不到自己想要的搜索結(jié)果。 但在實(shí)際應(yīng)用中,用戶常常很難用具體而明確的關(guān)鍵詞來描述自己想找的東西,比如上述的“最便宜的筆記本電腦”等等。甚至在有些時(shí)候,搜索出來的結(jié)果大部分與這個(gè)關(guān)鍵詞并沒有太大關(guān)系,只是結(jié)果文章中出現(xiàn)過這個(gè)詞而已。例如,一個(gè)用戶希望了解污染對(duì)企鵝造成的影響,使用關(guān)鍵詞搜索法,鍵入“企鵝”,搜索結(jié)果可能帶來一些有用的信息,但同時(shí)也有大量不相關(guān)的文章,如“企鵝出版公司”、“企鵝牌巧克力”、“企鵝冰箱”等。 采用“模式識(shí)別”搜索方法,可通過判別相關(guān)識(shí)別度的高低來對(duì)數(shù)據(jù)進(jìn)行檢索。即它會(huì)對(duì)用戶鍵入的檢索內(nèi)容進(jìn)行語意上的分析,然后對(duì)海量信息進(jìn)行概念匹配,找出在內(nèi)容上最接近的數(shù)據(jù)提供給用戶,所以可以避免傳統(tǒng)“關(guān)鍵詞檢索”造成的漏檢情況的發(fā)生。比如一篇文章里如果有“大海”這個(gè)詞,這篇文章有可能和企鵝有關(guān),但是“大海”這個(gè)詞用在很多不同的地方,有可能文章講的是別的內(nèi)容。但是如果一篇文章里有“大?!?、“南極”、“黑色”、“白色”、“不會(huì)飛”、“羽毛”、“下蛋”、“石油”、“泄露”等這些詞,這篇文章是在談?wù)撐廴竞推簌Z的概率就會(huì)很高。雖然整篇文章里沒有“企鵝”這個(gè)詞,但是很多相關(guān)度較低的詞出現(xiàn)在一起就會(huì)帶來很高的相關(guān)度,并且缺少某個(gè)描述詞對(duì)其產(chǎn)生的結(jié)果影響微乎其微。 如果說傳統(tǒng)的“關(guān)鍵字”搜索方法為“search”(搜索)的話,autonomy采用的“模式識(shí)別”方法則應(yīng)該稱為“discover”(發(fā)現(xiàn)),因?yàn)樗梢宰層脩粽业揭恍┦虑八麄儾恢赖男畔ⅰutonomy產(chǎn)品中提供的“聚類”功能正是“從搜索到發(fā)現(xiàn)”的最佳表現(xiàn)。 如果一個(gè)用戶需要知道“本月最熱門的IT新聞事件有哪些”,使用Autonomy的“聚類”功能就可以得到近乎完美的答案。第一步,用戶先設(shè)定一些需要搜索的目標(biāo)網(wǎng)站,根據(jù)“本月最熱門的IT新聞事件有哪些”這個(gè)需求,這些目標(biāo)網(wǎng)站自然是一些IT新聞網(wǎng)站;第二步,通過Autonomy的DRE對(duì)這些網(wǎng)站上本月內(nèi)報(bào)道的IT新聞進(jìn)行檢索;第三步,對(duì)這些新聞進(jìn)行分類,報(bào)道數(shù)量最多最頻繁的前幾件事情就是“本月最熱門的IT新聞事件有哪些”的候選者。這是沒有計(jì)算機(jī)幫助時(shí)的人工作法,現(xiàn)在,這些步驟都由安裝了Autonomy軟件的計(jì)算機(jī)來完成,用戶只需要“發(fā)動(dòng)”一下這個(gè)系統(tǒng):給“本月最熱門的IT新聞事件有哪些”這個(gè)搜索需求設(shè)定一些關(guān)鍵參數(shù)。 當(dāng)然,設(shè)置關(guān)鍵參數(shù)對(duì)非專業(yè)人士而言并不是一件容易的事情,一開始可能有些麻煩,不過,隨著這個(gè)不斷“學(xué)習(xí)”的系統(tǒng)的后臺(tái)數(shù)據(jù)庫數(shù)據(jù)量的增加,用戶需要設(shè)置的參數(shù)可能會(huì)越來越少,甚至做到直接用“本月最熱門的IT新聞事件有哪些”就可以一步到位搜索到用戶所需要的。當(dāng)然,用戶這個(gè)系統(tǒng)不可能像google的檢索數(shù)據(jù)庫一樣包羅萬象,只能在某些個(gè)別領(lǐng)域(如IT新聞、環(huán)境污染等)成為一個(gè)“專家”,這個(gè)“專家”在面對(duì)來自其他領(lǐng)域或行業(yè)的問題時(shí),一開始一樣是個(gè)傻瓜。 處理非結(jié)構(gòu)化數(shù)據(jù)的利器 “只要存在非結(jié)構(gòu)化數(shù)據(jù),就對(duì)autonomy有需求?!盇utonomy公司的代理商卓越動(dòng)力認(rèn)為,對(duì)于那些非結(jié)構(gòu)化的數(shù)據(jù),Autonomy提供的功能是十分有效的。而隨著互聯(lián)網(wǎng)的大規(guī)模普及,非結(jié)構(gòu)化數(shù)據(jù)將越來越多,遠(yuǎn)遠(yuǎn)超過了結(jié)構(gòu)化數(shù)據(jù)的數(shù)量。對(duì)于企業(yè)而言,如何處理數(shù)量如此龐大的非結(jié)構(gòu)化數(shù)據(jù),比個(gè)人的需求更加迫切。 企業(yè)對(duì)文檔的處理可分為三個(gè)發(fā)展階段。最初是文件系統(tǒng),通常是樹型目錄結(jié)構(gòu)的文件管理器。當(dāng)文件大量出現(xiàn)后,樹型目錄已經(jīng)無法管理一些邏輯性和結(jié)構(gòu)性很強(qiáng)同時(shí)又關(guān)系復(fù)雜的數(shù)據(jù),于是出現(xiàn)了關(guān)系型數(shù)據(jù)庫,通過數(shù)據(jù)庫管理工具對(duì)數(shù)據(jù)進(jìn)行安全管理、備份管理、分類管理等,也就是把非結(jié)構(gòu)化文檔結(jié)構(gòu)化,變成計(jì)算機(jī)能夠讀懂的數(shù)據(jù)和關(guān)系。這是第二個(gè)階段。 第三個(gè)階段是在互聯(lián)網(wǎng)出現(xiàn)后,隨著大批非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn),單純將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)的工作需要耗費(fèi)大量的人力和物力,同時(shí)還往往需要把結(jié)構(gòu)化的數(shù)據(jù)又重新以非結(jié)構(gòu)化方式輸出,這樣轉(zhuǎn)換來轉(zhuǎn)換去,導(dǎo)致了大量資源浪費(fèi)和成本支出。所以,如何不轉(zhuǎn)換就能直接處理非結(jié)構(gòu)化數(shù)據(jù),成了迫在眉睫的問題,Autonomy的功能正好應(yīng)運(yùn)而生。 Autonomy通過保持?jǐn)?shù)據(jù)原型,通過架設(shè)自己的平臺(tái)來對(duì)數(shù)據(jù)進(jìn)行管理。從而完成從信息與信息的互動(dòng),到人與信息的互動(dòng),最終達(dá)到人與人的互動(dòng)。此外,Autonomy還可以建立文字與視音頻片段的對(duì)應(yīng),從而完成新聞媒體里的新聞和談話節(jié)目的數(shù)據(jù)管理工作。 目前,Autonomy在國外比較成功的應(yīng)用案例集中在媒體、政府機(jī)構(gòu)、金融和信息產(chǎn)業(yè)等需要集中處理大量非結(jié)構(gòu)化數(shù)據(jù)的領(lǐng)域。 2003年3月,Autonomy進(jìn)入中國市場(chǎng),目前主要集中在電信和政府市場(chǎng)。在企業(yè)內(nèi)部,Autonomy是追求建立符合企業(yè)內(nèi)部數(shù)據(jù)管理需求的平臺(tái),可將放在不同位置的不同類型的數(shù)據(jù)進(jìn)行有效梳理?!八阉鳌辈皇莂utonomy的最終目的,抽取最需要的信息進(jìn)行“信息集成”,搭建知識(shí)管理平臺(tái)才是Autonomy的應(yīng)用方向。 Autonomy代理商卓越動(dòng)力認(rèn)為,政府機(jī)構(gòu)和一些需要對(duì)信息進(jìn)行監(jiān)控的機(jī)構(gòu)是該系統(tǒng)在中國的潛在市場(chǎng)。 Autonomy曾經(jīng)在美國本土安全局、美國國防部、美國航天局、英國警察署和美國陸軍有過成功應(yīng)用。因?yàn)閷?duì)于網(wǎng)絡(luò)上出現(xiàn)的大量的有害信息,Autonomy可以做到事前發(fā)現(xiàn),從而幫助政府機(jī)構(gòu)采取及時(shí)地反應(yīng)。 隨著互聯(lián)網(wǎng)的多元化,大量網(wǎng)上違法信息都不以關(guān)鍵詞形式出現(xiàn)。例如,政府有關(guān)部門要打擊網(wǎng)上非法買賣違禁藥物,使用“搖頭丸”、“興奮劑”等關(guān)鍵詞搜索出來的內(nèi)容多數(shù)是關(guān)于藥物危害、打擊犯罪等方面的正面文章,而出現(xiàn)“興奮”、“購買”、“單價(jià)”等關(guān)鍵詞的文章,則與非法買賣違禁藥物的相關(guān)度最高。通過這種非關(guān)鍵詞搜索的“模式識(shí)別”搜索,政府監(jiān)控部門可以有效打擊日益猖獗的網(wǎng)上犯罪。 資料 Autonomy的工作原理 Autonomy的核心是建立在獨(dú)特的信息論和概率論的基礎(chǔ)之上的模式識(shí)別技術(shù),它可以保證對(duì)任何形式的信息:文本文件或基于語音、視頻、非結(jié)構(gòu)化或結(jié)構(gòu)化的實(shí)際內(nèi)容的基本理解。 現(xiàn)在網(wǎng)絡(luò)應(yīng)用軟件主要為三層結(jié)構(gòu):用戶界面層、應(yīng)用軟件層和數(shù)據(jù)層。這樣的結(jié)構(gòu)所存在的問題是,不同的應(yīng)用軟件不能實(shí)現(xiàn)信息共享。信息源與信息源之間有不可跨越的屏障,來自不同信息源的信息有不同的格式。Autonomy創(chuàng)建了一個(gè)新的信息層:智能信息操作層IDOL,自動(dòng)把各個(gè)信息源和各種文件格式統(tǒng)一在一個(gè)智能的信息操作系統(tǒng)之下,這個(gè)智能信息操作系統(tǒng)可以提供多種信息操作的功能,比如信息的實(shí)施自動(dòng)鏈接,信息自動(dòng)分類,內(nèi)容概括,信息聚類等。 Autonomy在系統(tǒng)內(nèi)創(chuàng)建一個(gè)新層,即智能數(shù)據(jù)操作層(intelligent data operating layer, IDOL),從而使企業(yè)系統(tǒng)“以數(shù)據(jù)為中心”。該操作平臺(tái)后端與各種數(shù)據(jù)源相連,可以根據(jù)任何語言和格式進(jìn)行內(nèi)容搜索,不論內(nèi)容存放在哪里,自動(dòng)實(shí)時(shí)地將總結(jié)以及與其類似信息的鏈接呈現(xiàn)出來。由于autonomy的技術(shù)是建立在概率性建模之上,因此不依賴任何語言進(jìn)行分析,無需維護(hù)任何繁瑣的詞表,IDOL將此看成是意義的抽象符號(hào),它通過詞出現(xiàn)時(shí)的上下文環(huán)境而不是通過嚴(yán)格的語法定以來形成對(duì)該詞的理解,從而識(shí)別進(jìn)入到autonomy架構(gòu)中的任何數(shù)據(jù)的語言特性。 另外,autonomy還具有分類和聚類功能。IDOL自動(dòng)根據(jù)非結(jié)構(gòu)化文本中的概念對(duì)信息進(jìn)行分類,可以保證根據(jù)內(nèi)容對(duì)所有數(shù)據(jù)進(jìn)行最準(zhǔn)確的分類。而自動(dòng)聚類可以收集大量的文檔數(shù)據(jù)或用戶檔案信息,并且自動(dòng)識(shí)別出信息內(nèi)的主要類別,讓IDOL自動(dòng)的持續(xù)一致的計(jì)算新的信息應(yīng)該屬于哪個(gè)類別。 |
|
|