
Powerset首頁
Powerset基于自然語言,某些搜索性能超過Google,為微軟提供了一次超越Google的機會
【《財經(jīng)網(wǎng)》專稿/記者 何華峰】微軟收購從事自然語言搜索引擎公司Powerset的消息,既讓人看到了微軟發(fā)展搜索引擎的決心,也令自然語言搜索迅速成為行業(yè)的熱點。
6月26日,美國知名IT博客VentureBeat首次披露,微軟將斥資1億美元,收購美國舊金山的搜索引擎公司Powerset。7月1日,Powerset在博客上發(fā)布聲明,證實微軟已與其簽約。
微軟剛剛放棄了對雅虎的收購,公司首席執(zhí)行官斯蒂夫·鮑爾默(Steve Balmer)同時表示,要堅定不移地獨立投資互聯(lián)網(wǎng),縮小與Google在搜索引擎方面的差距。收購Powerset進一步佐證了這一思路。
同時,Powerset的搜索是基于自然語言,某些搜索效果好于Google,這一消息也讓業(yè)內(nèi)不禁聯(lián)想:這會不會是微軟超越Google搜索引擎的一次絕佳機會?
Powerset與自然語言
Powerset公司位于舊金山。2005年9月,Powerset的首席執(zhí)行官巴尼·佩爾(Barney Pell)找到了PARC實驗室的羅恩·卡普蘭(Ron Kaplan),后者領(lǐng)導(dǎo)著一個負責(zé)自然語言搜索的團隊。佩爾說服卡普蘭做一款自然語言搜索引擎。
PARC實驗室(Palo Alto Research
Center)隸屬于施樂公司(Xerox),是硅谷地區(qū)鼎鼎有名的高科技產(chǎn)品研究機構(gòu)。20世紀(jì)80年代初,蘋果公司創(chuàng)始人斯蒂夫·喬布斯(Steve
Jobs)正是從這個實驗室得到了鼠標(biāo)技術(shù),并將其用在自己研發(fā)的蘋果電腦上。
2007年2月,Powerset從PARC實驗室獲得了自然語言搜索引擎技術(shù)的排他性授權(quán)。
從理念上說,自然語言搜索是更先進的搜索技術(shù),搜索引擎會先理解文章的意思,在此基礎(chǔ)上進行搜索。與Google相比最大的區(qū)別是,Google的搜索以關(guān)鍵詞為基礎(chǔ),根據(jù)關(guān)鍵詞把搜索的頁面進行排序,而并非以理解文章意思為先。
理論上,自然語言搜索更為先進,但這項技術(shù)的概念出現(xiàn)幾十年,一直沒能做到可應(yīng)用水平。Google也曾表示要推出自然語言搜索,卻始終未果。而PARC實驗室的技術(shù)被認為達到了應(yīng)用的水平。
這項技術(shù)很被看好,2006年,就在Powerset與PARC實驗室還在談判的過程中,已經(jīng)有兩個風(fēng)險投資商Foundation
Capital和the Founders
Fund表示看好,計劃以相當(dāng)高的價格進行投資。最終,兩家風(fēng)險投資商以1250萬美元的價格,獲得了Powerset不到三分之一的股權(quán)。
2007年初,Powerset終于完成了與PARC實驗室的談判,前者獲得排他性授權(quán),后者除收取授權(quán)費外,還獲得前者的部分股權(quán)。
2007年9月,Powerset的搜索引擎上線。比較Powerset與Google,在某些地方,前者的功能更優(yōu)。比如,搜索“誰收購了
IBM”,Google只識別“收購”與“IBM”兩個關(guān)鍵詞,顯示結(jié)果,會是大量IBM收購的公司。Powerset則能理解,要查找的是收購IBM的
公司,給出的結(jié)果主要是“聯(lián)想”和“AT&T”。
如果輸入更復(fù)雜的問題,如“IBM在1996年收購了誰?”,Google便會束手無策,而Powerset的搜索結(jié)果則好很多。
Powerset還有較強的學(xué)習(xí)能力,比如,掃描網(wǎng)頁,它會發(fā)現(xiàn)希拉里·克林頓與“自由”“民主”“領(lǐng)導(dǎo)人”相關(guān),當(dāng)你搜索“自由民主黨人對醫(yī)療政策的態(tài)度?”,就會搜到希拉里和其他自由民主黨人關(guān)于這方面的言論。
微軟的機會
目前,Powerset的搜索范圍還只限于維基百科,未來會逐漸擴大范圍。運用自然語言搜索技術(shù),必須把網(wǎng)頁掃描及標(biāo)識一遍。只限于做維基百科的搜索,是又經(jīng)濟又實惠的做法。
如果有一天,Powerset真的想和Google抗衡,就必須把互聯(lián)網(wǎng)上的所有網(wǎng)頁掃描并標(biāo)識一遍。Powerset在聲明中說,“這很貴,要求的
技術(shù)和計算資源,是一個新企業(yè)無法承擔(dān)的。與微軟合作,是讓技術(shù)應(yīng)用大規(guī)?;淖羁焱緩?。”此話點明了Powerset鐘意微軟的真正原因。
對Google來說,要做自然語言搜索并不容易。Google早已掃描并標(biāo)識了上百億頁網(wǎng)頁,但這些都是以關(guān)鍵詞搜索為基礎(chǔ)的。如果采用自然語言搜索技術(shù),將不得不重新掃描和標(biāo)識這些網(wǎng)頁,且所需的時間會比關(guān)鍵詞搜索來的更長。
微軟收購Powerset后,同樣必須掃描及標(biāo)識所有的頁面,但其顯然有更強的動力。首先,這是一次超越Google的好機會;其次,相對于460億美元的收購雅虎的預(yù)算,這點花費變得微不足道。
今年5月,美國互聯(lián)網(wǎng)調(diào)查機構(gòu)尼爾森在線(Nielsen
Online)公布的數(shù)據(jù)顯示,4月份,Google在美國搜索市場市場占有率為62%,與雅虎和微軟的差距進一步拉大。雅虎以17.5%的份額位居第
二,同比減少3.4%。微軟的MSN/Windows Live Search占9.7%,同比增長30%。
微軟還有一個優(yōu)勢,是它有一些細分領(lǐng)域的搜索引擎,如購物比較搜索Microsoft Live
Cashback,旅行搜索Farecast,健康專業(yè)搜索health.live.com,自然語言搜索技術(shù)應(yīng)用在這些細分領(lǐng)域,目前效果最好。
Google則是面向全體用戶的通用搜索引擎。
被微軟收購后,Powerset還將保持相對獨立的運作。在聲明中,Powerset表示,公司將如常運作——辦公地點不變,公司架構(gòu)不變,團隊不變。
在未來幾個月,Powerset將整合進微軟的Live搜索。Powerset說,“我們將提高搜索,通過標(biāo)注網(wǎng)頁基于意思,而不是關(guān)鍵詞。”
Google終結(jié)者?
Powerset在技術(shù)上有一定優(yōu)勢,但要成為Google的終結(jié)者則相當(dāng)困難。
首先,Powerset的技術(shù)優(yōu)勢也許不一定能維持很久。
事實上,Google研究總監(jiān)彼得·諾維格(Peter Norvig)在接受VentureBeat采訪時透露,Google內(nèi)部已有幾個做自然語言的小組,且許多人擁有這一專業(yè)的博士學(xué)位,而他本人就是其中之一。
同時,基于自然語言的搜索引擎并非獨Powerset一家。另一家同類公司Hakia剛剛籌得2100萬美元的風(fēng)險投資,其有意掃描并標(biāo)識整個互聯(lián)網(wǎng)的網(wǎng)頁。意大利Expert System公司做的Cogito Focus也是一款基于自然語言的搜索引擎。
這些同類者中,不乏“傾心”于Google者。Expert System的首席執(zhí)行官布洛克·艾克(Brooke Aker)說,與業(yè)內(nèi)強者聯(lián)合,是擴展自然語言技術(shù)的最快途徑。
其次,自然語言搜索沒有提供視頻和圖片的識別技術(shù),這是其很大的技術(shù)弱點。
再次,Google現(xiàn)在已是搜索的代名詞,人們習(xí)慣了用Google搜索,而要改變用戶的這一習(xí)慣顯然并不容易。
不過,在Google關(guān)鍵詞搜索獨步天下的今天,Powerset的出現(xiàn)至少顯示了搜索引擎未來可能有突破的可能。
“五年后,搜索行業(yè)會有巨大的變化。”Hakia首席執(zhí)行官力佐·伯肯(Rizzo Berkan)說?!?/p>