| 選自Nature 作者:Nicola Jones 機器之心編譯 參與:李澤南、曹瑞 
 以人工智能為基礎的免費學術搜索引擎 Semantic Scholar 剛剛宣布,它已經(jīng)覆蓋了 1000 萬計算機和神經(jīng)科學論文。這一搜索引擎旨在利用更先進的技術來構建一套智能學術搜索引擎,并超越谷歌學術。自去年 11 月發(fā)布以來,Semantic Scholar 的出現(xiàn)壯大了人工智能搜索引擎的陣營,而在這些檢索工具中,最引人注目的則是重新上線的微軟學術。 位于西雅圖的非盈利性機構艾倫人工智能研究所(AI2)的 Semantic Scholar 搜索剛剛在神經(jīng)科學年會上發(fā)布了新版本,并受到了科學家們的歡迎?!杆鼤淖冇螒蛞?guī)則,」斯坦福大學的神經(jīng)生物學家 Andrew Huberman 說道。「現(xiàn)在學術界的信息龐雜,有了這個搜索引擎,學者們的工作將會獲得指引?!?/span> 這一搜索引擎于 2015 年 11 月發(fā)布,其開發(fā)者宣稱它對論文的搜索排名基于對內容和上下文復雜的認知方式。目前最流行的學術搜索谷歌學術可以鏈接 2 億篇文檔,而且覆蓋付費內容。 但是,谷歌的工具依賴于文章關鍵字,而且內容和影響力對搜索結果的影響有限;不過,Semantic Scholar 則與此不同,它的搜索結果顯示的是內容與搜索詞存在相關性的文章,排名則有關引用增加的速度——這篇文章到底有多熱門。 Semantic Scholar 剛剛上線時只能檢索到 300 萬篇計算機科學領域的論文。在 AI2 兄弟機構的協(xié)助下,搜索引擎中的內容逐漸增多。艾倫腦科學研究所已將數(shù)百萬神經(jīng)科學和醫(yī)學論文加入其中,并添加了新的 filters。這些 filters 允許用戶在細分領域進行搜索,如有關大腦特定部分、大腦中特定細胞、研究哪個模型生物體以及使用什么方法的論文。 「明年,AI2 的目標是索引所有 PubMed 中的內容(PubMed 包含來自 MEDLINE、生命科學類期刊和在線圖書中超過 2600 萬的生物醫(yī)學文獻),并將覆蓋面擴大到所有的醫(yī)學細分領域?!筄ren Etzioni 說道。 目前,這個搜索引擎仍然需要進行內容的擴充,馬德里 Expert System 軟件公司的 Jose ManuelGómez-Pérez 說道:「我目前使用最多的仍然是 Google Scholar,但 Semantic Scholar 引擎還有很多潛力。」 微軟的復興 
 Semantic Scholar 并不是唯一一個基于人工智能的搜索引擎。電腦巨商微軟在今年 5 月份也公開發(fā)布了自己的人工智能學術搜索工具——微軟學術(Microsoft Academic),取代了它的「前輩」微軟學術搜索(Microsoft Academic Search),后者的服務在 2012 年被公司停止。 微軟這次的野心并不止于學術搜索。目前,所有研究者都可以通過 API 和開放學術社區(qū)(Open Academic Society)接觸到微軟學術搜索的算法和數(shù)據(jù)。 開放學術社區(qū)是微軟研究院和艾倫人工智能研究所以及其他機構的合作構建的平臺。微軟 MSR Outreach Innovation 的常務董事 Wang Kuansan 說道,「越多人研究這個問題,情況就會越來越好?!顾J為 Semantic Scholar 已經(jīng)逐步深入到了自然語言處理上,也就是說能夠理解論文和查詢中完整語句的含義。但是微軟的工具,是由公司的網(wǎng)頁搜索引擎必應的語義搜索功能所驅動的,所以涵蓋的范圍更廣,能覆蓋 1.6 億篇學術論文。 和 Semantic Scholar 相似的是,微軟學術也提供了實用的(可能不夠廣泛的)filters,可以根據(jù)作者、期刊和研究領域進行信息過濾。同時,它還采用了一種排行榜的形式,將每一個分支學科中最有影響力的科學家做了排序。這些人一般是那些在某個領域有極其「重要」影響的出版人,而這些排名都是由一個遞歸算法(免費可用)基于這些論文在其他一些重要的論文中的引用與否來判斷的。根據(jù)微軟學術的顯示,在過去的半年當中最頂尖的神經(jīng)科學家是美國明尼蘇達州羅徹斯特梅奧診所(Mayo Clinic)的 Clifford Jack。 其他的一些學者也表示對微軟的研究印象深刻。Anne-Wil Harzing 正在英國密德薩斯大學研究科學計量學,在分析過這一新產(chǎn)品之后,她表示:「這個搜索引擎正在將谷歌學術搜索大覆蓋面的優(yōu)點和斯高帕斯數(shù)據(jù)庫 (Scopus) 和科學引文索引數(shù)據(jù)庫(Web of Science)等數(shù)據(jù)庫能產(chǎn)生有結構性的文獻訂閱數(shù)據(jù)的優(yōu)點相結合?!?/span> 「不可否認,微軟學術已經(jīng)在不斷發(fā)展壯大了?!刮④浹芯吭罕硎荆麄冋谘芯恳环N能夠允許用戶登錄的個性化版本,這樣微軟就能夠根據(jù)他們的關注領域推薦給他們合適的新論文,或者是提醒他們自己的論文被引用,這個版本預計在明年初完成。 其他公司和學術研究機構也都在發(fā)展人工智能驅動的軟件,希望能夠更加深入研究到在線內容查找。比如說,位于德國薩爾布呂肯(Saarbrücken)的馬克斯·普朗克計算機科學研究(Max Planck Institute for Informatics)正在研究一種叫做 DeepLife 的引擎,專門針對健康和生命科學領域。Etzioni 表示,「這些都是研究原型,不是可持續(xù)的長期研究計劃。」 「艾倫人工智能研究所的長期目標是創(chuàng)造一個能夠回答所有科學問題的系統(tǒng),它將能夠提出新的實驗設計,甚至能夠幫我們做出合理的猜想?!笶tzioni 說道,「在 20 年之后,人工智能就可以擁有閱讀科學文本的能力——更重要的是,擁有理解的能力。」 | 
|  |