如何用人工智能幫你找論文？

budaozheli 2019-03-25

展開全文

傳統(tǒng)的關(guān)鍵詞檢索論文，浩如煙海的結(jié)果讓你無所適從？試試人工智能檢索引擎。根據(jù)你的研究興趣和偏好，便捷而靠譜幫你找論文。

image

煩惱

進(jìn)入一個(gè)新領(lǐng)域，讀論文是必然途徑。

讀者一般會遇到2個(gè)問題：

如何獲取論文全文；
如何篩選該讀哪些論文。

在信息匱乏時(shí)代，第一個(gè)問題就會難倒許多人。

好在近年來，人們有了獲取全文的更多渠道。

例如在物理、數(shù)學(xué)和計(jì)算機(jī)科學(xué)等領(lǐng)域，絕大多數(shù)新研究成果，都會首先發(fā)在arXiv這個(gè)預(yù)印本平臺上。

image

解釋一下，預(yù)印本是指你的論文寫好，可以先發(fā)上來，然后再投給會議或者期刊。

在同行評議過程完成之前（這個(gè)時(shí)間段長短不一，真的有按年計(jì)算的），別人可以搶鮮讀到你的工作成果，同時(shí)你上傳預(yù)印本的行為也申明了自己的知識產(chǎn)權(quán)。

這樣一來，人們就更關(guān)注第二個(gè)問題了：

如何找到自己需要的論文？

這個(gè)問題越來越難以解決。

因?yàn)檎撐?strong>太多了。

發(fā)展較快的領(lǐng)域，尤其如此。

例如人工智能領(lǐng)域，自從深度學(xué)習(xí)（Deep Learning）成為了顯學(xué)，大批量的研究者就涌了進(jìn)來。一時(shí)間好不熱鬧。

image

這么多的論文里，你該讀哪些？以什么順序來閱讀？

要圓滿解決這些問題，你可能需要擁有一張完整的領(lǐng)域知識地圖。

image

可惜，人類的閱讀速度，都跟不上新論文的發(fā)表速度了。幾乎沒有哪個(gè)人能擁有這張知識地圖（而且還恰好愿意為你提供咨詢服務(wù)）。

這給初學(xué)者造成了非常嚴(yán)重的困擾。

有人會告訴你：多讀。

讀到你不再是初學(xué)者，就好了。

這個(gè)建議放在今天，恐怕還是要被信息的洪流淹沒。

正如莊子說的那樣：

吾生也有涯，而知也無涯。以有涯隨無涯，殆已！

幸好，恰恰是人工智能技術(shù)的發(fā)展，使得人們有了更加強(qiáng)大的武器，來應(yīng)對海量論文奔涌而來的困局。

本文為你介紹一款基于人工智能的arXiv論文檢索與推薦引擎，來幫助你處理論文查找和篩選問題。

檢索

我為你推薦的這個(gè)論文檢索引擎，叫做arXiv-sanity。

這是首頁的樣子。

image

第一次使用的時(shí)候，建議你點(diǎn)擊這個(gè)鏈接（https:///S2GY3gh6qC8）查看介紹視頻。

image

為了使用這個(gè)檢索引擎，你需要?jiǎng)?chuàng)建一個(gè)賬戶。

別怕麻煩，10幾秒鐘就能完成。只是你需要把密碼記錄下來，以免下次忘記。

這是我賬戶創(chuàng)建完畢的樣子。

image

我們來對比一下，arXiv和arXiv-sanity中，依據(jù)關(guān)鍵詞檢索論文的結(jié)果有什么差異。

在arXiv里面，搜索“keras”，結(jié)果是這個(gè)樣子的。

image

看著中規(guī)中矩，對吧？

而在arXiv-sanity中搜索同樣的關(guān)鍵詞，結(jié)果是這樣的：

image

arXiv-sanity的搜索結(jié)果以更加可視化的形式呈現(xiàn)。你不僅可以看到標(biāo)題、作者等信息，而且還可以直觀看到其中正文的預(yù)覽圖。

這樣一來，一眼掃過去，你就可以觀其大略，發(fā)現(xiàn)某篇論文是否符合你的口味。

我的研究生應(yīng)該會比較喜歡這個(gè)功能。這樣他們尋找候選翻譯論文的時(shí)候，就能盡量避開公式太多的了。

基于關(guān)鍵詞的檢索是最為基本的功能。

我們來看看其他服務(wù)。

群體

一篇論文寫得如何？其他用戶可能會有評論。

點(diǎn)擊“Discussions”按鈕，你就能查看評論，從而了解他人眼里，論文的優(yōu)點(diǎn)與不足了。

image

如果你暫時(shí)還沒有確立自己的研究方向與興趣，也沒有關(guān)系。

這套論文檢索系統(tǒng)充分利用了人類用戶的群體智慧（crowd wisdom），即觀察和分析他人的行為，來幫你找到可能感興趣的論文。

嘗試一下，點(diǎn)擊屏幕上方的“top recent”按鈕。

image

系統(tǒng)會根據(jù)他人在文獻(xiàn)庫收藏的情況，為你推薦一周內(nèi)最受歡迎的論文。

當(dāng)然你也可以自己選擇時(shí)間尺度。我們來嘗試一下“All Time”（全部時(shí)間段）。

image

深度學(xué)習(xí)領(lǐng)域大牛Ian Goodfellow的論文NIPS 2016 Tutorial（發(fā)表于2017年）排在第一位。

但是使用這個(gè)檢索系統(tǒng)的人畢竟還有限。少數(shù)人的關(guān)注，可能不足以說明問題。

沒關(guān)系，這個(gè)系統(tǒng)還和社交媒體平臺Twitter鏈接了起來。

點(diǎn)擊屏幕上方的“top hype”按鈕，你會看到以下界面。

image

你可以試試把鼠標(biāo)滑動到某個(gè)Twitter用戶頭像上，直接看TA說了什么。

image

當(dāng)然，社交媒體平臺上的數(shù)據(jù)，也并非完全相關(guān)與可靠。但是對于科研內(nèi)容的評價(jià)和傳播來說，社交媒體數(shù)據(jù)（評論、轉(zhuǎn)發(fā)等）還是比較有參考價(jià)值的。

畢竟，愿意研究論文的人，大致上還是有一定的學(xué)術(shù)基礎(chǔ)，并且比較珍視自己的名譽(yù)，因此胡亂評價(jià)的概率較低。

將檢索平臺自身的收藏?cái)?shù)量和社交媒體推薦相互印證，你就不難找到一些引領(lǐng)趨勢的研究成果。

可是，這些成果雖然代表了流行程度和受關(guān)注度，卻未必符合你的胃口。

這就該人工智能上場了。

智能

你可以通過文章內(nèi)容的相似性尋找符合口味的論文。

回到我們剛剛檢索“Keras”的第一個(gè)結(jié)果下，點(diǎn)擊“show similar”，就能看見以下分析結(jié)果。

image

系統(tǒng)通過自然語言處理后，認(rèn)為與該研究相關(guān)的文章都被列出來了。

我們檢索的Keras是一種深度學(xué)習(xí)框架，結(jié)果標(biāo)題中出現(xiàn)Theano也是。看來機(jī)器幫我們找的相似性還是比較靠譜的。

比起人工推薦同類研究論文，arXiv-sanity這樣的計(jì)算機(jī)系統(tǒng)可以不知疲倦地隨時(shí)監(jiān)測，實(shí)時(shí)發(fā)現(xiàn)新的結(jié)果，并且及時(shí)通知用戶。

這樣一來，你做文獻(xiàn)綜述的時(shí)候，心里就會更有底了。

我們來看看更智能的應(yīng)用——論文推薦。

如果說相似結(jié)果查找還不過是照貓畫虎，論文推薦可就是見微知著了。

在檢索結(jié)果中，咱們選擇一些感興趣的論文，將它們存入到自己的獨(dú)立文獻(xiàn)庫（Library）中。點(diǎn)擊那個(gè)軟盤模樣的存盤按鈕就可以。

image

被收藏的文章，存盤按鈕變成了藍(lán)色。

進(jìn)到我們的文獻(xiàn)庫里看看。

image

你的檢索、閱讀和保存等動作都在給arXiv-sanity系統(tǒng)傳遞信號。

依據(jù)這些信息，以及其他用戶的使用習(xí)慣和偏好數(shù)據(jù)，平臺就可以分析你的研究興趣，并且可以推薦文章給你了。

image

推薦的論文，也可以選擇時(shí)間范圍。這樣不管你是希望找到經(jīng)典文獻(xiàn)，還是“喜新厭舊”，都可以各取所需。

推薦結(jié)果的準(zhǔn)確度，與你傳遞給平臺的信息，以及其他用戶的行為數(shù)據(jù)積累，都是相關(guān)的。一般來說，你用得越多，文獻(xiàn)庫中積累的論文越多，推薦結(jié)果就會越精準(zhǔn)。

限制

嘗試一段時(shí)間后，你可能注意到了，arXiv的首頁上，左上角有些白色文字。

image

因?yàn)榈咨颍赡芸床惶宄@里我給你清晰列出：

Serving last 41211 papers from cs.[CV|CL|LG|AI|NE]/stat.ML

后面那些奇怪的代碼，是什么意思呢？

它們其實(shí)是arXiv這個(gè)預(yù)印本平臺上的論文分類編號。

具體來說，它們的含義如下：

cs.CV： Computer Vision and Pattern Recognition 計(jì)算機(jī)視覺與模式識別；
cs.CL：Computation and Language 計(jì)算語言學(xué)；
cs.LG：Learning 機(jī)器學(xué)習(xí)（計(jì)算機(jī)科學(xué)）；
cs.AI：Artificial Intelligence 人工智能；
cs.NE：Neural and Evolutionary Computing 神經(jīng)與演化計(jì)算；
stat.ML：Machine Learning 機(jī)器學(xué)習(xí)（統(tǒng)計(jì)學(xué)）。

這樣，你大體就能了解arXiv-sanity平臺上包含的論文類別了。

本文寫作時(shí)，該平臺檢索論文的范圍為41211篇。

你可能對這里論文的數(shù)量嗤之以鼻——也太少了吧！

確實(shí)不多。

但是近年來相關(guān)論文數(shù)量增長趨勢明顯。

image

目前人工智能領(lǐng)域的最優(yōu)秀作者，論文寫作后首發(fā)平臺都是arXiv。這樣一來，arXiv-sanity便可以立即檢索到這篇文章。

如果你研究相關(guān)領(lǐng)域，可以在有魚的地方釣魚，不輕易放過好文獻(xiàn)。

但這些智慧功能，僅能局限在arXiv人工智能領(lǐng)域文章推薦嗎？

不是。

點(diǎn)擊首頁右上角的“Fork me on Github”按鈕，你可以看到arXiv-sanity的Github源代碼。

image

作者Andrej Karpathy說得非常清楚：

image

你可以用他提供的源碼，對任意的arXiv文章子集進(jìn)行智能化檢索服務(wù)。

你可以把服務(wù)搭建在自己的電腦上，也可以部署在亞馬遜AWS這樣的云平臺上面。

回過頭去，看看arXiv論文都包含哪些學(xué)科，我知道你一定很不滿足。

image

你的專業(yè)，有可能不在arXiv涵蓋的范圍內(nèi)。

這樣的論文能不能用arXiv-sanity的服務(wù)呢？

很遺憾。答案在目前還是否定的。

因?yàn)閍rXiv-sanity的智能，是建立在全文可獲取的前提下的。

可是，目前世界上很多的論文版權(quán)，還牢牢地掌握在幾大出版商手中。

下載論文全文并用來提供公眾服務(wù)，是挑戰(zhàn)他們底線的行為，往往會遭到嚴(yán)厲的打擊。

天才少年Aaron Swartz的人生悲劇，就是這樣釀成的。

image

但是至少，我們看到了一種未來發(fā)展的可能性。

英雄

作為附加內(nèi)容，我給你介紹一下：我是怎么發(fā)現(xiàn)arXiv-sanity這個(gè)好用的論文檢索服務(wù)的。

畢竟授人以魚，不如授人以漁嘛。

原因很簡單，我看到資料介紹，說它的創(chuàng)建者是Andrej Karpathy。

image

我立即確認(rèn)，這個(gè)檢索工具一定很靠譜。

因?yàn)锳ndrej Karpathy是個(gè)深度學(xué)習(xí)領(lǐng)域的達(dá)人。

Andrew Ng的課程中，有過對他的專訪，放在了“深度學(xué)習(xí)英雄”（Heroes of Deep Learning）系列中。

你可以點(diǎn)擊這個(gè)鏈接（http:///fn96）查看這段訪談。

image

在我自己的課程中，也曾經(jīng)介紹過他開發(fā)的char-rnn模型（https://github.com/karpathy/char-rnn）。

image

這個(gè)模型能干什么呢？

很多。

其中之一是，制作游戲關(guān)卡，哄人類玩家玩兒。

在學(xué)習(xí)了《超級馬里奧兄弟》的32個(gè)關(guān)卡后，機(jī)器自動生成了下面這個(gè)場景構(gòu)建：

image

玩兒起來的效果如何？你可以點(diǎn)擊這段視頻的鏈接（https:///_-Gc6diodcY），自己評判一番。

image

正因?yàn)锳ndrej Karpathy這種超強(qiáng)技術(shù)實(shí)力，和長期不斷的內(nèi)容輸出，人們對他開發(fā)的論文智能檢索系統(tǒng)，才會有如此高的信任度。

討論

你之前是如何檢索文獻(xiàn)的？使用過哪些好工具？有沒有查找自己感興趣論文的小竅門呢？歡迎留言，把你的經(jīng)驗(yàn)和思考分享給大家，我們一起交流討論。

如果你對我的文章感興趣，歡迎點(diǎn)贊，并且關(guān)注我的專欄，以便收到后續(xù)作品更新通知。

如果本文可能對你身邊的親友有幫助，也歡迎你把本文通過微博或朋友圈分享給他們。讓他們一起參與到我們的討論中來。

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： budaozheli > 《如何高效讀論文》

舉報(bào)/認(rèn)領(lǐng)