這十大挑戰(zhàn)，擺在DL面前：馬庫斯長文質(zhì)疑深度學習

好大水 2018-01-03

展開全文

多年堅持為深度學習潑冷水的紐約大學心理學教授馬庫斯老師（Gary Marcus），今天終于寫了一篇長長的文章，將自己的對深度學習的看法全面、系統(tǒng)地闡述了一遍。

在他長達27頁（含參考文獻）的文章“深度學習的批判性評價”中，馬庫斯回顧了深度學習這5年來的復興歷程，更重要的是，指出了深度學習目前面臨的十大挑戰(zhàn)。

這篇論文Deep Learning: A Critical Appraisal發(fā)布在arXiv上
地址：https:///abs/1801.00631

△ Gary Marcus

馬庫斯身兼暢銷書作家、人工智能領(lǐng)域創(chuàng)業(yè)者、紐約大學心理學和神經(jīng)科學教授等多重身份，還在他的公司Geometric Intelligence被Uber收購后，在Uber擔任過AI實驗室的負責人。

他關(guān)于深度學習局限性的論述，可以追溯到2012年這波浪潮剛剛回歸的時候。最近，他依然活躍，和LeCun辯論、在哈薩比斯講AlphaZero時提出質(zhì)疑，觀點都很犀利。

量子位將馬庫斯最新論文中的要點梳理、介紹如下（跳過了深度學習科普部分）：

深度學習的局限始于我們生活中的一個反差：我們所生活的世界，數(shù)據(jù)從來都不是無限的。而依賴于深度學習的系統(tǒng)，通常必須泛化到它們見過的特定數(shù)據(jù)范圍之外，可能是詞的新發(fā)音、陌生的圖像，在這些地方，數(shù)據(jù)遠稱不上“無限”，形式證明保障高質(zhì)量的能力更是局限。

我們可以認為泛化有兩類，一類是已知樣例之間的插值，另一類是越過訓練樣例邊界的外推。

要讓神經(jīng)網(wǎng)絡很好地泛化，通常必須有大量的數(shù)據(jù)，而且測試數(shù)據(jù)必須和訓練數(shù)據(jù)相似，這樣才能在舊答案之間插入新答案。在2012年Hinton帶領(lǐng)學生們奪取ImageNet冠軍的論文（Krizhevsky, Sutskever, & Hinton, 2012）中，訓練一個6億參數(shù)、65萬節(jié)點的9層卷積神經(jīng)網(wǎng)絡，用了來自1000個不同類別的，大約100萬個不同樣例。

這樣的蠻力在ImageNet那樣的有限世界中很管用，所有刺激物都能被分到一個類別中。在語音識別那種穩(wěn)定的世界中也不錯，樣例都能以一致的方式被映射到有限的語音類別上。但是，深度學習還是無法被視為人工智能的通用解決方案，這有很多原因。

現(xiàn)在的深度學習系統(tǒng)，面臨著這10大挑戰(zhàn)：

1. 截至目前，深度學習依然對數(shù)據(jù)很饑渴

那些抽象的關(guān)系，人類依靠明確的定義，很容易就能學會。但深度學習不具備這種通過語言描述的清晰定義來學習抽象概念的能力，在有成千上萬、上百萬甚至幾十億訓練樣例的時候，才最好用。

在學習復雜規(guī)則這件事上，人類比深度學習系統(tǒng)高效得多。

Geoff Hinton也在最近的Capsule Networks論文中，表達了對深度學習系統(tǒng)依賴于大量標注數(shù)據(jù)這個問題的擔憂。

2. 截至目前，深度學習還很膚淺，遷移能力有限

要知道，“深度學習”中的“深”，指的是技術(shù)上、架構(gòu)上的性質(zhì)，也就是堆疊了很多隱藏層。這種“深”，并不是說它對抽象的概念有深刻的理解。

比如說DeepMind在用深度強化學習玩雅達利“打磚塊”游戲的那項研究說，“在240分鐘的訓練后，（系統(tǒng)）發(fā)現(xiàn)在墻上打一條隧道是獲取勝利的最有效方法?！钡珜嶋H上，系統(tǒng)并不知道什么是隧道、什么是墻，它所學會的，只是特定場景下的一個特例。

這可以通過遷移測試來檢驗，也就是給深度強化學習系統(tǒng)提供一些和訓練環(huán)境有細微差別的場景，看它們表現(xiàn)如何。對場景稍加改動，比如說調(diào)整球拍的高度、在屏幕中間加一道墻，DeepMind用來打雅達利游戲的升級版算法A3C就無法應對。

系統(tǒng)沒有學到“墻”的概念，它只是在一小類充分訓練的場景中，逼近了“打破墻”這個行為。深度學習算法抽象出的模式，也通常比它們看起來更加膚淺。

3. 截至目前，深度學習還不能自然處理層級結(jié)構(gòu)

喬姆斯基不斷地強調(diào)，語言有著層級結(jié)構(gòu)，大的結(jié)構(gòu)部件是由小部件遞歸構(gòu)成的。但是，當前大多數(shù)基于深度學習的語言模型都將句子視為詞的序列。在遇到陌生的句子結(jié)構(gòu)時，循環(huán)神經(jīng)網(wǎng)絡（RNN）無法系統(tǒng)地展示、擴展句子的遞歸結(jié)構(gòu)。

這種情況在其他需要復雜層級結(jié)構(gòu)的領(lǐng)域也是一樣，比如規(guī)劃和電機控制。

而深度學習學到的各組特征之間的關(guān)聯(lián)是平面的，沒有層級關(guān)系，是一個核心問題。

4. 要用深度學習搞定開放式推理，仍需努力

當系統(tǒng)無法呈現(xiàn)“John promised Mary to leave”和“John promised to leave Mary”之間的細微差別，也就無法推斷出誰要離開誰，或者接下來會發(fā)生什么。

在斯坦福問答數(shù)據(jù)集SQuAD上，如果問題的答案包含在題面文本里，現(xiàn)在的機器閱讀閱讀理解系統(tǒng)能夠很好地回答出來，但如果文本中沒有，系統(tǒng)表現(xiàn)就會差很多。也就是說，現(xiàn)在的系統(tǒng)還沒有像人類那樣的推理能力。

雖然這方面也有一些研究，但目前還沒有深度學習系統(tǒng)能基于現(xiàn)實知識來像人類那樣準確地進行推理。

5. 截至目前，深度學習還不夠透明

過去幾年來，神經(jīng)網(wǎng)絡的“黑箱”性質(zhì)一直很受關(guān)注。但是這個透明性的問題，至今沒有解決，如果要把深度學習用在金融交易、醫(yī)學診斷等領(lǐng)域，這是一個潛在的不利因素。

6. 深度學習還未與先驗知識結(jié)合

很大程度上正是因為這種不同命，先驗知識很難整合到深度學習系統(tǒng)中。

機器學習領(lǐng)域中有不少像Kaggle上那樣的競賽，這些競賽通常要求參賽者在給定的數(shù)據(jù)集中取得最佳結(jié)果，問題需要的所有相關(guān)輸入和輸出文件都被整齊地打包好了。問題是，生活不是一場Kaggle競賽，孩子們無法在一個字典中得到打包好的所有需要的數(shù)據(jù)，只能通過現(xiàn)實世界中零星的數(shù)據(jù)持續(xù)學習。

因為缺少先驗知識，深度學習很難解決那些開放性問題，比如怎樣修理一輛繩子纏住輻條的自行車？我應該主修數(shù)學還是神經(jīng)科學？這些看似簡單的問題，涉及到現(xiàn)實世界中大量風格迥異的知識，沒有哪個數(shù)據(jù)集適用于它們。

這也說明，如果我們想讓AI的認知靈活性達到人類水平，需要不同于深度學習的工具。

7、截至目前，深度學習還不能區(qū)分因果和相關(guān)關(guān)系

粗略的說，深度學習系統(tǒng)，學習的是輸入和輸出之間復雜的相關(guān)性，但是學習不到其間的因果關(guān)系。

一個深度學習系統(tǒng)可以很容易的學到：小孩的身高和詞匯量是相互關(guān)聯(lián)的。但并不掌握身高和詞匯量之間的因果關(guān)系，其實我們很容易知道，長高并不見得增加詞匯量，增加詞匯量也不會讓你長高。

因果關(guān)系在另外的AI方法中是核心因素，但深度學習這個方向上，很少有研究試圖解決這個問題。

8、深度學習假定世界大體穩(wěn)定，但實際上并不是這樣

深度學習的這套邏輯，在高度穩(wěn)定的環(huán)境下表現(xiàn)最佳，例如下棋這種博弈，其中的規(guī)則不會改變，但在政治和經(jīng)濟生活中，不變的只有改變。

如果你用深度學習去預測股價，很有可能重蹈Google用深度學習預測流感的覆轍。期初Google干得很好，但是完全沒有預測到后來的流感高發(fā)季到來。

9、截至目前，深度學習只是一種近似，不能完全相信其答案

深度學習在一些特定領(lǐng)域表現(xiàn)出色，但也很容易被愚弄。

已經(jīng)有很多這方面的研究了，只需要做一些簡單的手腳，就能讓同一副圖片徹底搞蒙深度學習系統(tǒng)。有時候甚至不用動手腳，它們自己就能認錯。

比如認錯停車標志、烏龜變槍、沙丘變裸體等，你們可能都見過了。

10、截至目前，深度學習難以工程化

最后一個問題，深度學習很難穩(wěn)健的實現(xiàn)工程化。

很難保證機器學習系統(tǒng)在一個新的環(huán)境下有效工作。此前Leon Bottou還把機器學習與飛機建造進行過比較，他指出雖然飛機結(jié)構(gòu)復雜，但可以通過簡單的系統(tǒng)入手逐步構(gòu)建出復雜系統(tǒng)。機器學習系統(tǒng)就無法做到這一步。

而Peter Norvig也曾表示，機器學習與經(jīng)典的編程相比，仍然缺乏漸進性、透明性和可調(diào)式性，這讓它在實現(xiàn)穩(wěn)健性方面面臨挑戰(zhàn)。

https:///ftp/arxiv/papers/1801/1801.00631.pdf

在文章的最后，馬庫斯老師又提到了他2012年在《紐約客》寫下的那篇略帶悲壯的專欄文章《“深度學習”是人工智能領(lǐng)域的一次革命嗎？》，歡迎回顧~

https://www./news/news-desk/is-deep-learning-a-revolution-in-artificial-intelligence

這篇文章中提到，很可能“深度學習僅僅是構(gòu)建更大智能機器的一部分”，盡管深度學習在語音識別、機器翻譯、棋類游戲等特定領(lǐng)域已經(jīng)出現(xiàn)大的進展，盡管基礎(chǔ)設(shè)施、數(shù)據(jù)和可用算力數(shù)量的增長也讓人印象深刻，但許多五年前提出的憂慮現(xiàn)在依然存在。

他還提到了越來越多的學者帶著不同的視角面對這些問題，并開始強調(diào)類似的限制。以及早先就開始關(guān)注這些問題前輩們，比如Brenden Lake、Marco Baroni、Francois Chollet、Robin Jia、Percy Liang、Dileep George和Pieter Abbeel等人。

這些前輩中，最受關(guān)注的當屬Geoff Hinton，他已經(jīng)足夠勇敢重新考慮自己的信仰。去年8月，Hinton在美國媒體Axios的采訪中表示“深深懷疑”反向傳播，并開始擔心這種方法過于依賴標記數(shù)據(jù)集。同時，Hinton建議“可能必須創(chuàng)造全新的方法了”。

他說：“我期待這讓Hinton興奮的領(lǐng)域接下來會發(fā)生什么?！?/p>

他的置頂Twitter，也是對Hinton的贊同。

加入社群