|
作者 | 青暮 維克多 編輯 | 王亞峰 在小說《三體》中,當(dāng)物理學(xué)家楊冬得知地球基礎(chǔ)科學(xué)是被“人為”鎖死的真相之后,她陷入了絕望的深淵。 她畢生所堅信的“自然是客觀的、可理解的”理念,在頃刻間被完全推翻。 看著雜亂無章的數(shù)據(jù),楊冬似乎感覺到她做的每一次實(shí)驗(yàn),在每一個基本粒子背后,都有一個比麥克斯韋妖還要頑皮的智子,在嘲笑著她困惑的表情。 智子,是三體人打造出來的人工智能,它能以基本粒子的形態(tài)存在,并可同時攻擊地球上的大量基本粒子實(shí)驗(yàn)裝置,使得實(shí)驗(yàn)數(shù)據(jù)出錯,或者隨機(jī)化,從而鎖死地球的基礎(chǔ)科學(xué)。 回到現(xiàn)實(shí),當(dāng)今人類創(chuàng)造出來的人工智能,仍舊十分幼稚,能處理的問題非常有限,尤其是在深度學(xué)習(xí)似乎觸達(dá)瓶頸后,不少人開始質(zhì)疑,現(xiàn)階段的人工智能基礎(chǔ)理論研究,似乎已經(jīng)進(jìn)入了停滯期。 人工智能真的停滯了嗎?智子隱藏在什么地方? 1 第一個智子:官僚、抱團(tuán)、急功近利 物理學(xué)家費(fèi)米說過,科學(xué)永遠(yuǎn)是理論和實(shí)驗(yàn)兩條腿走路。理論和實(shí)驗(yàn)兩者之間存在gap,在科學(xué)發(fā)展史上其實(shí)是常態(tài)。 當(dāng)前限制人工智能領(lǐng)域發(fā)展的第一個智子,卻夾在現(xiàn)實(shí)世界的“人心”和“利益”中央。 這個智子,仿佛是小說里化身成人形的持刀少女一樣,以武力脅迫人們在狹窄的領(lǐng)域里拼搶和艱難生存。 但同時,很多人還是既得利益者,或者渾然不自知。 抱團(tuán),是學(xué)術(shù)界常見的現(xiàn)象。有時候適當(dāng)?shù)睦瓗徒Y(jié)派,往往有利于學(xué)術(shù)界的團(tuán)結(jié)和交流融合。 但如果摻雜的利益過多,便會劣幣驅(qū)逐良幣。 圖注:來源,2021年斯坦福AI指數(shù)報告 數(shù)據(jù)統(tǒng)計,2020 年, AI 期刊論文數(shù)量是 2000 年的 5.4 倍。arXiv上2020年發(fā)表的AI論文比2015年相比翻了6倍。 AI頂級會議投稿數(shù)量劇增,是好是壞,一直存在爭議。 有人說它是AI崛起的捷徑,也有人定性為AI技術(shù)“越來越水”的標(biāo)志,有過AlphaGo在圍棋領(lǐng)域圍剿李世石的神來之筆,也有論文抄襲屢禁不止的悲哀。 但必須承認(rèn)的是,人多就會造成魚龍混雜,學(xué)術(shù)不端事件也正在損害AI社區(qū)。 今年5月份,ACM Fellow、美國里普羅維登斯布朗大學(xué)計算機(jī)科學(xué)卓越教學(xué)的羅伊斯家族教授邁克爾·利特曼(Michael L. Littman)在ACM通訊上發(fā)文指出一個或許普遍存在,但卻沒人注意的學(xué)術(shù)道德現(xiàn)象:共謀。 幾位作者提前串通好,將他們的論文提交至頂會,并相互告知自己的論文標(biāo)題,故意違反盲審規(guī)則,并造成重大未披露的利益沖突。 更有甚者,如果其他評審者有影響評審結(jié)果的可能,這些共謀者會向這些評審者發(fā)送威脅性電子郵件。 對于上述事件的發(fā)生,羅切斯特大學(xué)教授、ACM Fellow羅杰波在接受雷鋒網(wǎng)的采訪中表示,這背后只有一種原因:學(xué)者急功近利。“頂級會議、期刊中的署名論文數(shù)量和研究者的聲譽(yù)、晉升息息相關(guān)。” "學(xué)術(shù)界要有學(xué)術(shù)界的規(guī)范,不能夠什么事情都沒有底線,不能跟熟人打招呼,不能抄襲,更不能看到別人正在進(jìn)行好的工作就打壓,對學(xué)術(shù)要有敬畏之心。" 羅杰波一再強(qiáng)調(diào),同行評審是評價學(xué)術(shù)成果的重要手段,凡是重大的理論突破,只有經(jīng)過同行認(rèn)可,才能發(fā)揮它最大的作用。但同行評審的基礎(chǔ)是建立在信譽(yù)基礎(chǔ)上,"通俗的講,就是不放水"。 而對于學(xué)術(shù)界“抱團(tuán)”的另一個現(xiàn)象,電子科技大學(xué)教授、IEEE Fellow李純明表示,其帶來的影響可能比想象的要嚴(yán)重:最早一批在深度學(xué)習(xí)領(lǐng)域,通過調(diào)參、灌水成功發(fā)表論文的學(xué)者,他們已經(jīng)形成了利益團(tuán)體,事實(shí)上也已經(jīng)掌握了一定的學(xué)術(shù)資源,他們在會議、論壇、期刊擁有審稿權(quán),能夠決定一些沒有創(chuàng)新的論文(灌水)被接收。 “反復(fù)調(diào)參、只對原有網(wǎng)絡(luò)做修修補(bǔ)補(bǔ)、缺乏理論指導(dǎo)......只要有恰好調(diào)節(jié)合適的效果,就能寫出一篇頂會論文,里面大多都'只寫how不寫why’,這些都是灌水學(xué)者常用的手法。他們甚至以此為榮,經(jīng)常在交流中互相攀比論文數(shù)量,”李純明說道。 這種風(fēng)氣甚至被一些學(xué)者利用,來“忽悠”審稿人,“比如,為了體現(xiàn)論文的創(chuàng)新性,他們會在論文中寫一些創(chuàng)新點(diǎn),而在他們的算法實(shí)現(xiàn)中并沒有都用到它們,或者起的實(shí)質(zhì)作用并不大,實(shí)際上主要還是靠現(xiàn)有的深度學(xué)習(xí)方法或者加上一些小的implementation trick。另外,以圖像分割的論文為例,有人在論文中不僅采用了深度學(xué)習(xí),也用了傳統(tǒng)方法對深度學(xué)習(xí)分割結(jié)果做了后處理,有時還能夠顯著改進(jìn)深度學(xué)習(xí)直接得到的分割結(jié)果;但為了迎合做深度學(xué)習(xí)的審稿人,他們可能會輕描淡寫甚至不提傳統(tǒng)方法的作用,而是突出在深度學(xué)習(xí)框架里的創(chuàng)新點(diǎn)所起的作用。這幾種文章發(fā)表以后,作者通常也不愿意公開所有的源代碼。” 這批人有的已經(jīng)博士畢業(yè),走上學(xué)術(shù)舞臺,成為導(dǎo)師,他們的學(xué)術(shù)風(fēng)格又影響了他們的學(xué)生,然后這些學(xué)生博士畢業(yè),也走上了學(xué)術(shù)舞臺........目前來看,可能有第二代甚至第三代這種“灌水學(xué)者”都已經(jīng)成為導(dǎo)師。 弦外之音、話里話外,深度學(xué)習(xí)甚至人工智能可能會敗于“傳承”。 “所以,為了鼓勵其他AI領(lǐng)域的發(fā)展,頂級學(xué)術(shù)會議能否規(guī)定某些方向論文接收比例?畢竟,通過人工智能道路上,不止深度學(xué)習(xí)這一條路徑,”李純明表示。 江湖不是打打殺殺,江湖是人情世故。這一著名影視經(jīng)典名句是對社會人際關(guān)系的最好寫照。但在學(xué)術(shù)領(lǐng)域,卻恰恰相反,只有憑真本事,拿出過硬的工作成果,才有研究者follow,才能推動AI理論的突破。 談完學(xué)術(shù)界,再看工業(yè)界。 "近年來國內(nèi)在人工智能會議上屢創(chuàng)佳績,但其實(shí)這背后更多反映的,是國內(nèi)人工智能的人力物力投入領(lǐng)先全球,而不代表學(xué)術(shù)層面上的領(lǐng)先。"在對話過程中,羅杰波突然向我們拋出了一個尖銳的觀點(diǎn)。 “科技企業(yè),在人工智能頂會上頻頻刷足存在感,其實(shí)更多是工程能力的證明,而非基礎(chǔ)研究的成就。”一AI頂會的大會主席向雷鋒網(wǎng)評價到。 據(jù)斯坦福大學(xué)在《人工智能指數(shù)年度報告)中稱:更多的 AI 博士畢業(yè)生選擇在工業(yè)界工作,增長比例約為48%。 在2018年計算機(jī)視覺Top100的論文中,來自工業(yè)界的論文數(shù)更是一度超過學(xué)界,這意味著,不僅在量上,在質(zhì)上,業(yè)界的學(xué)術(shù)能力正在“追趕”學(xué)術(shù)界。 業(yè)界搞學(xué)術(shù),這可能是AI圈獨(dú)有的風(fēng)景。 據(jù)李純明介紹:“當(dāng)前的AI,深度學(xué)習(xí)是主流,深度學(xué)習(xí)需要算力和數(shù)據(jù)加持,業(yè)界在這方面資源豐富,發(fā)起論文來更加得心應(yīng)手?!?/span> 例如,醫(yī)療AI的訓(xùn)練數(shù)據(jù),簡單的“拷貝”并不能滿足模型訓(xùn)練的需要,只有讓醫(yī)生耗費(fèi)精力標(biāo)注、分割才能在在模型上使用,這會耗費(fèi)很大的成本,學(xué)術(shù)界很難做到。 所以在拼錢和計算資源上,學(xué)術(shù)界甘拜下風(fēng)。 但企業(yè)搞學(xué)術(shù)也存在問題。在生存壓力的迫使下,其研究往往短視。 例如在高校和公司的合作項(xiàng)目中,資助的一方往往會在合同中表明:實(shí)習(xí)生三個月出成果,教授一年完成任務(wù)。但是一般真正“有突破”的研究需要3~5年甚至更多年的時間。 大家常常說學(xué)者要坐10年冷板凳,但實(shí)際上,在業(yè)界用算力+數(shù)據(jù)和學(xué)術(shù)界的“腦力”合作的過程中,在時間維度上沒有足夠的耐心。 即使業(yè)界自己的AI Lab開始會打著“不做業(yè)務(wù),只做基礎(chǔ)研究和技術(shù)積累”的旗號。但對自己的研究員也會設(shè)置論文數(shù)量KPI、限定研究方向,甚至制定營收考核指標(biāo)。這可能也是最近AI大牛紛紛離職、網(wǎng)友在知乎上發(fā)出疑問“2021年各家大廠的AI lab現(xiàn)狀如何?”的原因之一。 另外,學(xué)術(shù)論文和工業(yè)應(yīng)用落地存在巨大的差距。 例如當(dāng)前的一些算法可能在數(shù)據(jù)集上表現(xiàn)非常好,大數(shù)據(jù)確實(shí)也對模型訓(xùn)練有非常多的幫助,但是模型的泛化能力如何還有待考證。 再者,工業(yè)實(shí)際場景非常復(fù)雜,學(xué)術(shù)論文中的描述非常有限。例如基于人臉識別的駕駛員疲勞檢測系統(tǒng),在學(xué)術(shù)層面的討論似乎非常簡單,但是在實(shí)際場景中,則需要考慮到是否有遮擋等因素。 最后,學(xué)術(shù)論文和工業(yè)落地在評估指標(biāo)上也存在差異。學(xué)術(shù)論文主要關(guān)注一些非常技術(shù)性的指標(biāo),而在實(shí)際落地場景中,關(guān)心的是業(yè)務(wù)指標(biāo),闖紅燈檢測多大程度上能阻止事故的發(fā)生率?節(jié)省了多少成本?安全性能提高了多少?這些指標(biāo)才是企業(yè)所關(guān)心的。 理想的豐滿與現(xiàn)實(shí)的骨感造成的落差導(dǎo)致人們開始對AI期望降低,投入減少,進(jìn)而導(dǎo)致AI進(jìn)展緩慢。 但羅杰波也認(rèn)為,學(xué)術(shù)會議充斥著大量的工業(yè)界論文將只是短暫的現(xiàn)象:算力驅(qū)動終究存在瓶頸,而算法創(chuàng)新才能帶來顛覆,新算法idea的產(chǎn)生主要來自學(xué)術(shù)界,"雖然緩慢,但一直在進(jìn)行。" "這幾年先是一窩蜂涌上來鼓吹深度學(xué)習(xí),現(xiàn)在又大潑冷水,這其實(shí)都是不成熟的表現(xiàn)。即使人工智能在理論上最近沒有什么進(jìn)步,但這不代表人工智能沒有進(jìn)步。" 著名的經(jīng)濟(jì)學(xué)家林毅夫曾在2017年發(fā)表過題為“李約瑟之謎和中國的復(fù)興”的演講。在演講中,他從科學(xué)革命的角度嘗試回答了“為什么工業(yè)革命沒有發(fā)生在中國?”這一問題。 他說:
知史以明鑒,查古以至今。中國五千年的傳統(tǒng)文化影響著當(dāng)代中國的每一個人,也影響著各個領(lǐng)域。當(dāng)年的科舉制度已經(jīng)“變異”成帽子、職稱以及地位。拿到了一定的帽子就有相應(yīng)的物質(zhì)資源,用這些資源繼續(xù)換“帽子”........這導(dǎo)致有才華的年輕人都在想辦法提高論文數(shù)量,以應(yīng)對職稱考核、學(xué)校評獎。 “不管是論文數(shù)目,還是引用數(shù)據(jù),只要給學(xué)者設(shè)定了這種KPI,中國人一定有各種辦法找到方法去解這個目標(biāo)函數(shù)?!痹谡劦街袊膶W(xué)術(shù)環(huán)境的時候,羅杰波如是說道,“科學(xué)研究需要時間來檢驗(yàn)的,現(xiàn)在正規(guī)的AI學(xué)術(shù)會議都會設(shè)置一個時間檢驗(yàn)獎,目的是回到十年前,看看到底哪些論文是經(jīng)得起檢驗(yàn)的工作,因此學(xué)術(shù)要自由,不能拼數(shù)字也不能拼引用?!?/span> 他也轉(zhuǎn)而補(bǔ)充道,“其實(shí),中國也在變好,前段時間有國家也發(fā)文,對破除論文“SCI至上”提出明確要求,大家已經(jīng)注意到了當(dāng)前科研評價中存在SCI論文相關(guān)指標(biāo)片面、過度、扭曲使用等現(xiàn)象?!?/span> 中國改革開放才40多年,但也已經(jīng)過去40多年了,這意味著還有些時間讓學(xué)術(shù)界學(xué)習(xí)大洋彼岸的自由、包容的學(xué)術(shù)氛圍,同時融匯貫通。但也必須警醒的是:中國僅靠后發(fā)優(yōu)勢,僅靠“模仿”取得的重大突破,無法支撐中國的AI聲震寰宇。留給中國能夠“模仿”的時間不多了。 2000年~2020年間,中國的 AI 期刊論文發(fā)表數(shù)量超過美國和歐洲,某種程度上象征著影響力的論文引用數(shù)在2020年也超過美國。中國宏大的市場,廣闊的AI應(yīng)用場景,海量的數(shù)據(jù), 甚至人海戰(zhàn)術(shù), 帶來了中國在AI應(yīng)用端獨(dú)特優(yōu)勢。 但當(dāng)我們習(xí)慣于仰視和羨慕俊俏的山峰時,是否也應(yīng)注意其腳下根基深厚的遼闊平原?隨著逐步逼近香農(nóng)定理、摩爾定律的極限,應(yīng)用落地必定被基礎(chǔ)理論所限制,而基礎(chǔ)理論的發(fā)現(xiàn)和創(chuàng)超,不僅靠人民大眾,更是要給那些“對自然現(xiàn)象充滿好奇心和很有悟性的人、團(tuán)隊”更干凈的學(xué)術(shù)氛圍。 2 第二個智子,藏在神經(jīng)網(wǎng)絡(luò)里 盡管近十年來,深度學(xué)習(xí)展現(xiàn)的威力令人驚奇。 但有一個令科學(xué)家困惑不已的地方是,即便不刻意引入隨機(jī)性,擁有龐大容量的深度學(xué)習(xí)模型(神經(jīng)網(wǎng)絡(luò))似乎在吞食數(shù)據(jù)的時候仍然不是囫圇吞棗,或者說單純記憶數(shù)據(jù),而是細(xì)嚼慢咽,消化出了自己的領(lǐng)悟,也就是說,它有很好的泛化能力。它甚至能自發(fā)生成對事物的分層解析,類似于我們的大腦結(jié)構(gòu)。 智能有一個簡單的理解就是信息壓縮,比如當(dāng)我們把一斤蘋果加上兩斤蘋果等于三斤蘋果,抽象成1+2=3(斤),就經(jīng)歷了一個智能過程,這其中把蘋果的信息過濾了。因?yàn)槲覀冏⒁獾?,一斤XX加上兩斤XX等于三斤XX的現(xiàn)象,不止在蘋果上出現(xiàn),還有梨、水等等。然后,我們會嘗試把這個規(guī)律應(yīng)用到其他事物上,發(fā)現(xiàn)也是合適的,這樣就實(shí)現(xiàn)了泛化,也就是實(shí)現(xiàn)了智能的目的。 那么,如何理解上述深度學(xué)習(xí)的泛化能力奇異現(xiàn)象呢?如果開會的時候,我們手里只有一張紙,那么對于講者的話,我們只能做筆記。但如果有一只錄音筆,我們就會錄音。甚至有手機(jī)的話,我們會把整個過程拍下視頻。從紙到錄音筆到手機(jī),它們的容量是逐漸增大的,同時記錄的信息壓縮程度就越小。對比深度學(xué)習(xí),在如此大的容量之下,卻能自發(fā)形成有序的結(jié)構(gòu),而不是單純記憶數(shù)據(jù),著實(shí)令人困惑。 科學(xué)家猜想,神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程存在自發(fā)的隨機(jī)性,這會使得數(shù)據(jù)復(fù)雜性增大,從而使其容量相對減小。 但這種隨機(jī)性的本質(zhì)是什么?至今沒有得到回答。它仿佛也像智子那樣,在給人類的理解力出難題。幸運(yùn)的是,這沒有阻礙深度學(xué)習(xí)的應(yīng)用?,F(xiàn)在人臉識別、語音識別等應(yīng)用已經(jīng)走入了我們的日常生活,我們甚至習(xí)以為常。 然而一旦出了問題,它所展現(xiàn)出來的缺點(diǎn),總是讓人跳腳和手足無措,無論是被看不見的東西誤導(dǎo)(對抗攻擊),還是說出“太陽有三只眼睛”(缺乏常識)等等。令人不禁懷疑,仍然是智子在作怪。 其實(shí),深度學(xué)習(xí)這種表面上的隨機(jī)性,或許也來自于其巨大的復(fù)雜性。“雖然都會因?yàn)閱栴}復(fù)雜度增加而使數(shù)學(xué)變得復(fù)雜,但神經(jīng)網(wǎng)絡(luò)的表達(dá)式擁有的變量數(shù)目,不是物理學(xué)的公式可比的,同時前者的表達(dá)式里的變量,大多數(shù)都沒有對應(yīng)現(xiàn)實(shí)意義,這也是其困難所在。”李純明表示。 智子計劃是基于大時間尺度的考慮,不會立馬顯現(xiàn)效果。類似地,如果理論研究一直原地踏步,AI很可能會在將來遇到瓶頸。 如何理解理論研究的停滯呢?近兩年AI領(lǐng)域在學(xué)術(shù)研究上似乎正在顯現(xiàn)頹勢,"基本上只有大規(guī)模預(yù)訓(xùn)練模型。"羅杰波說道,但他緊接著補(bǔ)充,"本質(zhì)上,大規(guī)模預(yù)訓(xùn)練模型和2012年的AlexNet、2016年的AlphaGo相比,屬于實(shí)驗(yàn)、工程方面的突破, 雖然是有應(yīng)用價值的突破"。 就連近期非常受關(guān)注的AlphaFold2,在底層算法原理上仍然基于Transformer架構(gòu)。"實(shí)現(xiàn)這些突破的關(guān)鍵,自然還是大數(shù)據(jù)、大算力。" 羅杰波認(rèn)為,深度學(xué)習(xí)在應(yīng)用落地上還有很大的空間,但大多局限于感知層面,"我們下一步需要在認(rèn)知、決策層面上努力"。要實(shí)現(xiàn)這一點(diǎn),或許得在理論上取得突破。 感知結(jié)合認(rèn)知是實(shí)現(xiàn)智能的關(guān)鍵,然而對于智能這個概念,其實(shí)還并沒有一個明確的數(shù)學(xué)定義,因此也尚未有理論去對此進(jìn)行量化研究,深度學(xué)習(xí)理論主要集中在已有算法的改進(jìn)和理解上。因此,AI的理論和實(shí)驗(yàn)之間,似乎存在對話的隔閡。 尤其是在解釋的層面,AI的可解釋性研究大部分集中于復(fù)雜模型,而理論層面的解釋型研究則經(jīng)常選擇在應(yīng)用中非典型的模型。 接下來,我們將探討AI領(lǐng)域的幾個關(guān)鍵方面,涉及感知和認(rèn)知、可解釋性、理論研究等等,試圖理解人工智能的理論和應(yīng)用之間的鴻溝,并揭開隱藏于神經(jīng)網(wǎng)絡(luò)的第二個智子的真面目。類似于《三體》中的初次登場形式,第二個智子看不見、摸不著,藏于黑盒子之中,不僅在理論研究中存在,在實(shí)驗(yàn)研究中也存在。 首先,如何理解認(rèn)知?其實(shí),對于圖像識別這個問題,我們可能都還沒有問對問題。 “貓識別”問題是一個經(jīng)典的AI問題,盡管吳恩達(dá)2011年在谷歌開發(fā)的“貓識別”系統(tǒng),遠(yuǎn)遠(yuǎn)晚于Yann LeCun的手寫數(shù)字識別系統(tǒng),但正是這個系統(tǒng)讓深度學(xué)習(xí)聲名遠(yuǎn)播。如今吳恩達(dá)在《深度學(xué)習(xí)》課程中,也會經(jīng)常以“貓識別”問題為例子介紹神經(jīng)網(wǎng)絡(luò)的基本原理。 當(dāng)時這個“貓識別”系統(tǒng)的訓(xùn)練和現(xiàn)在無異,系統(tǒng)在輸入了數(shù)百萬張貓臉圖片后,就能識別一張圖片是不是貓。 后來很多新的圖像識別模型都沒有走出這個“暴力訓(xùn)練”的框架,而只是在探索如何更加高效地進(jìn)行識別。 那么反過來,人類也是以這種方式進(jìn)行視覺識別的嗎?比如,在對于這只動物,你認(rèn)為它是什么呢? 其實(shí),這是一只長得像狗的貓。
不對,說錯了。這是一只長得像貓的狗。 正確答案倒不重要,問題是光看照片,是不是兩種說法似乎都能夠接受? 實(shí)際上,關(guān)于視覺識別這個問題,人工智能領(lǐng)域有一個長期的爭論:識別究竟是目標(biāo)問題,還是場景問題? 目標(biāo)問題也就是打標(biāo)簽,就像上述的貓識別系統(tǒng)和手寫數(shù)字識別系統(tǒng),對一張圖片,打上“是XX、不是XX”的標(biāo)簽就行。 場景問題則不滿足于打標(biāo)簽,而是要先回答:我們要識別的對象,和周圍環(huán)境是什么關(guān)系?對這個問題的回答,決定了該對象應(yīng)該打上什么標(biāo)簽。 比如對于上圖中的“貓狗”,我們最終要判斷它是貓還是狗,可以在現(xiàn)實(shí)中接觸它,用你的雙手捧起它的兩只前爪,看它是搖尾巴,還是撓你一臉。 也就是說,我們要通過獲得識別對象和其他對象(比如人)之間的交互信息,來判斷對象的類別。當(dāng)然,如果照片中剛好有它跑去追飛盤或者趴在貓抓板上的信息,就不用冒這個險了。 如今的深度學(xué)習(xí),在某種程度上,可以基于場景去進(jìn)行視覺識別,比如它也可以基于狗的圖片中的草坪,幫助判斷圖片中的對象更可能是狗。 但它不能給出這種關(guān)系判斷的顯式依據(jù)。同時,這種語境判斷甚至?xí)o模型帶來問題,比如如果模型看到的訓(xùn)練數(shù)據(jù)中,狗總是在草坪里出現(xiàn),那么深度學(xué)習(xí)就會把草坪的存在當(dāng)成狗出現(xiàn)的依據(jù)。這也是深度學(xué)習(xí)一直被詬病的捷徑學(xué)習(xí)問題。 所以,場景不是簡單地通過增加輸入信息就能解決。歸根結(jié)底,識別不是簡單的感知問題,而是感知、常識和目的融合的結(jié)果,深度學(xué)習(xí)只學(xué)會了感知,上述的“貓狗”識別還需要結(jié)合常識。 那么,目的要如何理解呢?簡單來說就是,“拿著錘子,看啥都是釘子。” 如下圖所示,我敢打賭你是第一次見到這種“東西”,通過常識你可以大致判斷這可以作為椅子,因?yàn)槟憧梢宰先?,并放松全身肌肉。但如果你不是想坐著看電視,而是在玩躲貓貓呢?這時它就是很好的防護(hù)罩了。還有,如果你要搬家,這是不錯的臨時容器。
一般情況下,當(dāng)一個物體存在二義性的時候,就需要依靠場景識別,而不止是目標(biāo)識別。 所以,深度學(xué)習(xí)并沒有解決AI最基本的識別問題。為什么我們還沒有放棄它? 是深度學(xué)習(xí)的無限潛力,讓我們舍不得放棄。 通用近似定理表明,單一隱藏層、無限寬的前饋神經(jīng)網(wǎng)絡(luò),可以逼近任意的函數(shù)(完備的表達(dá)能力)。也就是說,如果任意的問題都可以轉(zhuǎn)化為一個函數(shù)問題,深度學(xué)習(xí)可以解決任何問題。 那么,只要有大數(shù)據(jù)、大模型和大算力,未來我們就能利用深度學(xué)習(xí)實(shí)現(xiàn)通用人工智能? 的確,支持這條路線的學(xué)者不少,比如獲得2018年圖靈獎的深度學(xué)習(xí)“三巨頭”,都對此堅信不疑。他們也認(rèn)為,如今人們一直強(qiáng)調(diào)的常識,或者認(rèn)知智能,也可以用深度學(xué)習(xí)來實(shí)現(xiàn)。
不考慮效率的話,這一說法沒有問題。但同樣,采用更加暴力的進(jìn)化算法也能實(shí)現(xiàn)通用人工智能,DeepMind近期還專門發(fā)表一篇論文,講述其如何設(shè)想利用強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)通用人工智能。 奧地利-捷克實(shí)驗(yàn)物理學(xué)家和哲學(xué)家恩斯特·馬赫曾經(jīng)提出,“思維經(jīng)濟(jì)是科學(xué)的主要任務(wù)”,思維經(jīng)濟(jì)原則就是“事實(shí)的經(jīng)濟(jì)陳述”。我們應(yīng)該追求盡可能簡潔高效的科學(xué)方法,這種思想其實(shí)和上述智能的簡單定義(信息壓縮,而且是盡可能壓縮)也很相似,不夠高效的智能算法算不上智能。如果深度學(xué)習(xí)在某一任務(wù)上不如其他方法,就不應(yīng)該采用它。
他們也許在沉醉“深度學(xué)習(xí)/進(jìn)化算法/強(qiáng)化學(xué)習(xí)就是通用人工智能”這樣簡單的描述,而沒有考慮到暴力堆疊數(shù)據(jù)和算力帶來的復(fù)雜性。當(dāng)然,只要能產(chǎn)出有影響力的論文,喊喊口號不是問題。 那么,我們還有其他的候選嗎?也就是擁有完備表達(dá)能力的其他架構(gòu)體系? 實(shí)際上,在理論表達(dá)能力方面,SVM也可以實(shí)現(xiàn)任意的非線性變換,從而擁有和深度學(xué)習(xí)相同的表達(dá)能力,但它的優(yōu)化非常困難(近似能力差),并且不適用于大數(shù)據(jù)訓(xùn)練。 圖神經(jīng)網(wǎng)絡(luò)近年來收到熱捧,但基于論文”How powerful are graph neural networks?“中的討論,已有理論證明它的表達(dá)能力有一個確定的上界。有很多人在努力尋求改進(jìn)的方法,以提高它的表達(dá)能力,并卓有成效,但仍然未能與深度學(xué)習(xí)匹敵。 其實(shí)除了表達(dá)能力,深度學(xué)習(xí)會得到重用,還有優(yōu)化簡單、認(rèn)知門檻低、硬件支持、環(huán)境支持(數(shù)據(jù))等等原因,可謂天時地利人和。 在這樣的背景下,深度學(xué)習(xí)必然不會被斷然放棄,人們也在嘗試“深度學(xué)習(xí)+”的妥協(xié)路線,比如深度學(xué)習(xí)+傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)+人工編程等等。 在深度學(xué)習(xí)的框架內(nèi),感知和認(rèn)知究竟有沒有絕對的邊界,不少學(xué)者試圖通過打開深度學(xué)習(xí)這個龐大無邊的黑盒子,去找尋線索。 打開黑盒子,其實(shí)就是研究深度學(xué)習(xí)的可解釋性。 如今人們已經(jīng)開發(fā)出了非常豐富的解釋神經(jīng)網(wǎng)絡(luò)的方法。比如可視化神經(jīng)元,當(dāng)初通過這項(xiàng)技術(shù)來可視化計算機(jī)視覺模型,發(fā)現(xiàn)其具有類似人腦視覺的層級表征。而如今,人們已經(jīng)可視化在這一點(diǎn)上做到了極致,并發(fā)現(xiàn)了神經(jīng)元的“祖母細(xì)胞”現(xiàn)象和概念組合效應(yīng),比如對“貓”和“黑色”敏感的神經(jīng)元,可以生成一張“黑貓”的圖像。另外,在深度表征解耦上也有大量的相關(guān)工作,可以進(jìn)行人臉生成中的五官控制等“神奇操作”。
可視化傾向于感性理解,表征解耦傾向于數(shù)學(xué)理解,但人們更加熟悉的解釋方式,還是邏輯和語言。在邏輯方面,決策規(guī)則、決策樹都是典型的方法。
決策樹的形式與決策規(guī)則很相似,在計算機(jī)視覺模型的可解釋性研究中經(jīng)常用到,比如,通過解析可以發(fā)現(xiàn)圖像識別模型對鳥的圖像的識別依據(jù)包括了頭部、腳、羽毛等等,并且每個依據(jù)的判定比重不同。
基于這些解釋方法提取出來的模型,一般無法等價于原有模型。解釋模型永遠(yuǎn)比原來的深度學(xué)習(xí)模型要更加簡單,同時也不夠完整。 一些研究表明,深度學(xué)習(xí)中或許存在永遠(yuǎn)不能被理解的部分,對應(yīng)于人類的無意識。所以深度學(xué)習(xí)也和人類一樣,分為有意識部分和無意識部分嗎?并且,無意識部分就永遠(yuǎn)無法被我們所理解?這種表述倒是和精神分析中的經(jīng)典冰山比喻很相似。
當(dāng)然,這只是個比喻。由于意識不是一個具有明確定義的科學(xué)概念,這里僅作為討論方便而借用一下。 首先,有意識和無意識只是相對的,有意識可以從無意識中不斷挖掘出來。那么,有意識要怎么去挖掘呢? 一個長期獨(dú)居在遠(yuǎn)離人類社會的地方的人,語言和邏輯能力會逐漸喪失,其也不能反思自己的行為,只能按照外界的刺激進(jìn)行單調(diào)的反應(yīng),就像無意識狀態(tài)一樣。 也就是說,語言產(chǎn)生于溝通、解釋的需要。因此,人類認(rèn)知的有意識部分,可以基于溝通的需求推動,提煉成邏輯和語言。 在深度學(xué)習(xí)領(lǐng)域,已經(jīng)有了基于類似思想的工作。有一些研究就描述了一種基于人機(jī)交互來提取目標(biāo)檢測CNN的模型解釋的方法。
在交互中,比如對一張馬的圖片輸入,計算機(jī)會不斷重復(fù)問人類,現(xiàn)在的檢測結(jié)果正確嗎?人類根據(jù)情況提供不同的回答。 基于這些信息,計算機(jī)就能構(gòu)建起模型的“知識圖譜”。然后,計算機(jī)就能逐步構(gòu)建起輸出結(jié)果和CNN神經(jīng)元之間的關(guān)系。并且,計算機(jī)問的越多,圖譜包含的知識就越豐富。 這種提取方法偏向于邏輯,那么語言解釋要如何提取呢?在提煉語言解釋的過程中,其需要借用現(xiàn)實(shí)的隱喻來表達(dá)。 在著名語言學(xué)家喬治·萊考夫的經(jīng)典著作《我們賴以生存的隱喻》中就提到,人類是沒有辦法直接表述抽象概念的,必須借用隱喻。比如“我們在危機(jī)的包圍中生存下來”這句話,就借用了“包圍”的現(xiàn)實(shí)本體,比如一個羊圈,作為隱喻來表達(dá)“我們”和“危機(jī)”之間的關(guān)系,即它們是一種“找不到突破口”的關(guān)系。人類在理解這句話的時候,腦海里隱含地存在類似羊圈的本體形象,如果不刻意去深究,平常不會意識到。
這如何對神經(jīng)網(wǎng)絡(luò)的可解釋性以啟發(fā)呢?目前在多模態(tài)學(xué)習(xí)中,已經(jīng)初有成效,但尚未有非??煽康慕Y(jié)果。還有另外一種方案就是,不解釋。 不解釋的意思就是,我們不去尋求對神經(jīng)網(wǎng)絡(luò)的解釋,神經(jīng)網(wǎng)絡(luò)既然是個黑盒子,那就乖乖當(dāng)個黑盒子。 但在這個網(wǎng)絡(luò)中,我們可以隨意插入已知的、有現(xiàn)實(shí)對應(yīng)物的概念,作為網(wǎng)絡(luò)的輸入、輸出(也就是隱喻的本體)。 如今很多AI模型都不是一步到位的,而是分成多個階段。通俗來講,現(xiàn)在的深度學(xué)習(xí)可以替代任何你想替代的程序模塊,但對于一個蛋白質(zhì)結(jié)構(gòu)預(yù)測程序而言,只取代3D結(jié)構(gòu)預(yù)測部分,其它部分沿用已有技術(shù),整個系統(tǒng)就會可靠得多。相對于將整個程序用深度學(xué)習(xí)取代,我們不知道的部分也會相對簡單得多。同時,我們知道黑盒子的邊界是從“肽鏈”到“蛋白質(zhì)3D結(jié)構(gòu)”。這其中,“肽鏈”和“蛋白質(zhì)3D結(jié)構(gòu)”就是我們需要的可理解的“隱喻”,以及用于語言表達(dá)的詞匯。 這提供了一個思路,就是解釋從輸入到輸出的推理過程,我們可以人為地定義中間可理解輸出。比如在一篇Nature論文中就提出了一個多階段輸出的堆疊深度學(xué)習(xí)模型,可以從DNA序列開始,預(yù)測多個中間階段過程(比如基于DNA序列制造蛋白質(zhì)、細(xì)胞器反應(yīng)等),一直到酵母細(xì)胞組成部分的形成,實(shí)現(xiàn)了對基因作用過程的結(jié)構(gòu)化解析,并且能輕易觀察DNA改變時細(xì)胞機(jī)制的變化。 研究人員訓(xùn)練了數(shù)百萬個基因型,并模擬出了一個真核細(xì)胞,模擬細(xì)胞的生長幾乎與實(shí)驗(yàn)室觀察一樣準(zhǔn)確。這個真核細(xì)胞包含了2,526 個子系統(tǒng)的層次結(jié)構(gòu)。
黑盒子拆解的做法,可以對每個模型降低復(fù)雜度和解釋難度,并在整體層面提高可解釋性。 不可否認(rèn),即便人們提出了上述的解釋方法,深度學(xué)習(xí)模型依然存在不可解釋的部分,而被解釋的部分,不可能完全代表深度學(xué)習(xí)模型。這就好像一個人說過的話不能代表一個人的全部,所有書本中的知識也不能代表世界一樣,而且書本的知識如果不是由人類去解讀,也沒有意義。 人類終究能夠接受這種一直存在的不可解釋性嗎?新事物通常缺少理解的參考物,不可避免被過分排斥。人類質(zhì)疑一位醫(yī)生的診斷的方式,除了自己成為醫(yī)生,另一個辦法就是找另外一位醫(yī)生求證。同樣,對深度學(xué)習(xí)的不可解釋性的過分焦慮,或許也會在未來該技術(shù)普及的某個階段,慢慢消失。 深度學(xué)習(xí)的可解釋性研究給了我們很多感性上的理解,或許有一天我們能夠在黑盒子中窺見感知轉(zhuǎn)變?yōu)檎J(rèn)知的節(jié)點(diǎn)。而智子似乎仍在實(shí)驗(yàn)層面以巨大的復(fù)雜性,阻礙我們?nèi)グl(fā)現(xiàn)它。 接下來,我們將討論深度學(xué)習(xí)的理論研究??梢钥吹剑@個領(lǐng)域完全不關(guān)心感知、認(rèn)知之類的問題,它們甚至沒有被定義??梢哉f,這完全是兩個世界。 有人曾指出,如今深度學(xué)習(xí)存在理論和實(shí)踐嚴(yán)重脫節(jié)的情況。最典型的現(xiàn)象就是,深度學(xué)習(xí)理論往往將無限寬神經(jīng)網(wǎng)絡(luò)作為研究對象,但現(xiàn)實(shí)中用的最多的,往往是非常深的網(wǎng)絡(luò),比如ResNet。 上文提到的神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程存在自發(fā)的隨機(jī)性,其實(shí)是梯度下降中的隱式偏差現(xiàn)象。這種現(xiàn)象可以讓梯度下降達(dá)到更好的局部極小值。 許多科學(xué)家都曾提到,如今深度學(xué)習(xí)缺乏理解是因?yàn)閿?shù)學(xué)工具的匱乏,我們不能只把視野局限于梯度下降和反向傳播。 實(shí)際上,反向傳播算法是龐特里亞金斯最小原理 (PMP) 的近似,這是一種可追溯到 1960 年代的著名理論,它描述了最優(yōu)控制問題的必要條件,深度學(xué)習(xí)本就是一個優(yōu)化問題。 另外,人們也注意到,或許可以借用統(tǒng)計物理的思想,來揭開隱式偏差(即智子)的真面目。 深度學(xué)習(xí)的優(yōu)化過程,其實(shí)和統(tǒng)計物理中的動力學(xué)系統(tǒng)很相似。在統(tǒng)計物理中,其研究問題可以是一杯被搖動的水的最終狀態(tài),最終這杯水會趨于平靜。水會到達(dá)這個狀態(tài),一方面是基于能量最小原則,另一方面是基于熵最大原則。 在梯度下降中,基于神經(jīng)網(wǎng)絡(luò)的初始參數(shù)的損失函數(shù),也是一杯被搖動的水,最終會基于能量和熵的變化規(guī)律走向平靜狀態(tài),也就是局部極小值。也就是說,智子就是梯度下降過程中的熵驅(qū)動的現(xiàn)象?;谶@種相似性,人們將梯度下降和統(tǒng)計物理中的布朗運(yùn)動現(xiàn)象聯(lián)系了起來。
其他類似的嘗試還包括,將物理學(xué)中的有效場論來理解神經(jīng)網(wǎng)絡(luò)。在提出這個理論的新書《The Principles of Deep Learning Theory》中,作者Daniel A. Roberts甚至說道,基于他們的理論可以“對任何模型直接給出最佳超參數(shù)。”相信深度學(xué)習(xí)和物理學(xué)的交叉,可以帶來非常豐富的成果。 基于上述討論可以發(fā)現(xiàn),深度學(xué)習(xí)的理論和實(shí)驗(yàn)之間確實(shí)存在較大的鴻溝,它們甚至采用了兩種不同的語言體系來描述各自的研究對象。對比之下,在物理學(xué)領(lǐng)域,在理論和實(shí)驗(yàn)層面都可以用能量、動量、時間、空間的語言來描述。 因此有人提出,目前人工智能主要還在機(jī)器學(xué)習(xí)的范疇里,要想有一個大統(tǒng)一的理論,首先要從數(shù)學(xué)上定義什么是智能,就像信息論里的熵一樣。 然而,由于人類對大腦的研究還很有限,對智能是什么尚未有定論。因此無論從AI的實(shí)驗(yàn)還是理論的角度,定義智能或許還是非常困難的事情。感知和認(rèn)知的劃分或許太粗糙,優(yōu)化領(lǐng)域的視角或許太狹窄。換個角度來說,AI的研究其實(shí)也在逐步增進(jìn)我們對人類智能的認(rèn)知。 3 尾聲 無論是藏在神經(jīng)網(wǎng)絡(luò)中的智子,還是現(xiàn)身人間蠱惑人心的智子,我們現(xiàn)在都還未能找到完全擊敗她們的辦法。一方面,要追尋正確的研究問題,不局限于單一的領(lǐng)域視角,另一方面,也要有扎實(shí)的基礎(chǔ)知識,嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度。如此,我們才有可能在這場”三體人戰(zhàn)爭“中取得最終的勝利。
本文由雷鋒網(wǎng)原創(chuàng),作者:青暮 維克多。申請授權(quán)請回復(fù)“轉(zhuǎn)載”,未經(jīng)授權(quán)不得轉(zhuǎn)載。聲明:感謝受訪專家的評論, 本文其他觀點(diǎn)不代表專家個人觀點(diǎn)。 關(guān)于“鎖死 AI 基礎(chǔ)研究”的討論,雷鋒網(wǎng)學(xué)術(shù)頻道《AI科技評論》將帶來更詳細(xì)的技術(shù)解讀,敬請關(guān)注。 -- 《AI冰與火之歌· 五問》第四篇預(yù)告 當(dāng)人工智能面臨「基礎(chǔ)研究困局」與「商業(yè)模式崩塌」之際,那些從AI學(xué)院里不斷涌出的科學(xué)家和博士生們,該何去何從?下周二我們將發(fā)布深度報道《AI 人才越來越不值錢了嗎》,講述人工智能研究高管和應(yīng)屆博士生們在企業(yè)經(jīng)歷的捧殺歷史與反轉(zhuǎn)往事。 參考資料 |
|
|
來自: 昵稱71360118 > 《待分類》