非常榮幸能夠受會(huì)議程序委員會(huì)的邀請今天來跟大家分享關(guān)于人工智能發(fā)展的一些認(rèn)識(shí)和想法。我們看到現(xiàn)在人工智能被巨大的利益所裹挾著。那么越是在這種情況下,作為一個(gè)從業(yè)的學(xué)者,越是應(yīng)該清醒和嚴(yán)謹(jǐn)?shù)乜创@個(gè)問題,畢竟好的學(xué)問總是純粹也是無價(jià)的。我們國內(nèi)的一些學(xué)術(shù)精英,特別熱衷于下一代、新一代的人工智能的研究。但是我想對于我們一般的大眾更要著眼于現(xiàn)代、當(dāng)代的人工智能發(fā)展,特別要緊盯國際的研究動(dòng)態(tài)和最新成果。這也是我今天這個(gè)報(bào)告來討論現(xiàn)代人工智能的主要?jiǎng)訖C(jī)。 我主要想跟大家分享下面幾個(gè)內(nèi)容。第一,現(xiàn)代的人工智能的本質(zhì)是什么。第二,現(xiàn)在人工智能的一些主要的研究思路和途徑。第三,將討論一些可能的研究方向。最后是思考和回顧。 人工智能的本質(zhì)首先,我們自然會(huì)問人工智能基礎(chǔ)性的問題:什么是智能?《人工智能現(xiàn)代方法》一書從兩種維度來定義智能,即人與理性,思想與行為。兩個(gè)維度就有四種組合。但是就我們現(xiàn)在所看到的人工智能技術(shù),我更愿意把它定義成模擬人的行為和思維的信息處理系統(tǒng)。因此我們主要關(guān)注是:計(jì)算機(jī)和統(tǒng)計(jì)學(xué)深度融合的數(shù)據(jù)科學(xué)方法,以及數(shù)學(xué)和工程相結(jié)合的機(jī)器學(xué)習(xí)技術(shù)。 我們知道,圖靈測試被廣泛用于智能測試,但這是對智能的一種定性描述,迄今為止并沒有一種對智能的定量描述。所以我們設(shè)想,“智能”是否存在一種定量的、嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)定義,比如,象熵是用來量化不確定性的一個(gè)非常嚴(yán)謹(jǐn)?shù)亩x一樣?;蛘?,模仿統(tǒng)計(jì)學(xué)中的p-value,給出智能的一種度量。我們知道,不同的p-value可以反映對于假設(shè)檢驗(yàn)結(jié)果證據(jù)的度量。最近我們看到,出現(xiàn)了一些像無人駕駛一樣對智能分級(jí)的定義,像DeepMind就提出來AGI的一種分級(jí)的定義。但我現(xiàn)在反而覺得,定性的描述并不見得是壞事,定量描述反而有可能把智能給束約了,而定性描述則有可能讓智能無遠(yuǎn)弗屆,更富有遐想,更富有創(chuàng)造性。 ![]() 其次,我們來回顧人工智能的發(fā)展歷程。人工智能從1952年發(fā)展到現(xiàn)在,可以把它劃分為下面幾個(gè)時(shí)期:第一個(gè)時(shí)期是早期,也就是人工智能的提出。第二個(gè)時(shí)期用簡單的搜索方式實(shí)現(xiàn)簡單人工智能任務(wù)。第三個(gè)時(shí)期嘗試著解決較為復(fù)雜任務(wù),是它的崛起期,以基于規(guī)則的學(xué)習(xí)或者專家系統(tǒng)為代表,對應(yīng)著計(jì)算機(jī)科學(xué)中的數(shù)據(jù)結(jié)構(gòu)與算法發(fā)展。然后是連接主義思想提出,神經(jīng)網(wǎng)絡(luò)模型興起,但是由于計(jì)算機(jī)能力的限制,神經(jīng)網(wǎng)絡(luò)在這時(shí)期很快地落入了低谷,被基于核技術(shù)(kernel trick)的支撐向量機(jī)所取代,由此統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法復(fù)興,即利用統(tǒng)計(jì)數(shù)據(jù)加算法的思想來發(fā)展人工智能。在這個(gè)基礎(chǔ)上,大數(shù)據(jù)驅(qū)動(dòng)的深度神經(jīng)網(wǎng)絡(luò)崛起產(chǎn)生了革命性的突破。從2020年到現(xiàn)在,又涌現(xiàn)了基于生成模型的通用人工智能,這可能是人工智能發(fā)展的奇點(diǎn)。 從人工智能發(fā)展歷程,我們可以從兩個(gè)角度來分析。第一,我們發(fā)現(xiàn)整個(gè)人工智能的發(fā)展可以看成怎么解決搜索問題的過程,開始是利用暴力搜索,而后希望采取高級(jí)搜索來尋找精確解。因?yàn)槲覀兠媾R的要解決的問題會(huì)越來越復(fù)雜,尋找精確解不太可行,只好采取近似搜索的方法。所以使用優(yōu)化算法,隨機(jī)算法,以及更為廣泛的學(xué)習(xí)方法。 第二,從如何處理知識(shí)表示的角度看待人工智能,這觸及到了人工智能的本質(zhì)和技術(shù)難點(diǎn)。基于規(guī)則的學(xué)習(xí)其目的是把人類對事物的理解形式化,從而希望機(jī)器能夠有效和人類認(rèn)知對齊達(dá)到智能的目的。迄今為止這個(gè)路徑?jīng)]有獲得成功,大家轉(zhuǎn)而采取較為可行的數(shù)據(jù)統(tǒng)計(jì)的方法,即用統(tǒng)計(jì)數(shù)據(jù)來代表知識(shí)表示,然后在數(shù)據(jù)上面運(yùn)行算法。而深度神經(jīng)網(wǎng)絡(luò)則被發(fā)現(xiàn)提供了一個(gè)統(tǒng)計(jì)數(shù)據(jù)的進(jìn)一步表示,使得系統(tǒng)可以更為有效地進(jìn)行端對端學(xué)習(xí)。 我們看到思路的改變對人工智能的發(fā)展起到了關(guān)鍵作用。這種思路的轉(zhuǎn)變也存在于其他領(lǐng)域,產(chǎn)生了一個(gè)非常有趣的異曲同工現(xiàn)象。比如,模式識(shí)別、自然語言處理、語音識(shí)別、視覺處理等都從統(tǒng)計(jì)方法獲取了巨大的成功,此外,從統(tǒng)計(jì)學(xué)的數(shù)據(jù)建模到計(jì)算機(jī)的算法建模興起,而人工智能則從機(jī)器學(xué)習(xí)中看到了新的路徑。 根據(jù)人工智能的發(fā)展歷史,我們可以來總結(jié)人工智能實(shí)際在做什么。我理解,人工智能主要是要處理三個(gè)任務(wù):第一、識(shí)別,我們可以把識(shí)別看做搜索的一個(gè)高級(jí)形態(tài);第二是決策;第三是生成。而這個(gè)三個(gè)任務(wù)剛好又和機(jī)器學(xué)習(xí)的三大學(xué)習(xí)范式:有監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和無監(jiān)督學(xué)習(xí)是相一致的。 現(xiàn)代人工智能技術(shù)我認(rèn)為大致可以分成兩個(gè)主要代表性方式。第一,以O(shè)penAI大語言生成模型為代表的通用智能系統(tǒng)。第二,以DeepMind為代表的科學(xué)研究的賦能范式,即科學(xué)研究的自動(dòng)化方法。 第一個(gè)方式包括大模型構(gòu)架和數(shù)據(jù)。大語言模型主要利用語言數(shù)據(jù),而現(xiàn)在則希望使用語言、圖像和音頻等融合的多模態(tài)異構(gòu)數(shù)據(jù)??紤]到,計(jì)算機(jī)視覺、自然語言處理和語音識(shí)別等也是由機(jī)器學(xué)習(xí)發(fā)展起來的。所以,現(xiàn)代人工智能可以理解成是通過機(jī)器學(xué)習(xí)及由其驅(qū)動(dòng)而發(fā)展起來的計(jì)算機(jī)視覺、自然語言處理和語音識(shí)別等技術(shù)來實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的現(xiàn)實(shí)交互。 至于科學(xué)研究的賦能范式,DeepMind或谷歌最近做出了一系列突破性的代表工作。比如,利用強(qiáng)化學(xué)習(xí)尋找矩陣相乘中利用加法運(yùn)算來代替乘法運(yùn)算,從而達(dá)到使用盡可能小的乘法運(yùn)算的目的。這實(shí)際是個(gè)搜索匹配問題。第二個(gè)是蛋白質(zhì)結(jié)構(gòu)預(yù)測AlphaFold,它是在一個(gè)三維空間,或者在某個(gè)坐標(biāo)系框架里,找到氨基酸序列的一個(gè)坐標(biāo)對應(yīng),當(dāng)然這里需要滿足氨基酸序列原有的結(jié)構(gòu)信息,因此,是在一個(gè)約束體系里找到一個(gè)位置對應(yīng)。第三個(gè)是芯片設(shè)計(jì)。這是一個(gè)序貫的決策或者一個(gè)有順序關(guān)系的排列組合問題。此外,在數(shù)學(xué)研究中通過AI去找到一些證明啟示或新的數(shù)學(xué)規(guī)律。 從這幾個(gè)例子我們可以歸納:人工智能可以描述為如何求解具有組合結(jié)構(gòu)的高維復(fù)雜問題。第一,問題有組合或離散結(jié)構(gòu)的,比如,對應(yīng)關(guān)系、順序關(guān)系、或稀疏特性等。第二,它是高維的,通常規(guī)模也很大。我們需要從滿足這種結(jié)構(gòu)的不同組合中找到一個(gè)最佳的方案或者代價(jià)最小的解。這是人工智能的數(shù)學(xué)上的一個(gè)描述,因此,重點(diǎn)是如何解決維數(shù)詛咒和規(guī)模可擴(kuò)展性問題。 人工智能的途徑![]() 正如前面所說的,人工智能蘊(yùn)含的關(guān)鍵數(shù)學(xué)問題可以描述為如何求解具有組合結(jié)構(gòu)的高維復(fù)雜問題。為了求解問題,有兩個(gè)里程碑的思想被提出。一是引入了不確定性。因?yàn)槲覀兠鎸Φ膯栴}無論是規(guī)模和維度都是巨大的,求其精確解是不可行的,因此近似解是一種必然。不確定性機(jī)制可以為尋找有效的近似解提供潛在途徑,比如Monte Carlo樹搜索和強(qiáng)化學(xué)習(xí)在AlphaGo中的成功應(yīng)用。不確定性產(chǎn)生了眾所周知的“探索與利用”權(quán)衡問題。 二是數(shù)據(jù)驅(qū)動(dòng)方法。這是因?yàn)閿?shù)據(jù)的獲取變得容易,且規(guī)模越來越大,同時(shí)數(shù)據(jù)表示和處理的算法不斷在進(jìn)步,比如深度神經(jīng)網(wǎng)絡(luò)的崛起。數(shù)據(jù)驅(qū)動(dòng)方法則伴隨著“信息與計(jì)算”權(quán)衡問題。 總的來說,是把不確定性和數(shù)據(jù)驅(qū)動(dòng)這兩種思路融合在一起來求解高維復(fù)雜的問題。本質(zhì)上,我們是要利用機(jī)器學(xué)習(xí)方法。機(jī)器學(xué)習(xí)是從數(shù)據(jù)中得出結(jié)論的算法。因此我們希望數(shù)據(jù)盡可能多,希望知道數(shù)據(jù)的內(nèi)在統(tǒng)計(jì)性質(zhì)或者統(tǒng)計(jì)分布。在數(shù)據(jù)或者信息層面,數(shù)據(jù)越多,越可能理解數(shù)據(jù)潛在的分布。在計(jì)算方面,有了數(shù)據(jù),我們就在其上運(yùn)行算法做推理。所以這里就存在一個(gè)統(tǒng)計(jì)有效性和計(jì)算有效性之間的權(quán)衡。 所以人工智能的關(guān)鍵科學(xué)問題,我們可以概括為:第一,我們希望要設(shè)計(jì)盡可能高效地使用我們的資源信息和計(jì)算的算法,從而為實(shí)際問題提供一種可行的解決方案。第二,我們希望了解何時(shí)信息和計(jì)算有效的算法是不存在的,也就是建立不可行的結(jié)果,即算法的應(yīng)用邊界。 具體來說,我們要面對很多問題:首先是學(xué)習(xí)的誤差。也就是什么樣的規(guī)模能達(dá)到什么樣的精度。然后是在迭代的時(shí)候能不能找到一個(gè)最優(yōu)解,最優(yōu)解的收斂率是什么。我們往往采取分布式的計(jì)算方式,所以還有計(jì)算、通訊等問題。另外大家普遍關(guān)注隱私問題、公平性問題、偏見性問題等。 ![]() 我們要從樣本有效性和計(jì)算有效性兩方面來研究這些問題。樣本有效性推斷是統(tǒng)計(jì)學(xué)的一個(gè)經(jīng)典主題,而計(jì)算有效算法是計(jì)算機(jī)科學(xué)研究的核心課題。但是現(xiàn)在我們是要把這兩者結(jié)合在一起,而不是把他們孤立地研究。
從算法的角度,問題的結(jié)構(gòu)是很重要的,數(shù)據(jù)的分布也是很重要的。所以我們盡可能要利用問題的結(jié)構(gòu),同時(shí)也要利用數(shù)據(jù)的分布信息,利用兩者來設(shè)計(jì)算法。采用離散的和連續(xù)的、全局的和局部的、對抗的和合作的等這些更現(xiàn)代的觀點(diǎn)來設(shè)計(jì)和分析算法,這也可能會(huì)帶來一些新的洞察。 讓我們來看看機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)起源于計(jì)算機(jī)科學(xué),但它跟統(tǒng)計(jì)學(xué)是一脈相承的,都是利用算法從數(shù)據(jù)中得出結(jié)論。經(jīng)典統(tǒng)計(jì)學(xué)偏重于方法論的提出,而機(jī)器學(xué)習(xí)則重于計(jì)算工具的開發(fā)。機(jī)器學(xué)習(xí)更關(guān)注分類或者聚類,即它的關(guān)注側(cè)重離散問題。而統(tǒng)計(jì)學(xué)側(cè)重于回歸或者密度估計(jì)等連續(xù)問題。現(xiàn)代機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)通常要通過一個(gè)優(yōu)化算法來求解模型,但他們和傳統(tǒng)優(yōu)化又不一樣。傳統(tǒng)的優(yōu)化往往只關(guān)注于算法是否找到了最優(yōu)解,以及算法的收斂性和收斂率。但是機(jī)器學(xué)習(xí)更關(guān)注找到了一個(gè)最優(yōu)解之后的模型性能,即模型在未來數(shù)據(jù)里的泛化性。所以從這個(gè)角度可以將機(jī)器學(xué)習(xí)理解為優(yōu)化和泛化的統(tǒng)一。 我認(rèn)為機(jī)器學(xué)習(xí)主要有四個(gè)非常重要的因素:泛化、計(jì)算、表示和歸因。泛化性是指未知數(shù)據(jù)上的表現(xiàn)。對于有監(jiān)督的學(xué)習(xí),泛化性是預(yù)測的結(jié)果,而無監(jiān)督學(xué)習(xí)的泛化性體現(xiàn)在數(shù)據(jù)生成的質(zhì)量上。所有的問題都要通過計(jì)算去求解,所以第二要素是計(jì)算。統(tǒng)計(jì)學(xué)家比較關(guān)注歸因,即了解到底是哪些輸入特征對輸出結(jié)果產(chǎn)生了關(guān)鍵的作用,從而模型具有可解釋性。 ![]() 我把重點(diǎn)放在表示或表征上。因?yàn)槲艺J(rèn)為表示應(yīng)該是現(xiàn)代機(jī)器學(xué)習(xí)或者人工智能的核心和關(guān)鍵。一個(gè)好的表示有如下特征:適合預(yù)測,因?yàn)槲覀兊哪康氖穷A(yù)測;適合于計(jì)算,因?yàn)榻Y(jié)果是要通過計(jì)算來獲得的。如果這個(gè)表示還適合于歸因,那就更好了。所以自然地想到有兩種表示:一種是比較經(jīng)濟(jì)性的表示,另外一種是過參數(shù)化的表示。因?yàn)橥ㄟ^數(shù)據(jù)降維,經(jīng)濟(jì)性的表示當(dāng)然會(huì)帶來一些計(jì)算的便利,但可能會(huì)制約了這個(gè)模型的表示能力。一個(gè)高維的或者過參數(shù)化模型的表示能力會(huì)強(qiáng),但會(huì)帶來計(jì)算上的著名維數(shù)詛咒問題。但維數(shù)越高,表示越強(qiáng),預(yù)測能力隨之也越好,帶來所謂的維數(shù)祝福。比如如果在低維不能做分類,但在高維里,它往往是容易分類的。既要克服維數(shù)詛咒,又要利用維數(shù)祝福,在這兩者之間找到一種有效的解決方法是機(jī)器學(xué)習(xí)的最核心思想。 一個(gè)自然的思路是寬度表示,機(jī)器學(xué)習(xí)領(lǐng)域由此發(fā)展起了核方法。核方法的思想將原始數(shù)據(jù)映射到一個(gè)高維特征空間,然后通過這個(gè)特征空間的內(nèi)積運(yùn)算,可以有效地避免了高維特征上的直接計(jì)算。這個(gè)想法跟統(tǒng)計(jì)學(xué)的非參方法是一致的。我們知道最重要的一個(gè)機(jī)器學(xué)習(xí)方法叫核SVM。這可以理解成寬度表示的求和模型,寬度表示的可解釋性良好的。但它是一個(gè)存粹數(shù)學(xué)上抽象起來的技術(shù),不能夠?qū)栴}的物理層面進(jìn)行有效刻畫,所以它沒法用于生成真實(shí)數(shù)據(jù),如圖像和語言。 所以我們想是否可以利用某種深度表示,能夠達(dá)到數(shù)據(jù)的物理表示。隨機(jī)森林方法是一個(gè)最直接的深度方法。而深度神經(jīng)網(wǎng)絡(luò)作為一種數(shù)據(jù)表示技術(shù)由此而崛起。它可以解決維數(shù)詛咒問題,同時(shí)又能對數(shù)據(jù)進(jìn)行物理層面建模。 我們來回顧深度學(xué)習(xí)的一些關(guān)鍵技術(shù)。深度學(xué)習(xí)自產(chǎn)生以后,開發(fā)了一些重要實(shí)現(xiàn)技術(shù),如卷積、ReLU激活函數(shù)、ResNet、Attention、 U-type結(jié)構(gòu)的編碼和解碼等。其次可以用BP去算梯度,利用SGD或Adam這些方法訓(xùn)練參數(shù)。在穩(wěn)定執(zhí)行上有Dropout和Batch Normalization等技術(shù)。更為關(guān)鍵的,GPU剛好適合深度神經(jīng)網(wǎng)絡(luò)的并行訓(xùn)練。所以我們認(rèn)為深度學(xué)習(xí)是目前最有效的一種把維數(shù)詛咒變?yōu)榫S數(shù)祝福,同時(shí)又能解決物理建模的技術(shù)。它是通過算法的思路,而不是基于形式化的思路來做表示。 我們關(guān)注的是數(shù)據(jù)表示。但是我們同樣需要注意到求解的問題本身以及求解算法也有表示的問題。算法的表示可以理解成數(shù)學(xué)上的描述。如果一個(gè)問題能夠在數(shù)學(xué)上把它表述出來,同時(shí)對這個(gè)算法有有一個(gè)數(shù)學(xué)上的表示,那么就有了解決方案。強(qiáng)化學(xué)習(xí)提供了這種表示。所以我們可以將強(qiáng)化學(xué)習(xí)理解成在問題和算法層面的一種表示技術(shù)。具體地,它使用馬爾科夫決策過程給我們提供了一種表示的數(shù)學(xué)框架,而Bellman最優(yōu)性方程提供了求解保證,即基于不動(dòng)點(diǎn)理論導(dǎo)致了的價(jià)值迭代和策略優(yōu)化方法。 ![]() 深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)構(gòu)成了現(xiàn)代人工智能的兩翼。深度學(xué)習(xí)提供了多模態(tài)數(shù)據(jù)表示的潛在途徑,而強(qiáng)化學(xué)習(xí)提供了一種算法的表示。深度學(xué)習(xí)還從數(shù)學(xué)角度提供了一種非常強(qiáng)大的非線性逼近能力。強(qiáng)化學(xué)習(xí)同樣體現(xiàn)了一種在線決策、序貫決策的思路。而深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合為現(xiàn)代人工智能賦予了巨大的可能。當(dāng)然現(xiàn)在大家都在說人工智能可解釋性差,所以自然想到因果學(xué)習(xí)。因果學(xué)習(xí)具有一種能很好地解釋內(nèi)在關(guān)系的方式,所以可以考慮引入因果學(xué)習(xí)進(jìn)來。但是目前看來,因果學(xué)習(xí)并沒有達(dá)到象深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的一樣成功。最重要的原因是因果學(xué)習(xí)還沒有解決計(jì)算可擴(kuò)展性的問題。 機(jī)器學(xué)習(xí)不僅僅是算法,而且也是工程?,F(xiàn)代人工智能的第一次大突破是在深度學(xué)習(xí)和計(jì)算機(jī)視覺中算法和工程的相結(jié)合的巔峰之作。最近的第二次突破,則可以理解成算法和工程在自然語言處理和強(qiáng)化學(xué)習(xí)結(jié)合的又一個(gè)巔峰之作。機(jī)器學(xué)習(xí)系統(tǒng)實(shí)際上已成為一個(gè)非常重要的研究領(lǐng)域。 一些研究方向回到學(xué)術(shù)領(lǐng)域,存在哪些潛在的研究方向。人工智能存在三個(gè)層面:首先是算法,其次是應(yīng)用,第三是基礎(chǔ)理論。所以,第一我們要提出和開發(fā)新的模型、技術(shù)和算法。ChatGPT所包含的技術(shù)不會(huì)是終點(diǎn),新的技術(shù)和算法會(huì)不斷地被提出。第二,我們要尋找人工智能的更廣泛的應(yīng)用,針對一些特定的應(yīng)用領(lǐng)域或場景制定方案。第三,分析它的運(yùn)行機(jī)理。剛才我也提到了,機(jī)理應(yīng)該包含探索和利用權(quán)衡、信息和計(jì)算權(quán)衡、以及統(tǒng)計(jì)有效性和計(jì)算有效性之間的權(quán)衡等基礎(chǔ)性問題。為理解問題的計(jì)算屬性、統(tǒng)計(jì)屬性和科學(xué)屬性之間差異提供洞察?,F(xiàn)在我嘗試給出一些更為具體的研究方向或問題。 基于數(shù)據(jù)驅(qū)動(dòng)的人工智能算法。首先,我們更希望是混合的數(shù)據(jù)驅(qū)動(dòng)方法,結(jié)合隨機(jī)和對抗的思想,能更好地適應(yīng)信息約束和目標(biāo)結(jié)構(gòu)的信息。此外,一方面我們希望計(jì)算數(shù)據(jù)規(guī)模很大,但如果存儲(chǔ)全部數(shù)據(jù)則是不可行的。所以我們希望利用在線的方法或更為一般的自適應(yīng)方法更有效地利用數(shù)據(jù)。我認(rèn)為有幾點(diǎn)特別值得關(guān)注:第一是高維隨機(jī)優(yōu)化的統(tǒng)計(jì)推斷。第二是高維隨機(jī)在線算法。我們一般認(rèn)為隨機(jī)或者在線的算法主要是來解決數(shù)據(jù)量的問題,更為挑戰(zhàn)的是如何去設(shè)計(jì)一些高效的算法來處理高維且數(shù)據(jù)量大的問題。第三是高維采樣,在我們面對高維或離散問題時(shí),比如在擴(kuò)散生成模型中,如何利用蒙特卡羅等方法找到一個(gè)有效的采樣方法。第四是分布或魯棒馬爾科夫決策過程。第五是算法的下界理論分析,剛才說過,給定了有效的資源或算力時(shí),能否給出算法的下界,從而避免不必要的失敗嘗試。理論計(jì)算機(jī)界正試圖建立不同下界分析方法之間的內(nèi)在聯(lián)系,從而希望可以形成一個(gè)統(tǒng)一的分析框架。 大語言模型的一些重要問題。第一是基礎(chǔ)模型的結(jié)構(gòu)和訓(xùn)練算法,現(xiàn)在模型普遍采用Transformer,訓(xùn)練算法采用AdamW,有可能存在其他更好模型和算法。第二,制約我國人工智能發(fā)展最重要的問題是中文語言的數(shù)據(jù)質(zhì)量和中文分詞技術(shù),我們現(xiàn)在很多時(shí)候直接套用英文分詞技術(shù)到在中文上,因?yàn)橹形挠凶约旱奶匦?,這肯定是不能完全適用的。當(dāng)然還有對齊和精調(diào)、模型的評(píng)估等。我們同樣需要關(guān)注大模型的機(jī)理,我們知道的scaling law、壓縮理論是大模型的一些值得關(guān)注的基本問題。最后,一般研究機(jī)構(gòu)是沒有能力來搭建大語言模型,所以當(dāng)然會(huì)想到要研究小型化模型,只有小型化才能使其具有更大的實(shí)用性。此外,我們可能看到新聞,Richard Sutton等人打算利用在線的思路構(gòu)架通用智能系統(tǒng),因?yàn)樵诰€可以避免大數(shù)據(jù)的存儲(chǔ)和計(jì)算代價(jià)。 強(qiáng)化學(xué)習(xí)的一些重要問題。我們知道強(qiáng)化學(xué)習(xí)在游戲類的應(yīng)用非常成功,因?yàn)橛螒騿栴}的規(guī)則非常明確。而面對實(shí)際的應(yīng)用問題,雖然在大語言模型中強(qiáng)化學(xué)習(xí)可能有很大的作用,但在很多問題中強(qiáng)化學(xué)習(xí)的潛力遠(yuǎn)遠(yuǎn)沒有被挖掘出來。所以我認(rèn)為強(qiáng)化學(xué)習(xí)有以下幾點(diǎn)值得關(guān)注:第一是能否開發(fā)出并行化的計(jì)算框架。強(qiáng)化學(xué)習(xí)是一個(gè)序貫決策過程,天然和并行不相配。但是只有并行才能夠從根本上解決其計(jì)算瓶頸。第二是穩(wěn)定性良好的策略優(yōu)化算法。強(qiáng)化學(xué)習(xí)需要隨機(jī)采樣,所以其算法穩(wěn)定性是非常重要的課題。第三,強(qiáng)化學(xué)習(xí)一般有交互的過程,搭建通用友好的模擬平臺(tái)很重要。當(dāng)然最重要的是深度強(qiáng)化學(xué)習(xí)的更廣泛地應(yīng)用。 擴(kuò)散生成模型的一些重要問題。擴(kuò)散生成模型是目前最活躍的AIGC方向。我認(rèn)為值得研究的方向首先是多模態(tài)數(shù)據(jù)生成。目前單一數(shù)據(jù)生成較為成熟,但多模態(tài)數(shù)據(jù)生成仍有待研究。第二是擴(kuò)散生成模型的性能和訓(xùn)練不穩(wěn)定性,這是一個(gè)很重要的研究方向。第三是擴(kuò)散模型怎樣去和大語言模型相結(jié)合。 最后我想談一點(diǎn)富有遠(yuǎn)景的研究方向。我們可以回顧一下人工智能最近十余年的兩個(gè)最重大的突破,首先在2010年左右,深度神經(jīng)網(wǎng)絡(luò)在視覺圖像的應(yīng)用產(chǎn)生了第一個(gè)人工智能的里程牌突破,我把它理解為視覺+深度學(xué)習(xí)。第二里程碑工作ChatGPT則是在前一個(gè)突破基礎(chǔ)上,深度強(qiáng)化學(xué)習(xí)在自然語言領(lǐng)域的成功,我理解為語言+強(qiáng)化學(xué)習(xí)或者多模態(tài)數(shù)據(jù)+深度強(qiáng)化學(xué)習(xí)。那么我們可以思考下一個(gè)突破可能會(huì)是什么。我大膽地預(yù)測,如果要產(chǎn)生真正的通用人工智能,很可能是利用貝葉斯技術(shù)來進(jìn)行信念推理。貝葉斯推理包括經(jīng)驗(yàn)貝葉斯、概率圖模型等。因?yàn)樾拍?belief)是更接近智能的因素,所以我認(rèn)為在大語言模型基礎(chǔ)上信念+貝葉斯學(xué)習(xí)將值得期待,讓我們拭目以待。 回顧和思考人工智能是計(jì)算機(jī)科學(xué)的應(yīng)用,而數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的拓展。人工智能和數(shù)據(jù)科學(xué)把計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)匯聚到一起,讓學(xué)科的之間壁壘變得模糊。一個(gè)學(xué)科的發(fā)展需要英雄,英雄總是給我們奉獻(xiàn)經(jīng)典和真知灼見。 ![]() 著名的統(tǒng)計(jì)學(xué)家和機(jī)器學(xué)習(xí)主要奠基人Leo Breiman在他著名兩種文化建模論文中提出了和反思了數(shù)據(jù)建模的文化和算法建模的文化。而現(xiàn)代人工智能則是將這兩種文化深度融合。既要數(shù)據(jù)建模,也要算法建模,是兩個(gè)文化的結(jié)合而不是分叉。另外Breiman在文章里還提到他的三個(gè)關(guān)切:導(dǎo)致不相關(guān)的理論和有問題的科學(xué)結(jié)論(Led to irrelevant theory and questionable scientific conclusion),阻止統(tǒng)計(jì)學(xué)家使用更為合適的算法模型(Kept statisticians from using more suitable algorithmic models),阻礙統(tǒng)計(jì)學(xué)家研究令人興奮的新問題(Prevented statisticians from working on exciting new problems)。這些關(guān)切對今天我們發(fā)展人工智能仍然是真知灼見。我們普遍將我國人工智能的發(fā)展現(xiàn)狀歸結(jié)于對數(shù)學(xué)基礎(chǔ)的重視或數(shù)學(xué)家參與程度不夠。但我認(rèn)為一定要了解人工智能和計(jì)算機(jī)領(lǐng)域真正關(guān)心的問題,只有真正理解其核心所在,才能有的放矢,才能對人工智能乃至本學(xué)科起到實(shí)質(zhì)性的促進(jìn)作用。 人工智能和計(jì)算機(jī)領(lǐng)域真正關(guān)心的問題:建立模型,設(shè)計(jì)算法,揭示機(jī)理。而且他們也是有優(yōu)先級(jí)的,第一,我認(rèn)為目前理論分析肯定是要次于模型的建立和計(jì)算算法的設(shè)計(jì)。先產(chǎn)生效果再考慮理論,不能脫離實(shí)際效果空談無用的理論。第二,存在性的結(jié)果總是要小于構(gòu)造性的結(jié)果。相比存在性的結(jié)果,我們更希望有構(gòu)造性的算法。第三,大家總說人工智能不可解釋,但歸因的解釋沒有模型的機(jī)理來得更重要。對于大模型而言,如果能將其壓縮理論分析清楚,這比究竟是哪個(gè)特征起作用要重要。第四,模型的機(jī)理沒有科學(xué)對齊更迫切,系統(tǒng)輸出結(jié)果要與問題的本質(zhì)屬性對齊。統(tǒng)計(jì)屬性要與科學(xué)屬性相對齊,系統(tǒng)的價(jià)值要與人的價(jià)值對齊。 ![]() 現(xiàn)代計(jì)算機(jī)視覺的建立者David Marr把視覺視為一個(gè)信息處理系統(tǒng),提出了理解該系統(tǒng)的三個(gè)不同層次。第一個(gè)是物理和執(zhí)行層次;第二是算法和表示層次;第三個(gè)層次是計(jì)算層面??上於势洳?,他英年早逝,未能完成他的著作“Vision”。但正如Marvin Minsky認(rèn)為的,Marr沒有真正碰觸知識(shí)表示問題,未能為他的視覺系統(tǒng)的知識(shí)表示提出好的想法。他的合作者Tomaso Poggio幫他完成了著作,Poggio認(rèn)為在計(jì)算層次上面應(yīng)該再加上一個(gè)學(xué)習(xí)層次。我認(rèn)為Marr關(guān)于視覺的三層次的思想同樣適用于人工智能,我們也可以把人工智能看成模擬人類行為和思維的信息處理系統(tǒng)。它有三個(gè)層次或要素:表示、計(jì)算和對齊。深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)分別在數(shù)據(jù)層面和算法層面為我們提供了有效的表示途徑。隨機(jī)優(yōu)化算法和計(jì)算基座等幫助解決計(jì)算問題。最近人工智能技術(shù)在對齊層次也獲得突破性進(jìn)展。實(shí)際上,表示也是一種對齊,可以理解表示是把統(tǒng)計(jì)數(shù)據(jù)與機(jī)器系統(tǒng)進(jìn)行對齊。因此,人工智能是把輸入的統(tǒng)計(jì)數(shù)據(jù)與系統(tǒng)的價(jià)值對齊,而把系統(tǒng)的輸出結(jié)果與人的價(jià)值對齊,形成了一個(gè)對齊的閉環(huán)。 ![]() 最后,讓我們回溯20世紀(jì)統(tǒng)計(jì)學(xué)的兩位主要奠基者Ronald Fisher和Jerzy Neyman關(guān)于歸納推理(Inductive Inference)和演繹推理(Deductive Inference)的辯論 (The Fisher-Neyman Controversy) 。這個(gè)著名辯論可以幫助我們來理解大語言模型是否可能會(huì)發(fā)生涌現(xiàn)。Fisher相信統(tǒng)計(jì)學(xué)可以具有從樣本到數(shù)據(jù)的歸納推理能力,即外推性,而Neyman則認(rèn)為只能從數(shù)據(jù)中進(jìn)行演繹推理,即內(nèi)插。我有一個(gè)很主觀的看法,Neyman是堅(jiān)定的頻率派大師,他認(rèn)為統(tǒng)計(jì)過程的選擇應(yīng)該要基于誤差的頻率派概念。我們知道雖然Fisher也是頻率學(xué)派的奠基者,但他不排斥貝葉斯,他其實(shí)也是經(jīng)驗(yàn)貝葉斯的開山鼻祖。貝葉斯賦予先驗(yàn),利用后驗(yàn)信息推理,因此具有某種程度的外推能力。這也是為什么我認(rèn)為貝葉斯推斷方法,特別是經(jīng)驗(yàn)貝葉斯方法在人工智能的未來發(fā)展具有潛在作用,值得我們關(guān)注。 當(dāng)我們不解和疑惑時(shí),可以多讀讀這些經(jīng)典,從中尋找啟迪和靈感??斩礋o物的炒作和造勢或許能得到一時(shí)之利,但再炫麗的泡沫總是要破滅的,唯思想永恒!謝謝大家! ![]() |
|
|