|
作者丨許志欽、張耀宇 學(xué)校丨紐約大學(xué)阿布扎比分校博士后、紐約大學(xué)庫(kù)朗研究所訪問(wèn)學(xué)者 研究方向丨計(jì)算神經(jīng)科學(xué)、深度學(xué)習(xí)理論 近些年來(lái),隨著深度學(xué)習(xí)在眾多實(shí)際應(yīng)用中取得成功,在越來(lái)越多的科學(xué)領(lǐng)域內(nèi),研究人員開(kāi)始嘗試?yán)蒙疃葘W(xué)習(xí)來(lái)解決各自領(lǐng)域的傳統(tǒng)難題。和深度學(xué)習(xí)已獲得成功的問(wèn)題(比如圖像分類(lèi))相比,許多科學(xué)領(lǐng)域內(nèi)的問(wèn)題往往有完全不同的特性。 因此,理解深度學(xué)習(xí)的適用性,即其能做什么尤其是不能做什么,是一個(gè)極為重要的問(wèn)題。比如設(shè)計(jì)算法的時(shí)候,它可以幫助我們考慮是完全用深度學(xué)習(xí)來(lái)代替?zhèn)鹘y(tǒng)算法,還是僅在這個(gè)問(wèn)題中的某些步驟用深度學(xué)習(xí)。 為了探討這個(gè)問(wèn)題,我們首先來(lái)看下面這個(gè)例子。在下面兩組圖中,左組中的每張圖和右組有什么差別呢? 答案是左組的每張圖中黑塊數(shù)都是奇數(shù),而右組都是偶數(shù)。這種按奇偶區(qū)分的函數(shù)數(shù)學(xué)上叫做 parity function:。其函數(shù)值由“-1”的個(gè)數(shù)決定,如果為偶數(shù),結(jié)果為 1,否則為 -1。 對(duì)于該函數(shù),如果取所有可能映射的一個(gè)子集進(jìn)行訓(xùn)練,深度神經(jīng)網(wǎng)絡(luò)能夠很好地?cái)M合訓(xùn)練數(shù)據(jù),但對(duì)那些未見(jiàn)過(guò)的測(cè)試數(shù)據(jù),深度學(xué)習(xí)幾乎沒(méi)有預(yù)測(cè)(泛化)能力。而對(duì)于人來(lái)說(shuō),只要能從訓(xùn)練數(shù)據(jù)集中學(xué)到數(shù)“-1”個(gè)數(shù)這個(gè)規(guī)則,就很容易對(duì)未見(jiàn)過(guò)的數(shù)據(jù)進(jìn)行準(zhǔn)確分類(lèi)。 對(duì)于很多問(wèn)題,如圖像識(shí)別,深度學(xué)習(xí)通常能取得較好的效果(泛化能力)。為了敘述方便,我們將這些深度學(xué)習(xí)能處理好的問(wèn)題稱(chēng)為第一類(lèi)問(wèn)題,同時(shí)將深度學(xué)習(xí)處理不好(難以泛化)的問(wèn)題稱(chēng)為第二類(lèi)問(wèn)題。 那么這兩類(lèi)問(wèn)題有什么本質(zhì)差別呢?深度學(xué)習(xí)模型為什么對(duì)這兩類(lèi)問(wèn)題有截然相反的效果? 目前為止,大部分實(shí)驗(yàn)研究和理論研究集中于研究為什么深度學(xué)習(xí)能取得好的效果(泛化能力)。少部分的研究開(kāi)始關(guān)注哪些問(wèn)題深度學(xué)習(xí)難以處理。 在我們的研究中,我們希望能找到一個(gè)統(tǒng)一的機(jī)制,可以同時(shí)解釋深度學(xué)習(xí)在兩類(lèi)問(wèn)題中不同的效果。我們發(fā)現(xiàn)的機(jī)制可以用一句話(huà)概括:深度學(xué)習(xí)傾向于優(yōu)先使用低頻來(lái)擬合目標(biāo)函數(shù)。我們將這個(gè)機(jī)制稱(chēng)為 F-Principle(頻率原則)。 我們先用一個(gè)簡(jiǎn)單的例子來(lái)理解 F-Principle。用一個(gè)深度神經(jīng)網(wǎng)絡(luò)(DNN)去擬合如下的紅色實(shí)線(xiàn)函數(shù)。訓(xùn)練完后,該曲線(xiàn)能被深度網(wǎng)絡(luò)(藍(lán)色點(diǎn))很好地?cái)M合。 我們感興趣的是 DNN 的訓(xùn)練過(guò)程。如下圖動(dòng)畫(huà)所示(紅色為目標(biāo)函數(shù)的 FT(傅里葉變換),藍(lán)色為網(wǎng)絡(luò)輸出的 FT,每一幀表示一個(gè)訓(xùn)練步,橫坐標(biāo)是頻率,縱坐標(biāo)是振幅),我們發(fā)現(xiàn),在訓(xùn)練過(guò)程中,DNN 表示的函數(shù)的演化在頻域空間有一個(gè)清晰的規(guī)律,即頻率從低到高依次收斂。 對(duì)于真實(shí)數(shù)據(jù),如 MNIST 和 CIFAR10,對(duì)于不同的網(wǎng)絡(luò)結(jié)構(gòu),如全連接和卷積神經(jīng)網(wǎng)絡(luò)(CNN),對(duì)于不同的激活函數(shù),如 tanh 和 ReLU,我們都可以觀察到 F-Principle(如下圖所示)。 ▲ 左邊:數(shù)據(jù)集/DNN的Fourier變換在一個(gè)特定高維頻率方向的變化曲線(xiàn),右圖:左圖中黑色頻率點(diǎn)處的相對(duì)誤差與訓(xùn)練步數(shù)的關(guān)系,紅色表示相對(duì)誤差小。第一行是MNIST數(shù)據(jù)集的結(jié)果,使用全連接tanh網(wǎng)絡(luò)。第二行是CIFAR10數(shù)據(jù)集的結(jié)果,使用ReLU-CNN網(wǎng)絡(luò)。 接下來(lái),我們可以用 F-Principle 來(lái)理解為什么 DNN 在上述兩類(lèi)問(wèn)題的處理中有巨大的差異。從頻譜的角度,我們發(fā)現(xiàn) MNIST 和 CIFAR10 數(shù)據(jù)集都有低頻占優(yōu)的特性。實(shí)驗(yàn)結(jié)果顯示,全數(shù)據(jù)集(包含訓(xùn)練集和測(cè)試集)在頻域空間與測(cè)試數(shù)據(jù)集在低頻部分吻合地很好,如下圖展示 MNIST 的情況。 parity 函數(shù)則不同,它是高頻占優(yōu)的。 由于 aliasing 效應(yīng),相比真實(shí)的頻譜,訓(xùn)練集的頻譜在低頻處有顯著的虛假成分(見(jiàn)上圖)。下圖展示了一個(gè) aliasing 的例子。 因此,對(duì)于我們舉的例子,這兩類(lèi)問(wèn)題在 Fourier 空間可以看到本質(zhì)的差別。前者低頻占優(yōu),后者高頻占優(yōu)。在訓(xùn)練過(guò)程中,基于 F-Principle 低頻優(yōu)先的機(jī)制,DNN 會(huì)傾向于用一個(gè)低頻成分較多的函數(shù)去擬合訓(xùn)練數(shù)據(jù)。 對(duì)于 MNIST 和 CIFAR10,一方面由于高頻成分較小,aliasing 帶來(lái)的虛假低頻微不足道,另一方面由于 DNN 訓(xùn)練中低頻優(yōu)先的傾向與目標(biāo)函數(shù)本身的低頻占優(yōu)的特性相一致,所以 DNN 能準(zhǔn)確抓取目標(biāo)函數(shù)的關(guān)鍵成分(下圖藍(lán)色為 DNN 學(xué)習(xí)到的函數(shù)在全數(shù)據(jù)集上的傅里葉變換在一個(gè)特定高維頻率方向的曲線(xiàn)),從而擁有良好的泛化能力。 而對(duì)于 parity 函數(shù),由于高頻成分極為顯著,aliasing 帶來(lái)的虛假低頻很?chē)?yán)重,同時(shí) F-principle 低頻優(yōu)先的傾向與目標(biāo)函數(shù)本身高頻占優(yōu)的特性不匹配,所以 DNN 最終輸出函數(shù)相比于目標(biāo)函數(shù)低頻顯著偏大而高頻顯著偏小。顯然,這種顯著的差異會(huì)導(dǎo)致較差的泛化能力。 ▲ 紅色:訓(xùn)練數(shù)據(jù)集的傅里葉變換;綠色:全數(shù)據(jù)集的傅里葉變換;藍(lán)色:網(wǎng)絡(luò)輸出在全數(shù)據(jù)集輸入點(diǎn)的傅里葉變換 我們利用 F-Principle 對(duì)深度學(xué)習(xí)能做什么與不能做什么做了初步的探索,理解了具有低頻優(yōu)先特性的深度學(xué)習(xí)對(duì)于具有不同頻譜特性的問(wèn)題的適用性。如果目標(biāo)函數(shù)具有低頻占優(yōu)的特性,那么深度學(xué)習(xí)比較容易取很好的效果,反之則不然。 進(jìn)一步,我們可以利用深度學(xué)習(xí)這一特性更好地處理具體問(wèn)題中的低頻成分。比如傳統(tǒng)算法(如 Jacobi 迭代)在解 Poisson 方程時(shí),一般低頻收斂慢,而高頻收斂快。我們將在下一篇文章中介紹如何利用 F-Principle 機(jī)制設(shè)計(jì)基于 DNN 的 Poisson 方程求解方法。 參考文獻(xiàn)Xu, Zhi-Qin John, Zhang, Yaoyu, Luo, Tao, Xiao, Yanyang & Ma, Zheng (2019), ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv preprint arXiv:1901.06523 . |
|
|
來(lái)自: taotao_2016 > 《計(jì)算機(jī)》