F-Principle：初探理解深度學(xué)習(xí)不能做什么

taotao_2016 2019-02-01

展開(kāi)全文

作者丨許志欽、張耀宇

學(xué)校丨紐約大學(xué)阿布扎比分校博士后、紐約大學(xué)庫(kù)朗研究所訪問(wèn)學(xué)者

研究方向丨計(jì)算神經(jīng)科學(xué)、深度學(xué)習(xí)理論

近些年來(lái)，隨著深度學(xué)習(xí)在眾多實(shí)際應(yīng)用中取得成功，在越來(lái)越多的科學(xué)領(lǐng)域內(nèi)，研究人員開(kāi)始嘗試?yán)蒙疃葘W(xué)習(xí)來(lái)解決各自領(lǐng)域的傳統(tǒng)難題。和深度學(xué)習(xí)已獲得成功的問(wèn)題（比如圖像分類(lèi)）相比，許多科學(xué)領(lǐng)域內(nèi)的問(wèn)題往往有完全不同的特性。

因此，理解深度學(xué)習(xí)的適用性，即其能做什么尤其是不能做什么，是一個(gè)極為重要的問(wèn)題。比如設(shè)計(jì)算法的時(shí)候，它可以幫助我們考慮是完全用深度學(xué)習(xí)來(lái)代替?zhèn)鹘y(tǒng)算法，還是僅在這個(gè)問(wèn)題中的某些步驟用深度學(xué)習(xí)。

為了探討這個(gè)問(wèn)題，我們首先來(lái)看下面這個(gè)例子。在下面兩組圖中，左組中的每張圖和右組有什么差別呢？

答案是左組的每張圖中黑塊數(shù)都是奇數(shù)，而右組都是偶數(shù)。這種按奇偶區(qū)分的函數(shù)數(shù)學(xué)上叫做 parity function：。其函數(shù)值由“-1”的個(gè)數(shù)決定，如果為偶數(shù)，結(jié)果為 1，否則為 -1。

對(duì)于該函數(shù)，如果取所有可能映射的一個(gè)子集進(jìn)行訓(xùn)練，深度神經(jīng)網(wǎng)絡(luò)能夠很好地?cái)M合訓(xùn)練數(shù)據(jù)，但對(duì)那些未見(jiàn)過(guò)的測(cè)試數(shù)據(jù)，深度學(xué)習(xí)幾乎沒(méi)有預(yù)測(cè)（泛化）能力。而對(duì)于人來(lái)說(shuō)，只要能從訓(xùn)練數(shù)據(jù)集中學(xué)到數(shù)“-1”個(gè)數(shù)這個(gè)規(guī)則，就很容易對(duì)未見(jiàn)過(guò)的數(shù)據(jù)進(jìn)行準(zhǔn)確分類(lèi)。

對(duì)于很多問(wèn)題，如圖像識(shí)別，深度學(xué)習(xí)通常能取得較好的效果（泛化能力）。為了敘述方便，我們將這些深度學(xué)習(xí)能處理好的問(wèn)題稱(chēng)為第一類(lèi)問(wèn)題，同時(shí)將深度學(xué)習(xí)處理不好（難以泛化）的問(wèn)題稱(chēng)為第二類(lèi)問(wèn)題。

那么這兩類(lèi)問(wèn)題有什么本質(zhì)差別呢？深度學(xué)習(xí)模型為什么對(duì)這兩類(lèi)問(wèn)題有截然相反的效果？

目前為止，大部分實(shí)驗(yàn)研究和理論研究集中于研究為什么深度學(xué)習(xí)能取得好的效果（泛化能力）。少部分的研究開(kāi)始關(guān)注哪些問(wèn)題深度學(xué)習(xí)難以處理。

在我們的研究中，我們希望能找到一個(gè)統(tǒng)一的機(jī)制，可以同時(shí)解釋深度學(xué)習(xí)在兩類(lèi)問(wèn)題中不同的效果。我們發(fā)現(xiàn)的機(jī)制可以用一句話(huà)概括：深度學(xué)習(xí)傾向于優(yōu)先使用低頻來(lái)擬合目標(biāo)函數(shù)。我們將這個(gè)機(jī)制稱(chēng)為 F-Principle（頻率原則）。

我們先用一個(gè)簡(jiǎn)單的例子來(lái)理解 F-Principle。用一個(gè)深度神經(jīng)網(wǎng)絡(luò)（DNN）去擬合如下的紅色實(shí)線(xiàn)函數(shù)。訓(xùn)練完后，該曲線(xiàn)能被深度網(wǎng)絡(luò)（藍(lán)色點(diǎn)）很好地?cái)M合。

我們感興趣的是 DNN 的訓(xùn)練過(guò)程。如下圖動(dòng)畫(huà)所示（紅色為目標(biāo)函數(shù)的 FT（傅里葉變換），藍(lán)色為網(wǎng)絡(luò)輸出的 FT，每一幀表示一個(gè)訓(xùn)練步，橫坐標(biāo)是頻率，縱坐標(biāo)是振幅），我們發(fā)現(xiàn)，在訓(xùn)練過(guò)程中，DNN 表示的函數(shù)的演化在頻域空間有一個(gè)清晰的規(guī)律，即頻率從低到高依次收斂。

對(duì)于真實(shí)數(shù)據(jù)，如 MNIST 和 CIFAR10，對(duì)于不同的網(wǎng)絡(luò)結(jié)構(gòu)，如全連接和卷積神經(jīng)網(wǎng)絡(luò)（CNN），對(duì)于不同的激活函數(shù)，如 tanh 和 ReLU，我們都可以觀察到 F-Principle（如下圖所示）。

▲ 左邊：數(shù)據(jù)集/DNN的Fourier變換在一個(gè)特定高維頻率方向的變化曲線(xiàn)，右圖：左圖中黑色頻率點(diǎn)處的相對(duì)誤差與訓(xùn)練步數(shù)的關(guān)系，紅色表示相對(duì)誤差小。第一行是MNIST數(shù)據(jù)集的結(jié)果，使用全連接tanh網(wǎng)絡(luò)。第二行是CIFAR10數(shù)據(jù)集的結(jié)果，使用ReLU-CNN網(wǎng)絡(luò)。

接下來(lái)，我們可以用 F-Principle 來(lái)理解為什么 DNN 在上述兩類(lèi)問(wèn)題的處理中有巨大的差異。從頻譜的角度，我們發(fā)現(xiàn) MNIST 和 CIFAR10 數(shù)據(jù)集都有低頻占優(yōu)的特性。實(shí)驗(yàn)結(jié)果顯示，全數(shù)據(jù)集（包含訓(xùn)練集和測(cè)試集）在頻域空間與測(cè)試數(shù)據(jù)集在低頻部分吻合地很好，如下圖展示 MNIST 的情況。

parity 函數(shù)則不同，它是高頻占優(yōu)的。

由于 aliasing 效應(yīng)，相比真實(shí)的頻譜，訓(xùn)練集的頻譜在低頻處有顯著的虛假成分（見(jiàn)上圖）。下圖展示了一個(gè) aliasing 的例子。

因此，對(duì)于我們舉的例子，這兩類(lèi)問(wèn)題在 Fourier 空間可以看到本質(zhì)的差別。前者低頻占優(yōu)，后者高頻占優(yōu)。在訓(xùn)練過(guò)程中，基于 F-Principle 低頻優(yōu)先的機(jī)制，DNN 會(huì)傾向于用一個(gè)低頻成分較多的函數(shù)去擬合訓(xùn)練數(shù)據(jù)。

對(duì)于 MNIST 和 CIFAR10，一方面由于高頻成分較小，aliasing 帶來(lái)的虛假低頻微不足道，另一方面由于 DNN 訓(xùn)練中低頻優(yōu)先的傾向與目標(biāo)函數(shù)本身的低頻占優(yōu)的特性相一致，所以 DNN 能準(zhǔn)確抓取目標(biāo)函數(shù)的關(guān)鍵成分（下圖藍(lán)色為 DNN 學(xué)習(xí)到的函數(shù)在全數(shù)據(jù)集上的傅里葉變換在一個(gè)特定高維頻率方向的曲線(xiàn)），從而擁有良好的泛化能力。

而對(duì)于 parity 函數(shù)，由于高頻成分極為顯著，aliasing 帶來(lái)的虛假低頻很?chē)?yán)重，同時(shí) F-principle 低頻優(yōu)先的傾向與目標(biāo)函數(shù)本身高頻占優(yōu)的特性不匹配，所以 DNN 最終輸出函數(shù)相比于目標(biāo)函數(shù)低頻顯著偏大而高頻顯著偏小。顯然，這種顯著的差異會(huì)導(dǎo)致較差的泛化能力。

▲ 紅色：訓(xùn)練數(shù)據(jù)集的傅里葉變換；綠色：全數(shù)據(jù)集的傅里葉變換；藍(lán)色：網(wǎng)絡(luò)輸出在全數(shù)據(jù)集輸入點(diǎn)的傅里葉變換

我們利用 F-Principle 對(duì)深度學(xué)習(xí)能做什么與不能做什么做了初步的探索，理解了具有低頻優(yōu)先特性的深度學(xué)習(xí)對(duì)于具有不同頻譜特性的問(wèn)題的適用性。如果目標(biāo)函數(shù)具有低頻占優(yōu)的特性，那么深度學(xué)習(xí)比較容易取很好的效果，反之則不然。

進(jìn)一步，我們可以利用深度學(xué)習(xí)這一特性更好地處理具體問(wèn)題中的低頻成分。比如傳統(tǒng)算法（如 Jacobi 迭代）在解 Poisson 方程時(shí)，一般低頻收斂慢，而高頻收斂快。我們將在下一篇文章中介紹如何利用 F-Principle 機(jī)制設(shè)計(jì)基于 DNN 的 Poisson 方程求解方法。

參考文獻(xiàn)

Xu, Zhi-Qin John, Zhang, Yaoyu, Luo, Tao, Xiao, Yanyang & Ma, Zheng (2019), ‘Frequency principle: Fourier analysis sheds light on deep neural networks’, arXiv preprint arXiv:1901.06523 .

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： taotao_2016 > 《計(jì)算機(jī)》

舉報(bào)/認(rèn)領(lǐng)