從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

黃元章3355 2019-04-10

展開全文

局部連接+權(quán)值共享

全連接神經(jīng)網(wǎng)絡(luò)需要非常多的計(jì)算資源才能支撐它來做反向傳播和前向傳播，所以說全連接神經(jīng)網(wǎng)絡(luò)可以存儲非常多的參數(shù)，如果你給它的樣本如果沒有達(dá)到它的量級的時(shí)候，它可以輕輕松松把你給他的樣本全部都記下來，這會出現(xiàn)過擬合的情況。

所以我們應(yīng)該把神經(jīng)元和神經(jīng)元之間的連接的權(quán)重個(gè)數(shù)降下來，但是降下來我們又不能保證它有較強(qiáng)的學(xué)習(xí)能力，所以這是一個(gè)糾結(jié)的地方，所以有一個(gè)方法就是局部連接+權(quán)值共享，局部連接+權(quán)值共享不僅權(quán)重參數(shù)降下來了，而且學(xué)習(xí)能力并沒有實(shí)質(zhì)的降低，除此之外還有其它的好處，下來看一下，下面的這幾張圖片：

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

一個(gè)圖像的不同表示方式

這幾張圖片描述的都是一個(gè)東西，但是有的大有的小，有的靠左邊，有的靠右邊，有的位置不同，但是我們構(gòu)建的網(wǎng)絡(luò)識別這些東西的時(shí)候應(yīng)該是同一結(jié)果。為了能夠達(dá)到這個(gè)目的，我們可以讓圖片的不同位置具有相同的權(quán)重（權(quán)值共享），也就是上面所有的圖片，我們只需要在訓(xùn)練集中放一張，我們的神經(jīng)網(wǎng)絡(luò)就可以識別出上面所有的，這也是權(quán)值共享的好處。

而卷積神經(jīng)網(wǎng)絡(luò)就是局部連接+權(quán)值共享的神經(jīng)網(wǎng)絡(luò)。

卷積神經(jīng)網(wǎng)絡(luò)

現(xiàn)在我們對卷積神經(jīng)網(wǎng)絡(luò)有一個(gè)初步認(rèn)識了，下面具體來講解一下卷積神經(jīng)網(wǎng)絡(luò)，卷積神經(jīng)網(wǎng)絡(luò)依舊是層級結(jié)構(gòu)，但層的功能和形式做了改變，卷積神經(jīng)網(wǎng)絡(luò)常用來處理圖片數(shù)據(jù)，比如識別一輛汽車：

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

其中數(shù)據(jù)輸入的是一張圖片（輸入層），CONV表示卷積層，RELU表示激勵(lì)層，POOL表示池化層，F(xiàn)c表示全連接層

卷積神經(jīng)網(wǎng)絡(luò)之輸入層

在圖片輸出到神經(jīng)網(wǎng)絡(luò)之前，常常先進(jìn)行圖像處理，有三種常見的圖像的處理方式：

均值化：把輸入數(shù)據(jù)各個(gè)維度都中心化到0，所有樣本求和求平均，然后用所有的樣本減去這個(gè)均值樣本就是去均值。
歸一化：數(shù)據(jù)幅度歸一化到同樣的范圍，對于每個(gè)特征而言，范圍最好是[-1,1]
PCA/白化：用PCA降維，讓每個(gè)維度的相關(guān)度取消，特征和特征之間是相互獨(dú)立的。白化是對數(shù)據(jù)每個(gè)特征軸上的幅度歸一化

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

均值化和歸一化

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

去相關(guān)和白化

卷神網(wǎng)絡(luò)之卷積層：

圖片有一個(gè)性質(zhì)叫做局部關(guān)聯(lián)性質(zhì)，一個(gè)圖片的像素點(diǎn)影響最大的是它周邊的像素點(diǎn)，而距離這個(gè)像素點(diǎn)比較遠(yuǎn)的像素點(diǎn)二者之間關(guān)系不大。這個(gè)性質(zhì)意味著每一個(gè)神經(jīng)元我們不用處理全局的圖片了（和上一層全連接），我們的每一個(gè)神經(jīng)元只需要和上一層局部連接，相當(dāng)于每一個(gè)神經(jīng)元掃描一小區(qū)域，然后許多神經(jīng)元（這些神經(jīng)元權(quán)值共享）合起來就相當(dāng)于掃描了全局，這樣就構(gòu)成一個(gè)特征圖，n個(gè)特征圖就提取了這個(gè)圖片的n維特征，每個(gè)特征圖是由很多神經(jīng)元來完成的。

在卷積神經(jīng)網(wǎng)絡(luò)中，我們先選擇一個(gè)局部區(qū)域（filter），用這個(gè)局部區(qū)域（filter）去掃描整張圖片。局部區(qū)域所圈起來的所有節(jié)點(diǎn)會被連接到下一層的一個(gè)節(jié)點(diǎn)上。我們拿灰度圖（只有一維）來舉例：

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

局部區(qū)域

圖片是矩陣式的，將這些以矩陣排列的節(jié)點(diǎn)展成了向量。就能更好的看出來卷積層和輸入層之間的連接，并不是全連接的，我們將上圖中的紅色方框稱為filter，它是2*2的，這是它的尺寸，這不是固定的，我們可以指定它的尺寸。

我們可以看出來當(dāng)前filter是2*2的小窗口，這個(gè)小窗口會將圖片矩陣從左上角滑到右下角，每滑一次就會一下子圈起來四個(gè)，連接到下一層的一個(gè)神經(jīng)元，然后產(chǎn)生四個(gè)權(quán)重，這四個(gè)權(quán)重(w1、w2、w3、w4)構(gòu)成的矩陣就叫做卷積核。

卷積核是算法自己學(xué)習(xí)得到的，它會和上一層計(jì)算，比如，第二層的0節(jié)點(diǎn)的數(shù)值就是局部區(qū)域的線性組合（w1*0+w2*1+w3*4+w4*5），即被圈中節(jié)點(diǎn)的數(shù)值乘以對應(yīng)的權(quán)重后相加。

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

卷積核計(jì)算

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

卷積操作

我們前面說過圖片不用向量表示是為了保留圖片平面結(jié)構(gòu)的信息。同樣的，卷積后的輸出若用上圖的向量排列方式則丟失了平面結(jié)構(gòu)信息。所以我們依然用矩陣的方式排列它們，就得到了下圖所展示的連接，每一個(gè)藍(lán)色結(jié)點(diǎn)連接四個(gè)黃色的結(jié)點(diǎn)。

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

卷積層的連接方式

圖片是一個(gè)矩陣然后卷積神經(jīng)網(wǎng)絡(luò)的下一層也是一個(gè)矩陣，我們用一個(gè)卷積核從圖片矩陣左上角到右下角滑動(dòng)，每滑動(dòng)一次，當(dāng)然被圈起來的神經(jīng)元們就會連接下一層的一個(gè)神經(jīng)元，形成參數(shù)矩陣這個(gè)就是卷積核，每次滑動(dòng)雖然圈起來的神經(jīng)元不同，連接下一層的神經(jīng)元也不同，但是產(chǎn)生的參數(shù)矩陣確是一樣的，這就是權(quán)值共享。

卷積核會和掃描的圖片的那個(gè)局部矩陣作用產(chǎn)生一個(gè)值，比如第一次的時(shí)候，（w1*0+w2*1+w3*4+w4*5），所以，filter從左上到右下的這個(gè)過程中會得到一個(gè)矩陣（這就是下一層也是一個(gè)矩陣的原因），具體過程如下所示：

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

卷積計(jì)算過程

上圖中左邊是圖矩陣，我們使用的filter的大小是3*3的，第一次滑動(dòng)的時(shí)候，卷積核和圖片矩陣作用（1*1+1*0+1*1+0*0+1*1+1*0+0*1+0*0+1*1）=4，會產(chǎn)生一個(gè)值，這個(gè)值就是右邊矩陣的第一個(gè)值，filter滑動(dòng)9次之后，會產(chǎn)生9個(gè)值，也就是說下一層有9個(gè)神經(jīng)元，這9個(gè)神經(jīng)元產(chǎn)生的值就構(gòu)成了一個(gè)矩陣，這矩陣叫做特征圖，表示image的某一維度的特征，當(dāng)然具體哪一維度可能并不知道，可能是這個(gè)圖像的顏色，也有可能是這個(gè)圖像的輪廓等等。

單通道圖片總結(jié)：以上就是單通道的圖片的卷積處理，圖片是一個(gè)矩陣，我們用指定大小的卷積核從左上角到右下角來滑動(dòng)，每次滑動(dòng)所圈起來的結(jié)點(diǎn)會和下一層的一個(gè)結(jié)點(diǎn)相連，連接之后就會形成局部連接，每一條連接都會產(chǎn)生權(quán)重，這些權(quán)重就是卷積核，所以每次滑動(dòng)都會產(chǎn)生一個(gè)卷積核，因?yàn)闄?quán)值共享，所以這些卷積核都是一樣的。卷積核會不斷和當(dāng)時(shí)卷積核所圈起來的局部矩陣作用，每次產(chǎn)生的值就是下一層結(jié)點(diǎn)的值了，這樣多次產(chǎn)生的值組合起來就是一個(gè)特征圖，表示某一維度的特征。也就是從左上滑動(dòng)到右下這一過程中會形成一個(gè)特征圖矩陣（共享一個(gè)卷積核），再從左上滑動(dòng)到右下又會形成另一個(gè)特征圖矩陣（共享另一個(gè)卷積核），這些特征圖都是表示特征的某一維度。

三個(gè)通道的圖片如何進(jìn)行卷積操作？

至此我們應(yīng)該已經(jīng)知道了單通道的灰度圖是如何處理的，實(shí)際上我們的圖片都是RGB的圖像，有三個(gè)通道，那么此時(shí)圖像是如何卷積的呢？

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

彩色圖像

filter窗口滑的時(shí)候，我們只是從width和height的角度來滑動(dòng)的，并沒有考慮depth，所以每滑動(dòng)一次實(shí)際上是產(chǎn)生一個(gè)卷積核，共享這一個(gè)卷積核，而現(xiàn)在depth=3了，所以每滑動(dòng)一次實(shí)際上產(chǎn)生了具有三個(gè)通道的卷積核（它們分別作用于輸入圖片的藍(lán)色、綠色、紅色通道），卷積核的一個(gè)通道核藍(lán)色的矩陣作用產(chǎn)生一個(gè)值，另一個(gè)和綠色的矩陣作用產(chǎn)生一個(gè)值，最后一個(gè)和紅色的矩陣作用產(chǎn)生一個(gè)值，然后這些值加起來就是下一層結(jié)點(diǎn)的值，結(jié)果也是一個(gè)矩陣，也就是一張?zhí)卣鲌D。

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

三通道的計(jì)算過程

要想有多張?zhí)卣鲌D的話，我們可以再用新的卷積核來進(jìn)行左上到右下的滑動(dòng)，這樣就會形成新的特征圖。

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

三通道圖片的卷積過程

也就是說增加一個(gè)卷積核，就會產(chǎn)生一個(gè)特征圖，總的來說就是輸入圖片有多少通道，我們的卷積核就需要對應(yīng)多少通道，而本層中卷積核有多少個(gè)，就會產(chǎn)生多少個(gè)特征圖。這樣卷積后輸出可以作為新的輸入送入另一個(gè)卷積層中處理，有幾個(gè)特征圖那么depth就是幾，那么下一層的每一個(gè)特征圖就得用相應(yīng)的通道的卷積核來對應(yīng)處理，這個(gè)邏輯要清楚，我們需要先了解一下基本的概念：

深度depth（通道）：由上一層濾波器的個(gè)數(shù)決定
步長stride：每次滑動(dòng)幾步，步數(shù)越大得到的特征數(shù)越少，上面的例子中每次滑動(dòng)1步。
填充值zero-padding：我們設(shè)置了步長之后，很有可能某些位置滑不到，為了避免了邊緣信息被一步步舍棄的問題，我們需要設(shè)置填充值來解決這個(gè)問題。還有一個(gè)問題，4x4的圖片被2x2的filter卷積后變成了3x3的圖片，每次卷積后都會小一圈的話，經(jīng)過若干層后豈不是變的越來越小？zero padding就可以在這時(shí)幫助控制Feature Map的輸出尺寸，同時(shí)避免了邊緣信息被一步步舍棄的問題。

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

卷積計(jì)算的公式

4x4的圖片在邊緣Zero padding一圈后，再用3x3的filter卷積后，得到的Feature Map尺寸依然是4x4不變。

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

填充

當(dāng)然也可以使用5x5的filte和2的zero padding可以保持圖片的原始尺寸，3x3的filter考慮到了像素與其距離為1以內(nèi)的所有其他像素的關(guān)系，而5x5則是考慮像素與其距離為2以內(nèi)的所有其他像素的關(guān)系。

規(guī)律： Feature Map的尺寸等于

(input_size + 2 * padding_size ? filter_size)/stride+1

我們可以把卷積層的作用總結(jié)一點(diǎn)：卷積層其實(shí)就是在提取特征，卷積層中最重要的是卷積核（訓(xùn)練出來的），不同的卷積核可以探測特定的形狀、顏色、對比度等，然后特征圖保持了抓取后的空間結(jié)構(gòu)，所以不同卷積核對應(yīng)的特征圖表示某一維度的特征，具體什么特征可能我們并不知道。特征圖作為輸入再被卷積的話，可以則可以由此探測到'更大'的形狀概念，也就是說隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的增加，特征提取的越來越具體化。

卷積神經(jīng)網(wǎng)絡(luò)之激勵(lì)層

下面講解激勵(lì)層的作用，激勵(lì)層的作用可以理解為把卷積層的結(jié)果做非線性映射。

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

激勵(lì)層

上圖中的f表示激勵(lì)函數(shù)，常用的激勵(lì)函數(shù)幾下幾種：

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

常用的激勵(lì)函數(shù)

我們先來看一下激勵(lì)函數(shù)Sigmoid導(dǎo)數(shù)最小為0，最大為1/4，

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

激勵(lì)函數(shù)Sigmoid

Tanh激活函數(shù)：和sigmoid相似，它會關(guān)于x軸上下對應(yīng)，不至于朝某一方面偏向

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

Tanh激活函數(shù)

ReLU激活函數(shù)（修正線性單元)：收斂快，求梯度快，但較脆弱，左邊的梯度為0

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

ReLU激活函數(shù)

Leaky ReLU激活函數(shù)：不會飽和或者掛掉，計(jì)算也很快，但是計(jì)算量比較大

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

Leaky ReLU激活函數(shù)

一些激勵(lì)函數(shù)的使用技巧：一般不要用sigmoid，首先試RELU，因?yàn)榭欤⌒狞c(diǎn)，如果RELU失效，請用Leaky ReLU，某些情況下tanh倒是有不錯(cuò)的結(jié)果。

這就是卷積神經(jīng)網(wǎng)絡(luò)的激勵(lì)層，它就是將卷積層的線性計(jì)算的結(jié)果進(jìn)行了非線性映射?？梢詮南旅娴膱D中理解。它展示的是將非線性操作應(yīng)用到一個(gè)特征圖中。這里的輸出特征圖也可以看作是'修正'過的特征圖。如下所示：

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

非線性操作

卷積神經(jīng)網(wǎng)絡(luò)之池化層

池化層：降低了各個(gè)特征圖的維度，但可以保持大分重要的信息。池化層夾在連續(xù)的卷積層中間，壓縮數(shù)據(jù)和參數(shù)的量，減小過擬合，池化層并沒有參數(shù)，它只不過是把上層給它的結(jié)果做了一個(gè)下采樣（數(shù)據(jù)壓縮）。下采樣有兩種常用的方式：

Max pooling：選取最大的，我們定義一個(gè)空間鄰域（比如，2x2 的窗口），并從窗口內(nèi)的修正特征圖中取出最大的元素，最大池化被證明效果更好一些。

Average pooling：平均的，我們定義一個(gè)空間鄰域（比如，2x2 的窗口），并從窗口內(nèi)的修正特征圖算出平均值

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

Max pooling

我們要注意一點(diǎn)的是：pooling在不同的depth上是分開執(zhí)行的，也就是depth=5的話，pooling進(jìn)行5次，產(chǎn)生5個(gè)池化后的矩陣，池化不需要參數(shù)控制。池化操作是分開應(yīng)用到各個(gè)特征圖的，我們可以從五個(gè)輸入圖中得到五個(gè)輸出圖。

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

池化操作

無論是max pool還是average pool都有分信息被舍棄，那么部分信息被舍棄后會損壞識別結(jié)果嗎？

因?yàn)榫矸e后的Feature Map中有對于識別物體不必要的冗余信息，我們下采樣就是為了去掉這些冗余信息，所以并不會損壞識別結(jié)果。

我們來看一下卷積之后的冗余信息是怎么產(chǎn)生的？

我們知道卷積核就是為了找到特定維度的信息，比如說某個(gè)形狀，但是圖像中并不會任何地方都出現(xiàn)這個(gè)形狀，但卷積核在卷積過程中沒有出現(xiàn)特定形狀的圖片位置卷積也會產(chǎn)生一個(gè)值，但是這個(gè)值的意義就不是很大了，所以我們使用池化層的作用，將這個(gè)值去掉的話，自然也不會損害識別結(jié)果了。

比如下圖中，假如卷積核探測'橫折'這個(gè)形狀。卷積后得到3x3的Feature Map中，真正有用的就是數(shù)字為3的那個(gè)節(jié)點(diǎn)，其余數(shù)值對于這個(gè)任務(wù)而言都是無關(guān)的。所以用3x3的Max pooling后，并沒有對'橫折'的探測產(chǎn)生影響。試想在這里例子中如果不使用Max pooling，而讓網(wǎng)絡(luò)自己去學(xué)習(xí)。網(wǎng)絡(luò)也會去學(xué)習(xí)與Max pooling近似效果的權(quán)重。因?yàn)槭墙菩Ч?，增加了更多的參?shù)的代價(jià)，卻還不如直接進(jìn)行最大池化處理。

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

最大池化處理

卷積神經(jīng)網(wǎng)絡(luò)之全連接層

在全連接層中所有神經(jīng)元都有權(quán)重連接，通常全連接層在卷積神經(jīng)網(wǎng)絡(luò)尾部。當(dāng)前面卷積層抓取到足以用來識別圖片的特征后，接下來的就是如何進(jìn)行分類。通常卷積網(wǎng)絡(luò)的最后會將末端得到的長方體平攤成一個(gè)長長的向量，并送入全連接層配合輸出層進(jìn)行分類。比如，在下面圖中我們進(jìn)行的圖像分類為四分類問題，所以卷積神經(jīng)網(wǎng)絡(luò)的輸出層就會有四個(gè)神經(jīng)元。

從卷積層、激活層、池化層到全連接層深度解析卷積神經(jīng)網(wǎng)絡(luò)的原理

四分類問題

我們從卷積神經(jīng)網(wǎng)絡(luò)的輸入層、卷積層、激活層、池化層以及全連接層來講解卷積神經(jīng)網(wǎng)絡(luò)，我們可以認(rèn)為全連接層之間的在做特征提取，而全連接層在做分類，這就是卷積神經(jīng)網(wǎng)絡(luò)的核心。

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：黃元章3355 > 《科技藝術(shù)》

舉報(bào)/認(rèn)領(lǐng)