小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

看穿機器學習的黑箱(III)

 蠟筆小小兎 2017-02-22

上周,老顧訪問了UCLA的師兄朱松純教授和吳英年教授,向他們學習計算機視覺的統(tǒng)計觀點。早在二十多年前,以Mumford先生,朱松純教授為代表的計算機視覺領域的哈佛學派就大力提倡將統(tǒng)計概率系統(tǒng)性地引進到視覺領域,用統(tǒng)計方法來解釋和處理視覺領域的基本問題。目前,這一方法論早已在視覺領域深入人心,實際上也是機器學習的理論基礎之一。最優(yōu)傳輸理論描述了概率分布的幾何,因此有助于我們研究視覺方面的機器學習。下面,我們開始撰寫第三次講稿。

概覽

直觀而言,視覺領域機器學習的統(tǒng)計觀點如下:我們將所有可能的圖像構成的空間設為,其中n是總的像素個數(shù),每張圖像視為全圖像空間中的一個點。每個有意義的視覺“概念”(例如所有貓的圖像)是全空間的一個可測子集,。固定一個概念,每張圖片是否表達了這個概念就給出了一個概率分布。這樣,視覺中的問題就被轉化為概率統(tǒng)計的問題:如何表示概率分布,如何衡量概率分布間的距離,如何近似一個概率分布,如何生成滿足特定概率分布的隨機變量,如何根據(jù)概率分布進行統(tǒng)計推斷,等等。


近年來,依隨Internet技術的發(fā)展,人類已經(jīng)積累了大量的視覺數(shù)據(jù),這使得估計各種概率分布成為可能。同時,GPU技術的發(fā)展,使得各種統(tǒng)計計算方法的實現(xiàn)成為可能。因此,我們迎來了機器學習的科技大潮。但是,我們依然無法嚴密解釋機器學習算法的有效性。


老顧傾向于認為,從基礎理論角度而言,研究概率分布的一個強有力工具是最優(yōu)傳輸理論(optimal mass transportation theory),這個理論著重揭示概率分布這一自然現(xiàn)象的內在規(guī)律,因此并不從屬于某個學派,也不依賴于具體的算法。相反,這一理論會為算法的發(fā)展提供指導,同時真正合理有效的算法(例如機器學習算法),應該可以被傳輸理論來解釋。


簡而言之,傳輸理論給出了概率分布所構成空間的幾何。給定一個黎曼流形,其上所有的概率分布構成一個無窮維的空間:Wasserstein空間,最優(yōu)傳輸映射的傳輸代價給出了Wasserstein空間的一個黎曼度量。Wasserstein空間中的任意兩點可以用Wasserstein距離來測量相近程度,自然也可以用測地線來插值概率分布。每個概率分布有熵,沿著測地線熵值的變化規(guī)律和黎曼流形的曲率有著本質的關系。這一幾何事實在網(wǎng)絡領域已經(jīng)被應用,但在視覺領域,似乎還沒有相關工作。


但在實際計算中,高維的最優(yōu)傳輸映射,Wasserstein距離計算復雜。一個自然的想法是降維,將高維空間的概率分布投影到低維子空間,在低維空間上計算邊際分布之間的變換。這有些象盲人摸象,每次得到局部信息,如果摸得充分,我們也可以恢復大象的整體信息。

回顧

第一講(看穿機器學習W-GAN的黑箱)中,我們給出了最優(yōu)傳輸問題的凸幾何解釋:給定兩個概率分布,存在唯一的最優(yōu)傳輸映射,將初始概率分布變換成目標概率分布,同時極小化傳輸代價,

,

這里被稱為是兩個概率分布之間的Wasserstein距離。同時,最優(yōu)傳輸映射是某個凸函數(shù)的梯度映射,,這個函數(shù)滿足蒙日-安培方程。我們的理論給出了一種幾何變分方法來求解最優(yōu)傳輸映射。


第二講(看穿機器學習的黑箱(II))中,我們澄清了這樣的觀點:相比于學習一個映射,學習一個概率分布要容易很多。滿足的映射構成了一個無窮維的李群。


但是,在視覺問題中,通常圖像全空間的維數(shù)非常高,計算難度較高。因此,我們可以放棄理論上的最優(yōu)性,尋找計算更加簡單有效,同時又和最優(yōu)傳輸距離等價的算法。下面,我們就討論這些更為實用的算法及其背后的理論。

直方圖均衡化


圖1. 直方圖均衡化結果(histogram equalization)。


直方圖均衡化是提高灰度圖像對比度的常見算法。如圖1所示,左側輸入圖像的灰度分布在一個狹窄區(qū)域,朦朧昏暗;右側是直方圖均衡化的結果,清晰明亮,對比鮮明。我們設輸入圖像像素的灰度為一隨機變量,其取值范圍為單位區(qū)間,其概率測度為,直方圖均衡化算法的核心就是求灰度空間(單位區(qū)間)到自身的一個映射,這一映射將變換成均勻分布。


實際上,傳統(tǒng)的直方圖均衡化就是一維的最優(yōu)傳送映射。假設我們有兩個連續(xù)的概率分布,其對應的累積分布函數(shù)(CDF)是

,

那么直方圖均衡化映射就是傳輸映射:。首先,我們可以證明這個映射滿足兩個條件:

  1. ,

  2. 單調遞增。

另一方面,我們應用最優(yōu)傳輸理論:存在一個凸函數(shù),其梯度映射給出最優(yōu)傳輸映射。由函數(shù)的凸性,我們得到最優(yōu)傳輸映射也滿足上面兩條性質。更進一步,我們可以證明,在一維情形,滿足上面兩條的映射是唯一的。這意味著,一維直方圖均衡化映射就是最優(yōu)傳輸映射。


因此,一維的最優(yōu)傳輸映射非常容易計算。下面,我們應用一維最優(yōu)傳輸映射來近似高維最優(yōu)傳輸映射。


迭代分布傳輸算法

有多種最優(yōu)傳輸映射的近似算法。我們先討論迭代分布傳輸算法(Iterative Distribution Transfer ):給定單位向量,我們將整個空間投影到一維線性子空間上,投影映射為:

投影誘導的概率分布(邊際概率分布)記為。在算法第k步,假設當前源空間的概率分布為;我們隨機選取歐氏空間的一個標準正交基;為每一個基底向量構造一維的最優(yōu)傳輸映射

,

由此構造映射,在標架

,

其誘導的概率分布為 。不停地重復這一步驟,對于足夠大的n,復合映射:

,

將初始概率分布映成了目標概率分布。


圖2. 從拉東變換恢復的醫(yī)學圖像。


這一論斷的證明需要用到拉東變換(Radon Transform):給定中的一個概率分布,的Radon transform 是一族一維的概率測度,

換句話說,給定一個單位向量,它生成一條直線,我們將全空間向這條直線投影,得到邊際概率分布。拉東變換的基本定理斷言:如果兩個概率測度的拉東變換相等,則兩個概率測度相等。如圖2所示,這一定理是醫(yī)學圖像上CT斷層掃描技術的基本原理。


迭代算法如果最后達到一個平衡狀態(tài),則在任意一條過原點的直線上,的邊際概率分布等于的邊際概率分布,因此由拉東變換原理收斂于,。這樣,我們將高維的傳輸映射轉換成一維傳輸映射的復合,降低了計算難度。


投影Wasserstein距離梯度下降法

另外一種迭代算法想法比較類似。給定兩個上定義的概率測度,對于任意一個單位向量,我們考慮投影映射。投影映射誘導兩個直線上的概率分布,它們之間的最優(yōu)傳輸映射記為。由此,每個點都沿著平移一個向量:

。

我們考察所有的單位向量,然后取平均

,

去一個步長參數(shù),每個點平移到,相應的概率分布變?yōu)?img doc360img-src='http://image103.360doc.com/DownloadImg/2017/02/2219/92099211_55' data-ratio='0.144' data-type='png' data-w='125' title='This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program.' src='http://pubimage.360doc.com/wz/default.gif'>。重復以上步驟,我們可以證明所得的概率分布沿著距離收斂。這里距離是所謂的投影Wasserstein距離,其具體定義如下:

這里是Wasserstein距離。投影Wasserstein距離和Wasserstein距離誘導Wasserstein空間同樣的拓撲,但是計算起來相對容易很多。


圖3. 用于愚弄深度神經(jīng)網(wǎng)的圖像(A. Nguyen, J. Yosinski and J. Clune, Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images, CVPR2015.)


局限性和脆弱性


拉東變換將聯(lián)合概率分布轉換成向所有一維子空間投影所得的邊際概率分布,從而實現(xiàn)了降維,簡化了計算。但是,如果有一些子空間的邊際分布缺失,我們無法精確恢復原來的聯(lián)合分布。在視覺問題中,每個線性子空間被視為一個特征,向子空間投影,等價于特征提取。


深度神經(jīng)網(wǎng)在解決視覺分類問題中表現(xiàn)出色,但是也非常容易被愚弄。如圖3所示,人類可以輕易看出這些是非自然圖像,在現(xiàn)實生活中不具備任何意義。但是深度神經(jīng)網(wǎng)絡非常自信地將它們歸結為訓練過的類別。如果,我們以欣賞現(xiàn)代抽象藝術的心態(tài)來研究這些圖像,我們能夠領會到深度神經(jīng)網(wǎng)絡分類結果的內在合理性:這些圖像的確具有它們所對應類別的內在“神韻”。從紋理層次而言,它們和對應類別的紋理非?!吧袼啤保粡恼Z義層面而言,這些圖像則是無意義的和荒謬的。


我們可以給出一種解釋:那就是投影子空間選得不夠,因此即便是在這些子空間上邊際概率分布相似,但是聯(lián)合概率分布依然相差很大。深度神經(jīng)網(wǎng)所得到的訓練集是自然圖像,圖3這些圖像都在自然圖像空間之外,但是投影在所選擇的子空間后,自然圖像和非自然圖像無法進行分別。由此,引發(fā)了深度神經(jīng)網(wǎng)絡脆弱性。


圖4. 視網(wǎng)膜到大腦皮層的映射是保角變換。(A. Fazl, S. Grossberg and E. Mingolla, Visual Search, Eye Movements and Object Recognition)


討論

人類的低級視覺在很大程度上依賴于統(tǒng)計特性,因此可以歸結為對概率分布的處理和演算。人腦是否真的在計算最優(yōu)傳輸映射、計算Wasserstein距離?在歷史上,人類經(jīng)常首先發(fā)現(xiàn)某些數(shù)學原理,然后又發(fā)現(xiàn)這些原理在生物器官上早已應用。例如,人類首先發(fā)現(xiàn)了傅里葉分解原理,然后發(fā)現(xiàn)人類耳蝸神經(jīng)結構就是在對聲音信號進行傅里葉分解;又如,人類首先發(fā)現(xiàn)了保角變換(共形變換),后來發(fā)現(xiàn)從視網(wǎng)膜到第一級的視覺中樞就是保角變換,如圖4所示。這項工作曾經(jīng)獲得過諾貝爾獎。因此,如果若干年后,人們證實大腦的確在計算概率分布之間的距離,老顧也不會覺得意外。


因此,我們相信在一些視覺應用中,深度神經(jīng)網(wǎng)絡隱含地構建概率模型,我們可以直接用概率的工具,例如最優(yōu)傳輸理論及其各種降維近似,直接取代神經(jīng)網(wǎng)絡,從而使得黑箱透明。


    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多