|
上周,老顧訪問了UCLA的師兄朱松純教授和吳英年教授,向他們學習計算機視覺的統(tǒng)計觀點。早在二十多年前,以Mumford先生,朱松純教授為代表的計算機視覺領域的哈佛學派就大力提倡將統(tǒng)計概率系統(tǒng)性地引進到視覺領域,用統(tǒng)計方法來解釋和處理視覺領域的基本問題。目前,這一方法論早已在視覺領域深入人心,實際上也是機器學習的理論基礎之一。最優(yōu)傳輸理論描述了概率分布的幾何,因此有助于我們研究視覺方面的機器學習。下面,我們開始撰寫第三次講稿。 概覽 直觀而言,視覺領域機器學習的統(tǒng)計觀點如下:我們將所有可能的圖像構成的空間設為 近年來,依隨Internet技術的發(fā)展,人類已經(jīng)積累了大量的視覺數(shù)據(jù),這使得估計各種概率分布成為可能。同時,GPU技術的發(fā)展,使得各種統(tǒng)計計算方法的實現(xiàn)成為可能。因此,我們迎來了機器學習的科技大潮。但是,我們依然無法嚴密解釋機器學習算法的有效性。 老顧傾向于認為,從基礎理論角度而言,研究概率分布的一個強有力工具是最優(yōu)傳輸理論(optimal mass transportation theory),這個理論著重揭示概率分布這一自然現(xiàn)象的內在規(guī)律,因此并不從屬于某個學派,也不依賴于具體的算法。相反,這一理論會為算法的發(fā)展提供指導,同時真正合理有效的算法(例如機器學習算法),應該可以被傳輸理論來解釋。 簡而言之,傳輸理論給出了概率分布所構成空間的幾何。給定一個黎曼流形,其上所有的概率分布構成一個無窮維的空間:Wasserstein空間,最優(yōu)傳輸映射的傳輸代價給出了Wasserstein空間的一個黎曼度量。Wasserstein空間中的任意兩點可以用Wasserstein距離來測量相近程度,自然也可以用測地線來插值概率分布。每個概率分布有熵,沿著測地線熵值的變化規(guī)律和黎曼流形的曲率有著本質的關系。這一幾何事實在網(wǎng)絡領域已經(jīng)被應用,但在視覺領域,似乎還沒有相關工作。 但在實際計算中,高維的最優(yōu)傳輸映射,Wasserstein距離計算復雜。一個自然的想法是降維,將高維空間的概率分布投影到低維子空間,在低維空間上計算邊際分布之間的變換。這有些象盲人摸象,每次得到局部信息,如果摸得充分,我們也可以恢復大象的整體信息。 回顧 在第一講(看穿機器學習W-GAN的黑箱)中,我們給出了最優(yōu)傳輸問題的凸幾何解釋:給定兩個概率分布
這里 在第二講(看穿機器學習的黑箱(II))中,我們澄清了這樣的觀點:相比于學習一個映射,學習一個概率分布要容易很多。滿足 但是,在視覺問題中,通常圖像全空間的維數(shù)非常高,計算難度較高。因此,我們可以放棄理論上的最優(yōu)性,尋找計算更加簡單有效,同時又和最優(yōu)傳輸距離等價的算法。下面,我們就討論這些更為實用的算法及其背后的理論。 直方圖均衡化
直方圖均衡化是提高灰度圖像對比度的常見算法。如圖1所示,左側輸入圖像的灰度分布在一個狹窄區(qū)域,朦朧昏暗;右側是直方圖均衡化的結果,清晰明亮,對比鮮明。我們設輸入圖像像素的灰度為一隨機變量,其取值范圍為單位區(qū)間 實際上,傳統(tǒng)的直方圖均衡化就是一維的最優(yōu)傳送映射。假設我們有兩個連續(xù)的概率分布
那么直方圖均衡化映射就是傳輸映射:
另一方面,我們應用最優(yōu)傳輸理論:存在一個凸函數(shù),其梯度映射給出最優(yōu)傳輸映射。由函數(shù) 因此,一維的最優(yōu)傳輸映射非常容易計算。下面,我們應用一維最優(yōu)傳輸映射來近似高維最優(yōu)傳輸映射。 迭代分布傳輸算法 有多種最優(yōu)傳輸映射的近似算法。我們先討論迭代分布傳輸算法(Iterative Distribution Transfer ):給定單位向量
投影誘導的概率分布(邊際概率分布)記為
由此構造映射,在標架
其誘導的概率分布為
將初始概率分布
圖2. 從拉東變換恢復的醫(yī)學圖像。 這一論斷的證明需要用到拉東變換(Radon Transform):給定
換句話說,給定一個單位向量,它生成一條直線,我們將全空間向這條直線投影,得到邊際概率分布。拉東變換的基本定理斷言:如果兩個概率測度的拉東變換相等,則兩個概率測度相等。如圖2所示,這一定理是醫(yī)學圖像上CT斷層掃描技術的基本原理。 迭代算法如果最后達到一個平衡狀態(tài),則在任意一條過原點的直線上, 投影Wasserstein距離梯度下降法 另外一種迭代算法想法比較類似。給定兩個
我們考察所有的單位向量,然后取平均
去一個步長參數(shù)
這里
圖3. 用于愚弄深度神經(jīng)網(wǎng)的圖像(A. Nguyen, J. Yosinski and J. Clune, Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images, CVPR2015.) 局限性和脆弱性 拉東變換將聯(lián)合概率分布轉換成向所有一維子空間投影所得的邊際概率分布,從而實現(xiàn)了降維,簡化了計算。但是,如果有一些子空間的邊際分布缺失,我們無法精確恢復原來的聯(lián)合分布。在視覺問題中,每個線性子空間被視為一個特征,向子空間投影,等價于特征提取。 深度神經(jīng)網(wǎng)在解決視覺分類問題中表現(xiàn)出色,但是也非常容易被愚弄。如圖3所示,人類可以輕易看出這些是非自然圖像,在現(xiàn)實生活中不具備任何意義。但是深度神經(jīng)網(wǎng)絡非常自信地將它們歸結為訓練過的類別。如果,我們以欣賞現(xiàn)代抽象藝術的心態(tài)來研究這些圖像,我們能夠領會到深度神經(jīng)網(wǎng)絡分類結果的內在合理性:這些圖像的確具有它們所對應類別的內在“神韻”。從紋理層次而言,它們和對應類別的紋理非?!吧袼啤保粡恼Z義層面而言,這些圖像則是無意義的和荒謬的。 我們可以給出一種解釋:那就是投影子空間選得不夠,因此即便是在這些子空間上邊際概率分布相似,但是聯(lián)合概率分布依然相差很大。深度神經(jīng)網(wǎng)所得到的訓練集是自然圖像,圖3這些圖像都在自然圖像空間之外,但是投影在所選擇的子空間后,自然圖像和非自然圖像無法進行分別。由此,引發(fā)了深度神經(jīng)網(wǎng)絡脆弱性。
圖4. 視網(wǎng)膜到大腦皮層的映射是保角變換。(A. Fazl, S. Grossberg and E. Mingolla, Visual Search, Eye Movements and Object Recognition) 討論 人類的低級視覺在很大程度上依賴于統(tǒng)計特性,因此可以歸結為對概率分布的處理和演算。人腦是否真的在計算最優(yōu)傳輸映射、計算Wasserstein距離?在歷史上,人類經(jīng)常首先發(fā)現(xiàn)某些數(shù)學原理,然后又發(fā)現(xiàn)這些原理在生物器官上早已應用。例如,人類首先發(fā)現(xiàn)了傅里葉分解原理,然后發(fā)現(xiàn)人類耳蝸神經(jīng)結構就是在對聲音信號進行傅里葉分解;又如,人類首先發(fā)現(xiàn)了保角變換(共形變換),后來發(fā)現(xiàn)從視網(wǎng)膜到第一級的視覺中樞就是保角變換,如圖4所示。這項工作曾經(jīng)獲得過諾貝爾獎。因此,如果若干年后,人們證實大腦的確在計算概率分布之間的距離,老顧也不會覺得意外。 因此,我們相信在一些視覺應用中,深度神經(jīng)網(wǎng)絡隱含地構建概率模型,我們可以直接用概率的工具,例如最優(yōu)傳輸理論及其各種降維近似,直接取代神經(jīng)網(wǎng)絡,從而使得黑箱透明。 |
|
|