小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

薛定諤的滾與深度學習中的物理

 taotao_2016 2017-03-18

薛定諤的滾與深度學習中的無力

【導讀】作者從薛定諤的“滾”講到世界的量子性、神經網絡的最大似然等等,用頗具趣味的方式呈現了深度學習中無處不在的物理本質。

最近朋友圈里有大神分享薛定諤的滾,一下子火了,“當一個妹子叫你滾的時候,你永遠不知道她是在叫你滾還是叫你過來抱緊”,這確實是一種十分糾結的狀態(tài),而薛定諤是搞不清楚的,他連自己的貓是怎么回事還沒有弄清楚。雖然人們對于薛定諤頭腦中那只被放射性物質殘害的貓的生死一直眾說紛紜,斯特恩·蓋拉赫卻在實驗中,實實在在看到了,我們身處的這個物理世界的量子性,也就是既生又死、既真又假、既夢又醒、既粒又波、既此又彼的存在,按照老子的說法是,玄之又玄,眾妙之門。

 

量子性是這個世界已知的基本特征,未來的世界是我們的,也是你們的,但歸根結底是量子的:通訊將是量子的,計算將是量子的,人工智能也將是量子的。這個物理世界運行的基本邏輯,決定了我們身邊的一切。不要再糾結是莊周做夢變成了蝴蝶、還是蝴蝶做夢變成了莊周,不要再迷惑南科大朱老師的物質意識的雞與蛋的問題,拿起你的手機使勁往地上一摔,你就知道這個世界是客觀的還是主觀的了。

 

當然量子性不一定是終極真理,還有許多神秘的現象需要解釋,比如有鬼魅般超距作用的量子糾纏。但要相信,從牛頓到麥克斯韋,從愛因斯坦到波爾,人類不斷了解和認知這個世界的本質,比如能量守恒,比如不可逆的熵增,比如質能方程,比如量子性。這些物理的本質滲透到周遭的方方面面,而火熱的深度學習,學的就是現實生活的事物,通過觀測推演獲取這些事物的內在邏輯,因而是處處遵從這些物理原理的。

 

大部分的現代神經網絡算法都是利用最大似然法(Maximum Likelyhood)訓練的,IanGoodfellow 與Yoshua Bengio更是在他們著的《深度學習》一書中詳述了利用香農的信息熵構建深度學習損失函數的通用形式:



這些神經網絡“似”的什么“然”呢?損失函數中的條件概率、信息熵向我們傳達一個怎樣的思想呢?在《迷人的數據與香農的視角》(http://mp.weixin.qq.com/s/qgWU6qbEsgXP6GKTVvE6Hg)一文中,我曾經討論過香農熵與熱力學熵的關系:“每一個熱力學系統對外表現出宏觀的特征,溫度、壓力、體積等”,“而其內部卻是由無數不確定位置、速度、形態(tài)的分子原子組成”,“那些無約束,充分發(fā)展了的隨機變量,達到了勢能最低的穩(wěn)定狀態(tài)”,對外展現的信息由此勢能最低狀態(tài)的概率分布決定。換種形式,可以將該狀態(tài)的概率分布的對數,定義為此系統攜帶的信息量,也就是香農熵。所以這里“似”的“然”就是一種最低勢能狀態(tài),或者說對外展現出最大信息熵的狀態(tài)。

 

而這個最大似然,不是沒有條件的,注意到“充分發(fā)展”這個說法了嗎?“充分發(fā)展”的系統是一種相對穩(wěn)定的系統。我在《站在香農與玻爾茲曼肩上,看深度學習的術與道》(http://mp.weixin.qq.com/s/T6YWQY2yUto4eZa3lEgY3Q)文中強調過,“通過訓練尋找這些概率分布函數,其中隱含著一個基本假設,就是系統是處于相對穩(wěn)定狀態(tài)的,一個急速演進中的開放系統,概率的方法應該是不適合的”,“又比如玻爾茲曼機,基于哈密爾頓自由能的分布其實都是有隱含的系統相對穩(wěn)定假設的(玻爾茲曼分布是“平衡態(tài)”氣體分子的能量分布律)。對于非穩(wěn)定系統,就得求助于普利高津了”。所以使用諸如RBM(Restricted Boltzmann Machines)之類的深度學習算法的時候,我們首先需要研究一下問題域是不是相對穩(wěn)定的。

 

上文中提到的“玻爾茲曼分布”,是描述理想氣體在受保守外力作用、或保守外力場的作用不可忽略時,處于熱平衡態(tài)下的氣體分子按能量的分布規(guī)律:



這里的 q 叫做配分函數(Partition Function),就是系統中粒子在不同能量級上的分布,它是連接微觀粒子狀態(tài)與宏觀狀態(tài)的橋梁,是整個統計力學的核心。不僅對于氣體粒子,玻爾茲曼分布同樣被證實適用其他微觀到宏觀的狀態(tài)演化,比如著名的Ising Model。Ising Model最初是用來解釋鐵磁物質的相變(磁鐵加熱到一定溫度以上出現磁性消失)的,模型標定每個小磁針兩個狀態(tài)( 1 -1),所有N個粒子的狀態(tài)組合是一個'配置',則系統共有2的N次方個'配置',該系統的數量眾多“配置”的不同能量級分布服從“玻爾茲曼分布”:

因模型簡單與高度抽象,IsingModel被廣泛應用于自然科學與社會科學等眾多領域。如果將小磁針看作神經元,磁針狀態(tài)看作激發(fā)與抑制,Ising Model 也可以用來構建深度學習的Hopfield模型,或者玻爾茲曼機 。Hopfield Associative Memory (HAM)是經典的神經網絡,它僅包含顯式神經單元,給這些單元賦予能量,經過推導,我們可以得到這個神經網絡的配分函數和自由能表達式,看起來是不是似曾相識?



不過HAM模型有不少顯而易見的缺點(無法一層層提取潛變量的信息),Hinton因而創(chuàng)造了有隱含神經元的RBM。

 

在《迷人的數據與香農的視角》與《站在香農與玻爾茲曼肩上,看深度學習的術與道》兩文中,我反復介紹了自己的“頓悟”:“事物由不同層次的隨機變量展現出來的信息來表達,不同層次上的隨機變量攜帶不同的信息,共同組合影響上一層的隨機變量的信息表達,而隨機變量對外表達的信息則取決于該隨機變量的條件概率分布”。如果要給這個“頓悟”找個科學的解釋,最合適就是尺度重整化(ScaleRenormalization)了。Charles H Martin博士2015年在其文章 《Why Deep Learning Works II: theRenormalization Group》提到,在神經網絡中引入隱含節(jié)點就是尺度重整化。

 

每次尺度變換后,我們計算系統有效的哈密爾頓能量,作用在新的特征空間(潛變量空間),合理的尺度重整化保持了系統哈密爾頓自由能的不變性。注意這里的能量守恒,它確保了尺度重整化的合理性。每一次尺度變換后,自由能保持不變。F =-lnZ,  這里Z是配分函數(上文的q),是一個能量(不同能級上粒子數)的概率分布,Z不變,即能量的概率分布不變,就是要求潛變量的特征空間中的大尺度“粒子”能滿足原來能量的概率分布。重整化群給出了損失函數,也就是不同層的F自由能的差異, 訓練就是來最小化這個差異。

 

這么多的基礎理論,展現了深度學習中的無處不在的物理本質。我還可以舉幾個大家熟悉的例子,激發(fā)思考:CNN 中卷積的意義是什么,平滑輸入特征對最終的模型為什么是有效的,為什么池化(pooling)很實用?動量(Momentum)優(yōu)化方法為什么比普通的SGD快,而且適用高曲率的場合? 為什么Dropout是高效、低能耗的 規(guī)則化(Regularization)方法?為何Lecun新提出的EBGAN有更好的收斂模式和生成高分辨率圖像的可擴展性?不一而足,深度學習實驗室應該多歡迎一些物理背景的學者參與進來??!

 

人法地,地法天,天法道,道法自然。在女生節(jié)、女神節(jié)里,對身邊可愛、聰慧、善良、溫婉、賢惠與偉大的女性同胞多一聲祝福,衷心希望男同胞不要收到“薛定諤的滾”!用智慧的頭腦,不斷重整化我們的認知、態(tài)度,讓和諧與美好成為最大似然。

 


作者簡介

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多