|
出自統(tǒng)計之都 原文地址:http:///2013/01/story-of-normal-distribution-1/ 更多正態(tài)分布的介紹,參見正態(tài)分布的前世今生(1)。 四、眾里尋她千百度,誤差分布曲線的確立 第三個故事有點長,主角是高斯和拉普拉斯,故事的主要內(nèi)容尋找隨機誤差分布的規(guī)律。 天文學(xué)是第一個被測量誤差困擾的學(xué)科,從古代至十八世紀天文學(xué)一直是應(yīng)用數(shù)學(xué)最發(fā)達的領(lǐng)域,到十八世紀,天文學(xué)的發(fā)展積累了大量的天文學(xué)數(shù)據(jù)需要分析計算,應(yīng)該如何來處理數(shù)據(jù)中的觀測誤差成為一個很棘手的問題。我們在數(shù)據(jù)處理中經(jīng)常使用平均的常識性法則,千百年來的數(shù)據(jù)使用經(jīng)驗說明算術(shù)平均能夠消除誤差,提高精度。平均有如此的魅力,道理何在,之前沒有人做過理論上的證明。算術(shù)平均的合理性問題在天文學(xué)的數(shù)據(jù)分析工作中被提出來討論:測量中的隨機誤差服應(yīng)該服從怎樣的概率分布?算術(shù)平均的優(yōu)良性和誤差的分布有怎樣的密切聯(lián)系? 伽利略在他著名的《關(guān)于兩個主要世界系統(tǒng)的對話》中,對誤差的分布做過一些定性的描述,主要包括: · 誤差是對稱分布的; · 大的誤差出現(xiàn)頻率低,小的誤差出現(xiàn)頻率高。 用數(shù)學(xué)的語言描述,也就是說誤差分布函數(shù)f(x)關(guān)于0對稱分布,概率密度隨|x|增加而減小,這兩個定性的描述都很符合常識。 許多天文學(xué)家和數(shù)學(xué)家開始了尋找誤差分布曲線的嘗試。托馬斯·辛普森(Thomas Simpson,1710-1761)先走出了有意義的一步。設(shè)真值為θ,而x1,,xn為n次測量值,每次測量的誤差為ei=xiθ,若用算術(shù)平均xˉ=(∑ni=1xi)/n去估計θ,其誤差為eˉ=(∑ni=1ei)/n。Simpson證明了,對于如下的一個概率分布, 【Simpson的誤差態(tài)分布曲線】 有下面的估計: P(|eˉ|x)≥P(|e1|x)
在1772-1774年間,拉普拉斯也加入到了尋找誤差分布函數(shù)的隊伍中。拉普拉斯假定誤差分布函數(shù)f(x)滿足如下性質(zhì) f′(x)=mf(x). 由此最終求得的分布函數(shù)為 f(x)=m2em|x| 這個概率密度函數(shù)現(xiàn)在被稱為拉普拉斯分布。
以這個函數(shù)作為誤差分布,拉普拉斯開始考慮如何基于測量的結(jié)果去估計未知參數(shù)的值。拉普拉斯可以算是一個貝葉斯主義者,他的參數(shù)估計的原則和現(xiàn)代貝葉斯方法非常相似:假設(shè)先驗分布是均勻的,計算出參數(shù)的后驗分布后,取后驗分布的中值點,即1/2分位點,作為參數(shù)估計值??墒腔谶@個誤差分布函數(shù)做了一些計算之后,拉普拉斯發(fā)現(xiàn)計算過于復(fù)雜,最終沒能給出什么有用的結(jié)果。 拉普拉斯可是概率論的大牛,寫過兩本極有影響力的《概率分析理論》,不過以我的數(shù)學(xué)審美,實在無法理解拉普拉斯這樣的大牛怎么找了一個零點不可導(dǎo)的誤差的分布函數(shù),拉普拉斯最終還是沒能搞定誤差分布的問題。 現(xiàn)在輪到高斯登場了,高斯在數(shù)學(xué)史中的地位極高,號稱數(shù)學(xué)史上的狐貍,數(shù)學(xué)家阿貝爾對他的評論是“他像狐貍一樣,用其尾巴把其在沙灘上的蹤跡清除掉”(He is like the fox, who effaces histracks in the sand with his tail.)我們的數(shù)學(xué)大師陳省身把黎曼和龐加萊(Henri Poincaré)稱為數(shù)學(xué)家中的菩薩,而稱自己為羅漢;高斯是黎曼的導(dǎo)師,數(shù)學(xué)圈里有些教授把高斯稱為數(shù)學(xué)家中的佛。在數(shù)學(xué)家中既能仰望理論數(shù)學(xué)的星空,又能腳踏應(yīng)用數(shù)學(xué)的實地的可不多見,高斯是數(shù)學(xué)家中少有的頂“天”立“地”的人物,他既對純理論數(shù)學(xué)有深刻的洞察力,又極其重視數(shù)學(xué)在實踐中的應(yīng)用。在誤差分布的處理中,高斯以極其簡單的手法確立了隨機誤差的概率分布,其結(jié)果成為數(shù)理統(tǒng)計發(fā)展史上的一塊里程碑。 高斯的介入首先要從天文學(xué)界的一個事件說起。1801年1月,天文學(xué)家Giuseppe Piazzi發(fā)現(xiàn)了一顆從未見過的光度8等的星在移動,這顆現(xiàn)在被稱作谷神星(Ceres)的小行星在夜空中出現(xiàn)6個星期,掃過八度角后在就在太陽的光芒下沒了蹤影,無法觀測。而留下的觀測數(shù)據(jù)有限,難以計算出他的軌道,天文學(xué)家也因此無法確定這顆新星是彗星還是行星,這個問題很快成了學(xué)術(shù)界關(guān)注的焦點。高斯當時已經(jīng)是很有名望的年輕數(shù)學(xué)家了,這個問題也引起了他的興趣。高斯以其卓越的數(shù)學(xué)才能創(chuàng)立了一種嶄新的行星軌道的計算方法,一個小時之內(nèi)就計算出了行星的軌道,并預(yù)言了它在夜空中出現(xiàn)的時間和位置。1801年12月31日夜,德國天文愛好者奧伯斯(Heinrich Olbers)在高斯預(yù)言的時間里,用望遠鏡對準了這片天空。果然不出所料,谷神星出現(xiàn)了! 高斯為此名聲大震,但是高斯當時拒絕透露計算軌道的方法,原因可能是高斯認為自己的方法的理論基礎(chǔ)還不夠成熟,而高斯一向治學(xué)嚴謹、精益求精,不輕易發(fā)表沒有思考成熟的理論。直到1809年高斯系統(tǒng)地完善了相關(guān)的數(shù)學(xué)理論后,才將他的方法公布于眾,而其中使用的數(shù)據(jù)分析方法,就是以正態(tài)誤差分布為基礎(chǔ)的最小二乘法。那高斯是如何推導(dǎo)出誤差分布為正態(tài)分布的?讓我們看看高斯是如何猜測上帝的意圖的。 設(shè)真值為θ,而x1,,xn為n次獨立測量值,每次測量的誤差為ei=xiθ,假設(shè)誤差ei的密度函數(shù)為f(e),則測量值的聯(lián)合概率為n個誤差的聯(lián)合概率,記為 L(θ)=L(θ;x1,,xn)=f(e1)f(en)=f(x1θ)f(xnθ). (4) 但是高斯不采用貝葉斯的推理方式,而是直接取L(θ)達到最大值的θ^=θ^(x1,,xn)作為θ的估計值,即 θ^=argmaxθL(θ). 現(xiàn)在我們把L(θ)稱為樣本的似然函數(shù),而得到的估計值θ^稱為極大似然估計。高斯首次給出了極大似然的思想,這個思想后來被統(tǒng)計學(xué)家R.A.Fisher系統(tǒng)地發(fā)展成為參數(shù)估計中的極大似然估計理論。 高斯接下來的想法特別牛,他開始揣度上帝的意圖,而這充分體現(xiàn)了高斯的數(shù)學(xué)天才。他把整個問題的思考模式倒過來:既然千百年來大家都認為算術(shù)平均是一個好的估計,那我就認為極大似然估計導(dǎo)出的就應(yīng)該是算術(shù)平均!所以高斯猜測上帝在創(chuàng)世紀中的旨意就是: 誤差分布導(dǎo)出的極大似然估計 = 算術(shù)平均值.
f(x)=12π√σexp(x22σ2). 瞧,正態(tài)分布的密度函數(shù)N(0,σ2)被高斯他老人家給解出來了! 進一步,高斯基于這個誤差分布函數(shù)對最小二乘法給出了一個很漂亮的解釋。對于最小二乘公式中涉及的每個誤差ei(見前面的公式(3),有ei~N(0,σ2),則(e1,,en)的聯(lián)合概率分布為 (e1,,en)~1(2π√σ)nexp(12σ2∑i=1ne2i). 要使得這個概率最大,必須使得∑ni=1e2i取最小值,這正好就是最小二乘法的要求。 高斯所拓展的最小二乘法成為了十九世紀統(tǒng)計學(xué)的最重要成就,它在十九世紀統(tǒng)計學(xué)的重要性就相當于十八世紀的微積分之于數(shù)學(xué)。而勒讓德和高斯的最小二乘發(fā)明權(quán)之爭,成了數(shù)學(xué)史上僅次于牛頓、萊布尼茨微積分發(fā)明權(quán)的爭端。相比于勒讓德1805給出的最小二乘法描述,高斯基于誤差正態(tài)分布的最小二乘理論顯然更高一籌,高斯的工作中既提出了極大似然估計的思想,又解決了誤差的概率密度分布的問題,由此我們可以對誤差大小的影響進行統(tǒng)計度量了。高斯的這項工作對后世的影響極大,而正態(tài)分布也因此被冠名高斯分布。估計高斯本人當時是完全沒有意識到他的這個工作給現(xiàn)代數(shù)理統(tǒng)計學(xué)帶來的深刻影響。高斯在數(shù)學(xué)上的貢獻特多,去世前他要求給自己的墓碑上雕刻上正十七邊形,以說明他在正十七邊形尺規(guī)作圖上的杰出工作。而后世的德國鈔票和鋼镚上是以正態(tài)密度曲線來紀念高斯,這足以說明高斯的這項工作在當代科學(xué)發(fā)展中的份量。 十七、十八世紀科學(xué)界流行的做法,是盡可能從某種簡單明了的準則(firstprinciple)出發(fā)進行邏輯推導(dǎo)。高斯設(shè)定了準則“最大似然估計應(yīng)該導(dǎo)出優(yōu)良的算術(shù)平均”,并導(dǎo)出了誤差服從正態(tài)分布,推導(dǎo)的形式上非常簡潔優(yōu)美。但是高斯給的準則在邏輯上并不足以讓人完全信服,因為算術(shù)平均的優(yōu)良性當時更多的是一個經(jīng)驗直覺,缺乏嚴格的理論支持。高斯的推導(dǎo)存在循環(huán)論證的味道:因為算術(shù)平均是優(yōu)良的,推出誤差必須服從正態(tài)分布;反過來,又基于正態(tài)分布推導(dǎo)出最小二乘和算術(shù)平均,來說明最小二乘法和算術(shù)平均的優(yōu)良性。這陷入了一個雞生蛋蛋生雞的怪圈,邏輯上算術(shù)平均的優(yōu)良性到底有沒有自行成立的理由呢? 高斯的文章發(fā)表之后,拉普拉斯很快得知了高斯的工作。拉普拉斯看到,正態(tài)分布既可以從拋鋼镚產(chǎn)生的序列求和中生成出來,又可以被優(yōu)雅地作為誤差分布定律,這難道是偶然現(xiàn)象?拉普拉斯不愧為概率論的大牛,他馬上將誤差的正態(tài)分布理論和中心極限定理聯(lián)系起來,提出了元誤差解釋。他指出如果誤差可以看成許多微小量的疊加,則根據(jù)他的中心極限定理,隨機誤差理所當然是高斯分布。而20世紀中心極限定理的進一步發(fā)展,也給這個解釋提供了更多的理論支持。因此有了這個解釋為出發(fā)點,高斯的循環(huán)論證的圈子就可以打破。估計拉普拉斯悟出這個結(jié)論之后一定想撞墻,自己辛辛苦苦尋尋覓覓了這么久的誤差分布曲線就在自己的眼皮底下,自己卻長年來視而不見,被高斯給占了先機。 至此,誤差分布曲線的尋找塵埃落定,正態(tài)分布在誤差分析中確立了自己的地位,并在整個19世紀不斷地開疆擴土,直至在統(tǒng)計學(xué)中鶴立雞群,傲世其它一切概率分布;而高斯和拉普拉斯的工作,為現(xiàn)代統(tǒng)計學(xué)的發(fā)展開啟了一扇大門。 在整個正態(tài)分布被發(fā)現(xiàn)與應(yīng)用的歷史中,棣莫弗、拉普拉斯、高斯各有貢獻,拉普拉斯從中心極限定理的角度解釋它,高斯把它應(yīng)用在誤差分析中,殊途同歸。正態(tài)分布被人們發(fā)現(xiàn)有這么好的性質(zhì),各國人民都爭搶它的冠名權(quán)。因為拉普拉斯是法國人,所以當時在法國被稱為拉普拉斯分布;而高斯是德國人,所以在德國叫做高斯分布;中立國的人稱它為拉普拉斯-高斯分布。后來法國的大數(shù)學(xué)家龐加萊建議改用正態(tài)分布這一中立名稱,而隨后統(tǒng)計學(xué)家卡爾·皮爾森使得這個名稱被廣泛接受: Manyyears ago I called the Laplace-Gaussian curve the normal curve, which name,while it avoids an international question of priority, has the disadvantage ofleading people to believe that all other distributions of frequency are in onesense or another 'abnormal'. -KarlPearson(1920) 不過因為高斯在數(shù)學(xué)家中的名氣實在是太大,正態(tài)分布的桂冠還是更多的被戴在了高斯的腦門上,目前數(shù)學(xué)界通行的用語是正態(tài)分布、高斯分布,兩者并用。 正態(tài)分布在高斯的推動下,迅速在測量誤差分析中被廣泛使用,然而早期也僅限于測量誤差的分析中,其重要性遠沒有被自然科學(xué)和社會科學(xué)領(lǐng)域中的學(xué)者們所認識,那正態(tài)分布是如何從測量誤差分析的小溪,沖向自然科學(xué)和社會科學(xué)的汪洋大海的呢? 五、曲徑通幽處,禪房花木深 在介紹正態(tài)分布的后續(xù)發(fā)展之前,我們來多講一點數(shù)學(xué),也許有些人會覺得枯燥,不過高斯曾經(jīng)說過:“數(shù)學(xué)是上帝的語言”。所以要想更加深入地理解正態(tài)分布的美,唯有通過上帝的語言。 造物主造物的準則往往是簡單明了的,只是在紛繁蕪雜的萬物之中,我們要發(fā)現(xiàn)并領(lǐng)會它并非易事。之前提到過,十七、十八世紀科學(xué)界流行的做法,是盡可能從某種簡單明了的準則(first principle)出發(fā)作為科學(xué)探求的起點;而后來的數(shù)學(xué)家和物理學(xué)家們的研究發(fā)現(xiàn),屢次從一些給定的簡單的準則出發(fā),我們總是被引領(lǐng)到了正態(tài)分布的家門口,這讓人感覺到正態(tài)分布的美妙。 達爾文的表弟高爾頓是生物學(xué)家兼統(tǒng)計學(xué)家,他對正態(tài)分布非常的推崇與贊美:“我?guī)缀醪辉娺^像誤差呈正態(tài)分布這么激發(fā)人們無窮想象的宇宙秩序”。當代兩位偉大的概率學(xué)家Levy和Kac都曾經(jīng)說過,正態(tài)分布是他們切入概率論的初戀情人,具有無窮的魅力。如果古希臘人知道正態(tài)分布,想必奧林匹斯山的神殿里會多出一個正態(tài)女神,由她來掌管世間的混沌。 要拉下正態(tài)分布的神秘面紗展現(xiàn)她的美麗,需要高深的概率論知識,本人在數(shù)學(xué)方面知識淺薄,不能勝任。只能在極為有限的范圍內(nèi)嘗試掀開她的面紗的一角。棣莫弗和拉普拉斯以拋鋼镚的序列求和為出發(fā)點,沿著一條小徑第一次把我們領(lǐng)到了正態(tài)分布的家門口,這條路叫做中心極限定理。而這條路上風(fēng)景秀麗,許多概率學(xué)家都為之傾倒。這條路在20世紀被概率學(xué)家門越拓越寬,成為了通往正態(tài)曲線的一條康莊大道。而數(shù)學(xué)家和物理學(xué)家們發(fā)現(xiàn):條條小路通正態(tài)。著名的物理學(xué)家E.T.Jaynes在他的名著《Probability Theory:the Logic of Science》(中文譯書《概率論沉思錄》)中,描繪了四條通往正態(tài)分布的小徑;曲徑通幽處,禪房花木深,讓我們一起來欣賞一下四條小徑上的風(fēng)景吧。 1. 高斯的推導(dǎo)(1809) 第一條小徑是高斯找到的,高斯以如下準則作為小徑的出發(fā)點 誤差分布導(dǎo)出的極大似然估計 = 算術(shù)平均值 設(shè)真值為θ,而x1,,xn為n次獨立測量值,每次測量的誤差為ei=xiθ,假設(shè)誤差ei的密度函數(shù)為f(e),則測量值的聯(lián)合概率為n個誤差的聯(lián)合概率,記為 L(θ)=L(θ;x1,,xn)=f(e1)f(en)=f(x1θ)f(xnθ) (5) 為求極大似然估計,令 dlogL(θ)dθ=0. 整理后可以得到 ∑i=1nf′(xiθ)f(xiθ)=0. 令g(x)=f′(x)/f(x),由上式可以得到 ∑i=1ng(xiθ)=0. 由于高斯假設(shè)極大似然估計的解就是算術(shù)平均xˉ,把解帶入上式,可以得到 ∑i=1ng(xixˉ)=0. (6) 在上式中取n=2,有 g(x1xˉ)+g(x2xˉ)=0. 由于此時有x1xˉ=(x2xˉ),并且x1,x2是任意的,由此得到:g(x)=g(x).再在(6)式中取n=m+1,并且要求x1==xm=x,且xm+1=mx,則有xˉ=0,并且 ∑i=1ng(xixˉ)=mg(x)+g(mx). 所以得到g(mx)=mg(x).而滿足上式的唯一的連續(xù)函數(shù)就是g(x)=cx,從而進一步可以求解出 f(x)=Mecx2. 由于f(x)是概率分布函數(shù),把f(x)正規(guī)化一下就得到正態(tài)分布密度函數(shù)N(0,σ2). 2. Herschel(1850)和麥克斯韋(1860)的推導(dǎo) 第二條小徑是天文學(xué)家John Hershcel和物理學(xué)家麥克斯韋(Maxwell)發(fā)現(xiàn)的。1850年,天文學(xué)家Herschel在對星星的位置進行測量的時候,需要考慮二維的誤差分布,為了推導(dǎo)這個誤差的概率密度分布f(x,y),Herschel設(shè)置了兩個準則: · x軸和y軸的誤差是相互獨立的,即誤差的概率在正交的方向上相互獨立; · 誤差的概率分布在空間上具有旋轉(zhuǎn)對稱性,即誤差的概率分布和角度沒有關(guān)系。 這兩個準則對于Herschel考慮的實際測量問題看起來都很合理。由準則1,可以得到f(x,y)應(yīng)該具有如下形式 f(x,y)=f(x)f(y). 把這個函數(shù)轉(zhuǎn)換為極坐標,在極坐標下的概率密度函數(shù)設(shè)為g(r,θ),有 f(x,y)=f(rcosθ,rsinθ)=g(r,θ) 由準則2,g(r,θ)具有旋轉(zhuǎn)對稱性,也就是應(yīng)該和θ無關(guān),所以g(r,θ)=g(r),綜合以上,我們可以得到 f(x)f(y)=g(r)=g(x2+y2√). 取y=0,得到g(x)=f(x)f(0),所以上式可以轉(zhuǎn)換為 log[f(x)f(0)]+log[f(y)f(0)]=log[f(x2+y2√)f(0)]. 令log(f(x)/f(0))=h(x),則有 h(x)+h(y)=h(x2+y2√). 從這個函數(shù)方程中可以解出h(x)=ax2,從而可以得到f(x)的一般形式如下 f(x)=απ√eαx2 而f(x)就是正態(tài)分布N(0,1/2α)√,而f(x,y)就是標準二維正態(tài)分布函數(shù)。 f(x,y)=απexp(α(x2+y2)). 1860年,我們偉大的物理學(xué)家麥克斯韋在考慮氣體分子的運動速度分布的時候,在三維空間中基于類似的準則推導(dǎo)出了氣體分子運動的分布是正態(tài)分布ρ(vx,vy,vz)∝exp(α(v2x+v2y+v2z))。這就是著名的麥克斯韋分子速率分布定律。大家還記得我們在普通物理中學(xué)過的麥克斯韋-波爾茲曼氣體速率分布定律嗎? F(v)==(m2πkT)3/2exp(mv22kT)(m2πkT)1/2exp(mv2x2kT)(m2πkT)1/2exp(mv2y2kT)(m2πkT)1/2exp(mv2z2kT) (7) 所以這個分布其實是三個正態(tài)分布的乘積。你的物理老師是否告訴過你其實這個分布就是三維正態(tài)分布?反正我是一直不知道,直到今年才明白。 Herschel-Maxwell推導(dǎo)的神妙之處在于,沒有利用任何概率論的知識,只是基于空間幾何的不變性,就推導(dǎo)出了正態(tài)分布。美國諾貝爾物理學(xué)獎得主費曼(Feymann)每次看到一個有π的數(shù)學(xué)公式的時候,就會問:圓在哪里?這個推導(dǎo)中使用到了x2+y2,也就是告訴我們正態(tài)分布密度公式中有個π,其根源來在于二維正態(tài)分布中的等高線恰好是個圓。 3. Landon的推導(dǎo)(1941) 第三條道是一位電氣工程師,Vernon D. Landon 給出的。1941年,Landon 研究通信電路中的噪聲電壓,通過分析經(jīng)驗數(shù)據(jù)他發(fā)現(xiàn)噪聲電壓的分布模式很相似,不同的是分布的層級,而這個層級可以使用方差σ2來刻畫。因此他推理認為噪聲電壓的分布函數(shù)形式是p(x;σ2)?,F(xiàn)在假設(shè)有一個相對于σ而言很微小的誤差擾動e,且e的分布函數(shù)是q(e),那么新的噪聲電壓是x′=x+e。Landon提出了如下的準則 · 隨機噪聲具有穩(wěn)定的分布模式 · 累加一個微小的隨機噪聲,不改變其穩(wěn)定的分布模式,只改變分布的層級(用方差度量) 用數(shù)學(xué)的語言描述:如果 x~p(x;σ2), e~q(e), x′=x+e, 則有x′~p(x;σ2+var(e)).現(xiàn)在我們來推導(dǎo)函數(shù)p(x;σ2)應(yīng)該長成啥樣。按照兩個隨機變量和的分布的計算方式,x′的分布函數(shù)將是x的分布函數(shù)和e的分布函數(shù)的卷積,即有 f(x′)=∫p(x′e;σ2)q(e)de. 把p(x′e;σ2)在x′處做泰勒級數(shù)展開(為了方便,展開后把自變量由x′替換為x),上式可以展開為 f(x)=p(x;σ2)p(x;σ2)x∫eq(e)de+122p(x;σ2)x2∫e2q(e)de+ 記p=p(x;σ2),則有 f(x)=ppxeˉ+122px2e2ˉ+o(e2ˉ) 對于微小的隨機擾動e,我們認為他取正值或者負值是對稱的,所以eˉ=0。所以有 f(x)=p+122px2e2ˉ+o(e2ˉ) (8) 對于新的噪聲電壓是x′=x+e,方差由σ2增加為σ2+var(e)=σ2+e2ˉ,所以按照Landon的分布函數(shù)模式不變的假設(shè),新的噪聲電壓的分布函數(shù)應(yīng)該為f(x)=p(x;σ2+e2ˉ)。把p(x;σ2+e2ˉ)在σ2處做泰勒級數(shù)展開,得到 f(x)=p+pσ2e2ˉ+o(e2ˉ). (9) 比較(8)和(9)這兩個式子,可以得到如下偏微分方程 122px2=pσ2. 而這個方程就是物理上著名的擴散方程(diffusion equation),求解該方程就得到 p(x;σ2)=12π√σexp(x22σ2) 又一次,我們推導(dǎo)出了正態(tài)分布! E.T.Jaynes對于這個推導(dǎo)的評價很高,認為Landon的推導(dǎo)本質(zhì)上給出了自然界的噪音形成的過程。他指出這個推導(dǎo)基本上就是中心極限定理的增量式版本,相比于中心極限定理來說,是一次性累加所有的因素,Landon的推導(dǎo)是每次在原有的分布上去累加一個微小的擾動。而在這個推導(dǎo)中,我們看到,正態(tài)分布具有相當好的穩(wěn)定性;只要數(shù)據(jù)中正態(tài)的模式已經(jīng)形成,他就容易繼續(xù)保持正態(tài)分布,無論外部累加的隨機噪聲q(e)是什么分布,正態(tài)分布就像一個黑洞一樣把這個累加噪聲吃掉。 4. 正態(tài)分布和最大熵 還有一條小徑是基于最大熵原理的,物理學(xué)家E.T.Jaynes在最大熵原理上有非常重要的貢獻,他在《概率論沉思錄》里面對這個方法有描述和證明,沒有提到發(fā)現(xiàn)者,我不確認這條道的發(fā)現(xiàn)者是否是Jaynes本人。 熵在物理學(xué)中由來已久,信息論的創(chuàng)始人香農(nóng)(Claude ElwoodShannon)把這個概念引入了信息論,讀者中很多人可能都知道目前機器學(xué)習(xí)中有一個非常好用的分類算法叫最大熵分類器。要想把熵和最大熵的來龍去脈說清楚可不容易,不過這條道的風(fēng)景是相當獨特的,E.T.Jaynes對這條道也是偏愛有加。 對于一個概率分布p(x),我們定義它的熵為 H(p)=∫p(e)logp(e)de. 如果給定一個分布函數(shù)p(x)的均值μ和方差σ2(給定均值和方差這個條件,也可以描述為給定一階原點矩和二階原點矩,這兩個條件是等價的)則在所有滿足這兩個限制的概率分布中,熵最大的概率分布p(x|μ,σ2)就是正態(tài)分布N(μ,σ2)。 這個結(jié)論的推導(dǎo)數(shù)學(xué)上稍微有點復(fù)雜,不過如果已經(jīng)猜到了給定限制條件下最大熵的分布是正態(tài)分布,要證明這個猜測卻是很簡單的,證明的思路如下。 考慮兩個概率分布p(x)和q(x),使用不等式logx≤x1,得 ∫p(x)logq(x)p(x)dx≤∫p(x)(q(x)p(x)1)dxbr/>=∫q(x)dx∫p(x)dx=0. 于是 ∫p(x)logq(x)p(x)dx=∫p(x)1p(x)dx+∫p(x)logq(x)dx≤0; 所以 H(p)≤?∫p(x)logq(x)dx (10) 熟悉信息論的讀者都知道,這個式子是信息論中的很著名的結(jié)論:一個概率分布的熵總是小于相對熵。上式要取等號只有取q(x)=p(x)。 對于p(x),在給定的均值μ和方差σ2下,我們?nèi)?/span>q(x)=N(μ,σ2),則可以得到 H(p)≤==∫p(x)log(12π√σexp((xμ)22σ2))dx∫p(x)((xμ)22σ2+log2π√σ)dx (11)12σ2∫p(x)(xμ)2dx+log2π√σ. 由于p(x)的均值方差有如下限制:∫p(x)(xμ)2dx=σ2,于是 H(p)≤12σ2σ2+log2π√σ=12+log2π√σ 而當p(x)=N(μ,σ2)的時候,上式可以取到等號,這就證明了結(jié)論。 E.T.Jaynes顯然對正態(tài)分布具有這樣的性質(zhì)極為贊賞,因為這從信息論的角度證明了正態(tài)分布的優(yōu)良性。而我們可以看到,正態(tài)分布熵的大小,取決于方差的大小。這也容易理解,因為正態(tài)分布的均值和密度函數(shù)的形狀無關(guān),正態(tài)分布的形狀是由其方差決定的,而熵的大小反應(yīng)概率分布中的信息量,顯然和密度函數(shù)的形狀相關(guān)。 好的,風(fēng)景欣賞暫時告一段落。所謂橫看成嶺側(cè)成峰,遠近高低各不同,正態(tài)分布給人們提供了多種欣賞角度和想象空間。法國菩薩級別的大數(shù)學(xué)家龐加萊對正態(tài)分布說過一段有意思的話,引用來作為這個小節(jié)的結(jié)束: Physicistsbelieve that the Gaussian law has been proved in mathematics whilemathematicians think that it was experimentally established in physics. —Henri Poincaré |
|
|