|
前言 自從上次觀看了《為什么正態(tài)分布中會(huì)有個(gè)π》的視頻后,B站就利用算法給我推送了一堆與正態(tài)分布相關(guān)的視頻。 當(dāng)我想尋找同一個(gè)視頻作者的其他視頻時(shí),卻發(fā)現(xiàn)這個(gè)作者的更新比較慢。暫時(shí)還沒有與之相關(guān)的作品。 其實(shí)我內(nèi)心一直還想解決另外一個(gè)問題,就正如題目所說:為啥e也會(huì)來到正態(tài)分布的公式里?
e在數(shù)學(xué)中的叫法是自然常數(shù)、或者歐拉數(shù),它實(shí)際上來自于
它這又如何與正態(tài)分布扯上了關(guān)系? 于是我就搜尋了下其他的B站高贊的作品,發(fā)現(xiàn)國內(nèi)還是有很多人拍攝了關(guān)于“手動(dòng)推導(dǎo)正態(tài)分布”的視頻。 然而看的過程多少有些讓我意猶未盡:因?yàn)檫@些視頻作者在推導(dǎo)過程中,有好多關(guān)鍵的地方都是一句話“這個(gè)顯而易見,我就不展開說了”、“這些都是比較基礎(chǔ)的知識(shí),很容易就算出來”…….一跳而過。 這就導(dǎo)致我理解的過程中老是出現(xiàn)斷片。不得不停下來研究它這一跳而過的步驟,到底是如何推導(dǎo)出來的。 不過幸好在彈幕的過程中,總有神一樣的讀者把關(guān)鍵線索打上屏幕,讓我能夠捕捉到這些關(guān)鍵信息,從而補(bǔ)上這些斷片的空檔。 以下正文,為筆算推導(dǎo)正態(tài)分布中e出現(xiàn)的過程。 第一部分 MLE與概率密度 在B站的多個(gè)視頻中,幾乎所有播主都是一句話帶過MLE的:“我們都知道,若干次獨(dú)立的觀測,觀測的誤差用MLE可以表示成L(θ)=f(x1;θ)f(x2;θ)f(x3;θ)……”。 但打住,打住 播主啊,我估計(jì)我沒在你口中的那個(gè)“我們都知道”的“我們”的人群中。 所以,我看到這里,我得按下暫停鍵,去找一堆資料去理解這句話。 MLE(maximum likelihood estimation),就是最大似然估計(jì)法。 它和觀測誤差的概率密度緊密結(jié)合,是正態(tài)分布推導(dǎo)的基礎(chǔ)。 下面需要一個(gè)一個(gè)基本概念做串聯(lián)。 1.1關(guān)于誤差概率密度 觀測誤差是正態(tài)分布問題研究的起源。 這個(gè)概念最早應(yīng)該來自中世紀(jì)的天主教會(huì)的天文觀測員對恒星、行星的天文觀測。這里面也包括我們熟知的哥白尼。
圖片來自網(wǎng)絡(luò):作為神職人員的哥白尼,在波蘭弗隆堡山上的教堂觀測天體 由于當(dāng)時(shí)的觀測水平一來受制于望遠(yuǎn)鏡制造的水平,二來也和觀測者接受的觀測訓(xùn)練有關(guān)。而且,即便是訓(xùn)練有素的天文觀測者,拿著做工水平一流的望遠(yuǎn)鏡,連續(xù)觀測n次某個(gè)恒星的位置,都會(huì)記錄下不同的觀測位置。 比方說某次觀測時(shí)深呼吸了一把,或手輕微抖了一下,或者手心的汗多了一丟丟,或者腳上的鞋踩到了地磚的輕微凸起……都會(huì)導(dǎo)致了望遠(yuǎn)鏡拿歪了那么一點(diǎn)點(diǎn)。 因此非系統(tǒng)性的觀測誤差是不可避免的。 ![]() 圖片來自網(wǎng)絡(luò),中世紀(jì)天文望遠(yuǎn)鏡復(fù)原圖 在這里,我們假設(shè)某恒星的真實(shí)位置在X,教會(huì)的觀測員連續(xù)獨(dú)立地觀測了n次,每次觀測的位置為x1,x2,x3……xn。 那么就會(huì)有如下的觀測誤差存在:(x1-X),(x2-X), (x3-X),……(xn-X) 假設(shè)每次觀測都是觀測者獨(dú)立的行為,那么這些觀測誤差實(shí)際上就是相互獨(dú)立的事件。 另外,由于觀測者是同一個(gè)人,用的是同一個(gè)望遠(yuǎn)鏡,接受的是同一老師教的觀測訓(xùn)練,形成了自己獨(dú)立的一套觀測水準(zhǔn),因此我們可以認(rèn)為這些誤差服從同一個(gè)概率分布。 我們通常用概率密度函數(shù)pdf(Probability
density function)來描述一個(gè)概率分布。 那么,我們設(shè)定一個(gè)pdf= f(xi-X)來描述某個(gè)觀測誤差的概率分布。 而某一天晚上觀測了n次,出現(xiàn)了(x1-X),(x2-X), (x3-X)……(xn-X)那么多次的觀測誤差,這些誤差的出現(xiàn)是服從pdf的聯(lián)合分布: f (x1-X)f(x2-X)f (x3-X)……f(xn-X) 理解這個(gè)不難,就好比拋硬幣,硬幣的材質(zhì)均勻程度一定,如果拋出正面的概率是0.6,那么某人連續(xù)獨(dú)立的拋出10次,且為正正正反正正正反正正結(jié)果的概率,就是: 0.6×0.6×0.6×0.4×0.6×0.6×0.6×0.4×0.6×0.6 1.2關(guān)于MLE與誤差pdf聯(lián)合分布 MLE 中的M,指的是最大的。那么沒有加上M這個(gè)定語之前,LE又是啥意思? 我特意查了下以前的書本和知乎、維基百科,大家都一致是這么定義LE(具體的表述不同,但意思都比較接近): 具體而言,LE即似然(Likelihood)特指似然函數(shù)。它表示的是基于觀察的數(shù)據(jù),反推最具有可能(最大概率)導(dǎo)致這些觀測樣本結(jié)果出現(xiàn)的模型參數(shù)值! 也就是“模型已定,參數(shù)未知”,用稍微白話一點(diǎn)兒的說法就是:假定這個(gè)參數(shù)是θ,那么似然函數(shù)也就成了θ 的函數(shù),而θ是未知的。 另外,似然函數(shù)通常是多個(gè)觀測數(shù)據(jù)發(fā)生的概率的聯(lián)合概率,即多個(gè)觀測數(shù)據(jù)都發(fā)生的概率。 這就和上面說到的pdf聯(lián)合分布就關(guān)聯(lián)上了。 我們設(shè)定這個(gè)θ就是某個(gè)天體的真實(shí)位置X,那么觀測誤差xi-X和X構(gòu)建的似然函數(shù)就可以寫成
那么接下來MLE要做的,就是要在給定了這些觀測誤差值xi-X的pdf 后,求出X,并且這個(gè)X能使得這些觀測誤差值在最大概率下出現(xiàn)。 因此,'使得這些觀測誤差值在最大概率下出現(xiàn)',就是“最大似然估計(jì)”中“最大”這個(gè)詞的詞意來源。 也就是到現(xiàn)在為止,我才終于成為了視頻播主中“我們都知道”的“我們”中的一員。 第二部分 求解MLE、樣本均值x、齊次線性方程組 有了上面的鋪墊后,接下來我們就要通過MLE 最大似然估計(jì)進(jìn)行計(jì)算 由前面的似然函數(shù),求它的最大概率值,就是求
當(dāng)它的一階導(dǎo)數(shù)=0時(shí)的值 也即
為了方便求解,我們要先對等號(hào)右邊取自然對數(shù)
然后再來求X的導(dǎo)數(shù)
此時(shí),構(gòu)建函數(shù)
這樣,聯(lián)合上方的結(jié)果,得到
此時(shí),我們需要引入一個(gè)系數(shù)x,也就是樣本的均值
高斯認(rèn)為,x是X的無偏估計(jì)值,換句話說,x可以代替X 高斯的這一點(diǎn)很重要,他巧妙的解決了真實(shí)值X無法獲得或無法可知的現(xiàn)實(shí)問題,不然后面就沒法繼續(xù)計(jì)算了。 這樣,上式中
于是我們對上式Σ g(xi-x)中的xi求偏導(dǎo),并令其=0。 等等,打住,打住。 為什么做到這一步,突然又要對xi求偏導(dǎo)了呢,而且是要讓偏導(dǎo)=0? 這點(diǎn)視頻播主沒有解釋,而是直接就立刻往下吭哧吭哧推導(dǎo)了。 我覺得確實(shí)值得思考它背后的原因。 我們最初的推導(dǎo)目的,是想知道正態(tài)分布為什么會(huì)有e出現(xiàn)。 這相當(dāng)于和推導(dǎo)正態(tài)分布的密度函數(shù)沒什么區(qū)別了。 換成數(shù)學(xué)語言就是:正態(tài)分布的pdf 長什么樣子? 而上面的推導(dǎo),到了這一步
相當(dāng)于得到了關(guān)于觀測誤差的微分方程,而且是關(guān)于誤差密度的pdf的微分方程。 (仔細(xì)看等號(hào)的最左邊和左右邊,實(shí)際上構(gòu)成了誤差概率密度的微分方程) 而我們解微分方程的目的,還是想知道這個(gè)微分方程中pdf的正常數(shù)學(xué)表達(dá)式。 于是才會(huì)有后續(xù)的運(yùn)算,而且這些運(yùn)算,也正是為了得到這個(gè)pdf 當(dāng)這一點(diǎn)想明白了,我才繼續(xù)往下看如何推導(dǎo): 于是我們對上式Σ g(xi-x)中的xi求偏導(dǎo),并令其=0
這一步過渡步驟,我特意放在這里,主要是為了回應(yīng)視頻播主中那快速的推導(dǎo)跳躍。 幸好在彈幕中有觀眾點(diǎn)出了x的計(jì)算式,不然在后續(xù)的推導(dǎo)中,我相信相當(dāng)部分人會(huì)對出現(xiàn)的(1-1/n)感到困惑:這個(gè)系數(shù)哪里冒出來的? 接下來的篇幅會(huì)有點(diǎn)長,不過不難: 對于x1求偏導(dǎo),并令結(jié)果=0,得到
這樣,按照相同的思路,就容易對x2求偏導(dǎo),并得到
繼續(xù)對x3求偏導(dǎo),并得到
一直計(jì)算到xn求偏導(dǎo)
把上面(1.1)~(1.4)做一下整理, 這樣我們就會(huì)得到n個(gè)關(guān)于的g’(xi-x)=0的方程,如果把g’(xi-x)看成是若干個(gè)變量,那么他們就構(gòu)成一個(gè)方程組,而且是齊次線性方程組。 我們觀察這個(gè)齊次線性方程組的系數(shù)矩陣行列式
觀察(1.5)可以看出它是個(gè)實(shí)對稱矩陣,它的值是0 在這里,B站播主還是一句話帶過:根據(jù)齊次線性方程組的解的條件,我們就不展開了。 我也學(xué)過線性代數(shù),但我感覺播主這跳的也太快了,因此我打算簡單說下為啥它的系數(shù)行列式為0,為0后又咋樣? 對于(1.5), 可以抽象簡化成這種a-x-a 對稱的n階行列式
首先從第二行及以下的行,都加到第一行,得
然后再將上面的行列式中[x+(1-n)a] 的x和a分別代入x=1-1/n和a=-1/n,就發(fā)現(xiàn)它=0。 故整個(gè)系數(shù)行列式(1.5)=0 當(dāng)一個(gè)齊次線性方程組的系數(shù)行列式=0時(shí),說明它有無窮多個(gè)解。 這時(shí)仔細(xì)觀察(1.1)和(1.2)都等于0,顯然(1.1)=(1.2),稍微整理一下得
而且以此類推(1.2)和(1.3)……很容易就得到
因?yàn)榉匠探M有無窮多個(gè)解,故用C表示。 由此,反推g’(xi-x)原函數(shù)的數(shù)學(xué)式是g(xi-x) =C(xi-x)+b 按照開始時(shí)說到的x代替X時(shí)講到的結(jié)論
得到
這里有個(gè)重要的要留意的地方是
故g’(xi-x)原函數(shù)的數(shù)學(xué)式是g(xi -x) =C(xi -x) 第三部分 解微分方程發(fā)揮作用 在第二部分開頭,我們已經(jīng)設(shè)定
然后我們用x代替X后,上式變成
再結(jié)合第二部分結(jié)尾我們得到的g(xi -x) =C(xi -x) 整理得:
為了求得f(xi -x),上面的式子其實(shí)就是另一個(gè)微分方程,因此接下來的推導(dǎo)的本質(zhì)就是解微分方程。 但好在不難解,用分離法就可以了。 在這里,播主又是一句話帶過:我們學(xué)過微分方程,很容易就得到…….. 算了,我還是完整還原下分離法解微分方程的過程: 令f(xi -x) = y
兩邊取不定積分,求得原函數(shù)為:
這樣,誤差的密度分布函數(shù)f(xi -x)的就求出來了,看見沒,e正這個(gè)時(shí)候終于出現(xiàn)了。 根據(jù)之前的知識(shí),我們還可以得到和正態(tài)分布的pdf很接近的式子 我在上篇文章《為什么正態(tài)分布中會(huì)有一個(gè)π》中介紹到下面推導(dǎo)的第一行,我們接著推導(dǎo):
經(jīng)過升維后計(jì)算得到
對上式做個(gè)小變形
這已經(jīng)是和正態(tài)分布密度函數(shù)的非常接近的式子。 小結(jié):
|
|
|