小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

如何理解最小二乘法?

 taotao_2016 2019-05-06

最小平方法是十九世紀(jì)統(tǒng)計學(xué)的主題曲。 從許多方面來看, 它之于統(tǒng)計學(xué)就相當(dāng)于十八世紀(jì)的微積分之于數(shù)學(xué)。

----喬治·斯蒂格勒的《The History of Statistics》

1 日用而不知
來看一個生活中的例子。比如說,有五把尺子:
馬同學(xué)高等數(shù)學(xué)
用它們來分別測量一線段的長度,得到的數(shù)值分別為(顏色指不同的尺子):

之所以出現(xiàn)不同的值可能因為:
  • 不同廠家的尺子的生產(chǎn)精度不同
  • 尺子材質(zhì)不同,熱脹冷縮不一樣
  • 測量的時候心情起伏不定
  • ......
總之就是有誤差,這種情況下,一般取平均值來作為線段的長度:

日常中就是這么使用的。可是作為很事'er的數(shù)學(xué)愛好者,自然要想下:
  • 這樣做有道理嗎?
  • 用調(diào)和平均數(shù)行不行?
  • 用中位數(shù)行不行?
  • 用幾何平均數(shù)行不行?
2 最小二乘法
換一種思路來思考剛才的問題。
首先,把測試得到的值畫在笛卡爾坐標(biāo)系中,分別記作:
其次,把要猜測的線段長度的真實值用平行于橫軸的直線來表示(因為是猜測的,所以用虛線來畫),記作:
每個點都向做垂線,垂線的長度就是,也可以理解為測量值和真實值之間的誤差:
因為誤差是長度,還要取絕對值,計算起來麻煩,就干脆用平方來代表誤差:

總的誤差的平方就是:

因為是猜測的,所以可以不斷變換:
自然,總的誤差也是在不斷變化的。
馬同學(xué)高等數(shù)學(xué)
法國數(shù)學(xué)家,阿德里安-馬里·勒讓德(1752-1833,這個頭像有點抽象)提出讓總的誤差的平方最小的就是真值,這是基于,如果誤差是隨機的,應(yīng)該圍繞真值上下波動(關(guān)于這點可以看下“如何理解無偏估計?”)。
這就是最小二乘法,即:

這個猜想也蠻符合直覺的,來算一下。
這是一個二次函數(shù),對其求導(dǎo),導(dǎo)數(shù)為0的時候取得最小值:

進(jìn)而:

正好是算術(shù)平均數(shù)。
原來算術(shù)平均數(shù)可以讓誤差最小啊,這下看來選用它顯得講道理了。
以下這種方法:

就是最小二乘法,所謂“二乘”就是平方的意思,臺灣直接翻譯為最小平方法。
3 推廣
算術(shù)平均數(shù)只是最小二乘法的特例,適用范圍比較狹窄。而最小二乘法用途就廣泛。
比如溫度與冰淇淋的銷量:

看上去像是某種線性關(guān)系:
可以假設(shè)這種線性關(guān)系為:

通過最小二乘法的思想:
上圖的分別為:

總誤差的平方為:

不同的會導(dǎo)致不同的,根據(jù)多元微積分的知識,當(dāng):

這個時候取最小值。
對于而言,上述方程組為線性方程組,用之前的數(shù)據(jù)解出來:

也就是這根直線:
其實,還可以假設(shè):

在這個假設(shè)下,可以根據(jù)最小二乘法,算出,得到下面這根紅色的二次曲線:
同一組數(shù)據(jù),選擇不同的,通過最小二乘法可以得到不一樣的擬合曲線(出處):
不同的數(shù)據(jù),更可以選擇不同的,通過最小二乘法可以得到不一樣的擬合曲線:
馬同學(xué)高等數(shù)學(xué)
也不能選擇任意的函數(shù),還是有一些講究的,這里就不介紹了。
4 最小二乘法與正態(tài)分布
我們對勒讓德的猜測,即最小二乘法,仍然抱有懷疑,萬一這個猜測是錯誤的怎么辦?
馬同學(xué)高等數(shù)學(xué)
數(shù)學(xué)王子高斯(1777-1855)也像我們一樣心存懷疑。
高斯換了一個思考框架,通過概率統(tǒng)計那一套來思考。
讓我們回到最初測量線段長度的問題。高斯想,通過測量得到了這些值:

每次的測量值都和線段長度的真值之間存在一個誤差:

這些誤差最終會形成一個概率分布,只是現(xiàn)在不知道誤差的概率分布是什么。假設(shè)概率密度函數(shù)為:

再假設(shè)一個聯(lián)合概率密度函數(shù),這樣方便把所有的測量數(shù)據(jù)利用起來:

講到這里,有些同學(xué)可能已經(jīng)看出來了上面似然函數(shù)了(關(guān)于似然函數(shù)以及馬上要講到的極大似然估計,可以參考“如何理解極大似然估計法?”)。
因為是關(guān)于的函數(shù),并且也是一個概率密度函數(shù)(下面分布圖形是隨便畫的):
根據(jù)極大似然估計的思想,概率最大的最應(yīng)該出現(xiàn)(既然都出現(xiàn)了,而我又不是“天選之才”,那么自然不會是發(fā)生了小概率事件),也就是應(yīng)該取到下面這點:
當(dāng)下面這個式子成立時,取得最大值:

然后高斯想,最小二乘法給出的答案是:

如果最小二乘法是對的,那么時應(yīng)該取得最大值,即:

好,現(xiàn)在可以來解這個微分方程了。最終得到:

這是什么?這就是正態(tài)分布啊。
并且這還是一個充要條件:

也就是說,如果誤差的分布是正態(tài)分布,那么最小二乘法得到的就是最有可能的值。
那么誤差的分布是正態(tài)分布嗎?
我們相信,誤差是由于隨機的、無數(shù)的、獨立的、多個因素造成的,比如之前提到的:
  • 不同廠家的尺子的生產(chǎn)精度不同
  • 尺子材質(zhì)不同,熱脹冷縮不一樣
  • 測量的時候心情起伏不定
  • ......
那么根據(jù)中心極限定理(參考“為什么正態(tài)分布如此常見?”),誤差的分布就應(yīng)該是正態(tài)分布。
因為高斯的努力,才真正奠定了最小二乘法的重要地位。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多