如何理解最小二乘法？

風(fēng)九天88 2018-07-06

展開全文

最小平方法是十九世紀(jì)統(tǒng)計學(xué)的主題曲。

從許多方面來看, 它之于統(tǒng)計學(xué)就相當(dāng)于十八世紀(jì)的微積分之于數(shù)學(xué)。

----喬治·斯蒂格勒《The History of Statistics》

1 日用而不知

來看一個生活中的例子。比如說，有五把尺子：

用它們來分別測量一線段的長度，得到的數(shù)值分別為（顏色指不同的尺子）：

之所以出現(xiàn)不同的值可能因?yàn)椋?/p>

不同廠家的尺子的生產(chǎn)精度不同
尺子材質(zhì)不同，熱脹冷縮不一樣
測量的時候心情起伏不定
......

總之就是有誤差，這種情況下，一般取平均值來作為線段的長度：

日常中就是這么使用的。可是作為很事'er的數(shù)學(xué)愛好者，自然要想下：

這樣做有道理嗎？
用調(diào)和平均數(shù)行不行？
用中位數(shù)行不行？
用幾何平均數(shù)行不行？

2 最小二乘法

換一種思路來思考剛才的問題。

首先，把測試得到的值畫在笛卡爾坐標(biāo)系中，分別記作

：

其次，把要猜測的線段長度的真實(shí)值用平行于橫軸的直線來表示（因?yàn)槭遣聹y的，所以用虛線來畫），記作

：

每個點(diǎn)都向

做垂線，垂線的長度就是

，也可以理解為測量值和真實(shí)值之間的誤差：

因?yàn)檎`差是長度，還要取絕對值，計算起來麻煩，就干脆用平方來代表誤差：

誤差的平方和就是（

代表誤差）：

因?yàn)?

是猜測的，所以可以不斷變換：

自然，誤差的平方和

在不斷變化的。

法國數(shù)學(xué)家，阿德里安-馬里·勒讓德（1752－1833，這個頭像有點(diǎn)抽象）提出讓總的誤差的平方最小的

就是真值，這是基于，如果誤差是隨機(jī)的，應(yīng)該圍繞真值上下波動（關(guān)于這點(diǎn)可以看下這篇文章）。

勒讓德的想法變成代數(shù)式就是：

這個猜想也蠻符合直覺的，來算一下。

這是一個二次函數(shù)，對其求導(dǎo)，導(dǎo)數(shù)為0的時候取得最小值：

進(jìn)而：

正好是算術(shù)平均數(shù)。

原來算術(shù)平均數(shù)可以讓誤差最小啊，這下看來選用它顯得講道理了。

以下這種方法：

就是最小二乘法，所謂“二乘”就是平方的意思，臺灣直接翻譯為最小平方法。

3 推廣

算術(shù)平均數(shù)只是最小二乘法的特例，適用范圍比較狹窄。而最小二乘法用途就廣泛。

比如溫度與冰淇淋的銷量：

看上去像是某種線性關(guān)系：

可以假設(shè)這種線性關(guān)系為：

通過最小二乘法的思想：

上圖的

分別為：

總誤差的平方為：

不同的

會導(dǎo)致不同的

，根據(jù)多元微積分的知識，當(dāng)：

這個時候

取最小值。

對于

而言，上述方程組為線性方程組，用之前的數(shù)據(jù)解出來：

也就是這根直線：

其實(shí)，還可以假設(shè)：

在這個假設(shè)下，可以根據(jù)最小二乘法，算出

，得到下面這根紅色的二次曲線：

同一組數(shù)據(jù)，選擇不同的

，通過最小二乘法可以得到不一樣的擬合曲線（出處）：

不同的數(shù)據(jù)，更可以選擇不同的

，通過最小二乘法可以得到不一樣的擬合曲線：

也不能選擇任意的函數(shù)，還是有一些講究的，這里就不介紹了。

4 最小二乘法與正態(tài)分布

我們對勒讓德的猜測，即最小二乘法，仍然抱有懷疑，萬一這個猜測是錯誤的怎么辦？

數(shù)學(xué)王子高斯（1777－1855）也像我們一樣心存懷疑。

高斯換了一個思考框架，通過概率統(tǒng)計那一套來思考。

讓我們回到最初測量線段長度的問題。高斯想，通過測量得到了這些值：

每次的測量值

都和線段長度的真值

之間存在一個誤差：

這些誤差最終會形成一個概率分布，只是現(xiàn)在不知道誤差的概率分布是什么。假設(shè)概率密度函數(shù)為：

再假設(shè)一個聯(lián)合概率，這樣方便把所有的測量數(shù)據(jù)利用起來：

把

作為變量的時候，上面就是似然函數(shù)了（關(guān)于似然函數(shù)以及馬上要講到的最大似然估計，可以參考這篇文章）。

的圖像可能是這樣的（隨便畫的）：

根據(jù)最大似然估計的思想，聯(lián)合概率最大的最應(yīng)該出現(xiàn)（既然都出現(xiàn)了，而我又不是“天選之子”，那么自然不會是發(fā)生了小概率事件），也就是應(yīng)該取到下面這點(diǎn)：

當(dāng)下面這個式子成立時，取得最大值：

然后高斯想，最小二乘法給出的答案是：

如果最小二乘法是對的，那么

時應(yīng)該取得最大值，即：

好，現(xiàn)在可以來解這個微分方程了。最終得到：

這是什么？這就是正態(tài)分布啊。

并且這還是一個充要條件：

也就是說，如果誤差的分布是正態(tài)分布，那么最小二乘法得到的就是最有可能的值。

那么誤差的分布是正態(tài)分布嗎？

如果誤差是由于隨機(jī)的、無數(shù)的、獨(dú)立的、多個因素造成的，比如之前提到的：

不同廠家的尺子的生產(chǎn)精度不同
尺子材質(zhì)不同，熱脹冷縮不一樣
測量的時候心情起伏不定
......

那么根據(jù)中心極限定理（參考這篇文章），誤差的分布就應(yīng)該是正態(tài)分布。

雖然勒讓德提出了最小二乘法（高斯說他最早提出最小二乘法，只是沒有發(fā)表），但是高斯的努力，才真正奠定了最小二乘法的重要地位。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：風(fēng)九天88 > 《線代》

舉報/認(rèn)領(lǐng)