|
最小平方法是十九世紀(jì)統(tǒng)計學(xué)的主題曲。 從許多方面來看, 它之于統(tǒng)計學(xué)就相當(dāng)于十八世紀(jì)的微積分之于數(shù)學(xué)。 ----喬治·斯蒂格勒的《The History of Statistics》 來看一個生活中的例子。比如說,有五把尺子: 用它們來分別測量一線段的長度,得到的數(shù)值分別為(顏色指不同的尺子): 之所以出現(xiàn)不同的值可能因為:
總之就是有誤差,這種情況下,一般取平均值來作為線段的長度: 日常中就是這么使用的。可是作為很事'er的數(shù)學(xué)愛好者,自然要想下:
換一種思路來思考剛才的問題。 首先,把測試得到的值畫在笛卡爾坐標(biāo)系中,分別記作: 其次,把要猜測的線段長度的真實值用平行于橫軸的直線來表示(因為是猜測的,所以用虛線來畫),記作: 每個點都向做垂線,垂線的長度就是,也可以理解為測量值和真實值之間的誤差: 因為誤差是長度,還要取絕對值,計算起來麻煩,就干脆用平方來代表誤差: 總的誤差的平方就是: 因為是猜測的,所以可以不斷變換: 自然,總的誤差也是在不斷變化的。 法國數(shù)學(xué)家,阿德里安-馬里·勒讓德(1752-1833,這個頭像有點抽象)提出讓總的誤差的平方最小的就是真值,這是基于,如果誤差是隨機的,應(yīng)該圍繞真值上下波動(關(guān)于這點可以看下“如何理解無偏估計?”)。 這就是最小二乘法,即: 這個猜想也蠻符合直覺的,來算一下。 這是一個二次函數(shù),對其求導(dǎo),導(dǎo)數(shù)為0的時候取得最小值: 進(jìn)而: 正好是算術(shù)平均數(shù)。 原來算術(shù)平均數(shù)可以讓誤差最小啊,這下看來選用它顯得講道理了。 以下這種方法: 就是最小二乘法,所謂“二乘”就是平方的意思,臺灣直接翻譯為最小平方法。 算術(shù)平均數(shù)只是最小二乘法的特例,適用范圍比較狹窄。而最小二乘法用途就廣泛。 比如溫度與冰淇淋的銷量: 看上去像是某種線性關(guān)系: 可以假設(shè)這種線性關(guān)系為: 通過最小二乘法的思想: 上圖的分別為: 總誤差的平方為: 不同的會導(dǎo)致不同的,根據(jù)多元微積分的知識,當(dāng): 這個時候取最小值。 對于而言,上述方程組為線性方程組,用之前的數(shù)據(jù)解出來: 也就是這根直線: 其實,還可以假設(shè): 在這個假設(shè)下,可以根據(jù)最小二乘法,算出,得到下面這根紅色的二次曲線: 同一組數(shù)據(jù),選擇不同的,通過最小二乘法可以得到不一樣的擬合曲線(出處): 不同的數(shù)據(jù),更可以選擇不同的,通過最小二乘法可以得到不一樣的擬合曲線: 也不能選擇任意的函數(shù),還是有一些講究的,這里就不介紹了。 我們對勒讓德的猜測,即最小二乘法,仍然抱有懷疑,萬一這個猜測是錯誤的怎么辦? ![]() 數(shù)學(xué)王子高斯(1777-1855)也像我們一樣心存懷疑。 高斯換了一個思考框架,通過概率統(tǒng)計那一套來思考。 讓我們回到最初測量線段長度的問題。高斯想,通過測量得到了這些值: 每次的測量值都和線段長度的真值之間存在一個誤差: 這些誤差最終會形成一個概率分布,只是現(xiàn)在不知道誤差的概率分布是什么。假設(shè)概率密度函數(shù)為: 再假設(shè)一個聯(lián)合概率密度函數(shù),這樣方便把所有的測量數(shù)據(jù)利用起來: 講到這里,有些同學(xué)可能已經(jīng)看出來了上面似然函數(shù)了(關(guān)于似然函數(shù)以及馬上要講到的極大似然估計,可以參考“如何理解極大似然估計法?”)。 因為是關(guān)于的函數(shù),并且也是一個概率密度函數(shù)(下面分布圖形是隨便畫的): ![]() 根據(jù)極大似然估計的思想,概率最大的最應(yīng)該出現(xiàn)(既然都出現(xiàn)了,而我又不是“天選之才”,那么自然不會是發(fā)生了小概率事件),也就是應(yīng)該取到下面這點: ![]() 當(dāng)下面這個式子成立時,取得最大值: 然后高斯想,最小二乘法給出的答案是: 如果最小二乘法是對的,那么時應(yīng)該取得最大值,即: 好,現(xiàn)在可以來解這個微分方程了。最終得到: 這是什么?這就是正態(tài)分布啊。 并且這還是一個充要條件: 也就是說,如果誤差的分布是正態(tài)分布,那么最小二乘法得到的就是最有可能的值。 那么誤差的分布是正態(tài)分布嗎? 我們相信,誤差是由于隨機的、無數(shù)的、獨立的、多個因素造成的,比如之前提到的:
那么根據(jù)中心極限定理(參考“為什么正態(tài)分布如此常見?”),誤差的分布就應(yīng)該是正態(tài)分布。 因為高斯的努力,才真正奠定了最小二乘法的重要地位。
|
|
|