為什么引入Box-Cox 轉(zhuǎn)換?數(shù)據(jù)的正態(tài)性對(duì)于許多統(tǒng)計(jì)方法至關(guān)重要。例如,在假設(shè)檢驗(yàn)、回歸分析、ANOVA 和很多其他方法中,數(shù)據(jù)的正態(tài)分布是關(guān)鍵假設(shè)之一。數(shù)據(jù)的非正態(tài)性可能會(huì)導(dǎo)致估計(jì)的偏誤、增加類型I和類型II錯(cuò)誤的風(fēng)險(xiǎn),以及降低模型的預(yù)測(cè)精度。因此,為了滿足正態(tài)性假設(shè),研究者們經(jīng)常需要對(duì)數(shù)據(jù)進(jìn)行某種形式的轉(zhuǎn)換。 Box-Cox 轉(zhuǎn)換是這樣的一種方法,它的目的是使偏斜的數(shù)據(jù)更接近正態(tài)分布。這種轉(zhuǎn)換方法是 George Box 和 David Cox 于 1964 年首次提出的,現(xiàn)已成為統(tǒng)計(jì)領(lǐng)域中的標(biāo)準(zhǔn)技術(shù)。 數(shù)學(xué)模型是什么?Box-Cox 轉(zhuǎn)換的數(shù)學(xué)模型定義如下: 其中, 是要被轉(zhuǎn)換的數(shù)據(jù),而 是轉(zhuǎn)換參數(shù)。選擇最佳的 值通常是通過(guò)最大化數(shù)據(jù)的對(duì)數(shù)似然來(lái)實(shí)現(xiàn)的。 為什么Box-Cox 能夠使數(shù)據(jù)正態(tài)? Box-Cox 轉(zhuǎn)換的工作原理有幾個(gè)方面:
Box-Cox 轉(zhuǎn)換的實(shí)際應(yīng)用考慮一個(gè)例子,其中我們有一個(gè)數(shù)據(jù)集,該數(shù)據(jù)集記錄了不同城市的人口和相關(guān)的犯罪率。犯罪率的數(shù)據(jù)可能會(huì)受到極端值的影響,并且可能不是正態(tài)分布的。在這種情況下,我們可以使用 Box-Cox 轉(zhuǎn)換來(lái)矯正犯罪率的分布。 來(lái)看這份虛擬的數(shù)據(jù)。假設(shè)我們有一個(gè)包含20個(gè)城市的數(shù)據(jù)集。每個(gè)城市都有其人口數(shù)量和年犯罪率(表示為每10,000人中發(fā)生的犯罪事件數(shù))。
先直觀的看一下數(shù)據(jù)的頻率分布: import matplotlib.pyplot as plt
從上圖中,我們可以清晰地觀察到犯罪率數(shù)據(jù)的分布。這些數(shù)據(jù)似乎并不完全遵循正態(tài)分布。 我們可以使用統(tǒng)計(jì)方法(如 Shapiro-Wilk 測(cè)試)來(lái)檢驗(yàn)數(shù)據(jù)的正態(tài)性。 測(cè)試統(tǒng)計(jì)量 (W值) = 0.8087,p值 = 0.0012,由于p值(0.0012)小于0.05,我們拒絕原假設(shè),即數(shù)據(jù)是正態(tài)分布的。因此,我們可以確定這些犯罪率數(shù)據(jù)并不是正態(tài)分布的。 此時(shí)我們可以應(yīng)用 Box-Cox 轉(zhuǎn)換并選擇最佳的 λ 值來(lái)最大化對(duì)數(shù)似然。 from scipy.stats import boxcox通過(guò)Box-Cox轉(zhuǎn)換,我們得到了最佳的 λ 值為 0.1701。這意味著當(dāng) λ 取此值時(shí),轉(zhuǎn)換后的數(shù)據(jù)最大化了對(duì)數(shù)似然,從而更接近正態(tài)分布。 下面,我們將重新繪制轉(zhuǎn)換后的數(shù)據(jù)的頻率分布直方圖和概率密度曲線,并再次進(jìn)行Shapiro-Wilk 測(cè)試,以確認(rèn)數(shù)據(jù)的正態(tài)性。
從上圖可以看出,經(jīng)過(guò)Box-Cox轉(zhuǎn)換后的犯罪率數(shù)據(jù)更接近正態(tài)分布。此外,新的Shapiro-Wilk測(cè)試結(jié)果顯示統(tǒng)計(jì)量為0.9826,p值為0.9628。由于此p值大于0.05,我們無(wú)法拒絕數(shù)據(jù)是正態(tài)分布的原假設(shè)。 這意味著經(jīng)過(guò)Box-Cox轉(zhuǎn)換后的數(shù)據(jù)滿足正態(tài)性假設(shè)。因此,我們可以放心地使用需要正態(tài)分布假設(shè)的統(tǒng)計(jì)方法進(jìn)行進(jìn)一步分析。 完美!
結(jié)語(yǔ)Box-Cox 轉(zhuǎn)換是統(tǒng)計(jì)和數(shù)據(jù)分析中的一個(gè)強(qiáng)大工具,它可以幫助我們矯正數(shù)據(jù)的非正態(tài)性。通過(guò)理解其背后的原理和知道如何在實(shí)際問(wèn)題中應(yīng)用它,我們可以更好地利用統(tǒng)計(jì)方法,從而得到更準(zhǔn)確和有洞察力的結(jié)果。 |
|
|
來(lái)自: 漢無(wú)為 > 《統(tǒng)計(jì)分析》