小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

數(shù)據(jù)不夠正態(tài),Box-Cox 來(lái)轉(zhuǎn)換

 漢無(wú)為 2023-09-12

正態(tài)性是許多統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)模型的關(guān)鍵假設(shè)。當(dāng)數(shù)據(jù)不滿足正態(tài)分布的時(shí),可能會(huì)導(dǎo)致模型估計(jì)不準(zhǔn)確(如線性回歸,都假設(shè)數(shù)據(jù)是正態(tài)分布的。如果這一假設(shè)被違反,那么參數(shù)估計(jì)可能會(huì)有偏),預(yù)測(cè)誤差增加,甚至導(dǎo)致某些統(tǒng)計(jì)檢驗(yàn)的結(jié)論失效。為了解決這個(gè)問(wèn)題,研究人員和統(tǒng)計(jì)學(xué)家們引入了多種數(shù)據(jù)轉(zhuǎn)換技術(shù),其中最著名的之一就是 Box-Cox 轉(zhuǎn)換。

為什么引入Box-Cox 轉(zhuǎn)換?

數(shù)據(jù)的正態(tài)性對(duì)于許多統(tǒng)計(jì)方法至關(guān)重要。例如,在假設(shè)檢驗(yàn)、回歸分析、ANOVA 和很多其他方法中,數(shù)據(jù)的正態(tài)分布是關(guān)鍵假設(shè)之一。數(shù)據(jù)的非正態(tài)性可能會(huì)導(dǎo)致估計(jì)的偏誤、增加類型I和類型II錯(cuò)誤的風(fēng)險(xiǎn),以及降低模型的預(yù)測(cè)精度。因此,為了滿足正態(tài)性假設(shè),研究者們經(jīng)常需要對(duì)數(shù)據(jù)進(jìn)行某種形式的轉(zhuǎn)換。

Box-Cox 轉(zhuǎn)換是這樣的一種方法,它的目的是使偏斜的數(shù)據(jù)更接近正態(tài)分布。這種轉(zhuǎn)換方法是 George Box 和 David Cox 于 1964 年首次提出的,現(xiàn)已成為統(tǒng)計(jì)領(lǐng)域中的標(biāo)準(zhǔn)技術(shù)。

數(shù)學(xué)模型是什么?

Box-Cox 轉(zhuǎn)換的數(shù)學(xué)模型定義如下:

其中, 是要被轉(zhuǎn)換的數(shù)據(jù),而 是轉(zhuǎn)換參數(shù)。選擇最佳的 值通常是通過(guò)最大化數(shù)據(jù)的對(duì)數(shù)似然來(lái)實(shí)現(xiàn)的。

為什么Box-Cox 能夠使數(shù)據(jù)正態(tài)?

Box-Cox 轉(zhuǎn)換的工作原理有幾個(gè)方面:

  1. 對(duì)偏度的矯正:通過(guò)調(diào)整數(shù)據(jù)的冪,Box-Cox 轉(zhuǎn)換可以有效地橋正數(shù)據(jù)的偏斜性。對(duì)于正偏 斜的數(shù)據(jù),選擇 值小于 1 可以使數(shù)據(jù)向左移動(dòng),從而減少偏斜性。對(duì)于負(fù)偏斜的數(shù)據(jù),選 擇 值大于 1 可以進(jìn)行橋正。
  2. 方差穩(wěn)定化:Box-Cox 轉(zhuǎn)換也可以矯正數(shù)據(jù)的異方差性,使其變得更加穩(wěn)定。
  3. 數(shù)學(xué)理論: Box-Cox 轉(zhuǎn)換的形式基于數(shù)學(xué)和統(tǒng)計(jì)理論,指出當(dāng)選擇適當(dāng)?shù)? 值時(shí),可以使數(shù)據(jù)的對(duì)數(shù)似然最大化,從而使數(shù)據(jù)更接近正態(tài)分布。

Box-Cox 轉(zhuǎn)換的實(shí)際應(yīng)用

考慮一個(gè)例子,其中我們有一個(gè)數(shù)據(jù)集,該數(shù)據(jù)集記錄了不同城市的人口和相關(guān)的犯罪率。犯罪率的數(shù)據(jù)可能會(huì)受到極端值的影響,并且可能不是正態(tài)分布的。在這種情況下,我們可以使用 Box-Cox 轉(zhuǎn)換來(lái)矯正犯罪率的分布。

來(lái)看這份虛擬的數(shù)據(jù)。假設(shè)我們有一個(gè)包含20個(gè)城市的數(shù)據(jù)集。每個(gè)城市都有其人口數(shù)量和年犯罪率(表示為每10,000人中發(fā)生的犯罪事件數(shù))。

城市1城市2城市3城市4城市5城市6城市7城市8城市9城市10城市11城市12城市13城市14城市15城市16城市17城市18城市19城市20
231516646883101466211758912101018372817

先直觀的看一下數(shù)據(jù)的頻率分布:

import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import shapiro

# 數(shù)據(jù)
crime_rates = [231516646883101466211758912101018372817]

# 繪制頻率分布直方圖和概率密度曲線
plt.figure(figsize=(10,6))
sns.histplot(crime_rates, kde=True, bins=10)
plt.title('Frequency Distribution of Crime Rates')
plt.xlabel('Crime Rate (per 10,000)')
plt.ylabel('Frequency')
plt.grid(True, which='both', linestyle='--', linewidth=0.5)
plt.show()

圖片

從上圖中,我們可以清晰地觀察到犯罪率數(shù)據(jù)的分布。這些數(shù)據(jù)似乎并不完全遵循正態(tài)分布。

我們可以使用統(tǒng)計(jì)方法(如 Shapiro-Wilk 測(cè)試)來(lái)檢驗(yàn)數(shù)據(jù)的正態(tài)性。

# Shapiro-Wilk 測(cè)試
shapiro_test = shapiro(crime_rates)
shapiro_test

測(cè)試統(tǒng)計(jì)量 (W值) = 0.8087,p值 = 0.0012,由于p值(0.0012)小于0.05,我們拒絕原假設(shè),即數(shù)據(jù)是正態(tài)分布的。因此,我們可以確定這些犯罪率數(shù)據(jù)并不是正態(tài)分布的。

此時(shí)我們可以應(yīng)用 Box-Cox 轉(zhuǎn)換并選擇最佳的 λ 值來(lái)最大化對(duì)數(shù)似然。

from scipy.stats import boxcox

# 應(yīng)用Box-Cox轉(zhuǎn)換
transformed_data, best_lambda = boxcox(crime_rates)

best_lambda, transformed_data

通過(guò)Box-Cox轉(zhuǎn)換,我們得到了最佳的 λ 值為 0.1701。這意味著當(dāng) λ 取此值時(shí),轉(zhuǎn)換后的數(shù)據(jù)最大化了對(duì)數(shù)似然,從而更接近正態(tài)分布。

下面,我們將重新繪制轉(zhuǎn)換后的數(shù)據(jù)的頻率分布直方圖和概率密度曲線,并再次進(jìn)行Shapiro-Wilk 測(cè)試,以確認(rèn)數(shù)據(jù)的正態(tài)性。

# 繪制轉(zhuǎn)換后的數(shù)據(jù)的直方圖和概率密度曲線
sns.histplot(transformed_data, kde=True, bins=8)
plt.title('Transformed Crime Rates Distribution')
plt.xlabel('Transformed Crime Rates')
plt.ylabel('Frequency')
plt.show()

# 再次進(jìn)行Shapiro-Wilk 測(cè)試
shapiro_transformed = shapiro(transformed_data)
shapiro_transformed

圖片

從上圖可以看出,經(jīng)過(guò)Box-Cox轉(zhuǎn)換后的犯罪率數(shù)據(jù)更接近正態(tài)分布。此外,新的Shapiro-Wilk測(cè)試結(jié)果顯示統(tǒng)計(jì)量為0.9826,p值為0.9628。由于此p值大于0.05,我們無(wú)法拒絕數(shù)據(jù)是正態(tài)分布的原假設(shè)。

這意味著經(jīng)過(guò)Box-Cox轉(zhuǎn)換后的數(shù)據(jù)滿足正態(tài)性假設(shè)。因此,我們可以放心地使用需要正態(tài)分布假設(shè)的統(tǒng)計(jì)方法進(jìn)行進(jìn)一步分析。

完美!

圖片

結(jié)語(yǔ)

Box-Cox 轉(zhuǎn)換是統(tǒng)計(jì)和數(shù)據(jù)分析中的一個(gè)強(qiáng)大工具,它可以幫助我們矯正數(shù)據(jù)的非正態(tài)性。通過(guò)理解其背后的原理和知道如何在實(shí)際問(wèn)題中應(yīng)用它,我們可以更好地利用統(tǒng)計(jì)方法,從而得到更準(zhǔn)確和有洞察力的結(jié)果。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多