小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Python 數(shù)據(jù)統(tǒng)計(jì)分析: Pingouin

 NeighborMrSun 2023-02-13 發(fā)布于湖南

前言

論數(shù)據(jù)統(tǒng)計(jì)分析與可視化的能力,當(dāng)然還是的屬R語言最為強(qiáng)大,畢竟當(dāng)初設(shè)計(jì)這門語言的人就是為了實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)分析。國(guó)內(nèi)Python熱火朝天,R語言感覺不溫不火。大部分R語言的數(shù)據(jù)分析與可視化的包主要還是外國(guó)人在開發(fā)與更新 (關(guān)于這個(gè)我以后會(huì)介紹如何在Python中調(diào)用R語言)。Python主要應(yīng)用還是機(jī)器學(xué)習(xí)與深度學(xué)習(xí)這些。

最近有個(gè)用戶感知研究,也要用到數(shù)據(jù)統(tǒng)計(jì)分析。平時(shí)的代碼都是用Python寫的,所以也懶得再去翻R語言的代碼,索性還是用Python吧。然后再搜索有些數(shù)據(jù)分析方法的時(shí)候,就發(fā)現(xiàn)了幾個(gè)很棒的數(shù)據(jù)統(tǒng)計(jì)分析包,都還是最近幾年剛出的,感覺非常有用。所以在這里順帶介紹給大家,我也當(dāng)是記了一個(gè)學(xué)習(xí)筆記,也方便我以后要用的時(shí)候自己來查找!

對(duì)于想學(xué)R語言的朋友,我也推薦一本書給大家:《R語言數(shù)據(jù)可視化之美》,對(duì)于想學(xué)Python的朋友,我也推薦一本書給大家:《Python數(shù)據(jù)可視化之美》。數(shù)據(jù)可視化入門一門新的編程語言,是一個(gè)很好的方法,親測(cè)有效!


Pingouin是一個(gè)用Python 3編寫的開源統(tǒng)計(jì)包,主要基于Pandas和NumPy。下面列出了它的一些主要功能。關(guān)于可用函數(shù)的完整列表,請(qǐng)參考API文檔。

  • ANOVAs: N-way, repeated measures, mixed, ancova 
  • 成對(duì)的事后檢驗(yàn)(參數(shù)和非參數(shù))和成對(duì)的相關(guān)關(guān)系
  • 健全的、部分的、距離的和重復(fù)測(cè)量的相關(guān)關(guān)系
  • 線性/邏輯回歸和調(diào)解分析
  • 貝葉斯系數(shù)
  • 多變量測(cè)試
  • 可靠性和一致性
  • 效應(yīng)大小和功率分析
  • 圍繞效應(yīng)大小或相關(guān)系數(shù)的參數(shù)化/約束性置信區(qū)間
  • 循環(huán)統(tǒng)計(jì)
  • 智平方測(cè)試 Chi-squared tests
  • 繪圖。Bland-Altman圖,Q-Q圖,成對(duì)圖,穩(wěn)健相關(guān)圖等

Pingouin是為那些需要簡(jiǎn)單而詳盡的統(tǒng)計(jì)功能的用戶設(shè)計(jì)的。在這個(gè)頁面,你會(huì)發(fā)現(xiàn)一系列的流程圖,旨在幫助你選擇Pingouin的哪些功能適合你的分析。點(diǎn)擊所需的流程圖,查看帶有相關(guān)文檔超鏈接的全比例圖像。

方差分析 ANOVA

方差分析(英語:Analysis of variance,簡(jiǎn)稱ANOVA)為資料分析中常見的統(tǒng)計(jì)模型,主要為探討連續(xù)型(Continuous)資料型態(tài)之因變量(Dependent variable)與類別型資料型態(tài)之自變量(Independent variable)的關(guān)系,當(dāng)自變項(xiàng)的因子中包含等于或超過三個(gè)類別情況下,檢驗(yàn)其各類別間平均數(shù)是否相等的統(tǒng)計(jì)模式,廣義上可將T檢驗(yàn)中方差相等(Equality of variance)的合并T檢驗(yàn)(Pooled T-test)視為是方差分析的一種,基于T檢驗(yàn)為分析兩組平均數(shù)是否相等,并且采用相同的計(jì)算概念,而實(shí)際上當(dāng)方差分析套用在合并T檢驗(yàn)的分析上時(shí),產(chǎn)生的F值則會(huì)等于T檢驗(yàn)的平方項(xiàng)。

方差分析依靠F-分布為概率分布的依據(jù),利用平方和(Sum of square)與自由度(Degree of freedom)所計(jì)算的組間與組內(nèi)均方(Mean of square)估計(jì)出F值,若有顯著差異則考量進(jìn)行事后比較或稱多重比較(Multiple comparison),較常見的為薛費(fèi)法(事后比較法)、杜其范圍檢驗(yàn)與邦費(fèi)羅尼校正,用于探討其各組之間的差異為何。

在方差分析的基本運(yùn)算概念下,依照所感興趣的因子數(shù)量而可分為單因子方差分析、雙因子方差分析、多因子方差分析三大類,依照因子的特性不同而有三種型態(tài),固定效應(yīng)方差分析(fixed-effect analysis of variance)、隨機(jī)效應(yīng)方差分析(random-effect analysis of variance)與混合效應(yīng)方差分析(Mixed-effect analaysis of variance),然而第三種型態(tài)在后期發(fā)展上被認(rèn)為是Mixed model的分支,關(guān)于更進(jìn)一步的探討可參考Mixed model的部分。

方差分析優(yōu)于兩組比較的T檢驗(yàn)之處,在于后者會(huì)導(dǎo)致多重比較(multiple comparisons)的問題而致使第一類錯(cuò)誤(Type one error)的機(jī)會(huì)增高,因此比較多組平均數(shù)是否有差異則是方差分析的主要命題。

在統(tǒng)計(jì)學(xué)中,方差分析(ANOVA)是一系列統(tǒng)計(jì)模型及其相關(guān)的過程總稱,其中某一變量的方差可以分解為歸屬于不同變量來源的部分。其中最簡(jiǎn)單的方式中,方差分析的統(tǒng)計(jì)測(cè)試能夠說明幾組數(shù)據(jù)的平均值是否相等,因此得到兩組的T檢驗(yàn)。在做多組雙變量T檢驗(yàn)的時(shí)候,錯(cuò)誤的概率會(huì)越來越大,特別是第一類錯(cuò)誤,因此方差分析只在二到四組平均值的時(shí)候比較有效。(來源:維基百科)

Image

import pingouin as pg# Load an example dataset comparing pain threshold as a function of hair colordf = pg.read_dataset('anova')
# 1. This is a between subject design, so the first step is to test for equality of variancespg.homoscedasticity(data=df, dv='Pain threshold', group='Hair color')
# 2. If the groups have equal variances, we can use a regular one-way ANOVApg.anova(data=df, dv='Pain threshold', between='Hair color')
# 3. If there is a main effect, we can proceed to post-hoc Tukey testpg.pairwise_tukey(data=df, dv='Pain threshold', between='Hair color')

相關(guān)性分析 Correlation

相關(guān)系數(shù)是最早由統(tǒng)計(jì)學(xué)家卡爾·皮爾遜設(shè)計(jì)的統(tǒng)計(jì)指標(biāo),是研究變量之間線性相關(guān)程度的量,一般用字母 r 表示。由于研究對(duì)象的不同,相關(guān)系數(shù)有多種定義方式,較為常用的是皮爾遜相關(guān)系數(shù)。

相關(guān)表和相關(guān)圖可反映兩個(gè)變量之間的相互關(guān)系及其相關(guān)方向,但無法確切地表明兩個(gè)變量之間相關(guān)的程度。相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。相關(guān)系數(shù)是按積差方法計(jì)算,同樣以兩變量與各自平均值的離差為基礎(chǔ),通過兩個(gè)離差相乘來反映兩變量之間相關(guān)程度;著重研究線性的單相關(guān)系數(shù)。

需要說明的是,皮爾遜相關(guān)系數(shù)并不是唯一的相關(guān)系數(shù),但是最常見的相關(guān)系數(shù),以下解釋都是針對(duì)皮爾遜相關(guān)系數(shù)。

依據(jù)相關(guān)現(xiàn)象之間的不同特征,其統(tǒng)計(jì)指標(biāo)的名稱有所不同。如將反映兩變量間線性相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱為相關(guān)系數(shù)(相關(guān)系數(shù)的平方稱為判定系數(shù));將反映兩變量間曲線相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱為非線性相關(guān)系數(shù)、非線性判定系數(shù);將反映多元線性相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱為復(fù)相關(guān)系數(shù)、復(fù)判定系數(shù)等 (來源: 百度百科)

Image

import pingouin as pgimport seaborn as sns# Load an example dataset with the personality scores of 500 participantsdf = pg.read_dataset('pairwise_corr')
# 1.Test for bivariate normality (optional)pg.multivariate_normality(df[['Neuroticism', 'Openness']])
# 1bis. Visual inspection with a histogram + scatter plot (optional)sns.jointplot(data=df, x='Neuroticism', y='Openness', kind='reg')
# 2. If the data have a bivariate normal distribution and no clear outlier(s), we can use a regular Pearson correlationpg.corr(df['Neuroticism'], df['Openness'], method='pearson')

Image

非參數(shù)分析 Non-parametric

非參數(shù)檢驗(yàn)(Nonparametric tests)是統(tǒng)計(jì)分析方法的重要組成部分,它與參數(shù)檢驗(yàn)共同構(gòu)成統(tǒng)計(jì)推斷的基本內(nèi)容。參數(shù)檢驗(yàn)是在總體分布形式已知的情況下,對(duì)總體分布的參數(shù)如均值、方差等進(jìn)行推斷的方法。但是,在數(shù)據(jù)分析過程中,由于種種原因,人們往往無法對(duì)總體分布形態(tài)作簡(jiǎn)單假定,此時(shí)參數(shù)檢驗(yàn)的方法就不再適用了。非參數(shù)檢驗(yàn)正是一類基于這種考慮,在總體方差未知或知道甚少的情況下,利用樣本數(shù)據(jù)對(duì)總體分布形態(tài)等進(jìn)行推斷的方法。由于非參數(shù)檢驗(yàn)方法在推斷過程中不涉及有關(guān)總體分布的參數(shù),因而得名為“非參數(shù)”檢驗(yàn)。(來源: 百度百科)

Image

import pingouin as pg# Load an example dataset comparing pain threshold as a function of hair colordf = pg.read_dataset('anova')# There are 4 independent groups in our dataset, we'll therefore use the Kruskal-Wallis test:pg.kruskal(data=df, dv='Pain threshold', between='Hair color')

地址:

https://github.com/raphaelvallat/pingouin

引用

如果你想引用Pingouin,請(qǐng)參考《 Journal of Open Source Software》上的出版物。

Vallat, R. (2018). Pingouin: statistics in Python. Journal of Open Source Software, 3(31), 1026, https:///10.21105/joss.01026

@article{vallat2018pingouin,  title={Pingouin: statistics in Python.},  author={Vallat, Raphael},  journal={J. Open Source Softw.},  volume={3},  number={31},  pages={1026},  year={2018}}

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多