小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

數(shù)據(jù)變換的萬能鑰匙:Box

 鄭公書館298 2016-04-24

注:本文為協(xié)和八「說人話的統(tǒng)計學(xué)」系列之樣本分布不正態(tài)?數(shù)據(jù)變換來救場!的延伸閱讀,點擊上述標(biāo)題可跳轉(zhuǎn)至該集原文。

讀過兩天前推送的《樣本分布不正態(tài)?數(shù)據(jù)變換來救場!》,你一定已經(jīng)熟悉了數(shù)據(jù)變換的目的和意義,也了解了常用的若干種數(shù)據(jù)變換函數(shù),如數(shù)據(jù)變換的萬能鑰匙:Box-Cox變換 | 協(xié)和八數(shù)據(jù)變換的萬能鑰匙:Box-Cox變換 | 協(xié)和八、數(shù)據(jù)變換的萬能鑰匙:Box-Cox變換 | 協(xié)和八等。

至于說什么時候應(yīng)該用哪個函數(shù)來作變換,原文也針對常見的幾種情況給出了一些建議。當(dāng)然,我們會遇到的數(shù)據(jù)紛繁復(fù)雜,究竟用什么函數(shù)效果比較好,還是得通過反復(fù)嘗試并實際驗證才知道。

就好像用單反照相機(jī)的手動模式拍照一樣,這可是一件需要經(jīng)驗、知識和運(yùn)氣的事兒。你的內(nèi)心在呼喚:

能不能有自動模式(或者干脆來個傻瓜卡片機(jī))呢?

這里我們就來簡單介紹一下一種根據(jù)數(shù)據(jù)自動尋找「最佳」變換函數(shù)的方法——

Box-Cox 變換

Box-Cox 變換在上世紀(jì)六十年代由兩位英國統(tǒng)計學(xué)家 George E.P. Box 和 David Cox 提出( Box 他老人家?guī)啄昵皠倓傊x世,而 Cox 現(xiàn)已 92 歲高齡)。他們兩位葫蘆里賣的是什么藥呢?

我們先來看看 Box-Cox 變換的數(shù)學(xué)形式。和以前一樣,假設(shè)樣本里一共有 n 個數(shù)據(jù)點,分別是

數(shù)據(jù)變換的萬能鑰匙:Box-Cox變換 | 協(xié)和八。

如果我們把變換后新的數(shù)據(jù)點記為

數(shù)據(jù)變換的萬能鑰匙:Box-Cox變換 | 協(xié)和八

(你會問這個 λ 是哪里冒出來的?別著急,我們馬上解釋),那么有:

數(shù)據(jù)變換的萬能鑰匙:Box-Cox變換 | 協(xié)和八

看著很復(fù)雜?我們來把它解剖一下,你會發(fā)現(xiàn)其實挺簡單。這里出現(xiàn)的 λ,是一個有待確定的常數(shù)。這個常數(shù)如何確定我們稍等一會再說,現(xiàn)在我們先假設(shè) λ 的值已經(jīng)給定了,變換會是個什么樣子?

把目光投向上述定義的第二行,你會看到一位老熟人——對數(shù)變換。不錯,如果 λ 取 0,那么 Box-Cox 變換讓我們做的正是對樣本取對數(shù)。

如果 λ≠0,觀察第一行的算式,我們能看到它的核心部分其實就是,后邊的 -1 和分母的 λ 只是兩個對進(jìn)行拉伸和平移的常數(shù),并不會影響分布的形狀。是什么呢?不就是個關(guān)于 y 的冪函數(shù)嘛!當(dāng) λ 分別取下列數(shù)值時,我們會得到一系列耳熟能詳?shù)暮瘮?shù):

數(shù)據(jù)變換的萬能鑰匙:Box-Cox變換 | 協(xié)和八

你看,我們之前說過的常用的變換函數(shù)幾乎都出現(xiàn)了!寫到這里其實并沒有什么神奇的,無非只是利用 λ 把這些不同的函數(shù)寫出一個統(tǒng)一的表達(dá)式而已。最關(guān)鍵的問題在于怎樣選定一個最優(yōu)的 λ,使得變換后的樣本(及總體)正態(tài)性最好。

設(shè)想一下,在最理想的情形下,經(jīng)過變換以后,新的樣本中數(shù)據(jù)點服從正態(tài)分布。我們以前講過,要確定一個正態(tài)分布,只需要兩個參數(shù),一是均值(確定分布所在的位置),二是標(biāo)準(zhǔn)差(確定分布的形狀有多寬)。根據(jù)轉(zhuǎn)化后的數(shù)據(jù),我們可以估計出這兩個參數(shù)(估計方法參看《想玩轉(zhuǎn)t檢驗?你得從這一篇看起》),進(jìn)而用正態(tài)分布的概率密度函數(shù)算出每個數(shù)據(jù)點在該正態(tài)分布下出現(xiàn)的概率。由于各個數(shù)據(jù)點是互相獨立的,因此所有這些單個數(shù)據(jù)點的概率的乘積就是整個樣本出現(xiàn)的概率(即似然函數(shù)值)。

如果變換以后新的樣本并不服從正態(tài)分布呢?我們?nèi)匀豢梢酝ㄟ^上面的方法算出似然。然而,變換后的樣本實際并不服從正態(tài)分布,這個似然函數(shù)是生搬硬套進(jìn)去的,似然函數(shù)值就會很小。

就好比說,你認(rèn)為在北京生活的人 99% 都是女的,結(jié)果你隨便一出門,視野范圍內(nèi)有 7 男 4 女,立馬就傻眼了,因為根據(jù)你的理論,隨機(jī)遇到 11 個人里只有 4 個女性的概率(似然)非常低。反過來,如果你認(rèn)為男女各占一半,11 人中有 7 男 4 女就很稀松平常(即似然函數(shù)值比較大)。

所以,要找到使變換后樣本正態(tài)性最好的那個 λ,我們只需在所有的 λ 里找出使得正態(tài)假設(shè)下似然函數(shù)最大的那一個。聽起來是不是有點耳熟?這個解決方案的思想與我們在《算術(shù)平均數(shù):簡單背后有乾坤》中介紹的「極大似然估計」是一樣的。有了思路,找 λ 這樣的臟活累活交給計算機(jī)來干就好了,現(xiàn)在許多數(shù)據(jù)分析和統(tǒng)計軟件都已實現(xiàn)了一鍵式 Box-Cox 變換的操作。

說了這么多,咱也得是騾子是馬拉出來遛遛是吧?你也許還記得之前兩集文章里我們碰到過一個很難纏的尾巴很長的總體分布,其抽樣分布逼近正態(tài)分布的速度很慢,對數(shù)變換也搞不定它。這里我們就用它來試一試 Box-Cox 變換(圖1)。容易看到,Box-Cox變換取得了相當(dāng)好的效果,變換后頻率直方圖基本對稱,而 q-q 圖上各點基本在一條直線上。

數(shù)據(jù)變換的萬能鑰匙:Box-Cox變換 | 協(xié)和八

圖1 Box-Cox 變換效果示例

第一列:原數(shù)據(jù)的總體分布、樣本頻率直方圖和 q-q 圖。

第二列:將樣本進(jìn)行 Box-Cox 變換后,新樣本的頻率直方圖和 q-q 圖(總體分布略)。

那么,是怎樣的 λ 才能有這樣好的效果呢?答案是0.16,大致相當(dāng)于開6次方根。如果光靠瞎碰,估計找到這個變換不太容易吧?

最后,我們還要提個醒兒,盡管 Box-Cox 變換十分強(qiáng)大,但是它依舊不是全能的。它只能在冪函數(shù)和對數(shù)函數(shù)中「搜索出最好的變換,但不能保證一定能達(dá)到正態(tài)性。同時,我們之前說過數(shù)據(jù)變換方法的局限性,也都適用于它。

所以,雖然利器在手,要把它用好,還是得自己功夫深哦!

注:文中圖片為作者自繪。

回復(fù)「統(tǒng)計學(xué)」可查看「說人話的統(tǒng)計學(xué)」系列合輯,

或點擊下方標(biāo)題可閱讀本系列全部文章數(shù)據(jù)變換的萬能鑰匙:Box-Cox變換 | 協(xié)和八

數(shù)據(jù)變換的萬能鑰匙:Box-Cox變換 | 協(xié)和八

作者:張之昊

編輯:燈盞細(xì)辛

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多