小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

邏輯斯蒂回歸是曲線救國

 醫(yī)路人生xamili 2021-11-14

邏輯斯蒂回歸(logistic regression),亦稱邏輯特回歸(logit regression),是音譯,有點像佛經(jīng)里的“阿耨多羅三藐三菩提”,聽起來神秘兮兮,其實并不復(fù)雜?!鞍Ⅰ穸嗔_三藐三菩提”指的是“無上正等正覺”,即最高的智慧覺悟。不過,鳩摩羅什等大德翻譯佛經(jīng)時,覺得漢語的意譯不能完全表達(dá)梵文原意,容易讓人望文生義,采用音譯,目的是讓誦經(jīng)的人多用心想想。漢語世界的統(tǒng)計專家,翻譯logistic regression的時候采用音譯,原因好像有點勉強。采用意譯,還是不大好懂,但至少不容易起誤導(dǎo)作用,讓人覺得這個分析方法跟“邏輯”有關(guān)系。采用意譯,logisitic regression是以近似線性回歸的方式分析一件事情(事件)發(fā)生(或一個個體具有某個屬性)的概率。概率是一件事情(時間)發(fā)生(或一個個體具有某個屬性)的可能性,概率的變異局限在0到1之間。一件事情發(fā)生的概率的變異區(qū)間從極?。o限接近0)到極大(無限接近1),統(tǒng)計學(xué)家先把概率轉(zhuǎn)換成發(fā)生比(odds),即一個事件發(fā)生的概率與其不發(fā)生的概率的比率(發(fā)生的概率為分子,不發(fā)生的概率為分母)。然后取發(fā)生比的自然對數(shù)(natural logarithm)(即以2.718為底的對數(shù)),這個對數(shù)就是logit,即 log of it,natural logarithm of it,it就是發(fā)生比。以logit為因變量的回歸分析就是logit regression(邏輯特回歸),為了悅耳,叫做logistic regression(邏輯斯蒂回歸)。換句話說,邏輯斯蒂回歸是一種以概率的變化為因變量的近似線性回歸的分析工具,只不過繞了兩個彎子,把作為因變量的概率轉(zhuǎn)換成了發(fā)生比的自然對數(shù)。

統(tǒng)計學(xué)家把概率轉(zhuǎn)換成發(fā)生比的自然對數(shù),不是畫蛇添足,而是為了讓我們能夠以近似線性回歸的方式分析概率的變化,同時又不做出不合乎邏輯的(荒謬)的預(yù)測。我們喜歡用線性方式想問題,正相關(guān)是水漲船高,負(fù)相關(guān)是此起彼伏或此消彼長,不相關(guān)是任憑風(fēng)浪起穩(wěn)坐釣魚船,很好懂,還有三分詩意。麻煩的是,線性回歸(最小二乘回歸)要求因變量是連續(xù)變量,而社會科學(xué)中常見的因變項是二分變項,例如是否投票,是否支持某個政黨,是否支持某個候選人。測量二分變項,最直觀的方法是用二分法,是=1,否=0。但是,世界并不這么簡單。以考試為例,如果是二分法,只分及格和不及格,那么及格=1,不及格=0。但是,及格的人,成績并不相同,有的輕松及格,有的勉強及格;不及格的人,成績也不相同,有的差一點兒,有的差很多。為了盡量深入地分析現(xiàn)實,我們需要分析及格的概率,概率從0到1,理論上來說是個無限的變異區(qū)間,從無限趨近0到無限趨近1。可是,我們不能簡單地用線性方式分析概率的變化,否則會得出邏輯上荒謬的結(jié)果。如果直接以及格的概率為因變量,根據(jù)線性回歸分析的結(jié)果,當(dāng)自變量取一定值的時候,因變量(概率)可能小于0或大于1,二者都是邏輯上不可能的(荒謬的)。把概率轉(zhuǎn)換成發(fā)生比的自然對數(shù),就不會做出荒謬預(yù)測了。轉(zhuǎn)化后,與無限趨近0的概率相對應(yīng)的發(fā)生比的自然對數(shù)是負(fù)無窮(negative infinity),與50/50(五五開,隨機)的概率相對應(yīng)的發(fā)生比的自然對數(shù)的是0,與無限趨近1的概率相對應(yīng)的發(fā)生比的自然對數(shù)是正無窮(positive infinity)。

數(shù)學(xué)的“無窮”不好想象,我們進(jìn)一步簡化。在社會科學(xué)研究中,學(xué)者們實際關(guān)心的極小概率是0.0001(萬中有一,萬一),隨機概率是0.5(五五開),極大概率是0.9999(萬僅一失),也就是關(guān)注概率從0.0001到0.9999的變異。我們虛構(gòu)個例子。假設(shè)我們分析博士生在論文上花的時間與寫出完美博士論文之間的關(guān)系。是否寫出了完美論文是因變項,我們用概率測量為測量工具,測量單位是萬分之一,即0.0001的概率。研究寫作所花的時間(工夫)是自變項,我們以小時為測量單位,簡稱為時數(shù)。我們進(jìn)一步假設(shè),博士生每多下一小時工夫,即工作時數(shù)增加一個單位,做出完美博士論文的概率就增加萬分之一,即0.0001;相反,博士生每少下一小時工夫,即工作時數(shù)減少一個單位,做出完美博士論文的概率就減小萬分之一。假定一個博士生一共投入9999小時,那么他做出完美博士論文的概率就到了0.9999。我們畫個散點圖,以從1到9999的工作時數(shù)為橫軸,以完成博士論文的概率為縱軸(從0.0001到0.9999),我們會得到一條標(biāo)志這兩個變量正相關(guān)的斜線。

圖片

但是,這樣的線性回歸有兩個問題。第一,完美永遠(yuǎn)達(dá)不到,所以上面的研究假定不成立。現(xiàn)實中,隨著博士生工作時間的增加,他會越來越接近完成一部完美的博士論文,但永遠(yuǎn)達(dá)不到完美??墒?,如果我們做簡單的線性回歸,一定得出結(jié)論,就是如果博士生工作一萬小時,他做出完美博士論文的概率是1。第二,更麻煩的問題是,如果博士生工作超過一萬小時,他做出完美博士論文的概率大于1,而概率不可能大于1。

把概率轉(zhuǎn)換成發(fā)生比的自然對數(shù),可以讓我們避開這個問題。我們?nèi)匀灰詫懖┦空撐臑槔?。為了簡化,我們把極小概率界定為0.0001(萬中有一,萬一),把極大概率界定為0.9999(萬僅一失)。這時,情況就簡單了。極小概率是0.0001,發(fā)生比是0.0001(0.0001/0.9999),0.0001的自然對數(shù)是-9.21;隨機概率是0.5(五五開),發(fā)生比是1(0.5/0.5),1的自然對數(shù)是0;極大概率是0.9999(萬僅一失),發(fā)生比是9999(0.9999/0.0001),9999的自然對數(shù)是9.21。我們畫個散點圖,以從1到9999的工作時數(shù)為橫軸(自變量),以寫出完美博士論文的發(fā)生比的對數(shù)(從-9.21到9.21)為縱軸(因變量),我們會得到一條標(biāo)志這兩個變量之間關(guān)系的S型曲線。根據(jù)這個分析結(jié)果,我們可以預(yù)測,隨著博士生工作時間的增加,他會越來越接近完成一部完美的博士論文,但他永遠(yuǎn)達(dá)不到完美,這樣我們就避免了邏輯上荒謬的(不合邏輯的)預(yù)測。

圖片

為了更直觀地理解把概率轉(zhuǎn)換成發(fā)生比的自然對數(shù)有什么神效,我們以從0.0001到0.9999的概率為縱軸,以與這個區(qū)間的概率相對應(yīng)的發(fā)生比的自然對數(shù)為橫軸,做個散點分布圖,得到的是一條漂亮對稱的S型曲線,這就是統(tǒng)計學(xué)教材中說的“S型”曲線。

圖片

一句話,把概率轉(zhuǎn)換成發(fā)生比的自然對數(shù),可以幫我們避免邏輯荒謬。這個分析工具對于主要分析二分因變量的社會科學(xué)學(xué)者有救駕之功,所以我戲稱之為“曲線救國”。

圖片

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多