|
很多人都知道線性回歸,當(dāng)你的結(jié)局變量是連續(xù)變量,當(dāng)你想觀察某個(gè)或某些自變量(一般是引起某結(jié)局的原因)對(duì)結(jié)局變量的影響的時(shí)候,通常首先會(huì)想起線性回歸。 盡管很多人都用過線性回歸,但卻很少有人真正去關(guān)注線性回歸的應(yīng)用前提。線性回歸幾乎是非常完美的方法,但這種完美是有條件的,任何統(tǒng)計(jì)方法的應(yīng)用都是有條件的,沒有放之四海而皆準(zhǔn)的真理,同樣也沒有用于任何數(shù)據(jù)而皆有效的方法。今天我們就來談?wù)劸€性回歸最基本的條件——線性。 所謂“線性”回歸,那當(dāng)然一定是“線性”才能用的回歸。如果你的自變量和因變量之間的關(guān)系都不是“線性”關(guān)系,那還叫什么“線性”回歸? 什么是線性,你找根線,拉一下,這就是線性。當(dāng)然統(tǒng)計(jì)學(xué)中的線性關(guān)系不可能像你手中的線那么直,但起碼應(yīng)該是差不多呈直線關(guān)系。如下面的圖就是線性的: 而下面這個(gè)圖則不是線性的: 可能有人會(huì)說,這個(gè)看起來好像也是逐漸上升的趨勢(shì)啊。沒錯(cuò),第二個(gè)圖也可以用線性回歸來描述。但是請(qǐng)記住,我們?yōu)槭裁匆没貧w模型呢?目的是為了找到一個(gè)模型,能夠十分貼切地描述數(shù)據(jù)。 讓我們看一下,如果對(duì)第二個(gè)圖分別用線性和非線性來描述,會(huì)是什么樣子: 就算用肉眼看都能看出,紫色的線對(duì)數(shù)據(jù)的擬合效果更好,通俗來說就是更貼近數(shù)據(jù)。 如果用線性回歸,你會(huì)發(fā)現(xiàn)結(jié)果是這樣的: 看起來x好像沒有統(tǒng)計(jì)學(xué)意義啊,P值大于0.05。但是不要灰心,對(duì)x做一下変量変換再看一下。 如果用二次項(xiàng)回歸,結(jié)果為: 看起來就有統(tǒng)計(jì)學(xué)意義了。一次項(xiàng)和二次項(xiàng)都有統(tǒng)計(jì)學(xué)意義。 所以說,并不是看到連續(xù)資料的關(guān)系,就一定要用線性回歸。線性回歸,只能給出你“線性”關(guān)系的回歸,但如果本身二者就不是“線性”關(guān)系,那你肯定不可能硬生生地造出線性回歸來。 所以,如果以后你做線性回歸,如果你沒有事先看一下自變量和因變量的關(guān)系,即使你得出的結(jié)果沒有統(tǒng)計(jì)學(xué)意義,也未必說明x和y沒有關(guān)系。沒有“線性”關(guān)系,不代表沒有“關(guān)系”。因?yàn)殛P(guān)系不僅僅有線性的,也有非線性的。事實(shí)上,可能非線性的關(guān)系更多見。 因此,建議各位在應(yīng)用線性回歸之前,一定要先繪制散點(diǎn)圖,看看二者是不是線性關(guān)系。如果不是,沒有問題,可以對(duì)因變量或自變量進(jìn)行變換。 最好是對(duì)自變量進(jìn)行變換,因?yàn)槿绻阕兞艘蜃兞浚岩蜃兞縴變成了lny,lny對(duì)x是線性關(guān)系了,但lny對(duì)z變量呢?說不定就不是線性了。也就是說,y是要對(duì)應(yīng)很多自變量的,最好的就是變換x。 至于說,如何變換,這就得根據(jù)實(shí)際情況了,沒有一概而論的情形。必須結(jié)合散點(diǎn)圖的形狀而定。如果你實(shí)在搞不定,那就去請(qǐng)教統(tǒng)計(jì)學(xué)家吧。畢竟,你收集了這么多數(shù)據(jù),在最后的分析上也應(yīng)該花點(diǎn)心血才對(duì)。 |
|
|