|
1 正相關(guān)與負相關(guān) 1.1 相關(guān)性 事物之間可能會有關(guān)系,這可以通過數(shù)據(jù)看出。比如要買房的人越多(下圖的城鎮(zhèn)化率可以簡單理解為進城買房的人數(shù)),房價就越高,兩者的關(guān)系稱為 正相關(guān) : 城鎮(zhèn)化有另外一個反作用,降低出生率。城鎮(zhèn)化和出生率之間的關(guān)系就是負相關(guān) ,也就是說城鎮(zhèn)化率越高、出生率會越低,所以說,“城鎮(zhèn)化是最好的避孕藥”: 1.2 股票組合 在現(xiàn)實生活中了解相關(guān)性是很有用處的,比如下面有三支股票,年度收益都是 10% : 可以看到藍色、綠色這兩只股票走勢基本一致,也就是這兩者正相關(guān);而藍色、紅色走勢相反,藍色上漲的時候紅色下跌,也就是這兩者負相關(guān)?;鸾?jīng)理會傾向于把負相關(guān)的兩支股票做成一個組合,這樣收益率也還是 10% ,但是整個組合波動會很小,整體看上去平穩(wěn)上升。 這種相關(guān)性可以通過下面要介紹的 協(xié)方差 和 相關(guān)系數(shù) 來表示和計算。 2.1 顏色 假設(shè)有兩個隨機變量,身高 ,也就是說身高增加體重也會隨著增加。 但是怎么通過數(shù)學(xué)來表達呢?我們來看一個例子,下面是某班同學(xué)的身高體重: 這兩個隨機變量可以構(gòu)成二維平面上的點 很顯然,相對于第一個點(152,45)而言,第二個點(160,54)橫坐標(biāo)增加了,同時縱坐標(biāo)也增加了;也就是說第二個點代表的同學(xué),身高增加了的同時體重也增加了,這兩個點是正相關(guān)的,我們在兩者之間畫一個紅色的矩形表示這兩者是正相關(guān)的關(guān)系: 現(xiàn)在加入第三個點(172,44),這位同學(xué)可能比較瘦高,他和第一、第二位同學(xué)負相關(guān),用藍色的矩形來表示: 接著增加第四個點(175,64),它和前面三個點都是正相關(guān);最后增加第五個點(180,80),它和去前面四個點全是正相關(guān)。所以這些矩形全是紅色的: ![]() 畫完之后整體看上去是紅色的,這說明 2.2 面積 從圖形上可以看出紅色有優(yōu)勢,說明是正相關(guān)。下面來看看如何通過代數(shù)計算出這個結(jié)果。從第一個紅色矩形開始: ![]() 可以算出這個紅色矩形的面積為正:
而某個藍色矩形: ![]() 它的“面積”為負:
所以把所有的矩形的“面積”加起來,如果為正那么說明就是紅色矩形占優(yōu)勢,也就是正相關(guān);反之則是負相關(guān);為0的話說明哪個都不占優(yōu)勢,則是不相關(guān)。就這里的具體問題而言,很顯然紅色更占優(yōu)勢,所以算出來為正(總共有 2.3 一般化 如果有
來表示組成矩形的兩個頂點,那么所有矩形的面積的和就可以表示為:
那么:
3 協(xié)方差 可以看出要計算面積還是挺麻煩的,數(shù)學(xué)家給出了一個簡化的方案。 3.1 簡化 按照剛才的計算方法,比如說某一個點
這樣之前的面積計算公式就從:
變?yōu)榱耍?/span>
如此,計算就被大大簡化了。下面用這種方法重新算下剛才的例子。 3.2 具體的例子 首先以 ![]() 容易知道,一、三象限的點和 ![]() 在第四個象限中有一個點,它和 ![]() 把所有矩形都畫出來的話(總共只有5個矩形,按照上節(jié)給出的算法總共需要畫10個矩形,可見現(xiàn)有算法確實大大簡化了,點越多簡化的效果越好),可以看到還是紅色占優(yōu),因此總體來看 ![]() 3.3 協(xié)方差 還要考慮一點,每個點的概率是不一樣的,因此各個矩形的面積并非是平等的,或者說權(quán)重是不一樣的,所以需要對面積和進行加權(quán)平均,也就是對面積和計算數(shù)學(xué)期望,這就得到了: 是一個二維隨機變量,若 存在,則稱此數(shù)學(xué)期望為 與 的 協(xié)方差(Covariant),記作:![]() 。很顯然會有:
之前求出來的協(xié)方差是有單位的,比如身高 假如又有一個隨機變量,同學(xué)的年齡 ,各自的方差為:![]() 則:
稱為隨機變量 之前介紹過標(biāo)準差是有單位的,比如剛才舉的例子身高
單位就約掉了,變成沒有單位的數(shù)了,就可以進行比較了。比如剛才提到的身高
馬上可以知道相對于年齡,身高與體重之間的正相關(guān)關(guān)系更強烈。 5 線性相關(guān) “正相關(guān)”或者“負相關(guān)”實際指的是 ![]() ![]() |
|
|