什么是統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)是收集、分析、展示和解釋數(shù)據(jù)的科學(xué)。這里說的數(shù)據(jù)就是科學(xué)中的事實(shí)和證據(jù),數(shù)據(jù)不僅限于數(shù)字,它也可能是圖像或文字,實(shí)際上,任何信息都可以稱為數(shù)據(jù)。 數(shù)據(jù)和變量在了解這兩個(gè)術(shù)語之前,先看一組數(shù)據(jù),從這組數(shù)據(jù)出發(fā),說明這幾個(gè)術(shù)語。 這組數(shù)據(jù)是R中自帶的數(shù)據(jù)集,即 > str(iris)再看一下前幾條信息,如下所示: 從上面的這兩個(gè)結(jié)果,我們可以得到這些信息: 第一,這個(gè)數(shù)據(jù)集一共有150行,5列。 第二,每1列的名稱分別為 再回到 其中,我們把種屬(Species)這個(gè)信息稱為 再看其它的4個(gè)變量,它們是用具體的數(shù)字表示,這些變量稱為 連續(xù)型變量的例子有身高、體重、熱量、速度、長度等,它們的取值 是實(shí)數(shù)軸的某一個(gè)區(qū)間或者是某些區(qū)間集合中的所有可能點(diǎn)的變量。 離散型變量的例子有,某種事件發(fā)生的次數(shù),例如拋5次硬幣,在描述有幾次正面朝上的時(shí)候,只可能是0次,1次,2次,3次,4次,5次,而不可能是1.5次這種小數(shù),離散型變量只能取正整數(shù)或0。 還看上面的案例,整個(gè) 我們一般所說的數(shù)據(jù)是一個(gè)集合名詞,每一個(gè)數(shù)字包含很多觀測值,每個(gè)觀測值也稱為一個(gè)數(shù)據(jù)點(diǎn)(data point, point)或例(case)。就以這個(gè) 這也是一個(gè)觀測值,如下所示: 概率和隨機(jī)變量在統(tǒng)計(jì)學(xué)研究中,有很多對(duì)象都被認(rèn)為具有 在這里,硬幣的朝上與朝下的這個(gè)變量,它就是 一個(gè)事件(event)的概率(probability)是該事件發(fā)生可能性的一個(gè)數(shù)量度量,它的聚會(huì)范圍是0到1,也可能是0或1.當(dāng)一個(gè)事件的概率接近1時(shí),則說明這個(gè)事件很可能發(fā)生;如果概率接近0,則說明不太可能發(fā)生,如果概率為0.5,那么說明該事件發(fā)生和不發(fā)生的可能性一樣。 簡單來說,概率稱量某個(gè)事件出現(xiàn)的機(jī)會(huì),有些概率在某種假定條件下可以算出來,例如拋硬幣,得到正面朝上與反面朝上的概率都是0.5,這種可能計(jì)算概率的事件稱為 不過有些概率是無法用重復(fù)計(jì)算來估計(jì)的,例如有人認(rèn)為,最近3個(gè)月內(nèi)中東地區(qū)發(fā)生大規(guī)模軍事沖突的概率是80%,這顯著無法用重復(fù)試劑來估計(jì),這只是他們基于過去的經(jīng)合和掌握的信息形成的信息,這種概率稱為 利用R產(chǎn)生隨機(jī)數(shù)在進(jìn)行抽樣時(shí),或者是模擬某個(gè)分布時(shí),我們常常要用到隨機(jī)數(shù),現(xiàn)在都是用軟件來生成隨機(jī)數(shù),雖然這種隨機(jī)數(shù)不晃真正的隨機(jī)數(shù),但是已經(jīng)足夠使用了,使用軟件生成的這種隨機(jī)數(shù)稱為偽隨機(jī)數(shù)(pseudo-random number),現(xiàn)在介紹一下用R來如何生成隨機(jī)數(shù)。 現(xiàn)在生成10個(gè)2到3之間的,服從均勻分布的偽隨機(jī)數(shù),如下所示: > set.seed(1000)現(xiàn)在解釋一下,先看 現(xiàn)在,再看 總體(population)根據(jù)研究目的而確定的同質(zhì)觀察單位的全體,更確切地說,它是同質(zhì)的所有觀察單位某種觀察值的集合,例如調(diào)查某地2008年7歲正常女童的身高,而其中的觀察單位(個(gè)體)則是每個(gè)女童。由于這里的總體明確規(guī)定了空間、時(shí)間、人群范圍內(nèi)有限個(gè)觀察單位,因此稱為 為了降低成本,因此在醫(yī)學(xué)研究中通常彩從總體中抽取樣本(sample)的方法,根據(jù)樣本信息來推斷總體特征,這種方法叫 為了保證樣本的代表性,抽樣必須遵循 統(tǒng)計(jì)推斷在實(shí)際研究工作中,受條件所限,在研究中很難得到整個(gè)總體,往往只能得到總體中的一個(gè)子集,即實(shí)際工作中往往按隨機(jī)的方式從總體中抽取若干有代表性的同質(zhì)個(gè)體所構(gòu)成的一個(gè)樣本(sample)進(jìn)行研究,這就需要通過樣本有限的、不確定的信息來歓有關(guān)總體的特征,這就是 數(shù)據(jù)整體的一般描述極差又叫全距(Range),是用來表示統(tǒng)計(jì)資料中的變異量數(shù)(measures of variation),其最大值與最小值之間的差距;即最大值減最小值后所得之?dāng)?shù)據(jù)。 均值通常情況下,我們所說的均值都是所有的數(shù)據(jù)之和除以數(shù)據(jù)的數(shù)目,但是,在一些特殊的情況下,會(huì)指明均值的類型,例如是算術(shù)均值,還是幾何均值。 算術(shù)均值(arithmetic mean)算術(shù)平均數(shù)是對(duì)集中趨勢的最常用的描述。我們對(duì)某個(gè)量進(jìn)行了n次觀測,把測量到的數(shù)值分別記為X1, X2,…, Xn,那么要得到算術(shù)平均數(shù),只需把X1到Xn加起來,再除以數(shù)據(jù)的個(gè)數(shù)n。數(shù)學(xué)公式為: 幾何均值(geometric mean)幾何平均數(shù)是指n個(gè)觀察值連乘積的n次方根。 中位數(shù)(median)中位數(shù)是把該變量所有取值從小到大(或從大到小)排序,取最中間的一個(gè)(例如總共有21個(gè)數(shù),則取排行第11的)。如果樣本量是偶數(shù),則取中間兩個(gè)數(shù)的平均。 眾數(shù)(mode)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,叫眾數(shù),有時(shí)眾數(shù)在一組數(shù)中有好幾個(gè)。用M表示。 理性理解:簡單的說,就是一組數(shù)據(jù)中占比例最多的那個(gè)數(shù)。 例如:2,3,3,3,4,5的眾數(shù)是3。 但是,如果有兩個(gè)或兩個(gè)以上個(gè)數(shù)出現(xiàn)次數(shù)都是最多的,那么這幾個(gè)數(shù)都是這組數(shù)據(jù)的眾數(shù)。 例如:2,2,3,3,4,5的眾數(shù)是2和3。 其次,如果所有數(shù)據(jù)出現(xiàn)的次數(shù)都一樣,那么這組數(shù)據(jù)沒有眾數(shù)。 例如:2,3,4,5沒有眾數(shù)。 百分位數(shù)(percentile)如果將一組數(shù)據(jù)從小到大排序,并計(jì)算相應(yīng)的累計(jì)百分位,則某一百分位所對(duì)應(yīng)數(shù)據(jù)的值就稱為這一百分位的百分位數(shù)??杀硎緸椋阂唤Mn個(gè)觀測值按數(shù)值大小排列。如,處于p%位置的值稱第p百分位數(shù)。 百分位數(shù)的計(jì)算w<>75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,57.0,69.0,56.9,50.0,72.0) # 建立向量w結(jié)果如下: 另外一種方法是用 cumsum(round(table(w)/length(w)*100,2)) # cumsum表示的是累積之和結(jié)果如下所示: 四分位數(shù)(Quartile)統(tǒng)計(jì)學(xué)中,把所有數(shù)值由小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù)。第一,四分位數(shù) (Q1),又稱“較小四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。第二,四分位數(shù) (Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。第三,四分位數(shù) (Q3),又稱“較大四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。第三,四分位數(shù)與第一四分位數(shù)的差距又稱四分位距(InterQuartile Range,IQR)。四分位距的優(yōu)點(diǎn)在于,與全距(極差)相比,較少受異常值的影響。 R中用來顯示四分位數(shù)的函數(shù)是quantile,另外用boxplot可以繪制出某個(gè)數(shù)據(jù)集的箱線圖。 箱線圖結(jié)果 條睛線圖的解讀:最下面是下界,最上面的圓圈是上界,上界的圓圈是異常值,中間矩形的底邊是下分位數(shù),上邊是上四分位數(shù),中間的粗線是中位數(shù),箱體的高是四分位距。 數(shù)據(jù)離散程度的描述對(duì)于一批數(shù)據(jù)來說,我們有時(shí)候需要看一下這批數(shù)據(jù)的波動(dòng)分散程度如何,這就需要一些指標(biāo)。 變異醫(yī)學(xué)研究的對(duì)象雖功能復(fù)雜的有機(jī)作整體。不同的個(gè)體在相同的條件下,對(duì)外因環(huán)境因素可以發(fā)生不同的反應(yīng),這種同質(zhì)基礎(chǔ)上個(gè)體特征值之間的差異,稱為變異(variation)(醫(yī)學(xué)統(tǒng)計(jì)學(xué)及SAS應(yīng)用,王炳順)。 離均差每一個(gè)變量值X與均數(shù)μ的差值,即離均差(X-μ)。 離均差平方和由于離均差有正有負(fù),最終所有離均差的和即(X-μ)為0,因此離均差的和無法描述一組數(shù)據(jù)的變異大小。因此將離均差平方后相加得到平方和Var(X)=E(X-μ)^2,這就是離均差平方和(sum of squares of deviations from mean)。 總體方差雖然離均差平方和消除了正負(fù)的影響,但是如果變量值N越大,則離均差平方和也越大,為此,將離均離平方和除以N就得到了方差,方差用δ^2表示,計(jì)算公式為: 另外,方差(variance)也稱均方差(mean square deviation) 樣本方差上面的是總體方差,如果是樣本方差,那么總體均值μ是未知的,因此,這個(gè)時(shí)候就要用樣本的均值來替代總體的均值,這個(gè)時(shí)候也不能用δ^2來表示樣本方差,需要用 樣本方差與總體方差的分母不一樣,這是因?yàn)闃颖痉讲畹姆帜甘褂胣-1才更接近于總體的參數(shù),這是無偏估計(jì)(unbiased estimator),如果直接使用n,那就是有偏估計(jì)(biased estimator ),不過當(dāng)樣本數(shù)量大到一定程度時(shí),分母是n-1和n差別不大,具體的證明過程這里略過,網(wǎng)上很多。 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(standard deviation)是方差的正平方根,其單位與原變量值的單位相同,總體標(biāo)準(zhǔn)差用δ表示,計(jì)算公式為: 樣本標(biāo)準(zhǔn)差樣本標(biāo)準(zhǔn)差的公式如下所示: 標(biāo)準(zhǔn)差計(jì)算函數(shù)在Excel中計(jì)算方差的公式為 標(biāo)準(zhǔn)誤與標(biāo)準(zhǔn)差的區(qū)別在醫(yī)學(xué)統(tǒng)計(jì)中,還經(jīng)常遇到標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤。例如我們要調(diào)查地區(qū)A中10歲男孩的身高。如果全部都統(tǒng)計(jì)下來,直接測是最準(zhǔn)確的數(shù)據(jù)。但是成本高,不現(xiàn)實(shí)。因此需要進(jìn)行采樣,一次測量100個(gè)男孩的身高,求這一次的均值M1與標(biāo)準(zhǔn)差S1,如果采樣10次,每次都取100人,我們會(huì)得到10個(gè)均值,分別記為M1,M2,M3…M10,對(duì)這10個(gè)均值再求一個(gè)均值M以及標(biāo)準(zhǔn)差S,其中這個(gè)標(biāo)準(zhǔn)差S就是標(biāo)準(zhǔn)誤(standard error),即均值的標(biāo)準(zhǔn)誤差(standard error of mean)。 變異系數(shù)(coefficient of variation)簡稱為CV,標(biāo)準(zhǔn)差與均值的比值。公式為: 參考資料醫(yī)學(xué)統(tǒng)計(jì)學(xué).第四版.孫振球 小白統(tǒng)計(jì).馮國雙 為什么樣本方差(sample variance)的分母是 n-1? 吳喜之. 統(tǒng)計(jì)學(xué):從概念到數(shù)據(jù)分析[M]. 高等教育出版社, 2008. |
|
|