小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

生物統(tǒng)計(jì)第一彈之統(tǒng)計(jì)基礎(chǔ)概念

 微笑如酒 2018-08-04

在系統(tǒng)學(xué)習(xí)統(tǒng)計(jì)學(xué)之前,有必要了解一些基本的統(tǒng)計(jì)學(xué)概念和術(shù)語,現(xiàn)在把這些概率與術(shù)語總結(jié)了一下,可能有不太完善的地方,僅供大家參考。

什么是統(tǒng)計(jì)學(xué)

統(tǒng)計(jì)學(xué)是收集、分析、展示和解釋數(shù)據(jù)的科學(xué)。這里說的數(shù)據(jù)就是科學(xué)中的事實(shí)和證據(jù),數(shù)據(jù)不僅限于數(shù)字,它也可能是圖像或文字,實(shí)際上,任何信息都可以稱為數(shù)據(jù)。

數(shù)據(jù)和變量

在了解這兩個(gè)術(shù)語之前,先看一組數(shù)據(jù),從這組數(shù)據(jù)出發(fā),說明這幾個(gè)術(shù)語。

這組數(shù)據(jù)是R中自帶的數(shù)據(jù)集,即iris這個(gè)數(shù)據(jù)集,iris數(shù)據(jù)集的中文名是安德森鳶尾花卉數(shù)據(jù)集,英文全稱是Anderson’s Iris data set。iris包含150個(gè)樣本,對(duì)應(yīng)數(shù)據(jù)集的每行數(shù)據(jù)。每行數(shù)據(jù)包含每個(gè)樣本的四個(gè)特征和樣本的類別信息,所以iris數(shù)據(jù)集是一個(gè)150行5列的二維表,我們先看一下這個(gè)數(shù)據(jù)集的結(jié)構(gòu),如下所示:

> str(iris)
'data.frame':   150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels 'setosa','versicolor',..: 1 1 1 1 1 1 1 1 1 1 ...

再看一下前幾條信息,如下所示:

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa

從上面的這兩個(gè)結(jié)果,我們可以得到這些信息:

第一,這個(gè)數(shù)據(jù)集一共有150行,5列。

第二,每1列的名稱分別為Sepal.Length、Sepal.Width、Petal.Length、Petal.WidthSpecies,它們分別表示鳶尾花的花萼長度,花萼寬度、花瓣長度,花瓣寬度,種屬,也就是說第1行中一共有這5個(gè)信息,我們把這5個(gè)信息稱為變量(variable)。這里需要說明一下的是,變量(variable)在計(jì)算機(jī)/數(shù)據(jù)庫等領(lǐng)域也叫屬性(attribute)、特征(feature)、特性(characteristic)、字段(field)等等。

再回到iris這個(gè)數(shù)據(jù)集中。

其中,我們把種屬(Species)這個(gè)信息稱為定性變量(qualitative variable),定性變量取的值稱為水平(level)類(class)。定性變量有其它的教材中也會(huì)稱為分類變量(categorical variable)、屬性變量(attributives variable)、名義變量/標(biāo)稱變量(nominal variable)或維度(dimension)。定性變量的例子除了種屬外,還有其他的例子,例如我們常見的性別,顏色等,在有些情況下,定量變量也會(huì)按照定性變量去處理,例如,為了調(diào)查方便,我們在問卷中可以只問高收入、中收入還是低收入,而不是問具體多少錢,這種定性變量還能進(jìn)行排序,它們也常常稱為定序變量(ordinal variable)。

再看其它的4個(gè)變量,它們是用具體的數(shù)字表示,這些變量稱為定量變量(quantitative variable)。定量變量還能分為連續(xù)型變量(continuous variable)離散型變量(discrete variable)。

連續(xù)型變量的例子有身高、體重、熱量、速度、長度等,它們的取值 是實(shí)數(shù)軸的某一個(gè)區(qū)間或者是某些區(qū)間集合中的所有可能點(diǎn)的變量。

離散型變量的例子有,某種事件發(fā)生的次數(shù),例如拋5次硬幣,在描述有幾次正面朝上的時(shí)候,只可能是0次,1次,2次,3次,4次,5次,而不可能是1.5次這種小數(shù),離散型變量只能取正整數(shù)或0。

還看上面的案例,整個(gè)iris這個(gè)數(shù)據(jù)集中,除了第1行的變量名稱外,剩下的內(nèi)容則是與這些變量對(duì)應(yīng)的數(shù)據(jù)(data),可以把數(shù)據(jù)看成變量的觀測值,或者是試驗(yàn)結(jié)果,例如,身高是一個(gè)變量,測量一個(gè)人的身高,就好比一次試驗(yàn),可觀測到一次試驗(yàn)結(jié)果,就是觀測值(observation)。這里還要提一下,觀測值(observation)在計(jì)算機(jī)/數(shù)據(jù)庫領(lǐng)域也叫記錄(record)、對(duì)象(object)、向量(vector)、模式(pattern)、事件(event)、例(case,instance)、樣本(sample)、或項(xiàng)、實(shí)體(entity)等等。

我們一般所說的數(shù)據(jù)是一個(gè)集合名詞,每一個(gè)數(shù)字包含很多觀測值,每個(gè)觀測值也稱為一個(gè)數(shù)據(jù)點(diǎn)(data point, point)或例(case)。就以這個(gè)iris的數(shù)據(jù)集為例,它的每1列代表一個(gè)變量,而每1行則為一個(gè)對(duì)象關(guān)于各個(gè)變量的觀測值,簇也把這種數(shù)據(jù)方陣的每一行叫做一個(gè)觀測(值),就像下面的樣子,它就是一個(gè)觀測:

mark

這也是一個(gè)觀測值,如下所示:

mark

概率和隨機(jī)變量

在統(tǒng)計(jì)學(xué)研究中,有很多對(duì)象都被認(rèn)為具有隨機(jī)性(randomness),隨機(jī)的事情也有規(guī)律的,例如我們拋一個(gè)硬幣,在硬幣落在地面之前,硬幣朝哪面我們是不知道的,它是隨機(jī)的,事先無法準(zhǔn)確地預(yù)測。但是,只要這個(gè)硬幣是正常的,沒問題的,那么我們就知道,硬幣朝上與朝下的概率基本上是相等的。

在這里,硬幣的朝上與朝下的這個(gè)變量,它就是隨機(jī)變量(random variable)。而一個(gè)隨機(jī)變量的性質(zhì)則完全被與其相關(guān)的概率或概率分布決定。那什么是概率?

一個(gè)事件(event)的概率(probability)是該事件發(fā)生可能性的一個(gè)數(shù)量度量,它的聚會(huì)范圍是0到1,也可能是0或1.當(dāng)一個(gè)事件的概率接近1時(shí),則說明這個(gè)事件很可能發(fā)生;如果概率接近0,則說明不太可能發(fā)生,如果概率為0.5,那么說明該事件發(fā)生和不發(fā)生的可能性一樣。

簡單來說,概率稱量某個(gè)事件出現(xiàn)的機(jī)會(huì),有些概率在某種假定條件下可以算出來,例如拋硬幣,得到正面朝上與反面朝上的概率都是0.5,這種可能計(jì)算概率的事件稱為等可能事件(equally likely event),這種可能是假定的,對(duì)于硬幣來說,就是假定正面與反面朝上的?一樣,如果我們拋了一千次,其中得到正面與反面朝上的頻率或相對(duì)頻數(shù)(relative frequency)都接近0.5,那么就說明這個(gè)硬幣是公平的,是正常的,這些事件理論上可能通過重復(fù)試驗(yàn)中出現(xiàn)的頻率來計(jì)算其發(fā)生的概率。

不過有些概率是無法用重復(fù)計(jì)算來估計(jì)的,例如有人認(rèn)為,最近3個(gè)月內(nèi)中東地區(qū)發(fā)生大規(guī)模軍事沖突的概率是80%,這顯著無法用重復(fù)試劑來估計(jì),這只是他們基于過去的經(jīng)合和掌握的信息形成的信息,這種概率稱為主觀概率(subjective probability)

利用R產(chǎn)生隨機(jī)數(shù)

在進(jìn)行抽樣時(shí),或者是模擬某個(gè)分布時(shí),我們常常要用到隨機(jī)數(shù),現(xiàn)在都是用軟件來生成隨機(jī)數(shù),雖然這種隨機(jī)數(shù)不晃真正的隨機(jī)數(shù),但是已經(jīng)足夠使用了,使用軟件生成的這種隨機(jī)數(shù)稱為偽隨機(jī)數(shù)(pseudo-random number),現(xiàn)在介紹一下用R來如何生成隨機(jī)數(shù)。

現(xiàn)在生成10個(gè)2到3之間的,服從均勻分布的偽隨機(jī)數(shù),如下所示:

> set.seed(1000)
> runif(10,2,3)
 [12.327879 2.758846 2.113936 2.690755 2.516402 2.067738 2.738715 2.583535
 [92.215771 2.256122

現(xiàn)在解釋一下,先看runif()這個(gè)函數(shù),在R中,這個(gè)函數(shù)前面的r表示隨機(jī),unif表示服從均勻分布,類似的還有rnorm(),它的功能類似,只是它生成的是服從正態(tài)分布的隨機(jī)數(shù),其中norm就是正態(tài)分布的意思。

現(xiàn)在,再看set.seed(1000)的作用是保證你隨機(jī)生成的數(shù)字前后一致,如果它的參數(shù)就是一個(gè)數(shù)字,這個(gè)數(shù)字可以隨意指定,括號(hào)里的數(shù)字只要一致,那么每次生成的隨機(jī)數(shù)就一致,如果不使用這個(gè)函數(shù),那么我們每次運(yùn)行runif(10,2,3),它生成的隨機(jī)數(shù)就不一樣,現(xiàn)在看一下下面的代碼:

> runif(10,2,3# 不指定set.seed()
 [12.567518 2.049710 2.561620 2.966179 2.509945 2.700937 2.020349 2.783569
 [92.584397 2.317293
> runif(10,2,3# 再次運(yùn)行runif(10,2,3),生成的結(jié)果就不一樣
 [12.996208 2.531047 2.109908 2.633212 2.797929 2.712990 2.702835 2.562833
 [92.258873 2.506937
> set.seed(1000# 指定set.seed(1000)
> runif(10,2,3# 生成的結(jié)果就與前面的一樣
 [12.327879 2.758846 2.113936 2.690755 2.516402 2.067738 2.738715 2.583535
 [92.215771 2.256122

總體(population)

根據(jù)研究目的而確定的同質(zhì)觀察單位的全體,更確切地說,它是同質(zhì)的所有觀察單位某種觀察值的集合,例如調(diào)查某地2008年7歲正常女童的身高,而其中的觀察單位(個(gè)體)則是每個(gè)女童。由于這里的總體明確規(guī)定了空間、時(shí)間、人群范圍內(nèi)有限個(gè)觀察單位,因此稱為有限總體(finite populaton)。而在一些情況下,總體的概念則是設(shè)想的或抽象的,例如研究某治療慢性前列腺增生的藥物的療效,這里的總體的同質(zhì)基礎(chǔ)是慢性前列腺增生患者,該總體應(yīng)包括用該藥治療的所有前列腺增生癥患者的治療結(jié)果,沒有時(shí)間和空間的限制,其觀察單位的全體數(shù)只是理論上存在的,因此可以視為“無限”,稱為無限總體(infinite populaton)。

為了降低成本,因此在醫(yī)學(xué)研究中通常彩從總體中抽取樣本(sample)的方法,根據(jù)樣本信息來推斷總體特征,這種方法叫抽樣研究(sampling research),從總體中抽取部分觀察單位的過程稱為抽樣(sampling)。

為了保證樣本的代表性,抽樣必須遵循隨機(jī)化(randomization)原則。從總體中隨機(jī)抽得的部分觀察單位,其實(shí)際測量的集合就是樣本,該樣本中包含的觀察單位數(shù)稱為該樣本的樣本含量(sample size)。例中從某地2008年7歲正常女童中,隨機(jī)抽取了110名女童,測量身高,得到了110名女童的身高測量值,組成了樣本;也可能從就診的前列腺增生癥患者中隨機(jī)抽取了100名患者,并觀察藥物的治療效果,就組成了治療效果的樣本。

統(tǒng)計(jì)推斷

在實(shí)際研究工作中,受條件所限,在研究中很難得到整個(gè)總體,往往只能得到總體中的一個(gè)子集,即實(shí)際工作中往往按隨機(jī)的方式從總體中抽取若干有代表性的同質(zhì)個(gè)體所構(gòu)成的一個(gè)樣本(sample)進(jìn)行研究,這就需要通過樣本有限的、不確定的信息來歓有關(guān)總體的特征,這就是統(tǒng)計(jì)推斷(statistical inference),簡言之,統(tǒng)計(jì)推斷是指由樣本所提供的信息對(duì)總體數(shù)量規(guī)律做出推斷。

數(shù)據(jù)整體的一般描述

極差

又叫全距(Range),是用來表示統(tǒng)計(jì)資料中的變異量數(shù)(measures of variation),其最大值與最小值之間的差距;即最大值減最小值后所得之?dāng)?shù)據(jù)。

均值

通常情況下,我們所說的均值都是所有的數(shù)據(jù)之和除以數(shù)據(jù)的數(shù)目,但是,在一些特殊的情況下,會(huì)指明均值的類型,例如是算術(shù)均值,還是幾何均值。

算術(shù)均值(arithmetic mean)

算術(shù)平均數(shù)是對(duì)集中趨勢的最常用的描述。我們對(duì)某個(gè)量進(jìn)行了n次觀測,把測量到的數(shù)值分別記為X1, X2,…, Xn,那么要得到算術(shù)平均數(shù),只需把X1到Xn加起來,再除以數(shù)據(jù)的個(gè)數(shù)n。數(shù)學(xué)公式為:

mark

幾何均值(geometric mean)

幾何平均數(shù)是指n個(gè)觀察值連乘積的n次方根。

中位數(shù)(median)

中位數(shù)是把該變量所有取值從小到大(或從大到小)排序,取最中間的一個(gè)(例如總共有21個(gè)數(shù),則取排行第11的)。如果樣本量是偶數(shù),則取中間兩個(gè)數(shù)的平均。

眾數(shù)(mode)

一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,叫眾數(shù),有時(shí)眾數(shù)在一組數(shù)中有好幾個(gè)。用M表示。 理性理解:簡單的說,就是一組數(shù)據(jù)中占比例最多的那個(gè)數(shù)。

例如:2,3,3,3,4,5的眾數(shù)是3。 但是,如果有兩個(gè)或兩個(gè)以上個(gè)數(shù)出現(xiàn)次數(shù)都是最多的,那么這幾個(gè)數(shù)都是這組數(shù)據(jù)的眾數(shù)。 例如:2,2,3,3,4,5的眾數(shù)是2和3。 其次,如果所有數(shù)據(jù)出現(xiàn)的次數(shù)都一樣,那么這組數(shù)據(jù)沒有眾數(shù)。 例如:2,3,4,5沒有眾數(shù)。

百分位數(shù)(percentile)

如果將一組數(shù)據(jù)從小到大排序,并計(jì)算相應(yīng)的累計(jì)百分位,則某一百分位所對(duì)應(yīng)數(shù)據(jù)的值就稱為這一百分位的百分位數(shù)??杀硎緸椋阂唤Mn個(gè)觀測值按數(shù)值大小排列。如,處于p%位置的值稱第p百分位數(shù)。

百分位數(shù)的計(jì)算

w<>75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,57.0,69.0,56.9,50.0,72.0# 建立向量w
quantile(w) # 給出w的四分位數(shù)
quantile(w,probs=seq(0,1,0.2),na.rm=FALSE) # 給出向量w的20%,40%分位數(shù)
quantile(w,0.80# 求w的80%分位數(shù)
quantile(w,0.75)- quantile(w,0.25#半極差計(jì)算

結(jié)果如下:

> quantile(w) # 給出w的四分位數(shù)
   0%   25%   50%   75%  100% 
47.40 57.85 63.50 66.75 75.00 
> quantile(w,probs=seq(0,1,0.2),na.rm=FALSE) # 給出向量w的20%,40%分位數(shù)
   0%   20%   40%   60%   80%  100% 
47.40 56.98 62.20 64.00 67.32 75.00 
> quantile(w,0.80) # 求w的80%分位數(shù)
  80% 
67.32 
> quantile(w,0.75)- quantile(w,0.25) #半極差計(jì)算
75% 
8.9 

另外一種方法是用cumsum()函數(shù)來計(jì)算:

cumsum(round(table(w)/length(w)*100,2)) # cumsum表示的是累積之和

結(jié)果如下所示:

> cumsum(round(table(w)/length(w)*100,2)) # cumsum表示的是累積之和
  47.4     50   56.9     57   58.7   62.2   63.5     64   66.6   66.9     69     72     75 
  6.67  13.34  20.01  26.68  33.35  46.68  53.35  66.68  73.35  80.02  86.69  93.36 100.03 

四分位數(shù)(Quartile)

統(tǒng)計(jì)學(xué)中,把所有數(shù)值由小到大排列并分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù)。第一,四分位數(shù) (Q1),又稱“較小四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。第二,四分位數(shù) (Q2),又稱“中位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。第三,四分位數(shù) (Q3),又稱“較大四分位數(shù)”,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。第三,四分位數(shù)與第一四分位數(shù)的差距又稱四分位距(InterQuartile Range,IQR)。四分位距的優(yōu)點(diǎn)在于,與全距(極差)相比,較少受異常值的影響。 R中用來顯示四分位數(shù)的函數(shù)是quantile,另外用boxplot可以繪制出某個(gè)數(shù)據(jù)集的箱線圖。

箱線圖結(jié)果boxplot(w)如下所示:

條睛線圖的解讀:最下面是下界,最上面的圓圈是上界,上界的圓圈是異常值,中間矩形的底邊是下分位數(shù),上邊是上四分位數(shù),中間的粗線是中位數(shù),箱體的高是四分位距。

數(shù)據(jù)離散程度的描述

對(duì)于一批數(shù)據(jù)來說,我們有時(shí)候需要看一下這批數(shù)據(jù)的波動(dòng)分散程度如何,這就需要一些指標(biāo)。

變異

醫(yī)學(xué)研究的對(duì)象雖功能復(fù)雜的有機(jī)作整體。不同的個(gè)體在相同的條件下,對(duì)外因環(huán)境因素可以發(fā)生不同的反應(yīng),這種同質(zhì)基礎(chǔ)上個(gè)體特征值之間的差異,稱為變異(variation)(醫(yī)學(xué)統(tǒng)計(jì)學(xué)及SAS應(yīng)用,王炳順)。

離均差

每一個(gè)變量值X與均數(shù)μ的差值,即離均差(X-μ)。

離均差平方和

由于離均差有正有負(fù),最終所有離均差的和即(X-μ)為0,因此離均差的和無法描述一組數(shù)據(jù)的變異大小。因此將離均差平方后相加得到平方和Var(X)=E(X-μ)^2,這就是離均差平方和(sum of squares of deviations from mean)。

總體方差

雖然離均差平方和消除了正負(fù)的影響,但是如果變量值N越大,則離均差平方和也越大,為此,將離均離平方和除以N就得到了方差,方差用δ^2表示,計(jì)算公式為:

mark

另外,方差(variance)也稱均方差(mean square deviation)

樣本方差

上面的是總體方差,如果是樣本方差,那么總體均值μ是未知的,因此,這個(gè)時(shí)候就要用樣本的均值來替代總體的均值,這個(gè)時(shí)候也不能用δ^2來表示樣本方差,需要用來表示方差,此外,N值也要減去1,公式就如下所示:

mark

樣本方差與總體方差的分母不一樣,這是因?yàn)闃颖痉讲畹姆帜甘褂胣-1才更接近于總體的參數(shù),這是無偏估計(jì)(unbiased estimator),如果直接使用n,那就是有偏估計(jì)(biased estimator ),不過當(dāng)樣本數(shù)量大到一定程度時(shí),分母是n-1和n差別不大,具體的證明過程這里略過,網(wǎng)上很多。

標(biāo)準(zhǔn)差

標(biāo)準(zhǔn)差(standard deviation)是方差的正平方根,其單位與原變量值的單位相同,總體標(biāo)準(zhǔn)差用δ表示,計(jì)算公式為:

mark

樣本標(biāo)準(zhǔn)差

樣本標(biāo)準(zhǔn)差的公式如下所示:

mark

標(biāo)準(zhǔn)差計(jì)算函數(shù)

在Excel中計(jì)算方差的公式為STDEV.PSTDEV.S其中,STDEV.P計(jì)算時(shí),認(rèn)為你給出的數(shù)據(jù)是總體,因此它的分母為N,而STDEV.S計(jì)算時(shí),認(rèn)為你給出的數(shù)據(jù)是樣本,因此它的分母為N-1。在R中,用到的函數(shù)為sd,默認(rèn)的就是樣本,因此分母為N-1。

標(biāo)準(zhǔn)誤與標(biāo)準(zhǔn)差的區(qū)別

在醫(yī)學(xué)統(tǒng)計(jì)中,還經(jīng)常遇到標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤。例如我們要調(diào)查地區(qū)A中10歲男孩的身高。如果全部都統(tǒng)計(jì)下來,直接測是最準(zhǔn)確的數(shù)據(jù)。但是成本高,不現(xiàn)實(shí)。因此需要進(jìn)行采樣,一次測量100個(gè)男孩的身高,求這一次的均值M1與標(biāo)準(zhǔn)差S1,如果采樣10次,每次都取100人,我們會(huì)得到10個(gè)均值,分別記為M1,M2,M3…M10,對(duì)這10個(gè)均值再求一個(gè)均值M以及標(biāo)準(zhǔn)差S,其中這個(gè)標(biāo)準(zhǔn)差S就是標(biāo)準(zhǔn)誤(standard error),即均值的標(biāo)準(zhǔn)誤差(standard error of mean)。

變異系數(shù)(coefficient of variation)

簡稱為CV,標(biāo)準(zhǔn)差與均值的比值。公式為:

mark

參考資料

醫(yī)學(xué)統(tǒng)計(jì)學(xué).第四版.孫振球

小白統(tǒng)計(jì).馮國雙

為什么樣本方差(sample variance)的分母是 n-1?

吳喜之. 統(tǒng)計(jì)學(xué):從概念到數(shù)據(jù)分析[M]. 高等教育出版社, 2008.


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多