小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

SAS初階2

 fire216 2009-07-17

數(shù)據(jù)探索――一維方法

SAS/INSIGHT提供了十分方便的數(shù)據(jù)探索功能。對一維數(shù)據(jù),可以作直方圖、盒形圖、馬賽克圖,對二維數(shù)據(jù),可以作散點圖、曲線圖、散點圖矩陣,對三維數(shù)據(jù)可以作旋轉(zhuǎn)圖(三維散點圖)。在圖上可以選定一些觀測,這些選擇結(jié)果會同時反映在數(shù)據(jù)窗口和其它圖中。

以SASUSER.CLASS數(shù)據(jù)集為例。選定變量HEIGHT,用“Analyze | Histogram/Bar Charts(Y) ”菜單可以打開一個圖形窗口生成身高的分布 直方圖,如圖 10。

直方圖的每一個條形代表了繪圖變量(HEIGHT)在一個區(qū)間的取值情況,比如70到75之間的條形代表身高在70到75英寸的人,條形高度為組頻數(shù),即取值在這一區(qū)間的觀測個數(shù),可以看出這一組有一個學生。單擊這一條形選中在此范圍的觀測,可以發(fā)現(xiàn)這時數(shù)據(jù)窗口的相應觀測也被選定了,被選中的是Philip,身高72英寸。如果雙擊某一條形,比如60到65的條形,就可以在選定相應觀測的同時彈出一個檢查觀測窗口,窗口中顯示各被選中的觀測序號,以及其中一個觀測的各變量值。這樣可以很方便地檢查圖中各部分所對應的觀測。為取消選定,只要在圖中空白處單擊即可。

作出的圖形有一個方框包圍。如果想改變圖形大小,可以單擊方框使其變粗,然后拖動四個角中的一個,就可以把圖形放大或縮小。甚至還可以把一個角向其對角方向拖動一直拖過對角,這樣可以改變圖形的橫縱軸方向。拖動邊框可以把圖形移動到窗口內(nèi)其它位置。

圖形中提供了一個設置菜單,可以單擊圖形邊框角上的向右箭頭或在圖形內(nèi)右鍵單擊來打開。菜單內(nèi)容包括Ticks,可以設置坐標軸的具體畫法;Axes用來指定畫不畫坐標軸;Observations 用來指定是否畫觀測;Values指定是否標出各條形高度值。

對連續(xù)數(shù)據(jù)(Int型)作直方圖可以反映其分布情況,對離散數(shù)據(jù)(Nom型)作直方圖同樣可以反映其分布,即取每一個離散值的比例大?。l數(shù)分布)。比如,在作了身高的直方圖后,選定變量SEX,對其作直方圖,則結(jié)果打開一個新圖形窗口作出只有兩個條形的條形圖,一個標記為F,另一個標記為M,高度分別為9和10,即有9個女生,10個男生,男女比例為10 :9。單擊標F的條形,可以看到數(shù)據(jù)窗口中所有女生的觀測被選定,另外還可以看到已作的身高的直方圖也發(fā)生了變換,身高的每一個條形都分成了顏色不同的兩部分,其中下面的一部分代表女生。

在用Analyse菜單中的作圖命令作圖時如果沒有選定的變量則彈出一個對話框提問用哪一個變量作圖,如果對身高作圖,只要選HEIGHT然后按Y鈕即可。

盒形圖

從圖形菜單中選Values 可以標出圖中重要數(shù)據(jù)值??梢钥闯?,此盒形圖的橫軸沒有用處,縱軸代表身高的取值范圍。盒形的中間有一條粗線,這是身高分布的中位數(shù)的位置,盒子上邊線是分布的四分之三分位數(shù),下邊線是分布的四分之一分位數(shù),盒子上下邊線包含了分布的中間50%的觀測。盒子的長度叫做分布的四分位間距,其作用類似于標準差,可以反映數(shù)據(jù)分布的分散程度。從盒子邊線向外畫了兩條線叫做觸須線,最長可以延伸到四分位間距的1.5倍,但是如果已經(jīng)到了數(shù)據(jù)的最小值或最大值處就不再延伸。如果觸須線沒有達到數(shù)據(jù)的極端值,則這些數(shù)據(jù)點用觸須線以外的點來畫出,一般認為這樣的點是異常點。從盒形圖可以看出數(shù)據(jù)的偏斜情況,比如我們看到盒子的下半部比上半部長,而且下觸須線比上觸須線長,說明身高分布略左偏。

用盒形圖菜單中的“Means”選項可以在盒形圖上加畫一個菱形,菱形的中間代表分布的平均值,菱形端點到中間距離為兩倍標準差。如果是變量服從正態(tài)分布,菱形上下端點之間應該包含大約95%的觀測。平均值和中位數(shù)的比較也能反映變量的偏斜情況,平均值低于中位數(shù)可能左偏。

單擊或雙擊盒形圖的某一部分(盒子上半部或下半部、觸須線、極端值)可以選定觀測。

盒形圖可以方便地比較按某分組變量分組后的分布情況。比如,如果我們想看一看男女的身高分布有何異同,不選任何變量啟動“Analyze | Box Plot/Mosaic Plot”菜單,彈出選擇變量的對話框如圖 13。

選身高為Y變量,選性別為X變量,畫出的圖見圖 14。

圖中有兩個盒形圖,女生一個,男生一個。從圖中看出,男生身高普遍高于女生,且女生身高分布左偏較男生嚴重。這種并排盒形圖可以十分直觀地比較兩個相關(guān)的分布。作盒形圖時指定多個Y變量也可以作出并排的盒形圖,比如,同時指定身高和體重作為Y變量作盒形圖就可以生成身高和體重的并排的盒形圖。

Analyze菜單的“Box Plot/Mosaic Plot”命令對連續(xù)型變量作盒形圖,對離散型變量將作 馬賽克圖。比如,對性別變量作圖得圖 16。

選“Values”菜單后標出了男女的人數(shù)、百分比。馬賽克圖一般不對單個變量作,而是對兩個離散變量來作。比如,先把SASUSER.CLASS 中變量AGE的量測水平由Int改為Nom,然后取消所有變量的選定,啟動“Box Plot/Mosai Plot ”,選SEX為Y變量,選AGE為X變量,作圖如圖 15。

這種圖的好處是直觀顯示了兩個變量每種取值組合的觀測個數(shù)和比例。單擊或雙擊其中一個方塊可以迅速選中一個分組,比如雙擊年齡為11性別為女(F)的方塊可以看到這一組的學生。

 

數(shù)據(jù)探索――二維

SAS/INSIGHT可以作曲線圖、散點圖、散點圖矩陣,可以在散點圖中刷亮觀測。

曲線圖

選DATETIME 為X變量,CO為Y變量,可以畫出CO的時間序列曲線圖。

單擊曲線上某一個點可以顯示其觀測序號,雙擊可以檢查觀測。如果想單擊曲線上點時不顯示觀測序號而顯示記錄時間是幾點,可以在曲線圖窗口中選主菜單的“Edit | Window | Renew”,可以再彈出變量窗口,選HOUR 并按Label鈕把時間指定為標簽變量。這時在作的CO的曲線圖上單擊一個點顯示的就是記錄時間了??梢钥闯鯟O的高峰一般在早晨8點和晚上17點-21點。用圖形菜單(右鍵或單擊向右三角)中的Observations可以畫出各個數(shù)據(jù)點的符號。

可以在圖上同時畫出多條曲線。比如,想考察風速對污染的影響,在圖形窗口中再用主菜單的“Edit | Window | Renew”,把WIND也作為Y變量,畫出的圖就有兩條不同顏色的曲線,單擊外面的CO變量符號和WIND變量符號可以加重顯示對應的曲線以區(qū)分這兩條曲線。見圖 18 。圖中被選的點是風速的最高值,時間是11點。注意在一條曲線中被選在另一條曲線中也被選。從此圖可以看出風速對污染有較明顯的影響,風大時污染較輕。

散點圖

從圖可以看出體重與身高有明顯的線性相關(guān)關(guān)系。

為了解哪一個點代表哪一個學生,單擊一個點可以顯示其觀測序號,雙擊可以檢查觀測。為了在單擊時可以顯示學生名字而不是觀測序號,需要把NAME指定為標簽變量。這可以在生成散點圖時先不在數(shù)據(jù)窗口選X、Y變量而是直接啟動“Analyze | Scatter Plot”菜單,彈出變量對話框,在其中選X、Y變量并把NAME指定為Label變量。這時,單擊散點圖中最左下角的那個點可以顯示名字Sandy,單擊最右上角的那個點可以顯示Philip。選多個點可以用附加選中的辦法(Shift或Ctrl單擊)。

為了在散點圖中選定多個點,SAS/INSIGHT還提供了一種稱為“ 刷亮(Brushing)”的操作。在圖中拖動鼠標光標可以拖出一個小長方形,在這個長方形中的點都被選中,稱它為刷子。選中的點在數(shù)據(jù)窗口也被選中,可以在數(shù)據(jù)窗口翻頁查看,或用數(shù)據(jù)窗口的Find Next菜單命令查看,或在數(shù)據(jù)窗口用Move to First菜單命令把選中的點移到最前查看。雙擊長方形(刷子)可以彈出檢查觀測窗口,在那里可以逐個查看選中的觀測內(nèi)容。

拖動刷子的角可以改變其大小。拖動刷子內(nèi)部可以移動它的刷亮位置,使進入刷子的點被選中,而離開了刷子的點被取消選中??梢酝瑫r用附加選中(Ctrl單擊)的辦法加選不在刷子內(nèi)的點,這些點還可以顯示標簽。在拖動刷子時如果同時按住Shift或Ctrl鍵則為附加選定,即進入刷子的點被選中而離開刷子的點仍保持被選中。可以按住Shift或Ctrl鍵拖出第二個刷子,這時第一個刷子不再顯示但它刷亮的點仍保持刷亮,移動第二個刷子時如果按住Shift 或Ctrl鍵仍可保持已有選定。為了取消所有選定,只要點擊圖內(nèi)空白處。

散點圖矩陣

我們看到三個變量兩兩組合有三種組合,每種組合有兩個圖形(橫縱軸對換)。散點圖矩陣對角線為變量標記和變量取值范圍,該變量是其所在行的縱軸變量,是其所在列的橫軸變量。比如第二行第一列的圖縱軸變量是HEIGHT ,橫軸變量是AGE,為身高對年齡的散點圖。其對稱位置(第一行第二列)是年齡對身高的散點圖,兩者只是把橫縱坐標旋轉(zhuǎn)對調(diào)。

散點圖矩陣除了可以同時看到多個散點圖的優(yōu)點外主要是在一個散點圖中被選中的點在其它散點圖和數(shù)據(jù)窗口中也同時被選中。這樣,我們可以在一個圖中選一個極端點,看它在其它圖中是否也處于極端位置。在一個散點圖中刷亮的點在其它散點圖中也同時被刷亮,這樣,我們可以觀察,年齡和身高都比較小時,體重是否也比較低。可以移動刷子,同時其它散點圖中被選中的點也在變化。從圖 20可以看出,年齡由小到大變化時身高、體重一般也變大,但同一年齡的學生的身高、體重差距較大。

SAS/INSIGHT提供了自動移動刷子的功能。在拖動刷子時松開鼠標按鈕,類似于“拋出” 刷子,刷子就可以按拋出的方向繼續(xù)移動并反彈。不過現(xiàn)在還較難控制自動移動的速度,有時移動過快。

數(shù)據(jù)探索――三維

SAS/INSIGHT對三維數(shù)據(jù)可以作稱為旋轉(zhuǎn)圖的三維散點圖。比如,要對SASUSER.CLASS 中的學生年齡、身高、體重作三維散點圖,在數(shù)據(jù)窗口依次選定AGE、HEIGHT、WEIGHT,然后啟動菜單“Analyze | Rotating Plot”,可以生成一個三維散點圖。圖 21是經(jīng)過旋轉(zhuǎn)后的圖形。

這種三維散點圖之所以稱為旋轉(zhuǎn)圖,是因為坐標系可以在三維空間繞原點任意旋轉(zhuǎn)。圖形的左側(cè)有一個小工具欄,其中有向上、下、左、右、逆時針、順時針旋轉(zhuǎn)的圖標,再往下有一個滾動條,用它來規(guī)定自動旋轉(zhuǎn)的速度。左下角是圖形的菜單(向右的三角形)。

為了旋轉(zhuǎn)坐標系,單擊左側(cè)的旋轉(zhuǎn)方向圖標。按住旋轉(zhuǎn)圖標可以連續(xù)旋轉(zhuǎn)。按住Shift或Ctrl 再旋轉(zhuǎn)可以實現(xiàn)自動旋轉(zhuǎn)。當鼠標光標移到圖形的四個角時光標形狀變成了手的形狀,單擊可以旋轉(zhuǎn),拖動可以連續(xù)旋轉(zhuǎn),拖動時“拋出”可以自動旋轉(zhuǎn)。自動旋轉(zhuǎn)中可以隨時拖動圖形以改變旋轉(zhuǎn)方向。

旋轉(zhuǎn)圖的菜單(圖 22)中,Ticks用來調(diào)整坐標軸刻度,Axes可以選坐標軸以數(shù)據(jù)中心點為原點、以左端點為原點、不畫坐標軸。Observations指定畫出所有觀測,如果沒有選中此項則只畫被選中的觀測。Rays從原點向每個散點畫射線。Cube在散點四周畫一個長方體盒子。Depth可以使離視點近的點畫得較大,離得遠的點畫得較小。Fast Draw指定用另一種較快的繪圖方法繪圖。Markers Sizes選擇散點的大小。

圖形的調(diào)整

SAS/INSIGHT提供了很強的調(diào)整繪制的圖形的功能。比如,調(diào)整坐標軸的畫法,點的大小、符號、顏色,隱藏某些觀測,等等。

給不同觀測使用不同的符號和顏色畫點有助于迅速區(qū)分不同類觀測的特點。比如,SASUSER.IRIS 數(shù)據(jù)集中包含了Fisher著名的Iris數(shù)據(jù),其中有三種不同的鳶尾屬植物的花瓣、花萼長、寬的測量數(shù)據(jù),希望從這些測量數(shù)據(jù)找出區(qū)分這三種植物的指標。為了直觀看到不同植物的測量數(shù)據(jù)的特征,最好用不同顏色畫每一種植物的散點。打開數(shù)據(jù)集后,選定分類變量SPECIES ,調(diào)用“Analyse / Box Plot / Mosaic Plot”菜單來作其馬賽克圖,可以看到此變量的三個值為Virginica、Versicolor、Setosa。用“Edit | Windows | Tools”菜單可以打開一個工具窗口,如圖 23。這個窗口可以改變觀測符號的顏色、符號,連線的線型、線寬,可以放大圖形局部。

在打開的馬賽克圖中先選定Virginica,這時所有類型Virginica的觀測被選中,按一下工具窗口中的紅色,就給所有這些觀測規(guī)定了繪圖符號為紅色。類似指定Virsicolor 為綠色,Setosa為藍色。作PETALWID(花瓣寬)對PETALLEN(花瓣長)的散點圖,可以作出三種不同植物用不同顏色繪點的散點圖,見圖 24。

利用一個變量的不同值來確定觀測繪點的顏色還可以自動進行,方法是先選定該變量(如SPECIES ),然后單擊工具窗口的漸變顏色棒,就可以為SPECIES的每一不同值分配一種不同顏色。這一方法不僅適用于SPECIES這樣的名義變量,也適用于數(shù)值型變量。顏色棒的顏色可以調(diào)整,比如要把顏色棒變?yōu)橛杉t到藍,只要把紅色方塊拖到顏色棒左端,把藍色方塊拖到顏色棒右端。

為了改變繪點符號的大小,調(diào)用圖形菜單(圖形邊角上的向右三角符號)中的Marker Sizes 菜單可以選擇一個合適的符號大小。

除了用不同顏色來區(qū)分不同種類的觀測外,還可以用不同的符號來畫不同的觀測。比如,選定SPECIES為Virginica的觀測后,單擊工具窗口的菱形圖標把此類觀測的繪點符號變?yōu)榱庑巍n愃浦付╒irsicolor用三角,Setosa用加號,作的散點圖見圖 24。從圖中可以看出,用加號繪制的Setosa類和其它兩類差別很大,單靠花瓣的長、寬就可以把這一類與其它兩類區(qū)分開,但是用菱形繪制的Virginica類和用三角繪制的Virsicolor類則在能大體區(qū)分開的同時有少數(shù)觀測混雜在一起,所以單靠花瓣的長、寬測量數(shù)據(jù)不能把這兩兩很好地區(qū)分開。

利用一個分類變量來決定不同的繪點符號除了上述的對每一類觀測分別選定,然后指定繪點符號的辦法,還可以選定這一分類變量,然后單擊工具欄中繪點符號下面的多種符號的長棒形圖標,可以自動為每一類分配一個繪點符號。

不同類觀測用不同的顏色和符號來繪點是一種強有力的數(shù)據(jù)探索手段,恰當使用可以直觀地發(fā)現(xiàn)不同類型觀測的區(qū)別。

分布研究

SAS/INSIGHT提供了很強的一維分布研究功能。對連續(xù)型變量,除了可以畫直方圖、盒形圖外,還可以作各種統(tǒng)計表,比如矩、分位數(shù)表,可以在直方圖上畫擬合密度曲線,可以檢驗分布是否來自正態(tài)、對數(shù)正態(tài)、指數(shù)、威布爾分布,等等。對離散型變量,可以畫馬賽克圖、條形圖、頻數(shù)表。

為了研究SASUSER.CLASS中身高的分布,在未選中變量的情況下,啟動“Analyze | Distribution(Y) ”菜單,出現(xiàn)圖 25的選擇變量對話框:

選Y變量為HEIGHT,按OK可以打開一個新窗口,顯示身高的直方圖、盒形圖、矩統(tǒng)計量表(圖 26):

分位數(shù)表(圖 27):

各統(tǒng)計量是SAS中經(jīng)常使用的,我們在此加以說明。設變量為 ,各觀測值為 。有時每個觀測還帶一個加權(quán) ,在沒有指定加權(quán)變量時認為加權(quán)恒為1。

     

  • N-觀測個數(shù)

     

     

  • Sum Wgts-加權(quán)和

     

     

  • Mean-均值

     

     

  • Sum-總和

     

     

  • Std Dev-標準差

     

     

  • Variance-方差

     

     

  • Skewness-偏度

     

     

  • Kurtosis-峰度

     

     

  • USS-加權(quán)平方和

     

     

  • VSS-加權(quán)離差平方和

     

     

  • CV-變異系數(shù)

     

     

  • Std Mean-均值的標準誤差

 

其中加權(quán)的常見情形是當一個觀測實際代表完全相同若干個樣品時,求和、平方和等都要加權(quán)。比如,第i個觀測代表 個樣品時,求變量Y的真正總和就需要用加權(quán)公式 。偏度可以表現(xiàn)變量分布的偏斜,負值為左偏,正值為右偏。峰度表現(xiàn)變量分布與正態(tài)分布相比是重尾(分布函數(shù)在正負無窮處衰減緩慢)還是輕尾(分布函數(shù)在正負無窮處衰減迅速)。標準誤差在統(tǒng)計中是一個十分重要的概念,它代表估計量作為隨機變量其標準差的估計,這里的Std Mean是均值的標準差的估計,實際計算公式是 ,而均值的理論標準差為 。如果估計量服從正態(tài)分布,通常用估計量加減兩倍標準誤差作為估計量的置信區(qū)間。

分位數(shù)表中,Max是最大值,Q3是四分之三分位數(shù),Med是中位數(shù)(反映數(shù)據(jù)中心位置),Q1 是四分之一分位數(shù),Min是最小值,Range是最大值減最小值,Q3-Q1為四分位間距,可以反映數(shù)據(jù)取值分散程度,Mode是眾數(shù),即出現(xiàn)最多的值。

在打開了身高分布的窗口之后主菜單中的Tables、Graphs、Curves菜單被開放。在Tables 菜單中可以選加一些統(tǒng)計表,比如Frequency Table是頻數(shù)表,為每一觀測值的頻數(shù)、累計頻數(shù)、百分比,C.I. for Mean可以計算均值的各種置信度的置信區(qū)間,Location Tests用于檢驗均值為某常數(shù)值(一般是0)的假設,可以用t檢驗、符號檢驗、符號秩檢驗,Gini's Mean Difference 是變量分布分散程度的一種穩(wěn)健估計,計算公式為 ,對正態(tài)分布其期望值為 。Trimmed Mean, (1/2)N計算去掉最大(1/2)N 個和最小(1/2)N個值后的平均值,(1/2)N可以指定為1,2,3或自定值,這是變量中心位置的一種穩(wěn)健估計,但估計量本身不再服從正態(tài)分布。Trimmed Mean, (1/2)Percent指定去掉最大、最小的百分之多少再計算均值。Winsorized Mean是把最大的(1/2)N個替換成由大到小第(1/2)N +1號值,把最小的(1/2)N個替換成由小到大第(1/2)N+1個值,然后計算的均值,它也是一種穩(wěn)健的均值估計。

在Graphs菜單中已選了直方圖、盒形圖,還可以作QQ圖,即分位數(shù)-分位數(shù)圖。

圖 28為身高的正態(tài)QQ圖,其中畫出了班上19個學生的19個點,每個點的縱坐標為變量值,而橫坐標為該值的累計百分比頻數(shù)對應的標準正態(tài)分位數(shù)。比如,身高最低的一個為51.3,其累計百分比頻數(shù)(即51.3的經(jīng)驗分布函數(shù)值)為5.3%,即身高小于51.3的占5.3%,而標準正態(tài)分布的0.053分位數(shù)為-1.84570,所以此點的橫坐標即-1.84570。如果身高服從正態(tài)分布,QQ圖的散點應大致在一條直線附近變動。QQ圖的各種不同形狀能夠反映出變量分布的偏斜情況和重、輕尾情況。在QQ圖中也可以選觀測、刷亮等。畫出QQ圖后選主菜單中的“Curves | QQ Ref Line ”可以為圖中散點畫一條擬合直線。

圖 28的身高的QQ圖顯示身高基本服從正態(tài)分布。如果我們畫SASUSER.GPA中GPA分數(shù)的QQ 圖(圖 30):

就可以看到GPA的分布呈現(xiàn)左偏的情況。這是因為,在QQ圖的左下端,GPA散點的走向比正態(tài)(圖中直線)偏下,說明GPA分布的左尾比正態(tài)長;在QQ圖的右上端,GPA散點的走向比正態(tài)偏右下,說明GPA分布的右尾比正態(tài)短,即分布左偏。作為驗證,可以看一看的圖 29直方圖:

圖 32給出了與正態(tài)相比左偏、右偏、輕尾、重尾的分布的QQ圖的典型模式:

除了可以作正態(tài)分布QQ圖外,還可以作對數(shù)正態(tài)、指數(shù)分布、威布爾分布的QQ圖。對數(shù)正態(tài)要指定參數(shù)Sigma,威布爾分布要指定形狀參數(shù)C。

SAS/INSIGHT為研究一維變量分布除畫直方圖外還提供了兩類 分布密度估計:參數(shù)估計和非參數(shù)估計。參數(shù)估計可以擬合正態(tài)、對數(shù)正態(tài)、指數(shù)、威布爾分布密度。非參數(shù)估計使用核估計。

比如,為了估計身高的正態(tài)密度并把密度曲線疊加在直方圖上,選“Curves | Parametric Density ”,彈出對話框圖 31:

指定正態(tài)分布且方法為用樣本估計分布密度參數(shù)。按OK后作出的圖見圖 33:

為了作身高密度的核估計圖,選“Curves | Kernel Density”,彈出一個對話框,可以選三種核函數(shù):正態(tài)核、三角核、二次函數(shù)核,可以自動擬合最優(yōu)的密度估計(方法為AMISE )或者自己指定平滑參數(shù)C。見圖 33。

作了密度曲線圖后在圖形下面將出現(xiàn)顯示密度估計主要參數(shù)的表格,見圖 34:

單擊其中的曲線標志可以加亮顯示圖中的曲線。對參數(shù)密度估計,給出了估計的參數(shù),比如正態(tài)的均值、方差;對核估計,給出了核函數(shù)類型,及平滑參數(shù)值。有些參數(shù)旁邊有一個滑塊,可以手工選擇參數(shù)的值。比如拖動核估計中的平滑參數(shù),此參數(shù)變小時估計的曲線變粗糙,變大時曲線變光滑。

在“Curves”菜單中還提供了對樣本經(jīng)驗分布函數(shù)的估計。選“Curves | Empirical CDF ”即繪制樣本經(jīng)驗分布函數(shù)。選“Curves | CDF Confidence Band”并選一個置信限可以在經(jīng)驗分布函數(shù)兩邊畫分布函數(shù)的置信限,見圖 35:

用經(jīng)驗分布函數(shù)估計分布函數(shù)相當于用直方圖估計分布密度。分布函數(shù)也可以用參數(shù)分布函數(shù)(如正態(tài)分布)來估計。選“Curves | Parametric CDF”并選分布類型可以畫出估計的分布函數(shù)。圖 35中的光滑曲線即用正態(tài)分布估計身高的分布函數(shù)。

SAS/INSIGHT還可以進行分布檢驗,可以檢驗數(shù)據(jù)是否來自某一類分布(參數(shù)未知),或檢驗數(shù)據(jù)是否來自某一特定分布(參數(shù)已知)。選“Analyze | Test for Distribution”,并選擇是檢驗正態(tài)、對數(shù)正態(tài)、指數(shù)、威布爾分布中哪一個,選正態(tài)后,得到圖 36的結(jié)果。

它給出了分布類型、估計的分布均值、標準差,及Kolmogorov D統(tǒng)計量的值,并給出了檢驗H0 :樣本來自正態(tài)分布的檢驗p值(Prob > D)為>.15,說明檢驗結(jié)果不顯著,不能否定正態(tài)假設。

如果要檢驗數(shù)據(jù)是否來自某一特定分布,選“Curves | Test for a Specific Distribution ”,并指定分布類型、分布參數(shù),可以計算檢驗的Kolmogorov D統(tǒng)計量及相應p值。圖 37是檢驗身高是否標準正態(tài)分布的結(jié)果,可以看出p值為0.0001高度顯著,應該否定數(shù)據(jù)來自標準正態(tài)的假設。

說明:在SAS中,統(tǒng)計假設檢驗的結(jié)果一般用檢驗的p值給出。這與我們習慣的做法稍有不同,以單正態(tài)總體的均值檢驗為例。假設我們要檢驗SASUSER.CLASS中學生的身高是否均值為零(這當然不可能,我們?yōu)楹唵纹鹨娪眠@種假設),設總體服從 ,要檢驗的零假設為 ,水平0.05,統(tǒng)計量使用t統(tǒng)計量 ,一般我們用的假設檢驗方法定否定域為W={|t|>C} ,其中C為n-1自由度t分布的雙側(cè)0.05分位數(shù)(Pr{|t|>C}=0.05),當用樣本算出的t統(tǒng)計量的值(如t=A)落入否定域時(|A|>C)否定零假設。在SAS中不需要這樣指定否定域,它可以先用樣本計算出t統(tǒng)計量的值(A),如果這個A絕對值很大就否定零假設,t統(tǒng)計量絕對值值是不是很大可以用這樣一個p=Pr{|t|>|A|}來衡量,p是一個0到1之間的數(shù)值,顯然|A| 越大,p越小。p<0.05與|A|>C是等價的。所以,如果p小于0.05,就否定零假設,稱檢驗結(jié)果是顯著的。否則不否定零假設。對SASUSER.CLASS中HEIGHT變量,在其分布窗口中選菜單“Tables | Location Tests”并從彈出的對換框中選中t檢驗,要檢驗的均值為0,得到的結(jié)果見圖 38。計算得到的t統(tǒng)計量值為A=52.9971,p值為Pr{|t|>52.9971}小于等于0.0001 。因p值小于0.05所以結(jié)果是否定零假設,結(jié)論是身高均值不為零。

SAS/INSIGHT還提供了曲線擬合、回歸、logistic回歸、Poisson回歸、相關(guān)分析、主成分分析等高等統(tǒng)計功能,我們后面再陸續(xù)介紹。

畫出多個變量兩兩間的散點圖以考察多變量關(guān)系。以SASUSER.CLASS為例,比如說我們想了解年齡、身高、體重間的關(guān)系。先把年齡的量測水平設為連續(xù)型(Int),在數(shù)據(jù)窗口選定年齡、身高、體重,可以作出圖 20。
也有一個X變量和一個Y變量,但不要求X變量有從小到大的次序,畫圖不用連線而是用散點畫出每一對X、Y坐標。比如對SASUSER.CLASS,我們希望通過畫圖了解身高和體重的關(guān)系。在數(shù)據(jù)窗口中先選定體重(Y軸變量)再附加選定身高(X軸變量),啟動菜單 “Analyze | Scatter Plot”,就可以生成以體重為縱軸以身高為橫軸的散點圖(見圖 19)。
有一個取值由小到大的X變量,有一個或幾個Y變量,以X變量為橫坐標對Y 變量畫曲線。為了演示曲線圖,打開SASUSER.AIR數(shù)據(jù)集(用“File | Open”菜單)。這個數(shù)據(jù)集是德國某城市一周的每小時記錄的空氣污染情況。變量DATETIME是記錄的日期時間,為特殊SAS格式數(shù)據(jù),變量DAY為星期幾,HOUR為幾點鐘,CO、O3、SO2、NO、DUST分別為一氧化碳、臭氧、二氧化硫、一氧化氮、粉塵的濃度,WIND為風速。要畫一氧化碳的曲線圖,可以在未選任何變量的情況下用“Analyse | Line Plot”,彈出變量對話框(圖 17)。
是另一種表現(xiàn)數(shù)值型變量分布的圖形。比如,要畫身高分布的盒形圖,選定變量HEIGHT然后用“Analyse | Box Plot/Mosaic Plot”可以作出圖 12。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多