零基礎(chǔ)學(xué)習(xí)SPSS軟件

東西二王 2021-07-17

展開全文

作者：鄭鏗城，經(jīng)濟學(xué)博士，數(shù)學(xué)建模指導(dǎo)教練

開頭，和大家講個笑話

spss軟件在數(shù)據(jù)處理分析中有較廣的運用，適合各類學(xué)習(xí)群體，就算學(xué)習(xí)者不會編程，也可以通過spss軟件實現(xiàn)數(shù)據(jù)的處理和模型的建立。以下歸納了spss軟件中一些比較常用的功能和操作步驟，全是干貨哦！

1.熟悉變量窗口和數(shù)據(jù)窗口

數(shù)據(jù)窗口是我們打開spss一開始時，其頁面所展現(xiàn)的窗口，主要用于輸入相關(guān)的數(shù)據(jù)，在其頁面中有相關(guān)的操作欄項目，可以進行對數(shù)據(jù)的具體分析。如下：

對于變量窗口，是對數(shù)據(jù)的變量做相應(yīng)的改動調(diào)整的窗口，包括對數(shù)據(jù)的名稱、類型、寬度、小數(shù)位、標(biāo)簽、度量標(biāo)準等等。

在spss左下方有變量窗口和數(shù)據(jù)窗口的轉(zhuǎn)換按鈕，即可選擇不同的窗口進行操作：

2.學(xué)會數(shù)據(jù)輸入

數(shù)據(jù)輸入有兩種，一種是手動輸入數(shù)據(jù)，一種是通過已經(jīng)有的excel數(shù)據(jù)，對數(shù)據(jù)進行鍵入。手動輸入比較簡單，就是在數(shù)據(jù)窗口把自己想要用的數(shù)據(jù)打入即可，然后點擊左下方選擇變量窗口，對數(shù)據(jù)的屬性進行相應(yīng)的調(diào)整。對于使用已經(jīng)有的數(shù)據(jù)，并把數(shù)據(jù)鍵入，要注意以下問題：

首先數(shù)據(jù)是以列來排序，即每一列代表一種數(shù)據(jù)，如果你的數(shù)據(jù)是每一行代表一種，那么你需要對你的數(shù)據(jù)進行轉(zhuǎn)置處理。

比如我們鍵入以下數(shù)據(jù)：

那么在spss窗口中，點擊“文件”--“打開”--“數(shù)據(jù)”

選擇想要鍵入的數(shù)據(jù)，會彈出這樣一個頁面，注意，要選擇打鉤。

初試數(shù)據(jù)鍵入以后，效果是這樣的:

我們可以點擊到變量窗口，進行相關(guān)的調(diào)整，使數(shù)據(jù)看起來更加的好看一點，比如統(tǒng)一小數(shù)位，調(diào)整數(shù)據(jù)所在行的寬度等，結(jié)果如下：

3.數(shù)據(jù)管理

這個就很簡單了，一些相關(guān)的參考書中，主要講了把數(shù)據(jù)進行縱向和橫向的合并，對數(shù)據(jù)進行拆分，對數(shù)據(jù)進行匯總，對數(shù)據(jù)進行加權(quán)，對數(shù)據(jù)進行查找。這些都很簡單，比較有意思的應(yīng)該是數(shù)據(jù)的匯總和加權(quán)，數(shù)據(jù)匯總可以通過數(shù)據(jù)的均值、中值、總和、標(biāo)準差等標(biāo)準進行匯總，數(shù)據(jù)的加權(quán)通過“數(shù)據(jù)”--“加權(quán)個案”實現(xiàn)。

4.統(tǒng)計描述分析

用spss進行統(tǒng)計描述分析，主要有三個板塊，一個是頻數(shù)分布描述；一個是描述性統(tǒng)計分析；一個是探索性分析。

首先講一下頻數(shù)分布：頻數(shù)分布就是用來對數(shù)據(jù)的集中趨勢和離散程度進行描述，通過頻數(shù)分布圖、條圖和直方圖等，來更加形象的說明數(shù)據(jù)的分布特征。步驟是：“分析”--“描述統(tǒng)計”--“頻率”，通過相應(yīng)程序的操作，假設(shè)輸入以下數(shù)據(jù)：

通過頻數(shù)分布描述的spss步驟運行，同時進行相關(guān)的設(shè)置：

得到的結(jié)果如下：

上圖反映的是這些輸入數(shù)據(jù)的均值、中值、眾數(shù)等特性。

上圖反映的是頻率的一個情況，可以清楚的看出每個型號都頻率。

最后也得出了上圖這個直方圖。

然后我們來說一下描述性統(tǒng)計分布，命令為：“分析”--“描述統(tǒng)計”--“描述”。這個主要也是用來計算描述集中趨勢和離散趨勢的各種統(tǒng)計量。（此外還有一個重要的功能是進行標(biāo)準化變換即Z變換），這個和上面那個頻數(shù)分布其實大同小異吧，都是用來體系數(shù)字的特征的。

舉個栗子，我鍵入以下數(shù)據(jù)，進行描述性分析：

通過的運行，最終得出的結(jié)果如下圖：

（確實，也就是各類統(tǒng)計量，像極大值極小值標(biāo)準差等）

最后，該部分的最后一個版塊，即探索性分析，這個的話是建立在對數(shù)據(jù)有一定的了解的基礎(chǔ)上，對數(shù)據(jù)進行更加深入的分析（你可以理解為這種方法做出的圖看起來更加牛逼了）

舉個栗子，我還是用一些數(shù)據(jù)進行操作：

spss命令為：“分析”--“描述性統(tǒng)計”--“探索”。操作如下：

最終得到的結(jié)果：

上面這個當(dāng)然就是簡單的數(shù)據(jù)描述。

還有一個以“南北”分開進行的描述。

還可以得到一個這樣的圖：

還可以操作出莖葉圖等圖形。

在前面的操作中，我們從輸出窗口可以看到代碼，其實這就是spss的運行代碼，系統(tǒng)自動生成的，如果你是用spss進行建模寫作的話，這些代碼就可以復(fù)制到你的論文的附錄部分。如：

5.均值檢驗

均值檢驗也叫means檢驗，很好理解，就是求數(shù)值均值的過程，在spss中的命令為“分析”--“比較均值”--“均值”，這個比較easy，也好理解，就不做例子。

這個比較均值窗口中包括了像單樣本T檢驗，獨立樣本T檢驗，配對樣本T檢驗和單因素分析，這些內(nèi)容其實也是大同小異，可以輸入數(shù)據(jù)嘗試輸出結(jié)果，總結(jié)一點：在輸出結(jié)果中要看到sig值，也就是我們說的P值，這個值如果是小于0.05的（顯著性一般為0.05），那么就表明兩個數(shù)據(jù)個體是有差異的。你也可以從概率的角度來理解（p值如果小于顯著性水平，則應(yīng)該拒絕原假設(shè)，認為樣本之間存在差異）。當(dāng)然我們也可以對這些概率做一個區(qū)分：

單樣本T檢驗的目的是利用某總體的樣本數(shù)據(jù)，推斷該總體的均值是否與指定的檢驗值存在顯著性差異；

獨立樣本T檢驗的目的是利用兩個總體獨立的樣本，推斷兩個總體的均值是否有差異。

匹配樣本T檢驗的目的是用兩個不同的總體的配對樣本，來推斷兩個總體的均值是否存在差異。

其實吧，都是在分析兩個東西的差異性。怎么從他輸出的結(jié)果來看呢，其實就抓住P值來分析即可。

6.方差分析

在比較兩組資料的均數(shù)是否相等的時候，可以采用的是T檢驗，當(dāng)組數(shù)大于等于3的時候，就應(yīng)該使用方差分析。方差分析的原理不再贅述。在進行方差分析中，要學(xué)會通過LSD方法看出組數(shù)之間的差異。

具體命令：“分析”--“比較均值”--“單因素ANOVA”

在設(shè)置對話框中選擇LSD方法，從輸出結(jié)果來進行分析。

舉個栗子：有三組企業(yè)和對應(yīng)的壽命：

利用單因素ANOVA方法，選取LSD進行操作

得到的結(jié)果如下：

由上表可知顯著性的大小為0.05，那么如果兩個組別的顯著性大小比0.05大，則接受原假設(shè)，認為兩個組別是無差異的，那么通過上表可以看出1組和3組是無差別的，1組合2組是有差別的，2組合3組也是有差別的。

7.利用spss進行繪圖

繪圖操作是一項重要技能，利用spss進行繪圖，操作簡單快捷，只需要對數(shù)據(jù)進行選擇，然后點擊自己想要繪制的圖形格式即可。

當(dāng)然繪圖的時候你數(shù)據(jù)窗口中要有數(shù)據(jù)，具體可以自己實驗一下。

假設(shè)我們要繪制一個時間為橫坐標(biāo)，GDP為縱坐標(biāo)的二維直方圖，即可進行操作得到如下結(jié)果：

當(dāng)然在第二個繪圖指令中，還可以進行這樣的操作：

你選擇幾個變量，就會有相應(yīng)的幾維圖形。（最多構(gòu)造三維哦）

在繪圖中，點擊“舊對話框”會顯示下面內(nèi)容：

同理根據(jù)自己的需求進行圖形的繪制。

8.缺失值分析

理解這個很簡單，就是我們在數(shù)據(jù)收集的過程中，可能存在數(shù)據(jù)的缺失，那么數(shù)據(jù)的缺失就會對我們的處理結(jié)果造成一定的影響。利用spss軟件對缺失值進行處理，使我們分析的相關(guān)結(jié)果更加合理。

對缺失值的處理方法有很多，包括什么直接刪除法、或者用什么數(shù)據(jù)來進行替代，也可以用EM或者回歸的方法，從未缺失的數(shù)據(jù)分布情況中推算出缺失的數(shù)據(jù)的估計值?！胺治觥?-“缺失值分析”

首先我對之前的那份GDP數(shù)據(jù)進行故意挖空，形成缺失現(xiàn)象，便于進行分析：

主要挖了三處空，然后利用spss缺失值分析中的EM進行數(shù)據(jù)的缺失處理，得到下圖：

這樣就完成了缺失值的處理，當(dāng)然也可以用回歸的方法。

9.簡單線性回歸和相關(guān)性分析

先講相關(guān)性，相關(guān)性用r表示，r值為正則正相關(guān)，反之則為負相關(guān)。r的絕對值越大，則相關(guān)性越強。可以用spearman等級相關(guān)系數(shù)來看相關(guān)程度。

舉個栗子：利用下面數(shù)據(jù)做相關(guān)性分析并構(gòu)造回歸模型。

當(dāng)然kendall和pearson相關(guān)系數(shù)也是可以表示相關(guān)性的，都差不多。

通過這個pearson相關(guān)系數(shù)（等于0.971）可以看出兩個變量的相關(guān)性很強！

得到的spearman系數(shù)和kendall系數(shù)也是接近于1的，表明兩個變量之間確實存在的正的相關(guān)性。再利用回歸方法確定出模型：

如下圖所示進行相關(guān)設(shè)置：

進行操作，得到的結(jié)果如下：

通過上表，則我們的回歸模型為：（設(shè)患病率為Y，碘含量為X）

Y=17.484 4.459X。

10.Logistic回歸模型

如果要分析的數(shù)據(jù)是分類變量，那么可以采取logistic回歸模型對數(shù)據(jù)進行分析，首先講一下二項分類的logistic回歸，該模型的方程為：

P=1/(1 EXP(-b0 b1x1 b2x2 ... bnxn))

通過spss確定出上述方程的系數(shù)，即可確定出該模型。

舉個栗子：

查看變量窗口：

y表示康復(fù)情況，y=0則是沒有康復(fù)，y=1則是康復(fù)，x1表示病情的嚴重程度，x1=0則表示病情不嚴重，x1=1則表示病情嚴重。x2表示療法，x2=0則表示新療法，x2=1則表示舊療法。

并進行如下設(shè)置：

結(jié)果為：

通過上表，可以得到二元logistic回歸模型為：

P(Y=1)=1/(1 EXP(-0.928-0.909X1-1.669X2))

即療法的新舊對于康復(fù)情況是有影響的，當(dāng)療法比較就新的時候，康復(fù)的概率會更高一點。

當(dāng)然logistic回歸除了有二項的以外，還有有序的logistic回歸，條件logistic回歸等。方法類似。

方法總結(jié)，對于該部分的logistic回歸方程，首先你要確定你要使用哪個類型的logistic回歸模型，然后去尋找該模型的一個表達式，再通過spss軟件，求出系數(shù)，把系數(shù)代入表達式，即可構(gòu)造出模型。比如上述中確定了二項logistic回歸的表達式：

那么通過spss確定系數(shù)以后，代入表達式即可得出模型。

11.聚類方法

物以類聚，人以群分。對數(shù)據(jù)或者樣本進行聚類，了解對象的類別，具有一定的探索性。聚類的原理是什么呢，很簡單，就是通過距離和相似系數(shù)進行聚類，其原理不再說明。

常用的有k均值聚類和系統(tǒng)聚類。

舉個栗子：

對以上數(shù)據(jù)進行聚類：“分析”--“分類”-“k-均值聚類”

同時確定分類數(shù)：

由于設(shè)置的是聚類成兩類，所以結(jié)果顯示如下：

可以看出不同案例號對應(yīng)的類別，當(dāng)然你也可以嘗試設(shè)置成4類等，看看結(jié)果會發(fā)生什么變化。（如下）

也可以進行系統(tǒng)聚類：比如對這些數(shù)據(jù)進行系統(tǒng)聚類：

得到的一個垂直冰柱圖和樹狀圖：

12.主成分分析、因子分析

這里用的是一個降維的思想，從一堆變量中，選取出一些主要變量進行分析。主要還是通過特征根的大小來衡量。

主成分分析和因子分析到底有什么異同？大家可以先自行了解一下，提示：主成分分析實質(zhì)是線性變換，無假設(shè)檢驗，因子分析是統(tǒng)計模型，有些因子模型可以做假設(shè)檢驗，其次主成分分析在spss操作中不需要旋轉(zhuǎn)，而因子分析則需要旋轉(zhuǎn)。

舉一個因子分析例子，并通過構(gòu)造碎石圖、做球形檢驗和旋轉(zhuǎn)來看看因子分析的具體操作：

其x1到x9分別表示：

選擇“分析”--“降維”--“因子分析”：得到的結(jié)果如下：

碎石圖怎么看？看斜率，前3的成分的斜率比較陡峭，故可以用前三個元素來代表所有元素。

從球形檢驗這個表，可以看出KMO值大于最低標(biāo)準0.5，所以適合做因子分析，同時P值小于0.001，適合做因子分析。

也可以看到?jīng)]有旋轉(zhuǎn)之前的成分矩陣和旋轉(zhuǎn)以后的成分矩陣：

那么我們就可以去說明前3個因子中，他們各自的什么含量成分比較大，同時進行相應(yīng)的說明。

13.信度分析

這個方法是用在調(diào)查問卷中的，信度就是反應(yīng)測量結(jié)果的一致性和穩(wěn)定性。在spss中的操作為“分析”--“度量”--“可靠性分析”

做一個例子分析：

對上表的結(jié)果做一個信度分析：

得到信度結(jié)果：

cronbach“阿發(fā)”的系數(shù)為0.811，故該試卷的信度較好。從下面這個表，可以看出：

有一個crobanch的系數(shù)值大于0.811，這個就表明：如果在試卷中刪除名解的話，會提高試卷的信度值。

最后再講一個生存分析和Cox模型：

生存分析是把生存時間和生存結(jié)果綜合起來，對數(shù)據(jù)進行分析的一種統(tǒng)計方法。舉個栗子就懂了：（數(shù)據(jù)如下）

通過“分析”--“生存函數(shù)”--“壽命表”得到：

Cox模型：可以建立生存時間和危險因素之間的依存關(guān)系的模型。

命令：“分析”--“生存函數(shù)”--“COX回歸”

學(xué)完SPSS，對數(shù)據(jù)量化分析有了進一步的了解，SPSS不僅可以用在建模，也可以用在論文研究等領(lǐng)域，覺得ok就分享給身邊的同學(xué)吧！

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

零基礎(chǔ)學(xué)習(xí)SPSS軟件