|
正確的數(shù)據(jù)格式是進行數(shù)據(jù)分析的基礎,最近SPSSAU后臺收到了很多小伙伴有關上傳數(shù)據(jù)格式的提問—— 正確的數(shù)據(jù)格式是怎樣的? 特定方法所需的數(shù)據(jù)格式是怎樣的? 如何上傳帶數(shù)據(jù)標簽的數(shù)據(jù)? 為什么數(shù)據(jù)上傳后與預期不一致無法正常顯示?——多數(shù)由于存在合并單元格 為什么上傳提示“無有效數(shù)據(jù)”?——多數(shù)由于數(shù)據(jù)未放在sheet1中 為解答這些普遍存在的困惑,本文將對數(shù)據(jù)分析常用方法中具有代表性的分析方法所需的數(shù)據(jù)格式進行系統(tǒng)梳理和詳細說明,幫助研究者更有效地開展數(shù)據(jù)分析工作。 下面本文將分模塊介紹以下30+常用方法數(shù)據(jù)格式,大家可以先收藏,等后續(xù)分析要用到哪種方法再來對照查看該方法的數(shù)據(jù)格式即可。
一、規(guī)范格式說明 ?1、原始數(shù)據(jù)格式 我們在進行數(shù)據(jù)分析時,最常見的數(shù)據(jù)格式是原始數(shù)據(jù)格式。 下圖是一份常見的原始數(shù)據(jù),它的特點是:一行代表一個樣本,一列代表一個變量。調(diào)查有多少樣本,就需要錄入多少行數(shù)據(jù);如果調(diào)查了500個樣本,那么就需要錄入500行數(shù)據(jù)。每一行代表每個樣本收集的所有數(shù)據(jù),每一列代表每個變量的所有數(shù)據(jù)。
絕大多數(shù)分析方法都是使用原始數(shù)據(jù)格式上傳分析的,例如SPSSAU中計量經(jīng)濟研究模塊、機器學習模塊、空間計量模塊中的絕大多數(shù)方法都是上傳原始數(shù)據(jù)格式即可。 ?2、加權(quán)數(shù)據(jù)格式
3、帶數(shù)據(jù)標簽的數(shù)據(jù)格式
進行數(shù)據(jù)分析時,單單掌握原始數(shù)據(jù)格式和加權(quán)數(shù)據(jù)格式還是不夠的,接下來從數(shù)據(jù)分析幾大模塊分別介紹一些典型的分析方法的數(shù)據(jù)格式。 二、差異性分析方法 數(shù)據(jù)分析常用的差異性分析方法有方差分析、t檢驗、卡方檢驗,數(shù)據(jù)格式如下說明。 ?1、方差分析、t檢驗 方差分析和t檢驗都是常見研究不同組別之間差異性的方法,比如不同學歷時收入的差異。那么數(shù)據(jù)中就一定要包括不同組別X(如學歷)和分析項Y(如收入)。
提示:方差分析(單因素方差)與t檢驗的區(qū)別在于t檢驗只能對比兩類數(shù)據(jù)之間的差異,而方差分析可對比多組數(shù)據(jù)之間的差異,但二者數(shù)據(jù)格式類似。 2、卡方檢驗 卡方檢驗用于研究X與Y之間的差異性,并且X與Y均為定類數(shù)據(jù)。使用SPSSAU中的卡方檢驗進行研究時,支持常規(guī)數(shù)據(jù)格式和加權(quán)數(shù)據(jù)格式兩種形式。常規(guī)數(shù)據(jù)格式適用于原始數(shù)據(jù),加權(quán)數(shù)據(jù)格式適用于只有匯總數(shù)據(jù)的情況。 加權(quán)數(shù)據(jù)格式說明如下:比如下圖中X有2種情況,Y有3個情況,一種有2*3=6種組合,數(shù)據(jù)信息只有6種組別的匯總項(即加權(quán)項),分別是40,10,20,30,20,50;相當于總共有170個樣本。整理為加權(quán)格式即只需要錄入6行即可。
除了卡方檢驗外,還有一些方法支持加權(quán)數(shù)據(jù)格式,如下:
3、配對t檢驗 配對數(shù)據(jù)的格式比較特殊,例如研究實驗組與對照組之間的差異,常見的配對數(shù)據(jù)研究方法比如配對樣本t檢驗、配對卡方、配對樣本W(wǎng)ilcoxon檢驗等。數(shù)據(jù)格式如下圖:
配對數(shù)據(jù)一般是在實驗時使用,而且配對數(shù)據(jù)的特點為:行數(shù)一定完全相等并且只有兩列。 如果研究數(shù)據(jù)的行數(shù)不相等,那可能不是配對數(shù)據(jù),如果還想對比差異,可能需要使用獨立t 檢驗。 4、重復測量方差 重復測量數(shù)據(jù)是指同一批樣本(病例)在不同的時間點測量了多次數(shù)據(jù),因此重復測量數(shù)據(jù)的特殊之處在于一定會有ID號(即樣本或者病例號),以及時間點數(shù)據(jù)。 如下圖:同一個ID會有多個時間點的數(shù)據(jù),比如下面有12個樣本(12個ID號),并且測量5個時間點。那么就一定會有12*5=60行數(shù)據(jù)。同一個ID號會重復5次,同一個時間點會重復12次。
三、影響關系分析方法 影響關系研究時,最常用的方法就是各類回歸分析。絕大多數(shù)回歸分析的數(shù)據(jù)格式都是原始數(shù)據(jù)格式(即一列代表一個指標,一行代表一個樣本),但也有些比較特殊的。 1、多元線性回歸 多元線性回歸分析用于研究自變量X對因變量Y的影響關系情況,通常自變量個數(shù)不止一個,數(shù)據(jù)格式如下:
2、條件logit回歸 條件logit回歸時,配對編號ID用于標識ID,而且是配對,因此一個ID會出現(xiàn)多次,比如1:1配對,那么1個ID就會出現(xiàn)2次(1:2配對時,1個ID就會出現(xiàn)3次);因變量Y一定只能包括數(shù)字0和1,類似數(shù)據(jù)格式如下圖:
3、面板模型
4、Cox回歸
四、問卷題數(shù)據(jù)格式 問卷的數(shù)據(jù)格式比較特殊,如果是通過問卷星/問卷網(wǎng)/騰訊問卷在網(wǎng)上收集的問卷,可以直接下載CSV格式或者SPSS格式,下載后直接上傳到SPSSAU系統(tǒng)進行分析。具體網(wǎng)上問卷下載以及上傳方法可以參考幫助手冊說明:SPSSAU上傳數(shù)據(jù) 下面對線下收集的紙質(zhì)問卷需要整理的數(shù)據(jù)格式進行說明,包括常見的單選、多選、量表題的數(shù)據(jù)格式。 1、單選題 單選題一列代表一個指標,一行代表一個樣本,數(shù)字代表被選項。例如下圖樣本1代表性別為選項2(女士),年齡為選項4(41-50歲)。
2、多選題 在問卷研究時會使用到多選題,多選題的數(shù)據(jù)格式比較特殊,一列代表一個多選題的選項。比如一個多選題有4個選項,那么其數(shù)據(jù)中就會有4列,分別代表4個選項。而且使用數(shù)字1表示選中,數(shù)字0表示沒有選中。如下圖:
3、量表題 量表題與單選題類似,如下圖:
五、綜合評價方法 綜合評價時通常包括兩大方面:權(quán)重計算和綜合評價。權(quán)重計算最常用方法有AHP層次分析法、熵值法;綜合評價常用方法有模糊綜合評價、灰色關聯(lián)法、TOPSIS法和熵權(quán)TOPSIS法。分別進行說明。 1、AHP層次分析法 AHP層次分析法的數(shù)據(jù)格式(即判斷矩陣)最為特殊,如下圖,研究人員可修改指標項名稱,以及白色單元格內(nèi)的數(shù)字即可。判斷矩陣是 ' 下三角 ’ 完全對稱矩陣,因此 ' 白色 ’ 底紋處的信息變化時, ' 藍色 ’ 背景的信息會自動變化。
2、熵值法 熵值法用于指標的權(quán)重情況。1個指標占用1列數(shù)據(jù)。下圖中樣本編號只是個編號無實際意義,用于標識下樣本的ID號,一般是比如年份一類的數(shù)據(jù)信息,分析時并不需要使用。
如果是面板數(shù)據(jù)希望進行熵值法,其數(shù)據(jù)格式如下圖所示,比如有100家公司分別5年的指標數(shù)據(jù),那么一共就有100*5=500行數(shù)據(jù)。數(shù)據(jù)格式上需要如此,但在分析時只需要放入'指標列’數(shù)據(jù)即可。
3、模糊綜合評價
4、灰色關聯(lián)法 灰色關聯(lián)法研究數(shù)據(jù)之間的關聯(lián)程度,即特征序列與母序列的關聯(lián)性情況。母序列單獨使用一列標識,每個特征序列都使用1列標識。下圖中樣本編號只是個編號無實際意義,用于標識下樣本的ID號,一般是比如年份一類的數(shù)據(jù)信息,分析時并不需要使用。
5、TOPSIS法&熵權(quán)TOPSIS法 TOPSIS法和熵權(quán)TOPSIS法用于研究指標與理想解的接近度情況。1個指標占用1列數(shù)據(jù),1個研究對象為1行,但研究對象在分析時并不需要使用,SPSSAU默認會從上到下依次編號。
六、一致性檢驗方法 一致性檢驗用于判斷不同的模型或者分析方法在產(chǎn)出結(jié)果上是否具有一致性、模型的結(jié)果與實際結(jié)果是否具有一致性等。常用方法有Kappa一致性檢驗、ICC組內(nèi)相關系數(shù)、Bland-Altman圖等。 1、Kappa一致性檢驗
2、ICC組內(nèi)相關系數(shù) ICC組內(nèi)相關系數(shù)通??捎糜谥販y信度分析等,比如有3個醫(yī)生對于5個病人的智商打分一致性。那么需要有3個醫(yī)生的數(shù)據(jù),1個醫(yī)生為1列即可,其格式類似于配對數(shù)據(jù),如下圖所示:
3、Bland-Altman圖 例如當前有醫(yī)生使用兩種方法分別做一項實驗,現(xiàn)需要對第1種和第2種方法共兩種方法的測量數(shù)據(jù)進行一致性檢驗;如果有分組數(shù)據(jù),例如研究不同性別,此時只需要把性別group放入對應框中即可,數(shù)據(jù)格式如下:
七、現(xiàn)狀政策類方法 現(xiàn)狀政策類分析主要用于分析政策實施的效果和影響,旨在評估特定政策或干預措施對目標群體或現(xiàn)象的實際作用,常用方法如DID雙重差分法、傾向得分匹配法等。 1、DID雙重差分法 如果是進行雙重差分DID分析,那么Treated地區(qū)(0代表A類地區(qū)即控制組,1代表B類地區(qū)即實驗組)和time政策實施前后(0代表實施前, 1代表實施后))數(shù)據(jù)只能包括數(shù)字0或者1,并且有對應的被解釋變量Y,至于控制變量可有可無,由實際研究情況而定。
如果是多期DID數(shù)據(jù),treated只能為數(shù)字0或1,數(shù)字0標識'控制組’,數(shù)字1標識'實驗組’;time只能為數(shù)字0或1,數(shù)字0標識'before’(實驗前),數(shù)字1標識'after(實驗后)。Treate*time即為交互項,可使用SPSSAU數(shù)據(jù)處理->生成變量->乘積得到,格式類似如下圖:
2、傾向得分匹配
3、Dagum基尼系數(shù)
4、泰爾指數(shù)
八、文本分析 文本分析是針對文本數(shù)據(jù)進行研究和分析使用,SPSSAU文本分析包括詞云分析、文本情感分析、文本聚類分析、社會網(wǎng)絡關系分析、LDA主題分析等。 如果是通過excel格式(包括csv/xls/xlsx格式)時,只需要1列數(shù)據(jù),將文本全部放置于A列中,A列不需要有標題信息。每行(即每個單元格)存在1個分析文本。類似如下圖所示:
如果是txt文檔或者粘貼文本進行上傳,那么系統(tǒng)會自動過濾掉空行數(shù)據(jù),并且以回車鍵作為每行(即每個分析文本)標志。 以上即為今天常用方法數(shù)據(jù)格式的全部內(nèi)容,更多特殊分析方法的數(shù)據(jù)格式,可以在SPSSAU常見研究方法數(shù)據(jù)格式說明的幫助手冊進行查詢(幫助手冊頁面按 Ctrl+F 查詢):https:///helps/otherdocuments/methodsdataformat.html 更多畢業(yè)論文相關資料直通車: 畢業(yè)論文能不能引用SPSSAU?如何正確引用?分析結(jié)果是否可靠? 本科生畢業(yè)論文答辯 | 如何應對導師有關數(shù)據(jù)研究方面的提問? 回歸分析有多少種?畢業(yè)論文回歸模型該怎么選?如何操作和分析? 畢業(yè)論文 | 那些你找不到的常見標準的參考文獻,SPSSAU幫你整理好了,速取 畢業(yè)論文 | 13種權(quán)重計算相關方法匯總 畢業(yè)論文 | 數(shù)據(jù)分析方法分類匯總 畢業(yè)論文 | 問卷調(diào)查數(shù)據(jù)常見分析方法 畢業(yè)論文 | 三線表規(guī)范格式調(diào)整 |
|
|