|
在執(zhí)行地統(tǒng)計分析之前,瀏覽、熟悉、檢查自己的數(shù)據(jù)是至關(guān)重要的。繪制和檢查數(shù)據(jù)是地統(tǒng)計分析過程中的必要階段,我們可以從這些工作中獲得一些先驗知識,指導(dǎo)后續(xù)的工作。
Stage 1 繪制數(shù)據(jù)
通過ArcMap的圖層渲染方案繪制數(shù)據(jù),我們可以獲得對數(shù)據(jù)的第一印象。
例如,使用單一符號渲染了解采樣點的疏密分布,通過分類渲染了解采樣點高值低值的分布,等等。

Stage 2 檢查數(shù)據(jù)
繪制數(shù)據(jù)后,使用 探索性空間數(shù)據(jù)分析 (Exploratory Spatial Data Analysis,ESDA) 工具來執(zhí)行數(shù)據(jù)探索的第二階段。這些工具提供了一種比繪制數(shù)據(jù)更加量化的方式來檢查數(shù)據(jù),有助于我們更深入地了解正在研究的現(xiàn)象,有助于我們對插值模型的構(gòu)建方式做出更加正確的決策。
ESDA 工具包括:

Ⅰ 是否服從正態(tài)分布?
Histogram/直方圖

直方圖用于顯示感興趣數(shù)據(jù)集的頻率分布并計算匯總統(tǒng)計數(shù)據(jù),如何解讀圖形和統(tǒng)計信息呢?
- 如果數(shù)據(jù)服從正態(tài)分布,則平均值(mean)與中值(median)類似,偏度(skewness)應(yīng)接近零,并且峰度(kurtosis)應(yīng)接近 3。
- 平均值即為數(shù)據(jù)的算數(shù)平均值。平均值提供分布中心的測量值。 中位數(shù)與累積比例 0.5 對應(yīng)。如果數(shù)據(jù)以升序排列,50%的值位于中間值之下,50% 的值位于中間值之上。中間值提供了分布中心的另一個測量值。 第一和第三分位數(shù)分別與累積比例 0.25 和 0.75 對應(yīng)。如果數(shù)據(jù)以升序排列,則 25% 的值位于第一分位數(shù)之下,25% 的值位于第三分位數(shù)之上。第一和第三分位數(shù)是分位數(shù)的特殊情況。
- 偏度系數(shù)是分布對稱度的測量值。對于對稱的分布,偏度系數(shù)為零。如果分布具有較長的大值右尾部,則為正偏分布;如果分布具有較長的小值左尾部,則為負偏分布。對于正偏分布,平均值大于中間值;對負偏分布,平均值小于中間值。
- 峰度取決于分布尾部的大小,提供分布產(chǎn)生異常值可能性的衡量指標(biāo)。正態(tài)分布的峰度等于三。具有較厚尾部的分布被稱為高峰態(tài),其峰度大于三。具有較薄尾部的分布被稱為低峰態(tài),其峰度值小于三。
- 數(shù)據(jù)的方差,通常對過高值或過低值很敏感。標(biāo)準(zhǔn)差為方差的平方根,它描述了數(shù)據(jù)在平均值周圍的分散程度。方差和標(biāo)準(zhǔn)差越小,測量值聚類相對于平均值就越緊密。
Normal QQPlots/正態(tài)QQ圖

正態(tài) QQ 圖上的點可指示數(shù)據(jù)集的單變量分布的正態(tài)性。如果數(shù)據(jù)是正態(tài)分布的,點將落在 45 度參考線上。如果數(shù)據(jù)不是正態(tài)分布的,點將會偏離參考線。
General QQPlots/普通QQ圖
普通 QQ 圖用于評估兩個數(shù)據(jù)集的分布的相似程度。這些圖的創(chuàng)建和所述的正態(tài) QQ 圖的過程類似,不同之處在于第二個數(shù)據(jù)集不一定要服從正態(tài)分布,使用任何數(shù)據(jù)集均可。如果兩個數(shù)據(jù)集具有相同的分布,普通 QQ 圖中的點將落在 45 度直線上。
### 有關(guān)數(shù)據(jù)變換
Geostatistical Analyst 中的一些插值方法要求數(shù)據(jù)呈正態(tài)分布。如果數(shù)據(jù)偏斜(分布不均衡),則可能需要將數(shù)據(jù)變換為正態(tài)分布。
Box-Cox 變換(又稱冪變換)
如果在某一部分研究區(qū)域中計數(shù)值很小,這一區(qū)域的變異性就小于計數(shù)值更大的另一區(qū)域的變異性。在這種情況下,平方根變換將有助于使整個研究區(qū)域內(nèi)的方差更加恒定,通常還會使數(shù)據(jù)呈正態(tài)分布。平方根變換是 Box-Cox 變換中 λ = ? 時的特例。
對數(shù)變換
對數(shù)變換實際上是 Box-Cox 變換中 λ = 0 時的特例。對數(shù)變換通常用于呈正偏分布的數(shù)據(jù)。其中有些值非常大,如果這些大值位于研究區(qū)域中,對數(shù)變換有助于使方差更加恒定和歸一化數(shù)據(jù)。
例如數(shù)據(jù)如下分布:

變換前后對比:

反正弦變換
反正弦變換可用于表示比例或百分比的數(shù)據(jù)。通常在數(shù)據(jù)為比例形式時,方差在接近 0 和 1 時最小,接近 0.5 時最大。反正弦變換有助于使整個研究區(qū)域內(nèi)的方差更加恒定,通常還會使數(shù)據(jù)呈正態(tài)分布。
Ⅱ 是否存在異常值?
全局異常值是相對于數(shù)據(jù)集中的所有值而言具有非常高值或非常低值的已測量采樣點。
局部異常值是一個已測量采樣點,其值處于整個數(shù)據(jù)集的正常值域范圍內(nèi),但查看周圍點時,其值則顯得異常高或異常低。
如果異常值是現(xiàn)象中的真實異常情況,那么這可能是研究和理解現(xiàn)象的最重要的位置點。如果異常值是由數(shù)據(jù)輸入過程中的錯誤所導(dǎo)致的,那么在創(chuàng)建表面之前應(yīng)該對其進行校正或移除。
Histogram/直方圖
如果在直方圖的最左側(cè)(極小值)或最右側(cè)(極大值)能夠看到一個孤立的條,可能表明這個條所表示的點是異常值。這種條越孤立于直方圖的主條組,點是異常值的概率就越大。
Voronoi 圖
Voronoi 圖是由采樣點形成的泰森多邊形地圖。

在查看 Voronoi 圖時,檢查附近是否有面符號色彩差別很大的值。
例如,下圖中紅色面明顯異于周圍值。

Semivariogram/Covariance Cloud / 半變異函數(shù)/協(xié)方差云
半變異函數(shù)/協(xié)方差云工具可以用來檢查數(shù)據(jù)集中空間自相關(guān)的局部特征以及查找局部異常值。

云中的每個點表示數(shù)據(jù)集中的一對點,x 軸表示各位置間的距離,y 軸表示這些位置上的值的差值平方。半變異函數(shù)中的每個點都表示一個位置對,而不是地圖上的單個位置。因此云中點的數(shù)量會隨著數(shù)據(jù)集中點的數(shù)量的增加而快速增加。如果數(shù)據(jù)集中存在 n 個點,則半變異函數(shù)/協(xié)方差云中將顯示 n*(n-1)/2 個點。因此,不建議使用點數(shù)超過幾千個的數(shù)據(jù)集。如果數(shù)據(jù)集包含幾千個點,那么應(yīng)使用子集要素工具來隨機選擇點,然后在半變異函數(shù)/協(xié)方差云中使用子集。
“半變異函數(shù)/協(xié)方差云”工具對檢測局部異常值特別有用。它們顯示為互相接近的點(x 軸上的低值),但在 y 軸上卻是高值,表明組成點對的兩個點的值有很大差異。這與所期望的結(jié)果正相反,即互相接近的點有相似的值。
Ⅲ 是否存在趨勢?
Trend Analyst / 趨勢分析
“趨勢分析”工具提供數(shù)據(jù)的三維透視圖。采樣點的位置繪制在 x,y 平面上,z值表示感興趣的屬性值。趨勢分析工具將散點圖投影到 x,z 平面和 y,z 平面上,通過多項式曲線對每個投影進行了擬合。

瀏覽圖形垂直墻面上的粗線。這些線表示趨勢。一條趨勢線沿 x 軸(通常表示縱向趨勢),另一條顯示沿 y 軸的趨勢(通常表示緯度趨勢)。如果經(jīng)過投影點的曲線是平的,則不存在趨勢;如果多項式曲線具有確切的模式(如下圖的藍線和綠線),這表明數(shù)據(jù)中存在某種趨勢。
另外,檢查趨勢時更改多項式的階非常有用;檢查不同于標(biāo)準(zhǔn) N–S 和 E–W 方向的趨勢非常有幫助,可以通過旋轉(zhuǎn)趨勢軸檢查數(shù)據(jù)。
Ⅳ 是否空間自相關(guān)?
我們可通過檢查不同的位置的采樣數(shù)據(jù)對來探索數(shù)據(jù)的空間自相關(guān),仍然使用前面提到過的ESDA工具半變異函數(shù)云。
Semivariogram/Covariance Cloud / 半變異函數(shù)/協(xié)方差云
如果存在空間相關(guān)性,則距離較近的點對(在 x 軸的最左側(cè))應(yīng)具有較小的差值(在 y 軸上的值較?。?。隨著各個點之間的距離越來越大(點在 x 軸上向右移動),通常,差值的平方也應(yīng)隨之增大(在 y 軸上向上移動)。通常,平方差超過某個距離后就會保持不變。超過這個距離的位置對被視為不相關(guān)。
如果半變異函數(shù)中的點對構(gòu)成一條水平的直線,那么數(shù)據(jù)中可能不存在空間自相關(guān),因而對數(shù)據(jù)進行插值也就失去了意義。
地統(tǒng)計方法的基本假設(shè)是,對于任意兩個彼此間的距離和方向都相近的位置,其差值的平方也應(yīng)相近。這種關(guān)系稱為平穩(wěn)性。空間自相關(guān)可能僅依賴于兩個位置之間的距離,這被稱為各向同性。如果事物在某些方向上比在其他方向上更相似,也就是半變異函數(shù)和協(xié)方差中都存在這種方向性影響,它被稱為各向異性。

交叉協(xié)方差云
“交叉協(xié)方差云”工具可用于研究兩個數(shù)據(jù)集之間的交叉相關(guān)。交叉協(xié)方差云顯示了兩個數(shù)據(jù)集間的所有位置對的經(jīng)驗交叉協(xié)方差,并且將其作為兩位置間距離的函數(shù)對其進行繪制,與上面的工具類似,該工具也提供具有搜索方向功能的協(xié)方差表面。

對數(shù)據(jù)有了第一印象,并且用 ESDA 工具對數(shù)據(jù)做了檢查,我們已經(jīng)對待研究的數(shù)據(jù)有了一些先驗知識,那么下面就可以選擇插值方法來創(chuàng)建表面了,下一篇繼續(xù)。
|