|
固體地球科學(sEg)既是數(shù)據(jù)驅動的又是模型驅動的領域。地球科學家面臨的最大挑戰(zhàn)之一是如何盡可能多地提取有用的信息,以及如何從數(shù)據(jù)和模擬以及兩者之間的相互作用中獲得新的見解。機器學習(ML) 將在這項工作中發(fā)揮關鍵作用。ML 提供了一套工具來提取知識并從數(shù)據(jù)中得出推論,其算法旨在從經(jīng)驗中學習并識別數(shù)據(jù)中的復雜模式和關系。 ML算法的兩個主要類別是有監(jiān)督學習和無監(jiān)督學習。在有監(jiān)督學習中,ML算法“學習”識別模式使用已知示例進行一般預測,無監(jiān)督學習方法學習數(shù)據(jù)集中的模式或結構,而不依賴于標簽特征。無監(jiān)督學習通常用于數(shù)據(jù)集中的探索性數(shù)據(jù)分析或可視化,其中沒有或很少有標簽可用,涉及降維和聚類兩種途徑。用于監(jiān)督和無監(jiān)督學習的許多不同算法各自具有相對的優(yōu)點和缺點。算法選擇取決于許多因素。雖然在高度精確的圖像識別系統(tǒng)中可能不需要可解釋性,但是當目標是獲得對系統(tǒng)的物理洞察時,可解釋性是至關重要的。 1. 固體地球科學中的機器學習 幾十年來,科學家們一直在將技術應用于固體地球科學中的問題。在研究中,研究人員已經(jīng)利用了ML處理各種各樣的任務,數(shù)據(jù)驅動的發(fā)現(xiàn),即從數(shù)據(jù)中提取新信息的能力,是ML用于科學應用的最令人興奮的能力 之一。ML 為科學家們提供了一套工具,用于發(fā)現(xiàn)科學數(shù)據(jù)集中不易發(fā)現(xiàn) 的新模式、結構和關系。建模和反演也可以提供自動預測的能力,而ML 用于自動化,建?;蚍囱菘赡軙a(chǎn)生新的見解和基本發(fā)現(xiàn)。 2. 監(jiān)督學習的方法和趨勢 監(jiān)督學習是一組功能強大的工具,已經(jīng)成功地應用于自動化、建模、 反演和發(fā)現(xiàn)等主題的應用中。研究者用ML算法組織了最近在固體地球科學中的監(jiān)督學習應用,大致按照模型復雜度排序。 2.1 邏輯回歸 目前固體地球科學在邏輯回歸的相關研究有: (1)區(qū)分地震信號和爆炸信號。 (2)地震注入井和抗震井區(qū)分。 (3)誘發(fā)地震風險較高的相關地質因素識別。 2.2 圖形模型 地球科學中的許多數(shù)據(jù)集具有時間分量,例如地震儀記錄的地面運動時間序列數(shù)據(jù)。盡管大多數(shù) ML算法可以適用于時態(tài)數(shù)據(jù),但某些方法(如 圖形模型)可以直接模擬時間依賴性,例如隱馬爾可夫模型(HMM)和動態(tài)貝葉斯網(wǎng)絡(DBN)。隱馬爾可夫模型(HMM)已應用于高山滑坡、 火山信號、區(qū)域地震和誘發(fā)地震的探測和分類。動態(tài)貝葉斯網(wǎng)絡(DBN) 是另一種推廣 HMM 的圖形模型,也被用于地震檢測。 2.3 支持向量機 支持向量機(SVM)是一種二元分類算法,用于識別來自兩個類的訓練數(shù)據(jù)之間的最佳邊界。運用支持向量機的案例有: (1)求解溫度場,研究地幔對流過程 (2)預測地幔流動停滯的程度 (3)地震事件中地震強度的快速估計 (4)區(qū)分地震和爆炸以及連續(xù)地震數(shù)據(jù)中的地震檢測 2.4 集成學習 決策樹是一種學習分段常量函數(shù)的分類和回歸的監(jiān)督方法,相當于一系列可以由二叉樹結構可視化的if-then規(guī)則。隨機森林(RF)是一種集成 學習算法,可以通過在隨機決策樹的集合(“森林”)中以投票來學習復雜的關系。在這方面的案例有: (1)地質測繪 (2)改進使用遙感地球物理數(shù)據(jù)反演的三維地質模型 (3)識別應力降和峰值地面加速度之間的預測關系 (4)學習非線性、非參數(shù)地面運動預測方程(GMPES) (5)描述地下裂縫模式的拓撲結構 2.5 神經(jīng)網(wǎng)絡 人工神經(jīng)網(wǎng)絡(ANNS)是一種松散地模擬大腦中生物神經(jīng)元相互連接網(wǎng)絡的算法。人工神經(jīng)網(wǎng)絡模型表示為一組由權重連接的節(jié)點(神經(jīng)元)。每個節(jié)點從上一層獲取加權線性組合的值,并應用非線性函數(shù)生成傳遞到下一層的單個值?!皽\”網(wǎng)絡包含一個輸入層(數(shù)據(jù))、一個隱藏層和一個輸 出層(預測響應)。ANNS 可以用于回歸和分類。相關案例包括: (1)縱波傳播時間數(shù)據(jù)中估計一維縱波速度結構和模型不確定性 (2)根據(jù)強運動數(shù)據(jù)估計震源參數(shù) (3)用來估計短周期反應譜 (4)模擬地面運動預測方程 (5)評估震源機制和震源位置的數(shù)據(jù)質量 (6)執(zhí)行噪聲層析成像 (7)區(qū)分地震運動和用戶活動引起的運動 2.6 深度學習網(wǎng)絡 深度神經(jīng)網(wǎng)絡(DNN)或深度學習是經(jīng)典人工神經(jīng)網(wǎng)絡的擴展,它包含多個隱藏層。深度學習并不代表單一算法,而是具有多種網(wǎng)絡架構的廣 泛方法,包括有監(jiān)督和無監(jiān)督方法。深層架構包括多個處理層和非線性轉換,每層的輸出作為輸入傳遞給下一層。受監(jiān)督的DNN 同時學習特征表 示和從特征到目標的映射,從而實現(xiàn)良好的模型性能,而無需精心選擇的特征作為輸入。然而,訓練深度網(wǎng)絡還需要擬合大量參數(shù),這需要大的訓 練數(shù)據(jù)集和技術來防止過度擬合模型。除了DNN,常用的還有卷積神經(jīng)網(wǎng) 絡(CNN),遞歸神經(jīng)網(wǎng)絡(RNN)。 圖1 領域專家和機器學習使用的函數(shù)空間 3. 無監(jiān)督學習的方法和趨勢 3.1 聚類和自組織映射 目前有許多不同的聚類算法,包括 k-均值、層次聚類和自組織映射(SOMs)。SOM是一種無監(jiān)督神經(jīng)網(wǎng)絡,可用于降維或聚類。相關案例有: (1)運用 SOM 識別關鍵的地球物理特征 (2)對地震屬性進行降維后采用 SOM 進行聚類,從地震屬性中識別地質特征 (3)地震波形數(shù)據(jù)的特征選擇 (4)識別巖性 (5)在半監(jiān)督方法中,運用 SOM 檢測巖崩和火山構造事件 (6)地震事件分類 3.2 特征學習 無監(jiān)督特征學習可用于學習數(shù)據(jù)集的低維或稀疏特征。相關研究案例有: (1)用自動編碼網(wǎng)絡學習地震波形的緊湊特征 (2)學習可用于相填圖的聚類算法的特征 (3)將非負矩陣分解和 HMMS 結合起來學習地震波形的特征 3.3 字典學習 稀疏字典學習是一種表示學習方法,它以基本元素或原子以及這些基本元素本身的線性組合的形式構造一個稀疏表示。 3.4 深度生成模型 生成模型是一類 ML方法,用于學習數(shù)據(jù)集上的聯(lián)合概率分布。生成 模型可以應用于無監(jiān)督和監(jiān)督學習任務。最近的工作探索了深層生成模型的應用,特別是生成性對抗網(wǎng)絡(GAN)。深度生成模型,如深度渲染模 型、變分自動編碼器(VAE)和GAN 是分層概率模型,具有抽象能力, 能加快學習進度。深度生成模型的無監(jiān)督學習能力對地球物理學中的許多 反演問題特別有吸引力。 4. 其他技術 其他常見的還有強化學習、快速近鄰搜索技術、網(wǎng)絡分析技術、圖形聚類技術、PageRank(一種流行的鏈路分析算法)等。 圖2 機器學習方法及其應用 5. 建議和機會 (1)創(chuàng)建基準數(shù)據(jù)集。在理想情況下給定的問題域內,研究團體可 以使用幾種不同的基準數(shù)據(jù)集,以避免過于狹隘地關注算法開發(fā)。 (2)開放科學。采用開放科學原則將更好地定位固體地球科學社區(qū),以利用人工智能的快速發(fā)展。 (3)機器學習解決方案,新模型和架構。最近,可解釋的DNN 架構基于對地球科學中反問題的分析構建,有可能減輕不適定性,加速重建(訓練后)并適應稀疏(約束)的數(shù)據(jù)采集。 (4)地球科學課程設置。可以招聘受過數(shù)據(jù)科學培訓的學生從事地球科學研究,通過確定共同利益和互補能力,可以利用跨學科研究會議來促進合作。 成果來源 Bgn K. J., osn P. , Maren etal. Mahne larig r daa-rvn sovy in sld ath gosince. cince, 09, 3363:eaau33. |
|
|
來自: LibraryPKU > 《EEW》