|
近幾年關(guān)于人工智能,機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘的新聞數(shù)不勝數(shù),其中包含多少媒體炒作,又存在多大的泡沫尚不可說。拋開這些,各個(gè)領(lǐng)域都在試圖利用人工智能,機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘技術(shù)拓展業(yè)務(wù)。先來說說究竟什么是人工智能,機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘? 所謂數(shù)據(jù)挖掘簡單的來說就是利用統(tǒng)計(jì)學(xué)方法從大量的數(shù)據(jù)中尋找規(guī)律,找到隱藏在數(shù)據(jù)中的模型,并利用找到的模型解釋一些現(xiàn)象,而機(jī)器學(xué)習(xí)是利用數(shù)據(jù)挖掘技術(shù)或者其他算法構(gòu)建隱藏在數(shù)據(jù)中的模型并用于預(yù)測(比如Kaggle上泰坦尼克號生存練習(xí)賽就是從數(shù)據(jù)中獲取規(guī)律并預(yù)測乘客生存的可能性)。人工智能是利用機(jī)器學(xué)習(xí)構(gòu)建的模型或者其他方法來模擬或者擴(kuò)展人的智能的理論,簡單的來說就是利用更好的算法為人類服務(wù)。 關(guān)于這些概念不做過多解釋,主要講一下目前人工智能,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘在氣象領(lǐng)域的應(yīng)用。相信很多聽過機(jī)器學(xué)習(xí)的氣象人都想過機(jī)器學(xué)習(xí)是否可以用來預(yù)測天氣。關(guān)于這個(gè)問題Quora上也有很多人在討論,機(jī)器學(xué)習(xí)所適用的場景以及天氣預(yù)報(bào)所涉及到的復(fù)雜物理機(jī)制就限制了機(jī)器學(xué)習(xí)在預(yù)測天氣方面的應(yīng)用。雖然機(jī)器學(xué)習(xí)可能無法在預(yù)測天氣方面取得很大成就,但是機(jī)器學(xué)習(xí)還是可以在氣象領(lǐng)域發(fā)揮作用。 機(jī)器學(xué)習(xí)在氣候領(lǐng)域的應(yīng)用 由于極端天氣事件對生態(tài)系統(tǒng)、基礎(chǔ)設(shè)施和人類健康有著巨大的潛在風(fēng)險(xiǎn)?;谛l(wèi)星和氣象站的觀測記錄來分析極端天氣,以及在未來氣候條件的模擬中描述極端天氣變化是一項(xiàng)非常重要的任務(wù)。通常氣象界是通過手工編碼、多變量閾值條件來指定模式標(biāo)準(zhǔn)。這種標(biāo)準(zhǔn)多是主觀的,氣象界通常對于應(yīng)該使用的具體算法很少有一致的意見。目前已有一些研究砸開探索完全不同的模型,通過訓(xùn)練一個(gè)基于人類真實(shí)標(biāo)注數(shù)據(jù)的深度學(xué)習(xí)系統(tǒng)來學(xué)習(xí)模式分類器。首先考慮以熱帶氣旋和大氣河流為中心的剪切圖片集的監(jiān)督分類問題。基于5000-10000個(gè)剪切圖像,并通過在Speamint中進(jìn)行超參數(shù)調(diào)優(yōu)來訓(xùn)練了一個(gè)Caffe中的香草卷積神經(jīng)網(wǎng)絡(luò)。最終發(fā)現(xiàn)監(jiān)督分類任務(wù)可以獲得90%-99%的分類準(zhǔn)確度。下一步就是考慮用一個(gè)統(tǒng)一的網(wǎng)絡(luò)對多種類型模型(熱帶氣旋、大氣河流、超熱帶氣旋等)同時(shí)進(jìn)行模式分類,并利用包圍盒來定位這些模式。這是對這個(gè)問題一個(gè)更高級的半監(jiān)督的思路。當(dāng)前研究所使用的網(wǎng)絡(luò)如圖1所示。 圖1 氣候模式定位及分類半監(jiān)督網(wǎng)絡(luò)結(jié)構(gòu)
圖2顯示了通過半監(jiān)督架構(gòu)獲得的一些示例結(jié)果。雖然對架構(gòu)的進(jìn)一步調(diào)整還正在進(jìn)行中,但是底層群集的t-SNE圖顯示了該方法有能力在數(shù)據(jù)集中發(fā)現(xiàn)新的相干流體流量結(jié)構(gòu)。目前的架構(gòu)運(yùn)行在氣象數(shù)據(jù)的即時(shí)快照上,我們正在擴(kuò)展模型以包含時(shí)間來得到更精確的預(yù)測。 圖2 天氣模式及其位置示例,紅色為深度學(xué)習(xí)預(yù)測結(jié)果,綠色為實(shí)際情況 機(jī)器學(xué)習(xí)在數(shù)據(jù)同化方面的應(yīng)用 數(shù)據(jù)同化對氣象數(shù)值模式的預(yù)測來說具有非常重要的意義。數(shù)據(jù)同化的目的是為了利用短期預(yù)報(bào)結(jié)果和實(shí)際觀測資料確定最佳的大氣初始狀態(tài)。數(shù)據(jù)同化是一個(gè)連續(xù)的時(shí)步過程,首先根據(jù)一個(gè)大氣初始狀態(tài)進(jìn)行天氣預(yù)測,然后將預(yù)測結(jié)果和最新的觀測結(jié)果進(jìn)行對比,然后根據(jù)對比結(jié)果更新模式狀態(tài),利用更新后的大氣狀態(tài)進(jìn)行新的預(yù)測,按照上述過程不斷的迭代。在過去幾十年間,卡爾曼濾波一直是比較常用的數(shù)據(jù)同化方法,近些年集合卡爾曼濾波也開始應(yīng)用于業(yè)務(wù),還有擴(kuò)展卡爾曼濾波方法(但是并沒有用于業(yè)務(wù))。雖然卡爾曼濾波和集合卡爾曼濾波非常受歡迎,但是這并不是最優(yōu)的選擇,尤其是對于恰當(dāng)?shù)拇髿饽P偷南闰?yàn)性上,而且當(dāng)數(shù)據(jù)量增大時(shí)其效率并不高。鑒于機(jī)器學(xué)習(xí)進(jìn)行動態(tài)系統(tǒng)預(yù)測時(shí)不依賴于底層的物理模型而且關(guān)于數(shù)據(jù)和誤差的屬性可以進(jìn)行最小估計(jì),因此目前正在試圖利用機(jī)器學(xué)習(xí)和核方法尋找可能的高效率方法替代集合卡爾曼濾波法。 目前已有的一些研究中利用機(jī)器學(xué)習(xí)算法和集合卡爾曼濾波進(jìn)行了對比。當(dāng)集合卡爾曼濾波使用較少的ensembles時(shí)(20個(gè)ensembles),機(jī)器學(xué)習(xí)算法的效果要優(yōu)于集合卡爾曼濾波,但是當(dāng)集合卡爾曼濾波使用大量的ensembles時(shí)(100個(gè)ensembles),機(jī)器學(xué)習(xí)方法的效果相對較差。雖然研究中提到機(jī)器學(xué)習(xí)方法對內(nèi)存及時(shí)間的消耗相對集合卡爾曼濾波來說減少了60%左右,但是并沒有給出每一次測試的具體時(shí)間對比。而且相對于可靠的預(yù)測來說,對內(nèi)存以及時(shí)間的消耗如果在允許的范圍內(nèi)的話,當(dāng)然是選擇準(zhǔn)確率更高的方法。研究者提到后續(xù)的研究將進(jìn)行機(jī)器學(xué)習(xí)方法和四維變分法進(jìn)行對比。 圖3 機(jī)器學(xué)習(xí)算法和不同ensembles的集合卡爾曼濾波同化結(jié)果對比 作為數(shù)據(jù)同化技術(shù)先驅(qū)的ECMWF目前仍在使用四維變分?jǐn)?shù)據(jù)同化技術(shù)。短時(shí)間內(nèi)機(jī)器學(xué)習(xí)方法還無法替代已經(jīng)業(yè)務(wù)化應(yīng)用的現(xiàn)有數(shù)據(jù)同化技術(shù)。關(guān)于機(jī)器學(xué)習(xí)在數(shù)據(jù)同化方面的應(yīng)用,還需要更多的探索。 機(jī)器學(xué)習(xí)在強(qiáng)對流活動方面的應(yīng)用 相對于數(shù)據(jù)同化來說,機(jī)器學(xué)習(xí)在強(qiáng)對流活動方面的應(yīng)用就顯得非常普遍了。比如2017年深圳氣象局和阿里巴巴聯(lián)合承辦了以‘智慧城市,智慧型國家’為主題的CIKM數(shù)據(jù)科學(xué)競賽,主要是利用雷達(dá)圖像進(jìn)行了短期降水預(yù)報(bào)(獨(dú)家 | 雷達(dá)圖像預(yù)測未來降水?CIKM AnalytiCup Top1 清華團(tuán)隊(duì)思路分享(附代碼))。 Oklahoma大學(xué)氣象學(xué)院和計(jì)算機(jī)科學(xué)學(xué)院聯(lián)合成立了一個(gè)實(shí)驗(yàn)室,即IDEAL,專門研究數(shù)據(jù)科學(xué),人工智能和機(jī)器學(xué)習(xí)在氣象領(lǐng)域中的應(yīng)用。該實(shí)驗(yàn)室的主要研究內(nèi)容就包括高影響的天氣預(yù)測和天氣分析。比如利用機(jī)器學(xué)習(xí)算法進(jìn)行雷暴生命周期的實(shí)時(shí)預(yù)測,對雷暴進(jìn)行分類等等。不知大家是否還記得之前的東方之星郵輪沉沒事件,調(diào)查結(jié)果表示可能是由于下?lián)舯┝鲗?dǎo)致。而下?lián)舯┝鲗儆谝环N小尺度的直線風(fēng)切變。IDEAL同時(shí)也在利用機(jī)器學(xué)習(xí)方法進(jìn)行直線風(fēng)的實(shí)時(shí)預(yù)測。而且作為最具影響力的的微尺度天氣事件--龍卷風(fēng),當(dāng)然也得到了廣為關(guān)注。目前,該實(shí)驗(yàn)室正通過大尺度的機(jī)器學(xué)習(xí)技術(shù)改進(jìn)對龍卷風(fēng)的理,并且利用數(shù)據(jù)挖掘技術(shù)來尋找龍卷風(fēng)發(fā)生之前是否存在規(guī)律。同時(shí)通過對時(shí)空相關(guān)算法的研究改進(jìn)對強(qiáng)災(zāi)害性天氣事件的預(yù)測。IDEAL在機(jī)器學(xué)習(xí)/人工智能/數(shù)據(jù)挖掘在氣象領(lǐng)域的應(yīng)用方面,尤其是在強(qiáng)對流活動方面的應(yīng)用進(jìn)行了大量的研究,最重要的是有相當(dāng)一部分研究是開放源碼以及數(shù)據(jù)的。這對于對機(jī)器學(xué)習(xí)在氣象領(lǐng)域應(yīng)用感興趣的氣象人來說是非常不錯(cuò)的。 IDEAL目前已經(jīng)有一些研究成果應(yīng)用到實(shí)際的業(yè)務(wù)中,比如NCAR的冰雹的實(shí)時(shí)預(yù)測系統(tǒng)。IDEAL不少研究者都開源了一些相關(guān)的源代碼,比如,Hagelslag是基于對象的雷暴災(zāi)害預(yù)測系統(tǒng),主要是基于數(shù)值預(yù)報(bào)輸出利用機(jī)器學(xué)習(xí)工具和圖像處理技術(shù)進(jìn)行強(qiáng)災(zāi)害過程的預(yù)測(圖4),同時(shí)利用數(shù)據(jù)挖掘技術(shù)研究龍卷風(fēng)的一個(gè)項(xiàng)目也開放了源碼以及部分?jǐn)?shù)據(jù)。這些源代碼和數(shù)據(jù)都可以通過IDEAL網(wǎng)站或者Github下載。 圖4 冰雹預(yù)測的流程 除了上述提到的之外,機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘在氣象的其他方面同樣有著比較廣泛的應(yīng)用。比如Kaggle平臺上就有一些氣象方面的機(jī)器學(xué)習(xí)比賽,大多都是利用歷史氣象數(shù)據(jù)對未來某一時(shí)刻的氣象條件進(jìn)行預(yù)測,或者是利用氣象數(shù)據(jù)完成一些其他預(yù)測。比如天氣事件對物流運(yùn)輸?shù)挠绊?國內(nèi)攜程之前舉辦的航班延誤比賽,其中就用到了氣象數(shù)據(jù),主要是天氣條件,比如天氣是否晴朗,是否存在強(qiáng)對流過程等),或者天氣狀態(tài)對超市營業(yè)額的影響(天氣的好壞對一些商品銷售的影響,比如雨雪天氣對雨傘,鞋套等商品銷售量的影響,連續(xù)的炎熱天氣對水果,飲料等商品銷售量的影響等)等等。 氣象領(lǐng)域每天都在產(chǎn)生大量的數(shù)據(jù),而如何能夠從這些數(shù)據(jù)中提取更有價(jià)值的信息,如何利用這些數(shù)據(jù)更好的服務(wù)天氣預(yù)報(bào)或者改進(jìn)對氣象領(lǐng)域一些事件的理解是非常重要的。數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí)技術(shù)的發(fā)展為解決這一問題提供了更好的途徑。不管目前數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)/人工智能領(lǐng)域存在多大的泡沫,但是確實(shí)出現(xiàn)了不撒后新的技術(shù)和方法。因此機(jī)器學(xué)習(xí)在氣象領(lǐng)域的可能具有更光明的應(yīng)用前景。 [IDEAL](http://www./idea/index.html) [NCAR Ensemble](http://ensemble./) [Hagelslag](https://github.com/djgagne/hagelslag) |
|
|