| 近兩年,人工智能在材料、化學(xué)、物理等領(lǐng)域的研究上展現(xiàn)出巨大優(yōu)勢(shì),正在引領(lǐng)基礎(chǔ)科研的“后現(xiàn)代化”。在AI2.0時(shí)代,把握人工智能技術(shù)不僅意味著科研效率的提升,更意味著科研“彎道超車”機(jī)遇的到來(lái)。 一、人工智能如何影響材料、化學(xué)、物理等基礎(chǔ)科研? 2016年,谷歌AlphaGo的橫空出世,將世人的焦點(diǎn)吸引到了人工智能領(lǐng)域。短短兩年時(shí)間,人工智能技術(shù)在商業(yè)領(lǐng)域獲得了空前的成功。語(yǔ)音識(shí)別、圖像識(shí)別、無(wú)人駕駛、智慧金融等領(lǐng)域,無(wú)一不在影響著人們的生活。 但不為大眾所關(guān)注的是,人工智能技術(shù)在科研領(lǐng)域也掀起了巨大的“波瀾”。本文以2018年P(guān)hys.org網(wǎng)站(物理學(xué)家組織網(wǎng))和頂級(jí)期刊上的文章為基礎(chǔ),向大家介紹人智能在材料、化學(xué)、物理等領(lǐng)域如何產(chǎn)生作用。 (一)新材料領(lǐng)域 2018年7月,Keith Butler等人在《Nature》期刊上發(fā)表題為“分子和材料研究用的機(jī)器學(xué)習(xí)”的文章,對(duì)人工智能技術(shù)在材料、化學(xué)中的作用進(jìn)行了綜述。 文章認(rèn)為,計(jì)算化學(xué)/材料學(xué)的研究流程已經(jīng)更迭至第三代。第一代是“結(jié)構(gòu)-性能”計(jì)算,主要利用局部?jī)?yōu)化算法從結(jié)構(gòu)預(yù)測(cè)出性能;第二代為“晶體結(jié)構(gòu)預(yù)測(cè)”,主要利用全局優(yōu)化算法從元素組成預(yù)測(cè)出結(jié)構(gòu)與性能;第三代為“統(tǒng)計(jì)驅(qū)動(dòng)的設(shè)計(jì)”,主要利用機(jī)器學(xué)習(xí)算法從物理、化學(xué)數(shù)據(jù)預(yù)測(cè)出元素組成、結(jié)構(gòu)和性能。 其中,機(jī)器學(xué)習(xí)主要分為四個(gè)步驟:一是數(shù)據(jù)搜集,包括從實(shí)驗(yàn)、模擬和數(shù)據(jù)庫(kù)中獲??;二是數(shù)據(jù)選擇,包括格式優(yōu)化、噪點(diǎn)消除和特征提取;三是機(jī)器學(xué)習(xí)方法選擇,包括監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí);四是模型選擇,包括交叉驗(yàn)證、集成和異常檢測(cè)。 在實(shí)際的新材料研發(fā)中,人工智能技術(shù)已經(jīng)在文獻(xiàn)數(shù)據(jù)獲取、性能預(yù)測(cè)、測(cè)試結(jié)果分析等各環(huán)節(jié)展現(xiàn)出巨大優(yōu)勢(shì): 
 
 
 (二)化學(xué)領(lǐng)域 2018年3月,上海大學(xué)Mark Waller團(tuán)隊(duì)在《Nature》期刊上發(fā)表題為“利用深度神經(jīng)網(wǎng)絡(luò)和符號(hào)AI規(guī)劃化學(xué)合成”的文章,引發(fā)了業(yè)內(nèi)的廣泛關(guān)注。 研究團(tuán)隊(duì)首先收集了截止到2014年發(fā)表過(guò)的幾乎所有的化學(xué)反應(yīng),加起來(lái)大約有1250萬(wàn)個(gè)反應(yīng)。然后,研究團(tuán)隊(duì)?wèi)?yīng)用深度神經(jīng)網(wǎng)絡(luò)及蒙特卡洛樹(shù)算法,成功地規(guī)劃了新的化學(xué)合成路線,即便是權(quán)威的合成化學(xué)專家,也無(wú)法區(qū)分這款軟件與人類化學(xué)家之間的區(qū)別。 與兩種傳統(tǒng)的合成方法相比(紅色和綠色),使用新型人工智能技術(shù)(藍(lán)色)在較短時(shí)間內(nèi)可以完成更多分子的合成路線預(yù)測(cè)。該研究是人工智能在化學(xué)合成領(lǐng)域的重大突破,Mark Waller也被媒體譽(yù)為“化學(xué)AlphaGo”的先驅(qū)。 “化學(xué)AlphaGo”僅是人工智能用于化學(xué)領(lǐng)域眾多案例中的一個(gè)。近年來(lái),人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)在合成化學(xué)、藥物化學(xué)等領(lǐng)域不斷產(chǎn)生新應(yīng)用,其熱度變得越來(lái)越高,有望為化學(xué)領(lǐng)域帶來(lái)革命性的變化。 
 
 
 (三)物理領(lǐng)域 2018年8月,美國(guó)能源部斯坦福直線加速器中心和費(fèi)米國(guó)家加速器實(shí)驗(yàn)室的研究人員合作,在《Nature》期刊上發(fā)表題為“在粒子物理學(xué)的能量和強(qiáng)度邊界應(yīng)用機(jī)器學(xué)習(xí)”的文章,總結(jié)了在粒子物理學(xué)的前沿使用機(jī)器學(xué)習(xí)所帶來(lái)的機(jī)遇和挑戰(zhàn)。 歐洲核子研究中心(CERN)的大型強(qiáng)子對(duì)撞機(jī)(LHC)是目前世界上最大的粒子加速器,其每秒可產(chǎn)生一百萬(wàn)吉字節(jié)(GB)的數(shù)據(jù)。如此海量的數(shù)據(jù),給存儲(chǔ)和分析帶來(lái)了極大難題。研究人員利用專用的硬件和軟件,通過(guò)機(jī)器學(xué)習(xí)技術(shù)來(lái)實(shí)時(shí)決定哪些數(shù)據(jù)需要保存,哪些數(shù)據(jù)可以丟棄。結(jié)果表明,機(jī)器學(xué)習(xí)算法可以至少做出其中70%的決定,大大減少了人類科學(xué)家的工作量。 近期人工智能在物理學(xué)領(lǐng)域的應(yīng)用,除大型強(qiáng)子對(duì)撞機(jī)的數(shù)據(jù)分析外,還包括以下幾方面: 
 
 二、人工智能在基礎(chǔ)科研領(lǐng)域中扮演什么角色? 材料、化學(xué)、物理等基礎(chǔ)科研領(lǐng)域的發(fā)展,是大國(guó)科技競(jìng)爭(zhēng)力的重要保證,其直接決定了社會(huì)各方面進(jìn)步的步伐,重要性不言而喻。在AI 2.0時(shí)代,如何利用大數(shù)據(jù)挖掘和人工智能技術(shù)為基礎(chǔ)科研領(lǐng)域賦能,成為了基礎(chǔ)科學(xué)實(shí)現(xiàn)“彎道超車”的重要命題。 (一)傳統(tǒng)科研模式需要進(jìn)一步革新 2007年,圖靈獎(jiǎng)得主Jim Gray在NRC-CSTB大會(huì)上提出了科學(xué)研究的四類范式:經(jīng)驗(yàn)科學(xué)(實(shí)驗(yàn)科學(xué))是第一范式,在研究方法上以歸納為主,帶有較多盲目性的觀測(cè)和實(shí)驗(yàn);理論科學(xué)是第二范式,偏重理論總結(jié)和理性概括,在研究方法上以演繹法為主;計(jì)算科學(xué)是第三范式,主要根據(jù)現(xiàn)有理論的模擬仿真計(jì)算,再進(jìn)行少量的實(shí)驗(yàn)驗(yàn)證;數(shù)據(jù)密集型科學(xué)即第四范式,它以大量數(shù)據(jù)為前提,運(yùn)用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù),可從大量已知數(shù)據(jù)中得到未知理論。 以材料科學(xué)為例,當(dāng)前普遍采用的基礎(chǔ)科研模式主要以第一、二范式為主,第三范式為輔。在實(shí)際科研工作中,傳統(tǒng)模式帶來(lái)的問(wèn)題主要有:一是重復(fù)性勞動(dòng)過(guò)多,新材料研發(fā)環(huán)節(jié)中變量多,“試錯(cuò)法型”的實(shí)驗(yàn)量繁雜;二是“失敗實(shí)驗(yàn)”的數(shù)據(jù)遭拋棄,海量數(shù)據(jù)沉默,無(wú)法被人有效利用;三是耗時(shí)太長(zhǎng),以航空渦輪發(fā)動(dòng)機(jī)為例,單晶高溫合金葉片的研制周期往往長(zhǎng)達(dá)10年以上。 隨著互聯(lián)網(wǎng)時(shí)代的發(fā)展,數(shù)據(jù)傳播、分享的門檻大大降低,而計(jì)算機(jī)硬件計(jì)算能力的提升又令大數(shù)據(jù)的計(jì)算分析成為可能,從而催生了科學(xué)第四范式。隨著第四范式的誕生,所能解決的科學(xué)問(wèn)題的復(fù)雜度進(jìn)一步提升,勢(shì)必會(huì)給材料、化學(xué)、物理等基礎(chǔ)科研領(lǐng)域帶來(lái)效率和效果的極大提升。基礎(chǔ)科研領(lǐng)域擁抱第四范式,已經(jīng)成為必然的趨勢(shì)。 (二)人工智能如何支撐基礎(chǔ)科研領(lǐng)域發(fā)展? 在AI 2.0時(shí)代,數(shù)據(jù)是最核心的資源,也是實(shí)踐基礎(chǔ)科研領(lǐng)域第四范式的基礎(chǔ)。當(dāng)前,不同科學(xué)領(lǐng)域數(shù)據(jù)庫(kù)的建設(shè),已經(jīng)受到各國(guó)的高度重視。例如,美國(guó)國(guó)立衛(wèi)生研究院的生物基因序列庫(kù)GenBank迄今已收錄超過(guò)2億條基因序列,并正以大約每18個(gè)月翻一番的速度增長(zhǎng);美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)院Materials Data Facility收集的數(shù)據(jù)量已達(dá)到12.5TB;日本物質(zhì)·材料研究機(jī)構(gòu)建設(shè)的MatNavi數(shù)據(jù)庫(kù)是關(guān)于高分子、陶瓷、合金、超導(dǎo)材料、復(fù)合材料和擴(kuò)散的世界上最大的數(shù)據(jù)庫(kù)之一。 21世紀(jì)以來(lái),“材料基因組”、“化學(xué)基因組”和各類物理學(xué)數(shù)據(jù)庫(kù)的建設(shè)正加速進(jìn)行。在人工智能算法和計(jì)算機(jī)硬件不斷進(jìn)步的背景下,“數(shù)據(jù)挖掘+人工智能分析”已經(jīng)成為基礎(chǔ)科研領(lǐng)域快速發(fā)展的重要驅(qū)動(dòng)力: 
 
 未來(lái),基礎(chǔ)科研領(lǐng)域的發(fā)展將構(gòu)筑于數(shù)據(jù)與人工智能的基礎(chǔ)之上。對(duì)此,我應(yīng)該抓住AI 2.0時(shí)代的發(fā)展契機(jī),積極構(gòu)建基礎(chǔ)科研數(shù)據(jù)庫(kù),高效利用人工智能技術(shù),搶占技術(shù)創(chuàng)新高地,實(shí)現(xiàn)材料、化學(xué)、物理等基礎(chǔ)科研領(lǐng)域的“彎道超車”。 | 
|  | 
來(lái)自: 懶人葛優(yōu)癱 > 《科技與工程進(jìn)展》