
01 超大AI模型呼喚更強算力
|
電話 | 010-82030532 手機 | 18501361766 微信 | tech9999 郵箱 | yw@techxcope.com 來源:科工力量 1943年,當心理學家W.S.McCulloch和數(shù)理邏輯學家W.Pitts,經(jīng)過反復地推算驗證,提出神經(jīng)網(wǎng)絡(luò)和數(shù)學模型,并接受掌聲和鮮花時,他們心中必然有一絲遺憾,因為在晶體管還未發(fā)明的年代,紛繁復雜的數(shù)學公式無異于紙上談兵。他們肯定很難想象,80年后的今天,一場綠色的智能算力變革,會像電力、寬帶一樣,向我們奔騰而來。
01 超大AI模型呼喚更強算力 兩年前,大洋彼岸傳出的一則的消息,震動了當時的學界。人工智能公司OpenAI發(fā)布了一篇長達72頁的論文,作者多達30人,內(nèi)容描述了一種超大AI語言模型GTP-3,包含了1750億神經(jīng)網(wǎng)絡(luò)參數(shù),不僅能自己造句子,還能編故事。在大家都在感嘆《終結(jié)者》電影中的狡猾“天網(wǎng)”似乎正走進現(xiàn)實時,很少有人注意到強悍功能的背后,超大AI模型正在貪婪的吞噬著有限的算力。 “大模型成為人工智能工程化的重要方向,智能算力需求幾何級增長”,9月19日,中國智能計算產(chǎn)業(yè)聯(lián)盟發(fā)布的《東數(shù)西算下新型算力基礎(chǔ)設(shè)施發(fā)展白皮書》,一針見血地指出當下智能算力的緊迫氛圍。 AI的發(fā)展繞不過三大核心要素,數(shù)據(jù)、算法、算力。如果把數(shù)據(jù)比作工業(yè)原材料,算法就對應(yīng)著生產(chǎn)關(guān)系,而算力就是生產(chǎn)力,看得見摸得著的計算中心是它現(xiàn)實中的代表。十年前,業(yè)內(nèi)廣泛流傳的段子是“得大數(shù)據(jù)者得天下”,如今卻是“得算力者得天下”。 從數(shù)據(jù)來看,超大AI模型對算力挑戰(zhàn)巨大。比如說,OpenAI為了訓練含有1750億參數(shù)的GPT-3,從無到有耗費了5億美元,新搭建了一個算力中心,用掉了1萬張顯卡。而這個模型在訓練上則消耗了355個GPU的年算力,訓練的成本超過了460萬美元。
除了算力,超大AI模型對電力的需求同樣讓人吃驚,GPT-3被訓練一次就要消耗電量19萬度,按照美國碳排放標準計算,大約產(chǎn)生了85000kg二氧化碳當量。 可如今,對更大AI模型的瘋狂追求卻成了趨勢。尤其是在AlphaGo以5比4的成績擊敗李世石之后,各家科技巨頭像著魔一般,瘋狂挑戰(zhàn)超大AI模型。在OpenAI推出GPT-3之后,微軟和英偉達也不甘心被落下,一年后立馬公布了擁有5300億參數(shù)的MT-NLG大模型。 所以,研究人員現(xiàn)在不得不面對一個現(xiàn)實困境,智能算力越來越不夠用。在半導體產(chǎn)業(yè),摩爾定律廣為人知,芯片中的晶體管每隔18個月左右,基本會翻一番,性能同時會提升一個檔次。而從2012年以來,人工智能產(chǎn)業(yè)也呈現(xiàn)了類似規(guī)律,復雜的AI訓練任務(wù)所需的算力,每3.43個月就會翻倍。OpenAI在整理2012到2018年算力數(shù)據(jù)后,更是發(fā)現(xiàn)了一個驚人的事實,六年時間內(nèi),AI算力需求竟然增長了30萬倍,這比摩爾定律更震撼。 中國工程院院士鄭緯民曾指出,下一代AI的發(fā)展亟需建設(shè)大規(guī)模AI算力基礎(chǔ)設(shè)施,GPT-3取得了很好的進步,但是離強人工智能還有差距,下一代人工智能模型可能超過萬億參數(shù)。 當AI大模型成為推動AI能力提升的重要工具和手段時,它的非線性甚至是幾何式增長的參數(shù)數(shù)量,將導致AI大模型、巨量模型的計算規(guī)模越來越大,需要的硬件資源越來越多,對算力需求及其巨大。若是步入強人工智能時代,所需算力更是將呈現(xiàn)幾何倍增長。
02 更強的算力中心急需降溫 在算力需求嗷嗷待哺的同時,如何給數(shù)據(jù)中心節(jié)電省錢,也成了工程師們必須面對的難題,光是2021年,全國近2.6%的電力都用在了數(shù)據(jù)中心運維上,且年電力消耗增速超過60%。所以,各地數(shù)據(jù)中心面臨節(jié)能減排的重任,而接二連三的政府文件,也恰好證明了這一點。 2017年,國務(wù)院印發(fā)的《“十三五”節(jié)能減排綜合工作方案》明確要求,新建的大型云計算數(shù)據(jù)中心能源利用效率值(PUE)要優(yōu)于1.5。2021年,政府發(fā)布的《新型基礎(chǔ)設(shè)施綠色高質(zhì)量發(fā)展實施方案》又再次強調(diào),到2025年,國家樞紐節(jié)點的PUE值要進一步降到1.25以下,綠色低碳等級要達到4A以上。 所謂的PUE,簡單點解釋就是數(shù)據(jù)中心消耗的所有能源與IT設(shè)備能耗的比值,越接近“1”證明能效水平越好,也就說明數(shù)據(jù)中心的大部分電力都被服務(wù)器、網(wǎng)絡(luò)設(shè)備、儲存設(shè)備消耗掉了。但“PUE=1”只是理想情況,按照正常的物理邏輯,強悍的算力往往意味高耗、高熱量。 首先就單個芯片來說,在制程不斷突破極限、功率奔向千瓦時,如何冷卻是頭號問題。英特爾曾在1999年對外展示過一張折線圖,內(nèi)容是處理器功率密度隨時間變化的趨勢??梢院苊鞔_地看到,按照摩爾定律的發(fā)展路徑,晶體管的尺寸和芯片的功率密度呈現(xiàn)負相關(guān),也就是說晶體管尺寸減少的同時,芯片的功率密度反而高了。
而隨著新的數(shù)據(jù)中心不斷建設(shè)、裝備了先進制程芯片的機柜投入使用,單個機柜的功率密度也在快速抬升。根據(jù)Uptime Institute發(fā)布的《2020全球數(shù)據(jù)中心調(diào)查報告》顯示。2020年數(shù)據(jù)中心平均但機架功率為8.4(KW/機架),相比于2017年的5.6(KW/機架)、2011年的2.4(KW/機架)有明顯提高,年復合增長率達到了15%。 而且短期來看,功耗問題難以順利解決。因為在經(jīng)典的馮·諾依曼架構(gòu)中,數(shù)據(jù)的處理和存儲是放在不同的地方,頻繁地高速傳輸必然導致系統(tǒng)功耗很高。從某種角度理解,這也是馮·諾依曼架構(gòu)的缺陷所在。所以,當全球媒體津津樂道AlphaGo打敗人類時,有一組讓人大跌眼鏡的事實,人類只用了20瓦的大腦能耗,而AlphaGo的能耗達到了2萬瓦。 先進制程芯片的突破、功率更高的單機柜使用,迫使數(shù)據(jù)中心使用更多的能源用于散熱。
03 液冷技術(shù)成為破局要素 2022年,《求是》雜志第二期中的一張圖片,吸引了眾多通信界人士的目光。這張圖片展示的是一款浸泡在液體中的處理器,在其周圍附著了很多移動的氣泡。在圖片旁邊還注明了一行文字:“對數(shù)字經(jīng)濟對經(jīng)濟社會的引領(lǐng)帶動作用日益凸顯,圖中液冷計算節(jié)點能夠?qū)?shù)據(jù)中心能效比PUE降至1.1以下,比傳統(tǒng)風冷技術(shù)節(jié)電20%?!?/span>
實際上,這款圖展示的正是曙光自主研發(fā)的浸沒式相變液冷技術(shù),通過特殊的、沸點很低的液體,將CPU、內(nèi)存、電源系統(tǒng)等發(fā)熱部件運行時產(chǎn)生的熱量帶出設(shè)備,之后這些液體再與水做熱交換,最終將熱量排除,達到給數(shù)據(jù)中心降溫的效果。從具體的數(shù)據(jù)來看,這樣的冷卻技術(shù)達到了極好的效果,甚至能將PUE值控制最低1.04,這說明數(shù)據(jù)中心的電力基本很少有浪費。而且,這些液體帶出的熱量還能被回收,供附近居民采暖。 在液冷技術(shù)上,曙光很早就開始埋頭耕耘。2011年,在業(yè)內(nèi)競相追逐互聯(lián)網(wǎng)泡沫時,曙光開始了服務(wù)器液冷技術(shù)的探索與研究,2013年推出首臺冷板液冷服務(wù)器原理機,并在一年后完成產(chǎn)品化。有了冷板液冷經(jīng)驗,先進的浸沒相變液冷技術(shù)也就手到擒來了。2013年,首臺浸沒相變液冷原理驗證機被推出,2014年原型機誕生,2017年啟動商用,兩年后,國內(nèi)首個浸沒相變液冷服務(wù)器大規(guī)模應(yīng)用項目落地。 在東數(shù)西算的大背景下,曙光的綠色算力方案也在有序的落地中。在全國一體化算力網(wǎng)絡(luò)成渝樞紐節(jié)點內(nèi),曙光在重慶市璧山區(qū)科學城打造的數(shù)據(jù)中心,就是以浸沒相變液冷技術(shù)為底座,布局建設(shè)。實際上,依托液冷技術(shù),曙光的綠色大腦正在為國內(nèi)各地、各行業(yè)提供算力,相比傳統(tǒng)風冷技術(shù),一年節(jié)電量達2億度。
基礎(chǔ)設(shè)施意味著普惠性、大眾化,也就意味著東西便宜、用的人多。18世紀的蒸汽、19世紀的電力、20世紀的寬帶,都在相應(yīng)的時間節(jié)點上,順利地演變成那個時代的基礎(chǔ)設(shè)施,有的仍存延至今。在以液冷技術(shù)為代表的綠色算力席卷全球、貫通各行各業(yè)時,我們似乎看到了強 |
|
|
來自: 小飛俠cawdbof0 > 《智能》