|
三個(gè)月前,我們和中國(guó)科學(xué)院院士、清華大學(xué)計(jì)算機(jī)系教授張鈸曾經(jīng)聊過(guò)一個(gè)話題:“為什么在提高算法效率上中國(guó)人會(huì)做得更好?” 張鈸告訴我們:“對(duì)中國(guó)企業(yè)來(lái)講,算法效率是生命攸關(guān)的,我們必須全力以赴。也許因?yàn)槊绹?guó)人有強(qiáng)大的算力,算法效率對(duì)他們來(lái)說(shuō)只是錦上添花而已?!?/p> 當(dāng)時(shí),我們對(duì)這句話感受還不是很深,直到后來(lái)看到了DeepSeek-V3技術(shù)報(bào)告里的這張表格。 ![]() DeepSeek-V3的訓(xùn)練成本(假設(shè)H800的租賃價(jià)格為2美元/GPU小時(shí)),圖片來(lái)源:DeepSeek-V3技術(shù)報(bào)告 簡(jiǎn)單來(lái)說(shuō),DeepSeek-V3僅使用了2048塊英偉達(dá)H800 GPU,耗費(fèi)了557.6萬(wàn)美元就完成了訓(xùn)練,相比同等規(guī)模的模型(如GPT-4、GPT-4o、Llama 3.1),訓(xùn)練成本大幅降低。 這樣說(shuō)沒(méi)有錯(cuò),但在復(fù)雜的輿論場(chǎng)中也引發(fā)了一些誤讀。比如,“中國(guó)AI企業(yè)用幾百萬(wàn)美元的成本打敗了美國(guó)AI企業(yè)數(shù)億美元的投入”“成本僅為國(guó)外三十分之一,硅谷恐慌”。 這種誤讀有一些客觀原因,因?yàn)镺penAI、Meta官方從來(lái)沒(méi)有公布過(guò)GPT-4、GPT-4o、Llama 3.1的訓(xùn)練成本,多數(shù)人對(duì)模型訓(xùn)練成本構(gòu)成也并不熟悉,但誤讀背后更多還是主觀原因——情緒。 AI大模型領(lǐng)域,中國(guó)AI企業(yè)一直是一個(gè)“追隨者”的角色,這次有了和硅谷巨頭“掰手腕”的機(jī)會(huì),就像霍元甲站上了與西洋力士的比武臺(tái),誰(shuí)不想叫聲好呢? 這種情緒本身沒(méi)有錯(cuò),但也在一定程度上模糊了DeepSeek團(tuán)隊(duì)在算法、框架和硬件上的優(yōu)化協(xié)同設(shè)計(jì)的價(jià)值,而這正是DeepSeek-V3降本增效的關(guān)鍵。 01 訓(xùn)練成本差距是否有那么大? 我們查閱了技術(shù)報(bào)告,DeepSeek只公布了基座模型V3的訓(xùn)練成本,并沒(méi)有公布推理模型R1的訓(xùn)練成本。 DeepSeek-V3技術(shù)報(bào)告顯示,該模型的正式訓(xùn)練成本包括三個(gè)階段:預(yù)訓(xùn)練(pre-training)、擴(kuò)展上下文(context extension)、后訓(xùn)練(post-training),共計(jì)557.6萬(wàn)美元。 但是這557.6萬(wàn)美元的訓(xùn)練成本并不包括前期研究以及關(guān)于架構(gòu)、算法或數(shù)據(jù)的消融實(shí)驗(yàn)所產(chǎn)生的成本。 前期研究、消融實(shí)驗(yàn)屬于“隱性成本”,但不容忽視。 在一個(gè)AI企業(yè)正式訓(xùn)練一個(gè)模型之前,需要進(jìn)行大量的前期研究,包括對(duì)算法的理論研究、對(duì)硬件性能的探索、對(duì)數(shù)據(jù)集的分析等。 而消融實(shí)驗(yàn)(Ablation Study)是一種在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中廣泛使用的分析方法,用于評(píng)估模型各個(gè)組件或特征的重要性及其對(duì)模型整體性能的影響。 消融實(shí)驗(yàn)就像是在玩“減法游戲”或者“排除法”,通過(guò)逐一移除或修改模型的某些部分,觀察模型性能的變化,從而確定每個(gè)部分的相對(duì)重要性。 另外,在訓(xùn)練模型之前還會(huì)有一定的試錯(cuò)成本。 為什么說(shuō)這些成本是“隱性成本”? 因?yàn)榇竽P颓捌谘邪l(fā)往往分散在數(shù)月甚至數(shù)年中,難以量化統(tǒng)計(jì);消融實(shí)驗(yàn)可能反復(fù)進(jìn)行,但最終僅保留最優(yōu)方案,失敗案例的成本常被忽視;企業(yè)通常不會(huì)公開(kāi)內(nèi)部研發(fā)細(xì)節(jié)(如試錯(cuò)次數(shù)),導(dǎo)致外部估算會(huì)產(chǎn)生偏差。 除了“隱性成本”,不同的成本計(jì)算方式也會(huì)產(chǎn)生不一樣的結(jié)果。 DeepSeek-V3這557.6萬(wàn)美元訓(xùn)練成本是怎么計(jì)算的呢?按照DeepSeek-V3技術(shù)報(bào)告的邏輯,我們簡(jiǎn)單列了一個(gè)公式: 訓(xùn)練耗費(fèi)的時(shí)長(zhǎng)(GPU小時(shí))×H800每GPU小時(shí)的租賃價(jià)格(美元)=DeepSeek-V3訓(xùn)練成本(美元) 正式訓(xùn)練耗費(fèi)的時(shí)長(zhǎng)包括:預(yù)訓(xùn)練階段耗費(fèi)266.4萬(wàn)(2664K)GPU小時(shí),擴(kuò)展上下文長(zhǎng)度階段耗費(fèi)11.9萬(wàn)(119K)GPU小時(shí),后訓(xùn)練階段耗費(fèi)0.5萬(wàn)(5K)GPU小時(shí),因此DeepSeek-V3的正式訓(xùn)練共耗費(fèi)278.8萬(wàn)(2788K)GPU小時(shí)。 而DeepSeek在技術(shù)報(bào)告中假設(shè)H800每GPU小時(shí)的租賃價(jià)格為2美元,這樣DeepSeek-V3訓(xùn)練成本就是: 2,788,000×2=5,576,000(美元) 需要注意的是,這里是按GPU小時(shí)而不是GPU個(gè)數(shù)計(jì)算,單價(jià)是按GPU租賃價(jià)格計(jì)算而不是GPU購(gòu)買(mǎi)價(jià)格計(jì)算。 換種方式計(jì)算訓(xùn)練成本,結(jié)果就會(huì)很不一樣。 比如,為了訓(xùn)練Llama 3.1 405B,Meta使用了超過(guò)1.6萬(wàn)個(gè)英偉達(dá)H100 GPU,如果按照H100 GPU的購(gòu)買(mǎi)價(jià)格計(jì)算,這樣計(jì)算下來(lái)的訓(xùn)練成本就已高達(dá)數(shù)億美元。 我們也可以按照DeepSeek-V3一樣的租賃邏輯計(jì)算。 盡管Meta沒(méi)有透露Llama 3.1具體的訓(xùn)練成本,但是其技術(shù)報(bào)告顯示,Llama 3.1 405B的預(yù)訓(xùn)練(此處說(shuō)的是預(yù)訓(xùn)練時(shí)間而非完整訓(xùn)練時(shí)間)為54天。那么,Llama 3.1 405B預(yù)訓(xùn)練階段耗費(fèi)的GPU小時(shí)為: 天數(shù)×24小時(shí)×H100 GPU個(gè)數(shù)=預(yù)訓(xùn)練階段耗費(fèi)的GPU小時(shí) 54×24×16,000=20,736,000 Llama 3.1 405B是2024年7月推出的,如果按照2024年初海外市場(chǎng)H100 GPU每GPU小時(shí)的租賃價(jià)格2.8美元(參考價(jià)格,會(huì)浮動(dòng))計(jì)算,那么其預(yù)訓(xùn)練成本約為5800萬(wàn)美元。相比之下,DeepSeek-V3的532.8萬(wàn)美元預(yù)訓(xùn)練成本的確是大幅降低了。 而OpenAI官方從來(lái)沒(méi)有公布過(guò)其訓(xùn)練成本,但是我們可以從側(cè)面推算。 英偉達(dá)CEO黃仁勛在NVIDIA GTC 2024主題演講中介紹,如果要訓(xùn)練一個(gè)有1.8萬(wàn)億參數(shù)的GPT模型,用Hopper(H100)的話,需要約8000個(gè)GPU,耗電15兆瓦,用時(shí)90天,大約需要三個(gè)月。 雖然黃仁勛沒(méi)有明說(shuō),但根據(jù)此前多個(gè)渠道的爆料信息,這個(gè)1.8萬(wàn)億參數(shù)的GPT模型就是GPT-4。 ![]() 黃仁勛在NVIDIA GTC 2024 主題演講,圖片來(lái)源:英偉達(dá)B站賬號(hào) 黃仁勛在演講中解釋道:“這樣就可以訓(xùn)練出這種開(kāi)創(chuàng)性的AI模型,這顯然沒(méi)有人們想象中那么昂貴,但是8000個(gè)GPU仍然是一大筆投資。” 我們同樣可以按照租賃邏輯估算一下與GPT-4規(guī)模相當(dāng)模型訓(xùn)練成本。為什么說(shuō)估算?因?yàn)镠100是2022年3月發(fā)布的GPU,但實(shí)際大規(guī)模供貨和云服務(wù)商部署通常在2022年底至2023年初才開(kāi)始,而GPT-4在2023年3月發(fā)布,所以GPT-4的訓(xùn)練更多還是依靠A100。 假設(shè)在2024年初,也就是黃仁勛發(fā)表演講之前,訓(xùn)練一個(gè)與GPT-4規(guī)模相當(dāng)?shù)拇竽P?/strong>,其訓(xùn)練成本是: 天數(shù)×24小時(shí)×H100 GPU個(gè)數(shù)=訓(xùn)練階耗費(fèi)的GPU小時(shí) 90×24×8,000=17,280,000(小時(shí)) 訓(xùn)練耗費(fèi)的GPU小時(shí)×H100每GPU小時(shí)的租賃價(jià)格=訓(xùn)練成本 17,280,000×2.8=48,384,000(美元) 大約4800萬(wàn)美元的訓(xùn)練費(fèi)用,的確如黃仁勛所說(shuō)“沒(méi)有人們想象中那么昂貴”。 而據(jù)SemiAnalysis在2023年7月發(fā)布的分析報(bào)告,OpenAI在GPT-4的訓(xùn)練中使用了約2.5萬(wàn)個(gè)A100GPU,訓(xùn)練了90到100天,利用率(MFU)約為32%至36%,這種極低的利用率部分是由于大量的故障導(dǎo)致需要重新啟動(dòng)檢查點(diǎn)。如果每個(gè)A100 GPU的使用成本大約為每小時(shí)1美元,那么僅此次訓(xùn)練的成本將達(dá)到約6300萬(wàn)美元。 ![]() 圖片來(lái)源:SemiAnalysis DeepSeek-V3對(duì)標(biāo)的Claude 3.5 Sonnet的訓(xùn)練成本又是多少呢?此前Anthropic也沒(méi)有公布Claude 3.5 Sonnet的訓(xùn)練成本,但Anthropic CEO達(dá)里奧·阿莫迪(Dario Amodei)近期在一篇評(píng)價(jià)DeepSeek的文章中透露,Claude 3.5 Sonnet訓(xùn)練成本在數(shù)千萬(wàn)美元(cost a few $10M's to train),他還特意說(shuō):“我不會(huì)給出具體的數(shù)字?!?/p> “A few”在英語(yǔ)里通常指3到5個(gè),所以我們估計(jì)Claude 3.5 Sonnet的訓(xùn)練費(fèi)用在3000萬(wàn)到5000萬(wàn)美元之間。 我們統(tǒng)一按照DeepSeek-V3的GPU租賃邏輯計(jì)算,不考慮其他“隱性成本”,可以發(fā)現(xiàn),DeepSeek-V3的訓(xùn)練成本相比其對(duì)標(biāo)模型訓(xùn)練成本大幅降低,但沒(méi)有到某些人說(shuō)的“幾十分之一”的夸張程度。 ![]() 需要注意的是,隨著技術(shù)和市場(chǎng)的發(fā)展,GPU租賃價(jià)格的降低使得企業(yè)和研究機(jī)構(gòu)能夠以更低的成本配置更多的GPU,從而讓模型訓(xùn)練降本增效。 企業(yè)還可以用更先進(jìn)的GPU降低訓(xùn)練的能耗。 還記得黃仁勛舉的例子嗎?如果要訓(xùn)練一個(gè)有1.8萬(wàn)億參數(shù)的GPT模型,用Hopper(H100)的話,需要約8000個(gè)GPU,耗電15兆瓦,用時(shí)90天;如果用Blackwell(GB200)的話,需要2000個(gè)GPU,耗電僅需4兆瓦,約為Hopper的四分之一。 ![]() 圖片來(lái)源:英偉達(dá) 這是先進(jìn)GPU帶來(lái)的效率提升,但是國(guó)內(nèi)AI企業(yè)由于管控,無(wú)法獲得最先進(jìn)的GPU,又是靠什么來(lái)實(shí)現(xiàn)降本增效呢? Meta技術(shù)報(bào)告顯示,Llama 3.1 405B的預(yù)訓(xùn)練時(shí)長(zhǎng)54天,使用了15萬(wàn)億(15T)的tokens以及1.6萬(wàn)個(gè)英偉達(dá)H100 GPU進(jìn)行訓(xùn)練。 DeepSeek-V3在預(yù)訓(xùn)練階段,使用了14.8萬(wàn)億(14.8T)的tokens進(jìn)行訓(xùn)練,預(yù)訓(xùn)練耗時(shí)也是54天,DeepSeek-V3技術(shù)報(bào)告里也說(shuō)的是“不到兩個(gè)月”: 預(yù)訓(xùn)練階段耗費(fèi)的GPU小時(shí)÷H800 GPU個(gè)數(shù)÷24小時(shí)=天數(shù) 2,664,000÷2048÷24≈54(天) 但是,DeepSeek-V3僅使用了2048塊英偉達(dá)H800 GPU,盡管可能存在利用率的差異,但這與Llama 3.1 405B訓(xùn)練使用的1.6萬(wàn)個(gè)英偉達(dá)H100 GPU形成了鮮明對(duì)比。而且H800是英偉達(dá)為了滿(mǎn)足出口限制而設(shè)計(jì)的GPU,性能低于H100。 也就是說(shuō),DeepSeek-V3在GPU比Llama 3.1 405B用得少,GPU性能也更弱的情況下,在相同的時(shí)間,完成了與Llama 3.1 405B差不多的訓(xùn)練量。 DeepSeek-V3技術(shù)報(bào)告里的這句話“DeepSeek-V3每訓(xùn)練一萬(wàn)億(trillion)個(gè)token僅需18萬(wàn)(180K)H800 GPU小時(shí)”成為了關(guān)鍵。 DeepSeek-V3大幅提升了模型訓(xùn)練效率。 02 DeepSeek如何降本增效? DeepSeek-V3是一個(gè)混合專(zhuān)家模型 (Mixed Expert Models,以下簡(jiǎn)稱(chēng)MoE) ,旨在通過(guò)整合多個(gè)模型或“專(zhuān)家”的預(yù)測(cè)來(lái)提升整體模型性能。 ![]() 圖片來(lái)源:DeepSeek-V3技術(shù)報(bào)告 清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘教授、高性能計(jì)算研究所所長(zhǎng)翟季冬在《夜話DeepSeek:技術(shù)原理與未來(lái)方向》直播中介紹,之前發(fā)布的一些MoE模型,采用的是“專(zhuān)家數(shù)很少、每個(gè)專(zhuān)家很大”的架構(gòu),但是DeepSeek采用的是“大量細(xì)粒度的專(zhuān)家”。 “大量細(xì)粒度的專(zhuān)家”可以更靈活地處理各種輸入數(shù)據(jù),提高模型的適應(yīng)性和泛化能力。由于每個(gè)專(zhuān)家的規(guī)模小,計(jì)算效率更高,訓(xùn)練和存儲(chǔ)成本也相對(duì)較低。不過(guò),由于專(zhuān)家數(shù)量眾多,可能會(huì)導(dǎo)致模型的管理和調(diào)度變得更加復(fù)雜。 翟季冬分析,為了提升DeepSeek-V3的模型訓(xùn)練效率,DeepSeek團(tuán)隊(duì)在四個(gè)方面進(jìn)行了優(yōu)化,分別是:負(fù)載均衡優(yōu)化、通信優(yōu)化、內(nèi)存優(yōu)化、計(jì)算優(yōu)化。 首先是負(fù)載均衡優(yōu)化。在MoE架構(gòu)中,負(fù)載均衡指的是將輸入數(shù)據(jù)合理分配給各個(gè)專(zhuān)家,使得每個(gè)專(zhuān)家都能充分發(fā)揮其性能,同時(shí)避免某些專(zhuān)家過(guò)度負(fù)載而其他專(zhuān)家空閑。 負(fù)載均衡是MoE訓(xùn)練中的非常大的挑戰(zhàn),如果處理不好,那么模型在一個(gè)大規(guī)模GPU集群訓(xùn)練時(shí),利用率就很難提升上去。 DeepSeek團(tuán)隊(duì)為了解決負(fù)載均衡的挑戰(zhàn),創(chuàng)新提出了“Auxiliary-loss-free(無(wú)輔助損失)”負(fù)載均衡方案。 在傳統(tǒng)的MoE中,為了保證各個(gè)專(zhuān)家的負(fù)載均衡,通常會(huì)引入一個(gè)Auxiliary Loss(輔助損失)。這個(gè)Auxiliary Loss會(huì)強(qiáng)制讓每個(gè)專(zhuān)家處理的任務(wù)量盡量均勻。但它可能會(huì)讓模型在優(yōu)化過(guò)程中過(guò)于關(guān)注負(fù)載均衡,而忽略了模型本身的性能。 而DeepSeek的Auxiliary-Loss-Free方案,不依賴(lài)額外的輔助損失,而是在每個(gè)token的專(zhuān)家分配過(guò)程中直接施加一個(gè)bias(偏差值)來(lái)實(shí)現(xiàn)負(fù)載均衡,從而實(shí)現(xiàn)動(dòng)態(tài)調(diào)整專(zhuān)家的負(fù)載。 由于這種bias的引入已經(jīng)在專(zhuān)家選擇的過(guò)程中起到了調(diào)控作用,使得各專(zhuān)家之間的token分配趨向均衡,因此就不再需要設(shè)計(jì)和調(diào)節(jié)額外的輔助損失項(xiàng)來(lái)“強(qiáng)制”負(fù)載平衡。這不僅簡(jiǎn)化了訓(xùn)練目標(biāo),也避免了因輔助損失權(quán)重設(shè)置不當(dāng)而可能引入的訓(xùn)練不穩(wěn)定問(wèn)題。 簡(jiǎn)單來(lái)說(shuō),這就類(lèi)似紅綠燈路口,Auxiliary loss就是固定時(shí)長(zhǎng)的紅綠燈,車(chē)流量大了,路口通行效率會(huì)降低;而Auxiliary-Loss-Free中的bias就是可以根據(jù)實(shí)時(shí)車(chē)流量動(dòng)態(tài)調(diào)整時(shí)長(zhǎng)的紅綠燈,基于當(dāng)前狀態(tài)(交通流量或?qū)<邑?fù)載)動(dòng)態(tài)調(diào)整資源分配,以達(dá)到整體平衡和高效利用。 ![]() 負(fù)載均衡優(yōu)化,圖片來(lái)源:翟季冬,《夜話DeepSeek:技術(shù)原理與未來(lái)方向》 第二是通信優(yōu)化。在MoE訓(xùn)練中,使用專(zhuān)家并行會(huì)引入非常大的All to All通信開(kāi)銷(xiāo)。 什么是All to All通信開(kāi)銷(xiāo)? 假設(shè)在一個(gè)MoE中,有10個(gè)專(zhuān)家,每個(gè)專(zhuān)家被放置在一個(gè)獨(dú)立的計(jì)算節(jié)點(diǎn)上。在訓(xùn)練過(guò)程中,每個(gè)專(zhuān)家需要與其他所有專(zhuān)家進(jìn)行數(shù)據(jù)交換,以更新模型參數(shù)和同步訓(xùn)練狀態(tài)。這種情況下,每個(gè)節(jié)點(diǎn)都需要與其他9個(gè)節(jié)點(diǎn)進(jìn)行通信,形成了All to All的通信模式。隨著專(zhuān)家數(shù)量的增加,通信開(kāi)銷(xiāo)也會(huì)顯著增加,導(dǎo)致訓(xùn)練效率下降。 DeepSeek-V3就包括1個(gè)共享專(zhuān)家和256個(gè)路由專(zhuān)家,它采用的并行訓(xùn)練策略:16路流水線并行、64路專(zhuān)家并行,跨8個(gè)物理節(jié)點(diǎn)。 DeepSeek團(tuán)隊(duì)為了降低通信開(kāi)銷(xiāo),提出了DualPipe算法。 DualPipe算法的核心創(chuàng)新就是能夠?qū)⒂?jì)算和通信階段重疊進(jìn)行。在傳統(tǒng)的訓(xùn)練過(guò)程中,計(jì)算和通信是分開(kāi)進(jìn)行的,這會(huì)導(dǎo)致GPU在等待數(shù)據(jù)傳輸時(shí)出現(xiàn)空閑期,即所謂的 “流水線氣泡”(pipeline bubbles)。DualPipe算法通過(guò)確保在一個(gè)微批量(micro-batch)被計(jì)算的同時(shí),另一個(gè)微批量可以進(jìn)行通信,精細(xì)地編排計(jì)算和通信,從而最大限度地減少這些空閑期,提高GPU的利用率。 ![]() 通信優(yōu)化,圖片來(lái)源:翟季冬,《夜話DeepSeek:技術(shù)原理與未來(lái)方向》 DualPipe算法還采用了雙向流水線機(jī)制,同時(shí)從流水線的兩端處理微批量。這種策略確保了在整個(gè)訓(xùn)練過(guò)程中GPU始終保持活躍。通過(guò)這種方式,DeepSeek能夠保持良好的計(jì)算與通信比例,減少延遲,提高吞吐量。 “這里有一個(gè)需要注意的點(diǎn),如果采用雙向流水線,要在GPU顯存里存兩份模型參數(shù)。大模型訓(xùn)練內(nèi)存使用非常重要,為了解決這個(gè)問(wèn)題,它采用了64路的專(zhuān)家并行,雙流水可以非常有效地降低流水線bubble。”翟季冬說(shuō)。 ![]() 通信優(yōu)化,圖片來(lái)源:翟季冬,《夜話DeepSeek:技術(shù)原理與未來(lái)方向》 此外,DeepSeek的通信優(yōu)化還包括跨節(jié)點(diǎn)通信優(yōu)化以及Warp Specialization技術(shù)。 ![]() 通信優(yōu)化,圖片來(lái)源:翟季冬,《夜話DeepSeek:技術(shù)原理與未來(lái)方向》 第三是內(nèi)存優(yōu)化。包括了重計(jì)算、使用CPU內(nèi)存和參數(shù)共享。 大模型訓(xùn)練往往存在顯存瓶頸。重計(jì)算的核心思想是在前向傳播過(guò)程中,只保留少量關(guān)鍵的中間結(jié)果,而將其余的中間結(jié)果釋放掉。當(dāng)在反向傳播過(guò)程中需要用到這些已釋放的中間結(jié)果時(shí),再重新執(zhí)行前向傳播中的相應(yīng)部分來(lái)計(jì)算得到。這種方法通過(guò)增加一定的計(jì)算量,顯著降低了內(nèi)存消耗,是一種“以時(shí)間換空間”的策略。 這可以理解為一種在大模型訓(xùn)練過(guò)程中“偷懶”的技巧。 同時(shí),DeepSeek還把一些數(shù)據(jù),包括像模型參數(shù)的指數(shù)移動(dòng)平均(EMA),存到CPU內(nèi)存,從而節(jié)約GPU顯存;將主模型與MTP(Multi-Token Prediction)模塊的output head和embedding部署在相同節(jié)點(diǎn),最大化地共享參數(shù)空間。 ![]() 內(nèi)存優(yōu)化,圖片來(lái)源:翟季冬,《夜話DeepSeek:技術(shù)原理與未來(lái)方向》 第四是計(jì)算優(yōu)化。為了提升訓(xùn)練效率,DeepSeek采用了混合精度訓(xùn)練策略。 DeepSeek引入了英偉達(dá)FP8混合精度訓(xùn)練框架,并首次在超大規(guī)模模型上驗(yàn)證了其有效性。通過(guò)支持FP8計(jì)算和存儲(chǔ),DeepSeek實(shí)現(xiàn)了加速訓(xùn)練和減少GPU內(nèi)存使用。FP8訓(xùn)練在相同加速平臺(tái)上的峰值性能顯著超越FP16/BF16,并且模型參數(shù)越大,訓(xùn)練加速效果越好。 ![]() 計(jì)算優(yōu)化,圖片來(lái)源:翟季冬,《夜話DeepSeek:技術(shù)原理與未來(lái)方向》 總的來(lái)說(shuō),翟季冬認(rèn)為:DeepSeek充分挖掘了算法、軟件、硬件性能,實(shí)現(xiàn)了協(xié)同創(chuàng)新;其軟件相對(duì)靈活,軟件賦能硬件,彌補(bǔ)了硬件的很多限制;優(yōu)秀的系統(tǒng)軟件能夠充分釋放底層硬件的潛力。 DeepSeek正是通過(guò)這一步步的優(yōu)化,讓整個(gè)模型的訓(xùn)練效率得到提升,并降低訓(xùn)練成本。 03 “小米加步槍”式的成功 經(jīng)歷了春節(jié)假期的喧囂,我們對(duì)于DeepSeek的討論應(yīng)趨向理性。 我們不應(yīng)神話DeepSeek,也不要因?yàn)橥獠康馁H低而看輕DeepSeek,這些都對(duì)DeepSeek團(tuán)隊(duì)不公平。其實(shí),DeepSeek就是一種“小米加步槍”式的成功。 行云集成電路創(chuàng)始人季宇最近跟我們聊起DeepSeek時(shí)說(shuō),創(chuàng)新的意識(shí)其實(shí)國(guó)內(nèi)根本不缺,但缺乏Known-Why的創(chuàng)新往往會(huì)走向類(lèi)似賭徒的歧途。 “創(chuàng)新不是簡(jiǎn)簡(jiǎn)單單的不一樣的技術(shù)路線,國(guó)內(nèi)其實(shí)不缺乏創(chuàng)新性和天馬行空的想象,其實(shí)無(wú)論AI行業(yè)還是算力芯片行業(yè),都有無(wú)數(shù)走非Transformer架構(gòu)、走非GPU架構(gòu)、非馮諾伊曼架構(gòu)的差異化路線,但是基本都陷入了用差異化的技術(shù)路線主流技術(shù)路線替代品的邏輯里?!奔居钫f(shuō)。 但是DeepSeek的創(chuàng)新是一步一個(gè)腳印的。 季宇告訴我們,第一性原理思考問(wèn)題很多人都在講,但實(shí)際上非常困難。第一性原理需要深入推敲,需要對(duì)每個(gè)論斷的邊界條件,需要深入考慮各個(gè)層級(jí)技術(shù)的細(xì)節(jié)。 “之前跟在DeepSeek的一個(gè)師弟交流,梁老板(DeepSeek創(chuàng)始人梁文鋒)對(duì)他寫(xiě)的CUDA Kernel里每個(gè)線程具體在干什么事情都非常清楚,只有這樣才能從全局視角去思考突圍的方式,真正把創(chuàng)新做成。”季宇說(shuō)。 這一點(diǎn)在另一位投資人那里也得到了印證。這位投資人去年曾問(wèn)DeepSeek的人:“為什么你們的模型做得好?” DeepSeek的人回答,因?yàn)槲覀兝习遄约涸谧x論文、寫(xiě)代碼、搞招聘。 關(guān)于DeepSeek的成功,你可以說(shuō)他們有豐富的GPU儲(chǔ)備,可以說(shuō)他們對(duì)模型架構(gòu)進(jìn)行了創(chuàng)新,但其成功內(nèi)核往往是樸實(shí)而簡(jiǎn)單的。 DeepSeek創(chuàng)始人梁文鋒去年接受《暗涌》采訪時(shí)說(shuō)過(guò)的一句話,既謙虛又意味深長(zhǎng)。 他說(shuō):“我們不是有意成為一條鯰魚(yú),只是不小心成了一條鯰魚(yú)?!?/p> **參考資料: DeepSeek-V3 Technical Report,DeepSeek The Llama 3 Herd of Models,Meta GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE,SemiAnalysis 《夜話DeepSeek:技術(shù)原理與未來(lái)方向》,中國(guó)計(jì)算機(jī)學(xué)會(huì)青年計(jì)算機(jī)科學(xué)與技術(shù)論壇(CCF YOCSEF) |
|
|
來(lái)自: 一點(diǎn)進(jìn)步 > 《待分類(lèi)》