1000字說清周末的“算力之爭”

天承辦公室 2025-01-01 發(fā)布于北京

展開全文

本文系基于公開資料撰寫，僅作為信息交流之用，不構(gòu)成任何投資建議

周末最大的分歧，估計(jì)就是算力之爭了。

刷屏討論的DeepSeek-V3模型，消息稱只用了極少數(shù)卡，就完成了訓(xùn)練。

導(dǎo)致周五的算力板塊大跌。

周末復(fù)盤，也就中國股市有這反饋，美股根本不為所動(dòng)。

簡單想想，今年字節(jié)在算力投入800億，明年預(yù)估1600億。會(huì)因?yàn)檫@一個(gè)模型的訓(xùn)練成本變化，就減少投入嗎？

更何況，經(jīng)過周末的調(diào)查了解，這個(gè)DeepSeek是走了捷徑的模型。

相當(dāng)于走迷宮，直接有了地圖，而不需要逐一開圖試錯(cuò)的模式。

以調(diào)研的結(jié)果做個(gè)解析：

DeepSeek V3 671B，使用2048塊H800訓(xùn)練2個(gè)月，而Llama 3.1 405B使用1.6萬H100訓(xùn)練80天。

需要注意的是：2048塊H800并非全部訓(xùn)練算力投入。

1）不包括DeepSeek R1模型（對(duì)標(biāo)OpenAI o1）生成的高質(zhì)量數(shù)據(jù)消耗的算力。

2）不包括模型架構(gòu)的探索調(diào)試階段消耗的算力。

第一條，相當(dāng)于走迷宮直接開了地圖。

第二條，相當(dāng)于走迷宮之前搭建程序的時(shí)間忽略不計(jì)。

（關(guān)鍵詞：蒸餾。蒸餾過的小模型訓(xùn)練成本本來就是指數(shù)級(jí)下降。因?yàn)榍懊嬗写竽Ｐ筒韧炅怂械目?，它千辛萬苦收斂成功了，它作為一個(gè)“teacher”模型去教一個(gè)“student”模型如何做個(gè)好模型，時(shí)間正好就是兩個(gè)月，幾百張卡的事。

可是之前踩的坑都不算成本是吧？幻方去年底就有超過10000張gpu，囤這么多卡都是為了吃灰？小米的卡都沒它多。要做新聞也行，不要玩文字游戲太狠。

可是之前踩的坑都不算成本是吧？幻方去年底就有超過10000張gpu，囤這么多卡都是為了吃灰？小米的卡都沒它多。要做新聞也行，不要玩文字游戲太狠。——來源：小熊跑的快）

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天承辦公室 > 《006參謀實(shí)戰(zhàn)》

舉報(bào)/認(rèn)領(lǐng)