| 本文系基于公開資料撰寫,僅作為信息交流之用,不構(gòu)成任何投資建議刷屏討論的DeepSeek-V3模型,消息稱只用了極少數(shù)卡,就完成了訓(xùn)練。周末復(fù)盤,也就中國股市有這反饋,美股根本不為所動(dòng)。
  簡單想想,今年字節(jié)在算力投入800億,明年預(yù)估1600億。會(huì)因?yàn)檫@一個(gè)模型的訓(xùn)練成本變化,就減少投入嗎?更何況,經(jīng)過周末的調(diào)查了解,這個(gè)DeepSeek是走了捷徑的模型。相當(dāng)于走迷宮,直接有了地圖,而不需要逐一開圖試錯(cuò)的模式。
 以調(diào)研的結(jié)果做個(gè)解析:DeepSeek V3 671B,使用2048塊H800訓(xùn)練2個(gè)月,而Llama 3.1 405B使用1.6萬H100訓(xùn)練80天。需要注意的是:2048塊H800并非全部訓(xùn)練算力投入。1) 不包括DeepSeek R1模型(對(duì)標(biāo)OpenAI o1)生成的高質(zhì)量數(shù)據(jù)消耗的算力。2) 不包括模型架構(gòu)的探索調(diào)試階段消耗的算力。第二條,相當(dāng)于走迷宮之前搭建程序的時(shí)間忽略不計(jì)。(關(guān)鍵詞:蒸餾。蒸餾過的小模型訓(xùn)練成本本來就是指數(shù)級(jí)下降。因?yàn)榍懊嬗写竽P筒韧炅怂械目?,它千辛萬苦收斂成功了,它作為一個(gè)“teacher”模型去教一個(gè)“student”模型如何做個(gè)好模型,時(shí)間正好就是兩個(gè)月,幾百張卡的事。
 可是之前踩的坑 都不算成本是吧?幻方去年底就有超過10000張gpu,囤這么多卡都是為了吃灰?小米的卡都沒它多。要做新聞也行,不要玩文字游戲太狠。 可是之前踩的坑 都不算成本是吧?幻方去年底就有超過10000張gpu,囤這么多卡都是為了吃灰?小米的卡都沒它多。要做新聞也行,不要玩文字游戲太狠。——來源:小熊跑的快) |