小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

1000字說清周末的“算力之爭”

 天承辦公室 2025-01-01 發(fā)布于北京

本文系基于公開資料撰寫,僅作為信息交流之用,不構(gòu)成任何投資建議
圖片

周末最大的分歧,估計(jì)就是算力之爭了。
刷屏討論的DeepSeek-V3模型,消息稱只用了極少數(shù)卡,就完成了訓(xùn)練。
導(dǎo)致周五的算力板塊大跌。
周末復(fù)盤,也就中國股市有這反饋,美股根本不為所動(dòng)。
簡單想想,今年字節(jié)在算力投入800億,明年預(yù)估1600億。會(huì)因?yàn)檫@一個(gè)模型的訓(xùn)練成本變化,就減少投入嗎?
更何況,經(jīng)過周末的調(diào)查了解,這個(gè)DeepSeek是走了捷徑的模型。
相當(dāng)于走迷宮,直接有了地圖,而不需要逐一開圖試錯(cuò)的模式。
以調(diào)研的結(jié)果做個(gè)解析:
DeepSeek V3 671B,使用2048塊H800訓(xùn)練2個(gè)月,而Llama 3.1 405B使用1.6萬H100訓(xùn)練80天。
需要注意的是:2048塊H800并非全部訓(xùn)練算力投入。
1) 不包括DeepSeek R1模型(對(duì)標(biāo)OpenAI o1)生成的高質(zhì)量數(shù)據(jù)消耗的算力。
2) 不包括模型架構(gòu)的探索調(diào)試階段消耗的算力。
第一條,相當(dāng)于走迷宮直接開了地圖。
第二條,相當(dāng)于走迷宮之前搭建程序的時(shí)間忽略不計(jì)。
關(guān)鍵詞:蒸餾。蒸餾過的小模型訓(xùn)練成本本來就是指數(shù)級(jí)下降。因?yàn)榍懊嬗写竽P筒韧炅怂械目?,它千辛萬苦收斂成功了,它作為一個(gè)“teacher”模型去教一個(gè)“student”模型如何做個(gè)好模型,時(shí)間正好就是兩個(gè)月,幾百張卡的事。

可是之前踩的坑 都不算成本是吧?幻方去年底就有超過10000張gpu,囤這么多卡都是為了吃灰?小米的卡都沒它多。要做新聞也行,不要玩文字游戲太狠。

可是之前踩的坑 都不算成本是吧?幻方去年底就有超過10000張gpu,囤這么多卡都是為了吃灰?小米的卡都沒它多。要做新聞也行,不要玩文字游戲太狠。——來源:小熊跑的快

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多