DeepSeek扭轉(zhuǎn)AI戰(zhàn)局？誰說我們不能在“1到100”階段異軍突起

昵稱UZWbF 2025-01-30

展開全文

DeepSeek在蛇年新春給全球科技圈帶來的沖擊波，絲毫不亞于兩年前ChatGPT橫空出世帶來的震撼。

而這一次，“沖擊波”來自中國。

1月20日，DeepSeek發(fā)布了性能對標OpenAI-o1正式版的新模型——DeepSeek-R1，僅用1周，Deepseek應(yīng)用就同時登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費App下載排行榜。除夕夜，它又發(fā)布了多模態(tài)大模型Janus-Pro，成為其一個月內(nèi)發(fā)布的第三款大模型。

有意思的是，DeepSeek成立至今只有1年多，仍算是一家創(chuàng)業(yè)型公司。這股稱為“來自東方的神秘力量”何以震動全球科創(chuàng)圈？多位專家認為，它最大的價值在于以極低的訓(xùn)練成本實現(xiàn)了可媲美甚至超越全球頂尖大模型的性能，而在此基礎(chǔ)上的模式之變、開源之變，都將為人工智能的發(fā)展帶來積極的意義。

“擊穿”關(guān)鍵變量，打破算力神話

如果只用一個關(guān)鍵詞來形容DeepSeek給全球科技圈帶來的沖擊力，多位專家都給出了一個詞——成本。事實上，ChatGPT自問世以來，圍繞它最大的爭議在于居高不下的成本，由巨量芯片堆疊以及巨大電力消耗換來的大算力，是否真的能支持大模型長遠發(fā)展？

Deepseek在成本這一關(guān)鍵變量上給出了“暴擊”。據(jù)了解，DeepSeek-R1模型訓(xùn)練成本僅為560萬美元，遠低于美國開放人工智能研究中心、谷歌等科技巨頭的技術(shù)投入成本。有人做了個比喻：如果把研發(fā)大模型比作燒開水，把對算力的投資比作燒水用的燃料，那么OpenAI燒開一壺水用了一車煤，谷歌用了一車98號汽油，馬斯克用了一車航空煤油，發(fā)現(xiàn)壺里的水才冒泡，而創(chuàng)業(yè)型公司DeepSeek點燃幾根火柴，就燒開了一壺水。

成本的驟降，往往會引發(fā)整個商業(yè)邏輯的變化：算力固然重要，但如果一款大模型可以花更少的錢，得出同樣的解決方案，那么依靠重度氪金“外掛裝備”成就大算力的邏輯就被打破了。事實上，美股市場已經(jīng)給出了“投票”：除夕前一個美股交易日，包括英偉達、谷歌、微軟3家公司一夜蒸發(fā)了7625億美元的市值，約合5.5萬億人民幣。雖然美股漲跌與DeepSeek不能完全劃上等號，但市場的搖擺已經(jīng)相當明顯。

美銀證券分析師Justin Post在報告中就認為，成本的降低將大大加速大模型的商業(yè)應(yīng)用：“如果模型訓(xùn)練成本被證明可以顯著降低，我們預(yù)計使用云人工智能服務(wù)的廣告、旅游和其他消費應(yīng)用的公司將在短期內(nèi)獲得成本效益?！?/p>

重構(gòu)AI敘事，闖出特色本土模式

如果把成本作為透視大模型發(fā)展的一個基點，往上看，成本驟減將對未來的商業(yè)模式帶來深遠影響；而往下看，它更重要的意義在于蹚出一條大模型的本土發(fā)展模式。

此前，有網(wǎng)友嘗試讓DeepSeek寫一篇“玄武門之變后李世民內(nèi)心獨白戲”，在思考8秒之后，DeepSeek寫下的700多字刷屏朋友圈。它的驚艷之處在于，一方面具備對歷史背景的深度把握，另一方面在文字對仗、渲染等文學(xué)上的造詣極深。而如果你用過 DeepSeek還會發(fā)現(xiàn)，它在給出回答之前，還給出了思考的過程——這與ChatGPT直接給出結(jié)果的底層邏輯完全不同。

浙江大學(xué)計算機博士傅聰解讀認為，DeepSeek-R1的模型使用強化學(xué)習(xí)技術(shù)進行“后訓(xùn)練”，讓模型的推理能力得到了極大的提升。簡單地說，就是通過學(xué)習(xí)CoT（思維鏈）的方式，一步一步推理得出結(jié)果，而不是直接預(yù)測答案。而Deepseek用極快的速度，驗證了這一路徑的可行性。

除了新訓(xùn)練方法，DeepSeek還有不少變化，比如開源、深度聯(lián)網(wǎng)等。目前R1是少數(shù)支持聯(lián)網(wǎng)的推理模型，不少用戶認為，其在大語言模型（LLM）上更卓越的表現(xiàn)，大概率與其支持聯(lián)網(wǎng)搜索有關(guān)。而DeepSeek的完全開源策略，促進了AI開發(fā)者社區(qū)的協(xié)作生態(tài)，硅谷頂級風(fēng)投a16z創(chuàng)始人馬克·安德森（Marc Andreeseen）對此評論認為，DeepSeek的開源“是給世界的一份意義深遠的禮物”。

數(shù)字產(chǎn)業(yè)分析師郝智偉認為，DeepSeek“低成本+新訓(xùn)練方法+開源+聯(lián)網(wǎng)”的新模式，從某種程度上重構(gòu)了AI大模型的敘事語言，走出了與海外不同的實用主義道路，也讓用戶與高階AI對話的門檻大大降低，加快國產(chǎn)大模型的普及速度。

彎道超車，對中國科創(chuàng)圈啟示幾何

前谷歌首席執(zhí)行官埃里克·施密特（Eric Schmidt）周二在一篇專欄文章表示，DeepSeek的崛起標志著全球人工智能競賽的“轉(zhuǎn)折點”?；蛟S，DeepSeek的“蝴蝶效應(yīng)”才剛剛開始，但它對中國科創(chuàng)圈的意義更加重大。

回到DeepSeek的誕生背景，這是一家中國創(chuàng)業(yè)型企業(yè)，盡管其擁有上萬張中高端算力卡的較好條件，但與中國絕大多數(shù)的科技企業(yè)一樣，存在高性能芯片不足、資金條件有限的客觀局限性，這意味著，通過堆疊高端硬件“大力出奇跡”的方式走不通，必須在有限算力的基礎(chǔ)上進行架構(gòu)、算法、數(shù)據(jù)利用等內(nèi)功的探索創(chuàng)新。DeepSeek的成功有其獨特性，但它也同時證明了一件事：高效率低成本的本土模式是能走通的，為2025年國內(nèi)大模型的發(fā)展開了個好頭。

郝智偉認為，這一趨勢在2024年已經(jīng)有所體現(xiàn)，特別是大模型深度用戶和創(chuàng)業(yè)者明顯感覺到，國內(nèi)的大模型更懂他們這個群體，無論是文生文的豆包、Kimi，圖生視頻的即夢、可靈，還是聲音生成的海螺AI，這些國產(chǎn)AI系統(tǒng)都有不俗的表現(xiàn)。他認為，中國在“從0到1”的破局上，或許錯過了大模型最初的爆發(fā)紅利，但并不代表不能在“從1到100”的階段異軍突起，大模型的比拼注定是一場馬拉松。

正如DeepSeek創(chuàng)始人梁文鋒此前接受媒體采訪時所說：“過去很多年，中國公司習(xí)慣了別人做技術(shù)創(chuàng)新，我們拿過來做應(yīng)用變現(xiàn)。但在這一波浪潮里，我們的出發(fā)點是走到技術(shù)的前沿，去推動整個生態(tài)發(fā)展?！?/p>

就在除夕夜，Deepseek再度發(fā)布了多模態(tài)大模型Janus-Pro，以“四兩撥千斤”的模式，在文生圖領(lǐng)域扮演了一條攪動全球科技圈的鯰魚。