|
DeepSeek在蛇年新春給全球科技圈帶來的沖擊波,絲毫不亞于兩年前ChatGPT橫空出世帶來的震撼。 而這一次,“沖擊波”來自中國。 1月20日,DeepSeek發(fā)布了性能對標OpenAI-o1正式版的新模型——DeepSeek-R1,僅用1周,Deepseek應(yīng)用就同時登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費App下載排行榜。除夕夜,它又發(fā)布了多模態(tài)大模型Janus-Pro,成為其一個月內(nèi)發(fā)布的第三款大模型。 有意思的是,DeepSeek成立至今只有1年多,仍算是一家創(chuàng)業(yè)型公司。這股稱為“來自東方的神秘力量”何以震動全球科創(chuàng)圈?多位專家認為,它最大的價值在于以極低的訓(xùn)練成本實現(xiàn)了可媲美甚至超越全球頂尖大模型的性能,而在此基礎(chǔ)上的模式之變、開源之變,都將為人工智能的發(fā)展帶來積極的意義。 “擊穿”關(guān)鍵變量,打破算力神話 如果只用一個關(guān)鍵詞來形容DeepSeek給全球科技圈帶來的沖擊力,多位專家都給出了一個詞——成本。事實上,ChatGPT自問世以來,圍繞它最大的爭議在于居高不下的成本,由巨量芯片堆疊以及巨大電力消耗換來的大算力,是否真的能支持大模型長遠發(fā)展? Deepseek在成本這一關(guān)鍵變量上給出了“暴擊”。據(jù)了解,DeepSeek-R1模型訓(xùn)練成本僅為560萬美元,遠低于美國開放人工智能研究中心、谷歌等科技巨頭的技術(shù)投入成本。有人做了個比喻:如果把研發(fā)大模型比作燒開水,把對算力的投資比作燒水用的燃料,那么OpenAI燒開一壺水用了一車煤,谷歌用了一車98號汽油,馬斯克用了一車航空煤油,發(fā)現(xiàn)壺里的水才冒泡,而創(chuàng)業(yè)型公司DeepSeek點燃幾根火柴,就燒開了一壺水。 成本的驟降,往往會引發(fā)整個商業(yè)邏輯的變化:算力固然重要,但如果一款大模型可以花更少的錢,得出同樣的解決方案,那么依靠重度氪金“外掛裝備”成就大算力的邏輯就被打破了。事實上,美股市場已經(jīng)給出了“投票”:除夕前一個美股交易日,包括英偉達、谷歌、微軟3家公司一夜蒸發(fā)了7625億美元的市值,約合5.5萬億人民幣。雖然美股漲跌與DeepSeek不能完全劃上等號,但市場的搖擺已經(jīng)相當明顯。 美銀證券分析師Justin Post在報告中就認為,成本的降低將大大加速大模型的商業(yè)應(yīng)用:“如果模型訓(xùn)練成本被證明可以顯著降低,我們預(yù)計使用云人工智能服務(wù)的廣告、旅游和其他消費應(yīng)用的公司將在短期內(nèi)獲得成本效益?!?/p> 重構(gòu)AI敘事,闖出特色本土模式 如果把成本作為透視大模型發(fā)展的一個基點,往上看,成本驟減將對未來的商業(yè)模式帶來深遠影響;而往下看,它更重要的意義在于蹚出一條大模型的本土發(fā)展模式。 此前,有網(wǎng)友嘗試讓DeepSeek寫一篇“玄武門之變后李世民內(nèi)心獨白戲”,在思考8秒之后,DeepSeek寫下的700多字刷屏朋友圈。它的驚艷之處在于,一方面具備對歷史背景的深度把握,另一方面在文字對仗、渲染等文學(xué)上的造詣極深。而如果你用過 DeepSeek還會發(fā)現(xiàn),它在給出回答之前,還給出了思考的過程——這與ChatGPT直接給出結(jié)果的底層邏輯完全不同。 浙江大學(xué)計算機博士傅聰解讀認為,DeepSeek-R1的模型使用強化學(xué)習(xí)技術(shù)進行“后訓(xùn)練”,讓模型的推理能力得到了極大的提升。簡單地說,就是通過學(xué)習(xí)CoT(思維鏈)的方式,一步一步推理得出結(jié)果,而不是直接預(yù)測答案。而Deepseek用極快的速度,驗證了這一路徑的可行性。 除了新訓(xùn)練方法,DeepSeek還有不少變化,比如開源、深度聯(lián)網(wǎng)等。目前R1是少數(shù)支持聯(lián)網(wǎng)的推理模型,不少用戶認為,其在大語言模型(LLM)上更卓越的表現(xiàn),大概率與其支持聯(lián)網(wǎng)搜索有關(guān)。而DeepSeek的完全開源策略,促進了AI開發(fā)者社區(qū)的協(xié)作生態(tài),硅谷頂級風(fēng)投a16z創(chuàng)始人馬克·安德森(Marc Andreeseen)對此評論認為,DeepSeek的開源“是給世界的一份意義深遠的禮物”。 數(shù)字產(chǎn)業(yè)分析師郝智偉認為,DeepSeek“低成本+新訓(xùn)練方法+開源+聯(lián)網(wǎng)”的新模式,從某種程度上重構(gòu)了AI大模型的敘事語言,走出了與海外不同的實用主義道路,也讓用戶與高階AI對話的門檻大大降低,加快國產(chǎn)大模型的普及速度。 彎道超車,對中國科創(chuàng)圈啟示幾何 前谷歌首席執(zhí)行官埃里克·施密特(Eric Schmidt)周二在一篇專欄文章表示,DeepSeek的崛起標志著全球人工智能競賽的“轉(zhuǎn)折點”?;蛟S,DeepSeek的“蝴蝶效應(yīng)”才剛剛開始,但它對中國科創(chuàng)圈的意義更加重大。 回到DeepSeek的誕生背景,這是一家中國創(chuàng)業(yè)型企業(yè),盡管其擁有上萬張中高端算力卡的較好條件,但與中國絕大多數(shù)的科技企業(yè)一樣,存在高性能芯片不足、資金條件有限的客觀局限性,這意味著,通過堆疊高端硬件“大力出奇跡”的方式走不通,必須在有限算力的基礎(chǔ)上進行架構(gòu)、算法、數(shù)據(jù)利用等內(nèi)功的探索創(chuàng)新。DeepSeek的成功有其獨特性,但它也同時證明了一件事:高效率低成本的本土模式是能走通的,為2025年國內(nèi)大模型的發(fā)展開了個好頭。 郝智偉認為,這一趨勢在2024年已經(jīng)有所體現(xiàn),特別是大模型深度用戶和創(chuàng)業(yè)者明顯感覺到,國內(nèi)的大模型更懂他們這個群體,無論是文生文的豆包、Kimi,圖生視頻的即夢、可靈,還是聲音生成的海螺AI,這些國產(chǎn)AI系統(tǒng)都有不俗的表現(xiàn)。他認為,中國在“從0到1”的破局上,或許錯過了大模型最初的爆發(fā)紅利,但并不代表不能在“從1到100”的階段異軍突起,大模型的比拼注定是一場馬拉松。 正如DeepSeek創(chuàng)始人梁文鋒此前接受媒體采訪時所說:“過去很多年,中國公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過來做應(yīng)用變現(xiàn)。但在這一波浪潮里,我們的出發(fā)點是走到技術(shù)的前沿,去推動整個生態(tài)發(fā)展?!?/p> 就在除夕夜,Deepseek再度發(fā)布了多模態(tài)大模型Janus-Pro,以“四兩撥千斤”的模式,在文生圖領(lǐng)域扮演了一條攪動全球科技圈的鯰魚。 |
|
|
來自: 昵稱UZWbF > 《科技術(shù)》