DeepSeek又有重大突破？一款未公開大模型展現(xiàn)驚人能力

真友書屋 2025-01-22

展開全文

DeepSeek再一次發(fā)布了強(qiáng)大的開源大模型。

1月20日，國內(nèi)大模型公司深度求索（DeepSeek）在其公眾號公布了新一代開源大模型DeepSeek-R1，該模型號稱在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上，性能比肩美國OpenAI公司最新的o1大模型正式版。

點(diǎn)擊查看大圖

根據(jù)數(shù)據(jù)，DeepSeek-R1在算法類代碼場景（Codeforces）和知識類測試（GPQA、MMLU）中的得分略低于OpenAI o1，但在工程類代碼場景（SWE-Bench Verified）、美國數(shù)學(xué)競賽（AIME 2024, MATH）項目上，均超過了OpenAI o1 。

其中，與深度求索上月發(fā)布的大模型DeepSeek-V3相比，DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍，而其余項均有不同程度的提升。

深度求索還更新了用戶協(xié)議，明確模型開源License將統(tǒng)一使用標(biāo)準(zhǔn)的MIT許可，同時還允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。按照深度求索數(shù)據(jù)顯示，在以DeepSeek-R1基礎(chǔ)上進(jìn)行“蒸餾”的6個小模型中，32B和70B模型在多項能力上都實(shí)現(xiàn)了對標(biāo)OpenAI的o1-mini 的效果。

面對這個令人矚目的成績，深度求索則解釋稱，DeepSeek-R1 后訓(xùn)練階段中大規(guī)模使用了強(qiáng)化學(xué)習(xí)（RL）技術(shù)，在僅有極少人工標(biāo)注數(shù)據(jù)的情況下，極大提升了模型推理能力。這意味著該模型幾乎跳過了監(jiān)督微調(diào)（SFT）步驟，就實(shí)現(xiàn)了推理能力自我提升。

點(diǎn)擊查看大圖

DeepSeek-R1-Zero自然而然地學(xué)會用更多的思考時間來解決推理任務(wù)。深度求索

通常情況下，強(qiáng)化學(xué)習(xí)的好處是可以通過與外界評價反饋，不斷讓模型自我優(yōu)化，生成更符合人類偏好的內(nèi)容。而監(jiān)督微調(diào)則是指在預(yù)訓(xùn)練使用人工標(biāo)注的數(shù)據(jù)進(jìn)行干預(yù)，可以讓生成的內(nèi)容更準(zhǔn)確且符合預(yù)期，這也是當(dāng)年ChatGPT成功的關(guān)鍵。但從成本上來說，強(qiáng)化學(xué)習(xí)雖然需要大量人類反饋，且訓(xùn)練復(fù)雜計算成本高，但監(jiān)督微調(diào)則非常依賴高質(zhì)量的人工標(biāo)注數(shù)據(jù)。

值得注意的是，目前深度求索向用戶提供的僅有DeepSeek-R1版本，而在其公開測試結(jié)果中卻透露了另一個大模型 —— DeepSeek-R1-Zero。該模型完全通過大規(guī)模使用強(qiáng)化學(xué)習(xí)替代了監(jiān)督微調(diào)，但也導(dǎo)致了一些問題，因此未對外公開。

更重要的是，工作人員發(fā)現(xiàn)，在DeepSeek-R1-Zero自我學(xué)習(xí)的過程，隨著時間的增加，該模型“涌現(xiàn)”出了復(fù)雜的行為，如自我反思、評估先前步驟、自發(fā)尋找替代方案的情況，還包括一次“尤里卡時刻”（“aha moment）。

點(diǎn)擊查看大圖

“尤里卡時刻”指人類突然理解一個以前無法理解的問題或概念的某個時刻。

深度求索透露，這次“尤里卡”發(fā)生在DeepSeek-R1-Zero的的中間版本期間。當(dāng)時工作人員驚奇地發(fā)現(xiàn)，在一道數(shù)學(xué)題中，該模型學(xué)會了使用擬人化的語氣進(jìn)行自我反思，并主動為問題分配了更多地時間進(jìn)行重新思考。

深度求索稱，工作人員并沒有教DeepSeek-R1-Zero如何解決問題，只是提供了正確的激勵，它就能自主發(fā)展出先進(jìn)的問題解決策略?！斑@次尤里卡也提醒我們，強(qiáng)化學(xué)習(xí)有可能為人工智能解鎖新的智能水平，為以后發(fā)展出更自主和適應(yīng)性的模型鋪平道路。”

不過，雖然DeepSeek-R1-Zero展示出了強(qiáng)大的推理能力，但自身也出現(xiàn)了一些語言混亂及可讀性的問題，因此深度求索通過引入數(shù)千條高質(zhì)量的冷啟動數(shù)據(jù)和多段強(qiáng)化學(xué)習(xí)來解決這些問題，并獲得了上文中對外正式公布的DeepSeek-R1大模型。

目前，DeepSeek-R1 API 服務(wù)定價為每百萬輸入 tokens 1 元（緩存命中）/ 4 元（緩存未命中），每百萬輸出 tokens 16 元。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：真友書屋 > 《互聯(lián) 科技》

舉報/認(rèn)領(lǐng)