小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

DeepSeek又有重大突破?一款未公開大模型展現(xiàn)驚人能力

 真友書屋 2025-01-22

DeepSeek再一次發(fā)布了強(qiáng)大的開源大模型。

1月20日,國內(nèi)大模型公司深度求索(DeepSeek)在其公眾號公布了新一代開源大模型DeepSeek-R1,該模型號稱在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能比肩美國OpenAI公司最新的o1大模型正式版。

點(diǎn)擊查看大圖

根據(jù)數(shù)據(jù),DeepSeek-R1在算法類代碼場景(Codeforces)和知識類測試(GPQA、MMLU)中的得分略低于OpenAI o1,但在工程類代碼場景(SWE-Bench Verified)、美國數(shù)學(xué)競賽(AIME 2024, MATH)項目上,均超過了OpenAI o1 。

其中,與深度求索上月發(fā)布的大模型DeepSeek-V3相比,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,而其余項均有不同程度的提升。

深度求索還更新了用戶協(xié)議,明確模型開源License將統(tǒng)一使用標(biāo)準(zhǔn)的MIT許可,同時還允許用戶利用模型輸出、通過模型蒸餾等方式訓(xùn)練其他模型。按照深度求索數(shù)據(jù)顯示,在以DeepSeek-R1基礎(chǔ)上進(jìn)行“蒸餾”的6個小模型中,32B和70B模型在多項能力上都實(shí)現(xiàn)了對標(biāo)OpenAI的o1-mini 的效果。

面對這個令人矚目的成績,深度求索則解釋稱,DeepSeek-R1 后訓(xùn)練階段中大規(guī)模使用了強(qiáng)化學(xué)習(xí)(RL)技術(shù),在僅有極少人工標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。這意味著該模型幾乎跳過了監(jiān)督微調(diào)(SFT)步驟,就實(shí)現(xiàn)了推理能力自我提升。

點(diǎn)擊查看大圖

DeepSeek-R1-Zero自然而然地學(xué)會用更多的思考時間來解決推理任務(wù)。深度求索

通常情況下,強(qiáng)化學(xué)習(xí)的好處是可以通過與外界評價反饋,不斷讓模型自我優(yōu)化,生成更符合人類偏好的內(nèi)容。而監(jiān)督微調(diào)則是指在預(yù)訓(xùn)練使用人工標(biāo)注的數(shù)據(jù)進(jìn)行干預(yù),可以讓生成的內(nèi)容更準(zhǔn)確且符合預(yù)期,這也是當(dāng)年ChatGPT成功的關(guān)鍵。但從成本上來說,強(qiáng)化學(xué)習(xí)雖然需要大量人類反饋,且訓(xùn)練復(fù)雜計算成本高,但監(jiān)督微調(diào)則非常依賴高質(zhì)量的人工標(biāo)注數(shù)據(jù)。

值得注意的是,目前深度求索向用戶提供的僅有DeepSeek-R1版本,而在其公開測試結(jié)果中卻透露了另一個大模型 —— DeepSeek-R1-Zero。該模型完全通過大規(guī)模使用強(qiáng)化學(xué)習(xí)替代了監(jiān)督微調(diào),但也導(dǎo)致了一些問題,因此未對外公開。

更重要的是,工作人員發(fā)現(xiàn),在DeepSeek-R1-Zero自我學(xué)習(xí)的過程,隨著時間的增加,該模型“涌現(xiàn)”出了復(fù)雜的行為,如自我反思、評估先前步驟、自發(fā)尋找替代方案的情況,還包括一次“尤里卡時刻”(“aha moment)。

點(diǎn)擊查看大圖

“尤里卡時刻”指人類突然理解一個以前無法理解的問題或概念的某個時刻。

深度求索透露,這次“尤里卡”發(fā)生在DeepSeek-R1-Zero的的中間版本期間。當(dāng)時工作人員驚奇地發(fā)現(xiàn),在一道數(shù)學(xué)題中,該模型學(xué)會了使用擬人化的語氣進(jìn)行自我反思,并主動為問題分配了更多地時間進(jìn)行重新思考。

深度求索稱,工作人員并沒有教DeepSeek-R1-Zero如何解決問題,只是提供了正確的激勵,它就能自主發(fā)展出先進(jìn)的問題解決策略?!斑@次尤里卡也提醒我們,強(qiáng)化學(xué)習(xí)有可能為人工智能解鎖新的智能水平,為以后發(fā)展出更自主和適應(yīng)性的模型鋪平道路。”

不過,雖然DeepSeek-R1-Zero展示出了強(qiáng)大的推理能力,但自身也出現(xiàn)了一些語言混亂及可讀性的問題,因此深度求索通過引入數(shù)千條高質(zhì)量的冷啟動數(shù)據(jù)和多段強(qiáng)化學(xué)習(xí)來解決這些問題,并獲得了上文中對外正式公布的DeepSeek-R1大模型。

目前,DeepSeek-R1 API 服務(wù)定價為每百萬輸入 tokens 1 元(緩存命中)/ 4 元(緩存未命中),每百萬輸出 tokens 16 元。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多