【原】DeepSeek-R1：架構和訓練詳解| DeepSeek 系列

數據治理精英館 2025-01-29 發(fā)布于浙江

展開全文

蛇年大吉

紅梅傲雪報春來

喜氣洋洋迎新歲

在過去的幾天里，人們對新發(fā)布的開放權重模型 DeepSeek-R1 [1] 著迷不已，盡管訓練成本低得多，但其性能與 GPT-o1 相當。

DeepSeek-R1 在復雜的推理任務中表現出色，包括數學、編碼和科學推理。該模型充分利用測試時間計算來執(zhí)行詳細的思維鏈 (CoT) 推理。當通過聊天界面進行測試時，它首先會經歷一個“thinking out loud”步驟，然后提供最終的、結構良好的答案。

DeepSeek-R1 的主要目標是探索使用強化學習作為唯一的后訓練技術可以達到何種程度。典型的 LLM 訓練流程包括預訓練階段，模型在此階段學習從大量未標記數據中預測下一個標記，然后是后訓練階段。后訓練階段通常包括監(jiān)督微調 (SFT)，并通過帶人工反饋的強化學習 (RLHF) 進一步增強。DeepSeek-R1 旨在最大限度地減少甚至消除對 SFT 的依賴，原因如下：

SFT 需要高質量的人工注釋數據。注釋過程通常很慢、成本高，并且可能因注釋者的偏好而引入潛在偏差。

復雜的推理任務可能超出了普通人類的理解能力。純強化學習方法使模型能夠開發(fā)出超越傳統(tǒng)人類思維界限的復雜推理行為。

有效利用“測試時間計算”是另一個關鍵優(yōu)勢。使用 SFT，注釋者必須提供完整的思路，詳細說明從推理過程到最終答案的每個步驟。這種方法在推理長度方面難以擴展。相比之下，RL 不依賴于顯式標簽，允許模型“根據需要思考”，從而最大限度地發(fā)揮“測試時間擴展”定律的優(yōu)勢。

但 DeepSeek-R1 是否完全依賴 RL？答案既是肯定的，也是否定的。作者發(fā)布了兩個不同的模型：DeepSeek-R1-Zero 和 DeepSeek-R1。前者僅在后訓練過程中使用了 RL。雖然它在某些推理基準上表現出與 GPT-o1 相當的性能，但它存在可讀性差和偶爾出現語言混雜的問題。為了解決這些問題，引入了第二個模型 DeepSeek-R1。它經歷了一個四階段的后訓練過程，并結合了 SFT 來解決這些挑戰(zhàn)并進一步提高性能。

一、DeepSeek-R1 架構

R1-Zero 和 R1 均從 DeepSeek-V3-Base 檢查點繼續(xù)進行后期訓練。DeepSeek-V3 [2] 是 DeepSeek AI 開發(fā)的開放權重混合專家 (MoE) 模型，具有多項關鍵創(chuàng)新，包括 MoE 結構、多頭潛在注意力 (MLA) 和多令牌預測 (MTP)。

二、 DeepSeek-R1-Zero — 無 SFT 模型

1. 強化學習算法

DeepSeek AI 利用了組相對策略優(yōu)化 (GRPO)，這是 2024 年 DeepSeekMath 論文中提出的強化學習算法。GRPO 基于近端策略優(yōu)化 (PPO) 框架構建，旨在增強語言模型中的數學推理能力，同時減少內存消耗。

DeepSeekMath 論文的詳細信息：https:///pdf/2402.03300

圖 1. GRPO 目標函數

2. 獎勵建模：

獎勵的計算方式在很大程度上決定了強化學習訓練的成功。DeepSeek-R1-Zero 完全依賴于基于規(guī)則的獎勵系統(tǒng)，該系統(tǒng)主要由兩種類型組成：

準確度獎勵：準確度獎勵模型評估響應是否正確。

格式獎勵：獎勵強制模型將其思考過程置于“<think>”和“</think>”標簽之間。

請注意，在此設置中，沒有使用神經獎勵模型，這意味著沒有經過訓練的神經網絡來近似獎勵函數。作者認為，神經獎勵模型在大規(guī)模強化學習過程中容易受到獎勵黑客攻擊。此外，重新訓練獎勵模型需要額外的資源，并使整個訓練流程變得復雜。

3.訓練模板

對于對話式的 LLM，通常需要問答模板。令人驚訝的是，DeepSeek-R1-Zero 的提示模板非常簡單。

表 1. DeepSeek-R1-Zero 的模板。訓練期間，提示將被替換為具體的推理問題。

4.性能與推理：

在訓練過程中，DeepSeek-R1-Zero 開發(fā)出了復雜的推理行為，例如反思（模型重新審視并重新評估其先前的步驟）以及探索解決問題的替代方法。

他們還觀察到 DeepSeek-R1-Zero 在訓練過程中的“自我進化”過程，平均響應長度穩(wěn)步增加。換句話說，R1-Zero 學會了花更多時間思考，有效地反映了測試時間計算的縮放規(guī)律。

圖 3. DeepSeek-R1-Zero 在強化學習過程中對訓練集的平均響應長度

盡管僅使用強化學習（RL）進行訓練，DeepSeek-R1-Zero 仍具有令人印象深刻的表現。

表 2. DeepSeek-R1-Zero 與 OpenAI o1 模型在推理相關基準上的比較

圖 2. DeepSeek-R1-Zero 在訓練過程中的 AIME 準確率

不過，正如前面提到的，R1-Zero 也存在一些局限性。它經常面臨可讀性差、語言混雜等問題。DeepSeek-R1 的推出旨在解決這些挑戰(zhàn)。

三、DeepSeek-R1

DeepSeek-R1 旨在通過結合多階段后訓練過程來改進 Zero。

與 R1-Zero 不同，R1 從監(jiān)督微調 (SFT) 開始，以克服強化學習的冷啟動階段。首先通過使用少量演示直接提示 R1-Zero 回答來生成標簽。然后通過人工注釋者進行后處理來完善這些標簽。在此步驟中收集了數千個冷啟動樣本以進行微調。

在對冷啟動數據進行 DeepSeek-V3-Base 微調后，作者采用了與 R1-Zero 相同的大規(guī)模強化學習訓練流程。此階段側重于增強模型的推理能力。為了解決語言混合問題，他們在強化學習訓練期間引入了語言一致性獎勵，該獎勵以思路鏈 (CoT) 中目標語言單詞的比例計算。

第三個訓練階段是另一個使用標記數據的監(jiān)督微調 (SFT) 階段。與主要側重于推理的初始冷啟動數據不同，此階段結合了來自其他領域的數據，以增強模型在寫作、角色扮演和其他通用任務中的能力。目標響應（ground-truth）是通過從一組生成的響應中進行拒絕采樣生成的，其分數由前面提到的基于規(guī)則的獎勵系統(tǒng)或生成獎勵模型（模型作為判斷）確定。

最后，應用第二個 RL 階段，即適用于所有場景的強化學習，以提高模型的有用性和無害性，同時完善其推理能力。此階段還整合了來自不同管道的數據，將獎勵信號與不同的提示分布相結合。

四、基準測試

DeepSeek-R1 在基準測試中取得了令人印象深刻的成績，其性能與 GPT-o1-1217 相當，特別是在數學和編碼等復雜的推理任務中。