為什么說DeepSeek的R1-Zero比R1更值得關(guān)注？

我思故我在hyp 2025-01-31

展開全文

選自ARC Prize博客

作者：Mike Knoop

機(jī)器之心編譯

R1-Zero 等模型正在打破人類數(shù)據(jù)瓶頸，開啟 AI 自我進(jìn)化新范式？

「比起 R1，DeepSeek 同一時(shí)間發(fā)布的 R1-Zero 更值得關(guān)注?！惯@是 ARC Prize 聯(lián)合創(chuàng)始人 Mike Knoop 在一篇新博客中發(fā)表的觀點(diǎn)。

他認(rèn)為，R1-Zero 之所以比 R1 更值得分析，是因?yàn)樗耆蕾噺?qiáng)化學(xué)習(xí)（RL），而不使用人類專家標(biāo)注的監(jiān)督微調(diào)（SFT），這表明在某些任務(wù)中，人類標(biāo)注并非必要，且未來可能通過純 RL 方法實(shí)現(xiàn)更廣泛的推理能力。

此外，R1 和 R1-Zero 的成功還能讓我們讀出一些信息，比如：

通過投入更多計(jì)算資源，AI 系統(tǒng)的準(zhǔn)確性和可靠性可以顯著提升，這將增強(qiáng)用戶對 AI 的信任，推動商業(yè)化應(yīng)用。
推理過程正在生成大量高質(zhì)量的訓(xùn)練數(shù)據(jù)，且這些數(shù)據(jù)由用戶付費(fèi)產(chǎn)生，這種「推理即訓(xùn)練」的新范式可能徹底改變 AI 數(shù)據(jù)經(jīng)濟(jì)的運(yùn)作方式，形成自我強(qiáng)化的循環(huán)。

以下是博客內(nèi)容：

R1-Zero 比 R1 更值得分析

上周，DeepSeek 發(fā)布了他們新的「推理」系統(tǒng) R1-Zero 和 R1，兩個模型在 ARC-AGI-1 上的得分與 OpenAI 的 o1 系統(tǒng)低計(jì)算量版本相當(dāng)。R1-Zero、R1 和 o1（低計(jì)算量模式）的得分都在 15-20% 左右。相比之下，純 LLM scaling 多年積累的頂點(diǎn) GPT-4o 僅為 5%。根據(jù)本周美國市場反應(yīng)，公眾也開始理解純 LLM scaling 的局限性。然而，對即將到來的推理需求，公眾仍普遍認(rèn)識不足。

2024 年 12 月，OpenAI 宣布了一個經(jīng)過驗(yàn)證的新突破性系統(tǒng) o3。該系統(tǒng)在低計(jì)算量模式下得分為 76%，在高計(jì)算量模式下得分為 88%。o3 系統(tǒng)展示了計(jì)算機(jī)適應(yīng)新穎未見問題的首個實(shí)用、通用實(shí)現(xiàn)（參見《剛剛，OpenAI 放出最后大驚喜 o3，高計(jì)算模式每任務(wù)花費(fèi)數(shù)千美元》）。

盡管 o3 在 ARC-AGI-1 上取得勝利是重大科技新聞，但主流媒體幾乎未予報(bào)道。

這是 AI 領(lǐng)域和計(jì)算機(jī)科學(xué)的一個極其重要的時(shí)刻，這些系統(tǒng)值得研究。但由于 o1/o3 的封閉性質(zhì)，只能依靠推測。得益于 ARC-AGI-1 和現(xiàn)在（幾乎）開源的 R1-Zero 和 R1，我們可以增進(jìn)對此的理解（說「幾乎」是因?yàn)?DeepSeek 沒有發(fā)布一個可復(fù)現(xiàn)的方式來從頭開始生成他們的模型權(quán)重）。特別是，R1-Zero 比 R1 重要得多。

在對 o1 和 o3 的分析中，ARC Prize 團(tuán)隊(duì)針對這些推理系統(tǒng)的工作原理進(jìn)行了推測。他們認(rèn)為，這些模型的關(guān)鍵思路可能是：

為問題域生成思維鏈（CoT）。
使用人類專家（「監(jiān)督微調(diào)」或 SFT）和自動化機(jī)器（強(qiáng)化學(xué)習(xí)（RL））的組合來標(biāo)注中間 CoT 步驟。
使用（2）得到的數(shù)據(jù)訓(xùn)練基礎(chǔ)模型。
在測試時(shí)，從過程模型中進(jìn)行迭代推理。

下圖回顧了各模型迭代采樣所使用的技術(shù)及其在 ARC-AGI-1 上的得分：

圖上顯示的是 ARC-AGI-1 半私有分?jǐn)?shù)。

有了 DeepSeek 新發(fā)表的研究，ARC Prize 團(tuán)隊(duì)可以更好地為自己的猜測提供信息。這里的關(guān)鍵見解是，LLM 推理系統(tǒng)實(shí)現(xiàn)更高程度地適應(yīng)新任務(wù)的能力（和可靠性）是通過三個維度實(shí)現(xiàn)的：

在 CoT 過程模型訓(xùn)練中添加人類標(biāo)簽（即 SFT）；
使用 CoT 搜索而不是線性推理（并行逐步 CoT 推理）；
整體 CoT 采樣（并行軌跡推理）。

維度 1 受限于人類數(shù)據(jù)生成，并限制了這些推理系統(tǒng)在哪些領(lǐng)域收益最大。例如，o1 在 MMLU 專業(yè)法律類別上的表現(xiàn)出人意料地比數(shù)學(xué)和邏輯要低得多。

維度 2、3 受限于效率。o1 和 o3 在測試時(shí)都顯示了隨著推理計(jì)算量的增加，在 ARC-AGI-1 上的基準(zhǔn)準(zhǔn)確率呈對數(shù)增長，而不同的計(jì)算資源分配策略會影響達(dá)到同樣性能水平所需要的具體計(jì)算量。

在該團(tuán)隊(duì)看來，DeepSeek 最有趣的做法是單獨(dú)發(fā)布 R1-Zero。R1-Zero 是一個不使用 SFT（維度 1）的模型，而是完全依賴于強(qiáng)化學(xué)習(xí)。

R1-Zero 和 R1 在 ARC-AGI-1 上的得分高度一致，分別為 14% 和 15.8%。DeepSeek 自己報(bào)告的基準(zhǔn)測試分?jǐn)?shù)也顯示 R1-Zero 和 R1 高度一致，例如在 MATH AIME 2024 上的得分分別為 71% 和 76%（相比基礎(chǔ) DeepSeek V3 的約 40% 有所提升）。

在論文中，R1-Zero 的作者提到「DeepSeek-R1-Zero 面臨可讀性差、語言混雜等挑戰(zhàn)」，這一點(diǎn)已在網(wǎng)上得到證實(shí)。然而在測試中，ARC Prize 團(tuán)隊(duì)在測試 R1-Zero 在 ARC-AGI-1 上的表現(xiàn)時(shí)幾乎沒有發(fā)現(xiàn)不連貫的證據(jù)，這與系統(tǒng)經(jīng)過 RL 訓(xùn)練的數(shù)學(xué)和代碼領(lǐng)域相似。

綜合這些發(fā)現(xiàn)，ARC Prize 團(tuán)隊(duì)得出結(jié)論：

在那些能夠清晰判斷對錯的領(lǐng)域中，SFT（如人類專家標(biāo)注）對于準(zhǔn)確和易讀的 CoT 推理并非必需。
R1-Zero 訓(xùn)練過程能夠通過 RL 優(yōu)化在 token 空間中創(chuàng)建自己的內(nèi)部領(lǐng)域特定語言（DSL）。
SFT 是提高 CoT 推理領(lǐng)域泛化性的必要條件。

這很符合直覺，因?yàn)檎Z言本身實(shí)際上就是一個推理 DSL。完全相同的「詞語」可以在一個領(lǐng)域中學(xué)習(xí)并應(yīng)用到另一個領(lǐng)域，就像程序一樣。純 RL 方法還不能發(fā)現(xiàn)廣泛共享的詞匯表，預(yù)計(jì)這將成為未來研究的重點(diǎn)。

最終，R1-Zero 展示了一個潛在 scaling 機(jī)制的原型，該機(jī)制完全沒有人類瓶頸 —— 甚至在訓(xùn)練數(shù)據(jù)獲取本身也是如此。

幾乎可以肯定的是，DeepSeek 已將目標(biāo)對準(zhǔn)了 OpenAI 的 o3 系統(tǒng)。重要的是要關(guān)注 SFT 是否最終會成為添加 CoT 搜索和采樣的必要條件，或者假設(shè)的「R2-Zero」是否可能沿著相同的對數(shù)準(zhǔn)確率與推理 scaling 曲線存在?；?R1-Zero 的結(jié)果，ARC Prize 團(tuán)隊(duì)認(rèn)為在這個假設(shè)的 scaled up 版本中，要在 ARC-AGI-1 上挑戰(zhàn)成功并不需要 SFT。

燒錢換信任：AI 可靠性被標(biāo)價(jià)

從經(jīng)濟(jì)角度來看，AI 領(lǐng)域正在發(fā)生兩個重大轉(zhuǎn)變：

現(xiàn)在可以花更多錢來獲得更高的準(zhǔn)確性和可靠性；
訓(xùn)練成本正在轉(zhuǎn)向推理成本。

這兩者都將推動對推理的大量需求，而且都不會抑制對更多計(jì)算能力的需求。實(shí)際上，它們將增加對計(jì)算能力的需求。

AI 推理系統(tǒng)帶來的價(jià)值遠(yuǎn)不止提高基準(zhǔn)測試的分?jǐn)?shù)那么簡單。阻礙更多 AI 自動化使用（例如推理需求）的首要問題是可靠性。ARC Prize 團(tuán)隊(duì)與數(shù)百位試圖在業(yè)務(wù)中部署 AI 智能體的 Zapier 客戶交談，反饋高度一致：「我還不信任它們，因?yàn)樗鼈児ぷ鞑豢煽俊埂?/span>

此前 ARC Prize 團(tuán)隊(duì)認(rèn)為，模型在 ARC-AGI 方面的進(jìn)展將提高可靠性。LLM 智能體的挑戰(zhàn)在于它們需要強(qiáng)大的本地領(lǐng)域引導(dǎo)才能可靠工作。更強(qiáng)的泛化能力需要適應(yīng)未見情況的能力?，F(xiàn)在有證據(jù)表明 ARC Prize 團(tuán)隊(duì)的觀點(diǎn)是正確的。因此，多家公司（Anthropic、OpenAI、Apple 等）現(xiàn)在推出智能體也就不足為奇了。

出于可靠性需求，智能體將推動近期推理需求的顯著增長。更廣泛地說，開發(fā)者可以選擇花費(fèi)更多計(jì)算來增加用戶對系統(tǒng)的信任。提高可靠性并不代表能做到百分百正確，但至少能保證即使犯錯，也是以一種可預(yù)期的方式犯錯。這沒有問題，因?yàn)楫?dāng)準(zhǔn)確率低時(shí)，用戶和開發(fā)者現(xiàn)在可以通過提示更自信地引導(dǎo)行為。

以前計(jì)算機(jī)無法解決的問題現(xiàn)在都有了對應(yīng)的價(jià)格標(biāo)簽。隨著效率的提高，這些價(jià)格會降低。

推理即訓(xùn)練：推理將成 AI 模型的「數(shù)據(jù)永動機(jī)」？

另一個正在發(fā)生的重大轉(zhuǎn)變是進(jìn)入 LLM 系統(tǒng)預(yù)訓(xùn)練的數(shù)據(jù)來源。此前，大多數(shù)數(shù)據(jù)要么是購買的，要么是抓取的，要么是從現(xiàn)有 LLM 合成生成的（例如蒸餾或增強(qiáng)）。

這些推理系統(tǒng)提供了一個新選擇，即生成「真實(shí)」數(shù)據(jù)而不是「合成」數(shù)據(jù)。AI 行業(yè)使用「合成」一詞來指代通常通過 LLM 循環(huán)來增加整體訓(xùn)練數(shù)據(jù)量的低質(zhì)量數(shù)據(jù)，但收益遞減。

但現(xiàn)在，通過推理系統(tǒng)和驗(yàn)證器，我們可以創(chuàng)造全新的、有價(jià)值的訓(xùn)練數(shù)據(jù)。這種數(shù)據(jù)的產(chǎn)生有兩種方式：要么是開發(fā)者提前付費(fèi)生成，要么是在用戶實(shí)際使用系統(tǒng)時(shí)由用戶付費(fèi)生成！

這是一個引人深思的經(jīng)濟(jì)模式轉(zhuǎn)變，暗示著擁有最多付費(fèi)用戶的 AI 系統(tǒng)開發(fā)商可能會擁有一個實(shí)力快速積累的關(guān)鍵時(shí)刻。這些付費(fèi)用戶實(shí)際上在為創(chuàng)造新的高質(zhì)量數(shù)據(jù)買單..…… 這些數(shù)據(jù)又會讓模型變得更好..…… 更好的模型會吸引更多用戶青睞..…… 如此形成良性循環(huán)。

如果能夠突破人類專家 CoT 障礙，創(chuàng)建一個極其高效的系統(tǒng)，通過搜索 / 合成和驗(yàn)證來創(chuàng)建新數(shù)據(jù)，那么應(yīng)該預(yù)期會有大量計(jì)算投入這些推理系統(tǒng)，因?yàn)樗鼈儗?shí)際上只需要輸入資金和原始數(shù)據(jù)就能變得更好。最終，這種類型的 AI 訓(xùn)練將完全超越在人類生成數(shù)據(jù)上進(jìn)行的預(yù)訓(xùn)練。

結(jié)論：DeepSeek 推動了科學(xué)的前沿

隨著推理需求增加變得明顯，市場調(diào)整將繼續(xù)發(fā)生。AI 系統(tǒng)效率只會推動更多使用，這不僅是由于杰文斯悖論，還因?yàn)樾侍岣邥r(shí)新的訓(xùn)練機(jī)制被解鎖（注：杰文斯悖論指的是：當(dāng)技術(shù)進(jìn)步提高了資源使用效率時(shí)，反而可能導(dǎo)致該資源的總消耗量增加，而不是減少）。

隨著 R1 的開源和可復(fù)現(xiàn)，更多人和團(tuán)隊(duì)將把 CoT 和搜索推向極限。這將更快地告訴我們前沿實(shí)際在哪里，并將推動一波創(chuàng)新浪潮，增加快速實(shí)現(xiàn) AGI 的機(jī)會。

已經(jīng)有多人告訴 ARC Prize 團(tuán)隊(duì)，他們計(jì)劃在 ARC Prize 2025 中使用 R1 風(fēng)格的系統(tǒng)。

R1 的開源對世界來說是一件好事。DeepSeek 推動了科學(xué)的前沿。

原文鏈接：https:///blog/r1-zero-r1-results-analysis

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：我思故我在hyp > 《醫(yī)治和健康》

舉報(bào)/認(rèn)領(lǐng)