小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

長推理(Long Reasoning)成本太高?7大壓縮技術幫你省下一半Token!

 小張學AI 2025-05-20 發(fā)布于山東
  • · 大家好,我是 同學小張,日常分享AI知識和實戰(zhàn)案例

  • · 歡迎 點贊 + 關注 ??,持續(xù)學習,持續(xù)干貨輸出

  • · +v: jasper_8017 一起交流??,一起進步??,更有專業(yè)資料領取!



隨著大型語言模型(LLM)在復雜推理任務中的廣泛應用,長思維鏈(Long Chain-of-Thought, CoT)生成的推理成本問題日益凸顯。本文系統(tǒng)梳理了近期7篇針對長思維鏈壓縮的前沿研究工作,重點分析其核心方法、創(chuàng)新點及實驗結果,為降低推理成本提供技術參考。


1. LightThinker:動態(tài)壓縮中間推理步驟

論文鏈接: LightThinker: Thinking Step-by-Step Compression

https:///pdf/2502.15589

核心方法

  • · 動態(tài)壓縮機制: 在推理過程中插入特殊Token(如[c]表示壓縮內(nèi)容),通過注意力掩碼設計限制模型對歷史Token的依賴,逐步壓縮中間步驟。
  • · 依賴度指標(Dependency,Dep): 通過測量生成過程中對歷史 Token 的依賴程度來量化壓縮程度。

如下圖,(a)表示傳統(tǒng)思維鏈CoT的思考過程,有兩步思考。
(b)表示了 LightThinker 的思考過程:首先基于 Question + Thought1 生成壓縮 Token [C T1];然后基于 Question + [C T1] 生成思考過程 Thought2;之后進一步使用 Question + [C T1] + Thought2 生成壓縮 Token [C T2];最后,基于 Question + [C T1] + [C T2] 生成 Answer。

在這里插入圖片描述

實現(xiàn)階段

  • · 微調(diào)(Fine-tuning)

創(chuàng)新點

  • · 首次提出基于依賴度的動態(tài)壓縮策略,實現(xiàn)推理過程與壓縮操作的同步進行。
  • · 通過重構訓練數(shù)據(jù)(分割輸出并插入特殊Token),使模型學習壓縮能力。
在這里插入圖片描述

實驗結果

  • · 在Bespoke-Stratos-17k數(shù)據(jù)集上,峰值Token數(shù)降低50%,精度損失1-2%,但推理時間未顯著減少。
在這里插入圖片描述

2. TokenSkip:基于重要性的Token剪枝

論文鏈接: TokenSkip: Controllable Chain-of-Thought Compression in LLMs

https:///pdf/2502.12067

開源GitHub: https://github.com/hemingkx/TokenSkip

核心方法

  • · 重要性評估: 利用梯度或注意力分數(shù)計算每個Token對推理的貢獻度,按重要性排序后剪枝低價值Token。
  • · 可控壓縮: 通過指定壓縮率γ(如40%)實現(xiàn)Token數(shù)量的靈活控制。

如下圖:TokenSkip 一共可分為三個階段

  • · Token Pruning:根據(jù) Token 的重要性對 CoT 序列進行剪枝。首先計算每個 Token 的語義重要性,然后按重要性值降序排列,根據(jù)指定的壓縮比率 γ 確定閾值,保留重要性大于等于閾值的 Token。
  • · Training:使用剪枝后的 CoT 數(shù)據(jù)對目標 LLM 進行 SFT。在訓練數(shù)據(jù)中,每個樣本包含問題、壓縮后的 CoT 和答案。
  • · Inference:給定問題和壓縮比率 γ,模型按照訓練時的格式進行 Inference,自回歸地生成輸出序列,包括 CoT Token 和答案。
在這里插入圖片描述

實現(xiàn)階段

  • · 監(jiān)督微調(diào)(SFT)

創(chuàng)新點

  • · 提出Token級剪枝框架,首次將可控壓縮率引入推理過程。
  • · 基于剪枝數(shù)據(jù)微調(diào)模型,平衡壓縮率與精度損失。

TokenSkip實際執(zhí)行結果示例(直觀上感覺是將一些Token刪掉了,其實里面最重要的是判斷Token的語義重要性):

在這里插入圖片描述

實驗結果

  • · 在GSM8K數(shù)學推理任務中,Token數(shù)減少40%,精度損失低于0.4%,但加速效果有限(僅1.2倍)。
在這里插入圖片描述

3. TALE框架:動態(tài)Token預算分配

論文鏈接: Token-Budget-Aware LLM Reasoning

https:///pdf/2412.18547

核心方法

(1)Token預算估計: 通過零樣本提示(TALE-EP)或后訓練(TALE-PT)動態(tài)分配Token預算,適配不同任務復雜度。

  • · TALE-EP(Estimation & Prompting):通過 0-shot prompting 方式估計合理的 Token Budget,并將其納入 Prompt 中,從而生成更高效的 Reasoning 過程。
在這里插入圖片描述
在這里插入圖片描述
  • · TALE-PT(Post-Training):通過 Post-training 將 Token Budget 內(nèi)化到 LLM 中,使其在沒有顯式 Token 約束的情況下生成更高效的響應。
在這里插入圖片描述

(2)預算內(nèi)化: 將Token約束融入模型參數(shù),減少顯式提示依賴。

實現(xiàn)階段

  • · 雙模式支持:
    • · TALE-EP: Prompt工程(無需訓練)
    • · TALE-PT: 后訓練微調(diào)

創(chuàng)新點

  • · 首次提出“Token預算”概念,為推理效率提供量化指標。
  • · 結合Prompt工程與模型微調(diào),實現(xiàn)預算分配的動態(tài)適配。

實驗結果

  • · TALE-PT-SFT在數(shù)學任務中減少30% Token,精度提升1-3%;TALE-EP減少20% Token,精度損失約2%。
在這里插入圖片描述

4. Chain of Draft:強制簡潔推理

論文鏈接: Chain of Draft: Thinking Faster by Writing Less

https:///pdf/2502.18600


開源GitHub: https://github.com/sileix/chain-of-draft

核心方法

  • · 長度約束: 限制每個推理步驟的輸出長度(如≤5個單詞),避免冗余描述。
  • · 示例引導: 在Prompt中提供簡潔推理示例,引導模型生成緊湊中間步驟。
在這里插入圖片描述

實現(xiàn)階段

  • · 純Prompt工程

創(chuàng)新點

  • · 通過硬性約束迫使模型聚焦關鍵推理節(jié)點,顯著減少Token數(shù)量。
  • · 提出“草稿-修正”兩階段生成框架,兼顧效率與準確性。

實驗結果

  • · Token數(shù)減少92.4%,但零樣本場景精度下降顯著(GSM8K從77%降至58%)。

5. InftyThink:迭代式分段推理

論文鏈接: InftyThink: Breaking the Length Limits

https:///pdf/2503.06692

核心方法

  • · 分段迭代: 將長推理分解為多個短推理片段,每段后插入中間總結。
在這里插入圖片描述
  • · 周期性總結: 通過“鋸齒形”內(nèi)存模式降低計算復雜度。
在這里插入圖片描述

實現(xiàn)階段

  • · 迭代式微調(diào)

創(chuàng)新點

  • · 突破單次長推理的上下文限制,支持超長序列處理。
  • · 重構訓練數(shù)據(jù)(如OpenR1-Math-Inf),適配迭代推理范式。

實驗結果

  • · MATH500任務精度提升3-13%,但總Token數(shù)增加,未評估實際加速效果。
在這里插入圖片描述

6. Sketch-of-Thought:思維草圖,認知啟發(fā)式推理

論文鏈接: Sketch-of-Thought: Efficient LLM Reasoning

https:///pdf/2503.05179

核心方法

  • · 符號化壓縮: 借鑒人類專家使用的符號、縮寫(如#Seoul → #South Korea → Won)和領域特定的術語,生成緊湊推理鏈。
  • · 范式路由: 基于輕量級路由模型(DistilBERT)動態(tài)選擇最優(yōu)推理范式(概念鏈、分塊符號、專家詞典)。
在這里插入圖片描述

實現(xiàn)階段

  • · 聯(lián)合訓練

部署方案

  • · 路由模型部署:DistilBERT實例(2GB內(nèi)存)
  • · 范式數(shù)據(jù)庫:維護領域符號詞典(如醫(yī)學SNOMED CT)

創(chuàng)新點

  • · 提出三類認知啟發(fā)范式:概念鏈、分塊符號、專家詞典。

(1)概念鏈(Conceptual Chaining):利用聯(lián)想記憶網(wǎng)絡連接關鍵概念,以極簡的文字表達 Reasoning 過程。例如,回答“首爾使用的貨幣是什么?”時,SoT 的 Reasoning 過程為:#Seoul → #South Korea → Won。

在這里插入圖片描述

(2)分塊符號主義(Chunked Symbolism):基于工作記憶分塊理論,將數(shù)學 Reasoning 組織成緊湊的符號表示。例如,計算“一輛汽車以 2.5 m/s2 的加速度加速 10 秒,初始速度為 15 m/s,求最終速度?”時,SoT 的 Reasoning 過程為:a = 2.5 m/s2, t = 10 s, vi = 15 m/s → vf = 15 + (2.5 × 10) → vf = 40 m/s。

在這里插入圖片描述

(3)專家詞典(Expert Lexicons):模仿專家使用的領域特定的縮寫和符號,以高效表達復雜信息。例如,回答“STEMI 患者接受 MONA 治療,但對阿司匹林過敏,這種治療是否安全?”時,SoT 的 Reasoning 過程為:STEMI → ST-Elevation MI, MONA → Morphine, O2, Nitrates, Aspirin → Aspirin ∈ MONA。

在這里插入圖片描述
  • · 實現(xiàn)Token減少76%的同時,數(shù)學任務精度不降反升。

實驗結果

  • · 在15個多語言/多模態(tài)數(shù)據(jù)集上,平均精度損失<1%,數(shù)學推理精度提升2-5%。
在這里插入圖片描述

7. Meta-RFT:元強化學習優(yōu)化

論文鏈接: Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

https:///pdf/2503.07572

核心方法

  • · 元強化學習(Meta Reinforcement Learning,MRL) 優(yōu)化 LLM 在測試時的計算資源利用效率。
  • · 元強化微調(diào)(Meta Reinforcement Fine-Tuning, MRT) 方法,旨在優(yōu)化測試時計算。
  • · 密集獎勵函數(shù): 結合結果獎勵與“進展獎勵”(推理步驟的概率增量),優(yōu)化Token效率。
  • · 訓練框架: 基于STaR(自訓練)或在線RL(如PPO)實現(xiàn)元強化微調(diào)。

論文中提出了兩種實現(xiàn) MRT 的方法:

  • · 基于 STaR(Self-Training with Rollouts)的 MRT:通過采樣模型的輸出,篩選出那些既符合進展獎勵又最終成功的軌跡,然后進行監(jiān)督學習。
  • · 基于 RL 的 MRT:直接在訓練過程中優(yōu)化包含進展獎勵的目標函數(shù),使用在線強化學習方法(如 PPO 或 GRPO)進行更新。
在這里插入圖片描述

實現(xiàn)階段

  • · 強化學習微調(diào)

創(chuàng)新點

  • · 首次將元強化學習引入推理效率優(yōu)化,實現(xiàn)Token消耗與精度的均衡。
  • · 定義“進展”量化指標,為密集獎勵提供理論基礎。

實驗結果

  • · Qwen-1.5B模型在相同精度下Token減少50%,8B模型推理加速1.5倍。
在這里插入圖片描述

8. 對比

技術對比與挑戰(zhàn)

方法
核心思路
優(yōu)勢
局限性
LightThinker
動態(tài)壓縮中間步驟
峰值Token顯著降低
推理時間未優(yōu)化
TokenSkip
重要性剪枝
可控壓縮率
加速效果有限
TALE-PT
動態(tài)Token預算
精度提升
依賴后訓練數(shù)據(jù)
Chain of Draft
強制簡潔推理
Token壓縮率極高
零樣本場景精度損失大
InftyThink
分段迭代推理
支持超長序列
總Token數(shù)增加
Sketch-of-Thought
符號化推理
精度無損甚至提升
依賴領域知識
Meta-RFT
元強化學習優(yōu)化
均衡效率與精度
訓練復雜度高

成本對比

方法
是否需要訓練
計算成本
部署難度
LightThinker
高(微調(diào))
TokenSkip
中(微調(diào))
TALE-EP
低(Prompt)
Chain of Draft
低(Prompt)
Sketch-of-Thought
高(聯(lián)合訓練)
Meta-RFT
高(RL訓練)
極高

如果覺得本文對你有幫助,麻煩點個贊和關注唄 ~~~


    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多