![]() 近年來,端到端(End-to-End,E2E)自動駕駛技術(shù)不斷進步,但在復(fù)雜的閉環(huán)交互環(huán)境中,由于其因果推理能力有限,仍然難以做出準確決策。雖然視覺 - 語言大模型(Vision-Language Model,VLM)憑借其卓越的理解和推理能力,為端到端自動駕駛帶來了新的希望,但現(xiàn)有方法在 VLM 的語義推理空間和純數(shù)值軌跡的行動空間之間仍然存在巨大鴻溝。 除此之外,現(xiàn)有的方法常常通過疊加多幀的圖像信息完成時序建模,這會受到 VLM 的 Token 長度限制,并且會增加額外的計算開銷。 為了解決上述問題,本文提出了 ORION,這是一個通過視覺語言指令指導(dǎo)軌跡生成的端到端自動駕駛框架。ORION 巧妙地引入了 QT-Former 用于聚合長期歷史上下文信息,VLM 用于駕駛場景理解和推理,并啟發(fā)式地利用生成模型對齊了推理空間與動作空間,實現(xiàn)了視覺問答(VQA)和規(guī)劃任務(wù)的統(tǒng)一端到端優(yōu)化。 ![]() 圖 1:不同的端到端自動駕駛范式的對比 ORION 在具有挑戰(zhàn)性的閉環(huán)評測 Bench2Drive 數(shù)據(jù)集上實現(xiàn)了優(yōu)秀的性能,駕駛得分為 77.74 分,成功率為 54.62%,相比之前的 SOTA 方法分別高出 14.28分和 19.61% 的成功率。 此外,ORION 的代碼、模型和數(shù)據(jù)集將很快開源。 ![]()
我們來看一下 ORION 框架下的閉環(huán)駕駛能力: ORION 檢測到騎自行車的人并向左變道避免了碰撞。 ![]() ORION 檢測到右前方的車輛,先執(zhí)行減速,然后再改變車道。 ![]() ORION 識別停車標志并停車,等待一段時間,然后重新啟動成功通過十字路口。 ![]() 主要貢獻 本文提出了一個簡單且有效的端到端自動駕駛框架 ORION,主要包含如下幾方面的貢獻:
研究動機 經(jīng)典的 E2E 自動駕駛方法通過多任務(wù)學(xué)習(xí)整合感知、預(yù)測和規(guī)劃模塊,在開環(huán)評估中表現(xiàn)出優(yōu)秀的能力。然而,在需要自主決策和動態(tài)環(huán)境交互的閉環(huán)基準測試中,由于缺少因果推理能力,這些方法往往表現(xiàn)不佳。 近年來,VLM 憑借其強大的理解和推理能力,為 E2E 自動駕駛帶來了新的解決思路。但直接使用 VLM 進行端到端自動駕駛也面臨諸多挑戰(zhàn),例如,VLM 的能力主要集中在語義推理空間,而 E2E 方法的輸出是動作空間中的數(shù)值規(guī)劃結(jié)果。 一些方法嘗試直接用 VLM 輸出基于文本的規(guī)劃結(jié)果,但 VLM 在處理數(shù)學(xué)計算和數(shù)值推理方面存在不足,且其自回歸機制導(dǎo)致只能推斷單一結(jié)果,無法適應(yīng)復(fù)雜場景。還有些方法通過設(shè)計接口,利用 VLM 輔助經(jīng)典 E2E 方法,但這種方式解耦了 VLM 的推理空間和輸出軌跡的動作空間,阻礙了兩者的協(xié)同優(yōu)化。 除此之外,長期記憶對于端到端自動駕駛是必要的,因為歷史信息通常會影響當前場景中的軌跡規(guī)劃。現(xiàn)有使用 VLM 進行端到端自動駕駛的方法通常通過拼接多幀圖像來進行時間建模。但這會受到 VLM 的輸入 Token 的長度限制,并且會增加額外的計算開銷。 為了解決上述問題,本文提出了 ORION。ORION 的結(jié)構(gòu)包括 QT-Former、VLM 和生成模型。 ORION 通過 QT-Former 聚合長時間上下文信息,并巧妙地結(jié)合了生成模型和 VLM,有效對齊了推理空間和動作空間,實現(xiàn)了視覺問答(VQA)和規(guī)劃任務(wù)的統(tǒng)一端到端優(yōu)化。 方法概覽 具體來說,ORION 通過以下三大核心模塊,顯著提升了自動駕駛系統(tǒng)的決策能力: 1. QT-Former:長時序上下文聚合 ORION 引入了 QT-Former,通過引入歷史查詢和記憶庫,有效聚合長時視覺上下文信息,增強了模型對歷史場景的理解能力。相比現(xiàn)有方法,QT-Former 不僅減少了計算開銷,還能更好地捕捉靜態(tài)交通元素和動態(tài)物體的運動狀態(tài)。 2. VLM:場景推理與指令生成 ORION 利用 VLM 的強大推理能力,結(jié)合用戶指令、長時和當前的視覺信息,能夠?qū)︸{駛場景進行多維度分析,包括場景描述、關(guān)鍵物體行為分析、歷史信息回顧和動作推理,并且利用自回歸特性聚合整個場景信息以生成規(guī)劃 token,用來指導(dǎo)生成模型進行軌跡預(yù)測。 3. 生成模型:推理與動作空間對齊 ORION 通過生成模型,將 VLM 的推理空間與預(yù)測軌跡的動作空間對齊。生成模型使用變分自編碼器(VAE)或擴散模型,以規(guī)劃 token 作為條件去控制多模態(tài)軌跡的生成,確保模型在復(fù)雜場景中做出合理的駕駛決策。 ![]() 圖 2:ORION 整體架構(gòu)圖 實驗結(jié)果 本文在 Bench2Drive 數(shù)據(jù)集上進行閉環(huán)評估測試,如表 1 所示,ORION 取得了卓越的性能,其駕駛得分(DS)和成功率(SR)分別達到了 77.74 和 54.62%,相比現(xiàn)在的 SOTA 方法提升了 14.28 DS 和 19.61% SR,展現(xiàn)了 ORION 強大的駕駛能力。 ![]() 表 1:Bench2Drive 上閉環(huán)評估和開環(huán)評估的性能對比 此外,如表 2 所示,ORION 還在 Bench2Drive 的多能力評估中表現(xiàn)優(yōu)異,特別是在超車(71.11%)、緊急剎車(78.33%)和交通標志識別(69.15%)等場景中,ORION 的表現(xiàn)遠超其他方法。這得益于 ORION 通過 VLM 對駕駛場景的理解,能夠更好地捕捉駕駛場景之間的因果關(guān)系。 ![]() 表 2:Bench2Drive 上多能力評估測試對比 可解釋性結(jié)果 下圖展示了 ORION 在 Bench2Drive 的閉環(huán)評估場景中的可解釋性結(jié)果。ORION 可以理解場景中正確的因果關(guān)系,并做出準確的駕駛決策,然后根據(jù)推理信息指導(dǎo)規(guī)劃軌跡預(yù)測。 ![]() 圖 3:可解釋性結(jié)果圖 總結(jié) ORION 框架為端到端自動駕駛提供了一種全新的解決方案。ORION 通過生成模型實現(xiàn)語義與動作空間對齊,引入 QT-Former 模塊聚合長時序場景上下文信息,并聯(lián)合優(yōu)化視覺理解與路徑規(guī)劃任務(wù),在閉環(huán)仿真中取得了卓越的性能。 |
|
|