從"只會(huì)看路"到"情境感知":ICCV 2025自動(dòng)駕駛挑戰(zhàn)賽冠軍方案詳解
北京2025年11月19日 /美通社/ -- 近日,在全球權(quán)威的ICCV 2025自動(dòng)駕駛國(guó)際挑戰(zhàn)賽(Autonomous Grand Challenge)中,浪潮信息AI團(tuán)隊(duì)所提交的"SimpleVSF"(Simple VLM-Scoring Fusion)算法模型以53.06的出色成績(jī)斬獲端到端自動(dòng)駕駛賽道(NAVSIM v2 End-to-End Driving Challenge)第一名。
SimpleVSF深度融合了傳統(tǒng)軌跡規(guī)劃與視覺(jué)-語(yǔ)言模型(Vision-Language Model, VLM)的高級(jí)認(rèn)知能力,能夠理解復(fù)雜的交通情境,突破了現(xiàn)有端到端自動(dòng)駕駛模型"只會(huì)看路、缺乏思考"的局限。這得益于兩大關(guān)鍵創(chuàng)新:一方面,引入VLM增強(qiáng)打分器,使打分器不再僅僅依賴于原始的傳感器數(shù)據(jù),而是能夠理解深層的交通意圖和"常識(shí)",從而選出更安全、更合理的駕駛方案;另一方面,采用雙重軌跡融合決策機(jī)制(權(quán)重融合器和VLM融合器),進(jìn)一步融合多個(gè)打分器選出的軌跡,確保最終決策不僅數(shù)值最優(yōu),而且語(yǔ)義合理。
本篇文章將根據(jù)浪潮信息提交的技術(shù)報(bào)告"SimpleVSF: VLM-Scoring Fusion for Trajectory Prediction of End-to-End Autonomous Driving",詳解其使用的創(chuàng)新架構(gòu)、優(yōu)化措施和實(shí)驗(yàn)結(jié)果。
一、背景與挑戰(zhàn)
近年來(lái),自動(dòng)駕駛技術(shù)飛速發(fā)展,正從傳統(tǒng)的模塊化流程(Modular Pipeline)逐步邁向更高效、更具魯棒性的端到端(End-to-End)范式。傳統(tǒng)的模塊化系統(tǒng)(感知、定位、規(guī)劃、控制)容易在各模塊間積累誤差,且面對(duì)復(fù)雜場(chǎng)景時(shí),信息的層層傳遞往往導(dǎo)致決策滯后或次優(yōu)。端到端方法旨在通過(guò)神經(jīng)網(wǎng)絡(luò)直接從傳感器輸入生成駕駛動(dòng)作或軌跡,實(shí)現(xiàn)信息流的統(tǒng)一與優(yōu)化。然而,要真正讓機(jī)器像人類一樣在復(fù)雜環(huán)境中做出"聰明"的決策,仍面臨巨大的技術(shù)挑戰(zhàn)。
NAVSIM框架旨在通過(guò)模擬基礎(chǔ)的指標(biāo)來(lái)解決現(xiàn)有問(wèn)題,具體方法是展開(kāi)場(chǎng)景簡(jiǎn)化的鳥(niǎo)瞰圖(Bird s-Eye View, BEV)抽象,并在一個(gè)較短的模擬時(shí)間范圍內(nèi)推演出行車軌跡。為了超越僅在人類數(shù)據(jù)采集中觀察到的狀態(tài)下評(píng)估駕駛系統(tǒng), NAVSIM v2 挑戰(zhàn)賽引入了反應(yīng)式背景交通參與者和真實(shí)的合成新視角輸入,以便更好地評(píng)估模型的魯棒性和泛化能力。
目前針對(duì)該類任務(wù)的主流方案大致可分為三類。第一類是基于Transformer自回歸的方案,通過(guò)路徑點(diǎn)的逐一預(yù)測(cè)得到預(yù)測(cè)軌跡,代表工作是Transfuser[1]。第二類是基于Diffusion的方案,通過(guò)在去噪時(shí)引入各種控制約束得到預(yù)測(cè)軌跡,代表工作是DiffusionDrive[2]。第三類是基于Scorer的方案,通過(guò)對(duì)一個(gè)預(yù)定義的軌跡詞表進(jìn)行打分篩選得到預(yù)測(cè)軌跡,代表工作是GTRS[3]。
二、方法介紹
浪潮信息AI團(tuán)隊(duì)提出了SimpleVSF框架,其核心創(chuàng)新在于引入了視覺(jué)-語(yǔ)言模型(VLM)作為高層認(rèn)知引擎,并設(shè)計(jì)了雙重融合策略,將VLM的語(yǔ)義理解能力高效地注入到軌跡評(píng)分與選擇的全流程中。
SimpleVSF框架可以分為三個(gè)相互協(xié)作的模塊:
基礎(chǔ):基于擴(kuò)散模型的軌跡候選生成
框架的第一步是高效地生成一套多樣化、高質(zhì)量的候選軌跡集合。
- 技術(shù)選型:采用擴(kuò)散模型(Diffusion-based Trajectory Generator)。
- 作用:擴(kuò)散模型基于自車狀態(tài)和環(huán)境的鳥(niǎo)瞰圖(BEV)表示進(jìn)行條件生成。其優(yōu)勢(shì)在于能夠捕捉軌跡分布的多模態(tài)性,生成一系列在運(yùn)動(dòng)學(xué)上可行且具有差異性的錨點(diǎn)(Anchors),為后續(xù)的精確評(píng)估提供充足的"備選方案"。
核心:VLM 增強(qiáng)的混合評(píng)分機(jī)制(VLM-Enhanced Scoring)
SimpleVSF采用了混合評(píng)分策略,它搭建了高層語(yǔ)義與低層幾何之間的橋梁。其工作原理如下:
A.語(yǔ)義輸入:利用一個(gè)經(jīng)過(guò)微調(diào)的VLM(Qwen2VL-2B[4])作為語(yǔ)義處理器。VLM 接收以下三種信息:
(i)前視攝像頭圖像:提供場(chǎng)景的視覺(jué)細(xì)節(jié)。
(ii)自車狀態(tài):實(shí)時(shí)速度、加速度等物理量。
(iii)高層駕駛指令: 規(guī)劃系統(tǒng)輸入的抽象指令,如"左轉(zhuǎn)"、"向前行駛"等。
B.輸出認(rèn)知指令:VLM根據(jù)這些輸入,輸出認(rèn)知指令(Cognitive Directives)。這些指令是高層的、類似于人類思考的抽象概念,例如:
縱向指令:"保持速度"、"加速"、"緩慢減速"、"停車"
橫向指令:"保持車道中心"、"微調(diào)向左"、"大角度右轉(zhuǎn)"
C.可學(xué)習(xí)的特征融合:這些抽象的語(yǔ)言/指令(如"停車")首先通過(guò)一個(gè)可學(xué)習(xí)的編碼層(Cognitive Directives Encoder),被巧妙地轉(zhuǎn)換為密集的數(shù)值特征。這個(gè)VLM特征隨后與自車狀態(tài)和傳統(tǒng)感知輸入拼接(Concatenated),共同作為軌跡評(píng)分器解碼的輸入。通過(guò)這種顯式融合,VLM的高層語(yǔ)義理解不再是模型隱含的特性,而是直接參與到軌跡的數(shù)值代價(jià)計(jì)算中。
保障:雙重軌跡融合策略(Trajectory Fusion)
為了實(shí)現(xiàn)魯棒、平衡的最終決策,SimpleVSF 采用了兩種融合機(jī)制來(lái)保障最終輸出軌跡的質(zhì)量。
A.量化融合:權(quán)重融合器(Weight Fusioner, WF)
- 機(jī)制: 這是一個(gè)基于定量嚴(yán)謹(jǐn)性的主機(jī)制。它負(fù)責(zé)將來(lái)自多個(gè)評(píng)分器和多個(gè)模型(包括VLM增強(qiáng)評(píng)分器和傳統(tǒng)評(píng)分器)的得分進(jìn)行高效聚合。
- 融合流程:
(i)指標(biāo)聚合:將單個(gè)軌跡在不同維度(如碰撞風(fēng)險(xiǎn)、舒適度、效率)上的得分進(jìn)行初次聚合。
(ii)模型聚合:采用動(dòng)態(tài)加權(quán)方案,根據(jù)當(dāng)前場(chǎng)景的重要性,動(dòng)態(tài)地調(diào)整來(lái)自不同模型(如多個(gè)VLM增強(qiáng)評(píng)分器)的聚合得分的權(quán)重。
- 作用: 確保了在大多數(shù)常規(guī)場(chǎng)景下,最終的決策是基于多方輸入、統(tǒng)計(jì)學(xué)上最可靠的選擇。
B. 質(zhì)性融合:VLM融合器(VLM Fusioner, VLMF)
- 機(jī)制:旨在通過(guò)VLM的定性推理能力進(jìn)行最終的語(yǔ)義精煉。
- 融合流程:
(i)軌跡精選:從每一個(gè)獨(dú)立評(píng)分器中,選出排名最高的軌跡。
(ii)LQR 模擬與渲染:這些精選軌跡通過(guò) LQR 模擬器進(jìn)行平滑處理,確保運(yùn)動(dòng)學(xué)可行性。然后,它們被可視化并渲染到當(dāng)前的前視攝像頭圖像上,形成一個(gè)包含"潛在行動(dòng)方案"的視覺(jué)信息圖。
(iii)將包含渲染軌跡的圖像以及文本指令提交給一個(gè)更大、能力更強(qiáng)的 VLM 模型(Qwen2.5VL-72B[5]),并明確要求 VLM 根據(jù)場(chǎng)景和指令,定性選擇出"最合理"的軌跡。
- 作用: 賦予了系統(tǒng)一道語(yǔ)義校驗(yàn)關(guān)卡,確保最終決策不僅數(shù)值最優(yōu),更在高層認(rèn)知和常識(shí)上合理。
三、實(shí)驗(yàn)結(jié)果
為驗(yàn)證優(yōu)化措施的有效性,浪潮信息AI團(tuán)隊(duì)在Navhard數(shù)據(jù)子集上進(jìn)行了消融實(shí)驗(yàn),結(jié)果如下表所示。以Version A作為基線(baseline)。
在不同特征提取網(wǎng)絡(luò)的影響方面,浪潮信息AI團(tuán)隊(duì)使用了三種不同的Backbones,即V2-99[6]、EVA-ViT-L[7]、ViT-L[8],分別對(duì)應(yīng)Version A、Version B、Version C。結(jié)果表明,Backbones的選擇對(duì)性能起著重要作用。ViT-L明顯優(yōu)于其他Backbones。
在VLM增強(qiáng)評(píng)分器的有效性方面,Version D和Version E集成了VLM增強(qiáng)評(píng)分器,Version D優(yōu)于對(duì)應(yīng)的相同backbone的傳統(tǒng)評(píng)分器Version A,證明了語(yǔ)義指導(dǎo)的價(jià)值。雖然Version E的個(gè)體性能與對(duì)應(yīng)的相同backbone的傳統(tǒng)評(píng)分器Version C相比略低,但VLM增強(qiáng)評(píng)分器的真正優(yōu)勢(shì)在于它們的融合潛力。
在軌跡融合策略的性能方面,通過(guò)融合策略,浪潮信息AI團(tuán)隊(duì)觀察到了最顯著的性能提升。WF B+C+D+E在Navhard數(shù)據(jù)集上取得了47.18的EPDMS得分。最終,浪潮信息AI團(tuán)隊(duì)在Private_test_hard分割數(shù)據(jù)集上也使用了這四個(gè)評(píng)分器的融合結(jié)果。VLMF A+B+C也取得了令人印象深刻的 EPDMS 47.68,但由于提交規(guī)則限制,未在最終的排行榜提交中使用此融合策略。
在最終榜單的Private_test_hard分割數(shù)據(jù)集上,浪潮信息AI團(tuán)隊(duì)提出的SimpleVSF框架在排行榜上獲得了第一名,取得了53.06的總EPDMS分?jǐn)?shù)。對(duì)于Stage I,它在TLC(交通燈合規(guī)性)上獲得了100分,在DAC(可駕駛區(qū)域合規(guī)性)和 DDC(駕駛方向合規(guī)性)上獲得了99.29分,這展示了模型的魯棒性及其對(duì)關(guān)鍵交通規(guī)則的遵守能力。對(duì)于Stage I和Stage II,浪潮信息AI團(tuán)隊(duì)的NC(無(wú)過(guò)失碰撞)分?jǐn)?shù)在所有參賽團(tuán)隊(duì)中處于領(lǐng)先地位。雖然其他方法可能在某些方面表現(xiàn)出色,但浪潮信息AI團(tuán)隊(duì)的SimpleVSF在指標(biāo)上實(shí)現(xiàn)了綜合平衡。
四、總結(jié)
本文介紹了獲得端到端自動(dòng)駕駛賽道第一名的"SimpleVSF"算法模型。SimpleVSF框架成功地將視覺(jué)-語(yǔ)言模型從純粹的文本/圖像生成任務(wù)中引入到自動(dòng)駕駛的核心決策循環(huán),完成了從"感知-行動(dòng)"到"感知-認(rèn)知-行動(dòng)"的升維。
[1] Chitta, K.; Prakash, A.; Jaeger, B.; Yu, Z.; Renz, K.; Geiger, A., Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. IEEE transactions on pattern analysis and machine intelligence 2022, 45 , 12878-12895. |
[2] Liao, B.; Chen, S.; Yin, H.; Jiang, B.; Wang, C.; Yan, S.; Zhang, X.; Li, X.; Zhang, Y.; Zhang, Q. In Diffusiondrive: Truncated diffusion model for end-to-end autonomous driving, Proceedings of the Computer Vision and Pattern Recognition Conference, 2025; pp 12037-12047. |
[3] Li, Z.; Yao, W.; Wang, Z.; Sun, X.; Chen, J.; Chang, N.; Shen, M.; Wu, Z.; Lan, S.; Alvarez, J. M., Generalized Trajectory Scoring for End-to-end Multimodal Planning. arXiv preprint arXiv:2506.06664 2025. |
[4] Wang, P.; Bai, S.; Tan, S.; Wang, S.; Fan, Z.; Bai, J.; Chen, K.; Liu, X.; Wang, J.; Ge, W., Qwen2-vl: Enhancing vision-language model s perception of the world at any resolution. arXiv preprint arXiv:2409.12191 2024. |
[5] Bai, S.; Chen, K.; Liu, X.; Wang, J.; Ge, W.; Song, S.; Dang, K.; Wang, P.; Wang, S.; Tang, J., Qwen2. 5-vl technical report. arXiv preprint arXiv:2502.13923 2025. |
[6] Lee, Y.; Hwang, J.-w.; Lee, S.; Bae, Y.; Park, J. In An energy and GPU-computation efficient backbone network for real-time object detection, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2019; pp 0-0. |
[7] Fang, Y.; Sun, Q.; Wang, X.; Huang, T.; Wang, X.; Cao, Y., Eva-02: A visual representation for neon genesis. Image and Vision Computing 2024, 149, 105171. |
[8] Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; Weissenborn, D.; Zhai, X.; Unterthiner, T.; Dehghani, M.; Minderer, M.; Heigold, G.; Gelly, S., An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 2020. |
【免責(zé)聲明】本文僅代表作者個(gè)人觀點(diǎn),與云財(cái)經(jīng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),云財(cái)經(jīng)對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
| 新聞標(biāo)題 | 時(shí)間 | 消息來(lái)源 | 新聞熱度 |
|---|---|---|---|
| 存儲(chǔ)芯片漲價(jià)潮沖擊下手機(jī)或要漲價(jià) 業(yè)內(nèi):中小廠商或?qū)⒊袎褐\變 | 11-19 21:29 | 云財(cái)經(jīng) |
|
| "灣"聚全球健康力?共創(chuàng)商貿(mào)新紀(jì)元 2025深圳國(guó)際健康與營(yíng)養(yǎng)保健品展12月啟幕 | 11-19 10:15 | 商業(yè)新聞 |
|
| 烏克蘭與法國(guó)簽署購(gòu)買100架“陣風(fēng)”戰(zhàn)斗機(jī)意向書(shū),克宮發(fā)聲 | 11-19 08:24 | 云財(cái)經(jīng) |
|
| 江蘇科技大學(xué)通報(bào)該校郭某學(xué)術(shù)造假事件 案件正在偵辦過(guò)程中 | 11-19 05:02 | 云財(cái)經(jīng) |
|
| 國(guó)產(chǎn)汽車芯片認(rèn)證審查技術(shù)體系實(shí)現(xiàn)突破 | 11-18 14:02 | 云財(cái)經(jīng) |
|
| 富邦科技:股東擬減持不超0.59%公司股份 | 11-17 21:36 | 云財(cái)經(jīng) |
|



