你的位置:首頁 > 互連技術(shù) > 正文

2026智能駕駛分水嶺:蔚來能否憑世界模型重回第一梯隊(duì)?

發(fā)布時間:2026-02-20 來源:轉(zhuǎn)載 責(zé)任編輯:lily

【導(dǎo)讀】自特斯拉FSD V12率先將端到端大模型引入量產(chǎn)車以來,"規(guī)則驅(qū)動"向"數(shù)據(jù)驅(qū)動"的范式轉(zhuǎn)移已成為行業(yè)共識——動作是否流暢、能否應(yīng)對長尾場景、決策是否擬人化,取代了傳統(tǒng)的功能清單,成為衡量智能駕駛體驗(yàn)的新標(biāo)尺。在這場由方法論革新引發(fā)的浪潮中,蔚來經(jīng)歷了從規(guī)則構(gòu)建到數(shù)據(jù)驅(qū)動的艱難轉(zhuǎn)身,如今又以"世界模型+閉環(huán)強(qiáng)化學(xué)習(xí)"的全新架構(gòu)重新出發(fā)。當(dāng)技術(shù)路線的迷霧逐漸散去,蔚來新版NOA能否憑借這套端到端強(qiáng)化學(xué)習(xí)體系,在復(fù)雜的中國城市場景中實(shí)現(xiàn)真正的"擬人化"突破,重回行業(yè)第一梯隊(duì)?


Part 1、蔚來的輔助駕駛的轉(zhuǎn)型

在中國智能駕駛的迭代中,特斯拉提出的端到端一個拐點(diǎn),在出現(xiàn)了這個技術(shù)變化之后,城市NOA中擬人化變成了非常重要的評價點(diǎn),規(guī)則味比較重,是落后的標(biāo)志。


體驗(yàn)上主要是動作機(jī)械、加減速轉(zhuǎn)向不流暢、卡頓,無法應(yīng)對各種Corner case, FSD V12、V13 V14 的一路發(fā)展,在方法論上特斯拉是一路牽引整個行業(yè)的發(fā)展。


在蔚來的第一代車型,是圍繞規(guī)則來構(gòu)建的輔助駕駛,確定變道距離、確定的加減速邏輯、確定的安全邊界。在中國復(fù)雜的城市場景復(fù)雜度下并不完善。


forward.jpg


從規(guī)則開始,蔚來花了很多時間來切換技術(shù)路線。轉(zhuǎn)向數(shù)據(jù)驅(qū)動過程中,用模型把規(guī)則“壓縮”進(jìn)參數(shù)里,讓系統(tǒng)通過學(xué)習(xí)大量真實(shí)駕駛數(shù)據(jù),自己學(xué)會如何變道、擇道。


數(shù)據(jù)驅(qū)動的問題是,同一個場景下,人類的行為并不一致。在道路上,人的習(xí)慣和交通流量都會影響決策,從結(jié)果來看,能看到不同的駕駛員在不同的位置換道,模型學(xué)到的是一種“折中選擇”,為了安全往往選擇保守跟隨,或者說要真正實(shí)現(xiàn)“高效、主動通行”,伴隨著不少的小事故。


為了平衡風(fēng)險,引入更強(qiáng)的地圖和路徑引導(dǎo)、采集專家駕駛數(shù)據(jù)并減少行為差異,或者加回一部分規(guī)則邏輯。這些都是中國在這段時間走過的路。


Part 2、蔚來新版的NOA

蔚來世界模型在2026年的目標(biāo)是回到行業(yè)的數(shù)一數(shù)二的位置。方法是對智能輔助駕駛?cè)邪l(fā)迭代方法進(jìn)行調(diào)整,引入世界模型 + 閉環(huán)強(qiáng)化學(xué)習(xí)的模式。


這也是以端到端系統(tǒng)為基礎(chǔ),核心分為三步:


基礎(chǔ)行為習(xí)得:通過學(xué)習(xí)海量人類駕駛行為,讓模型形成駕駛答題本,標(biāo)記各類場景下的行為概率,習(xí)得駕駛基本肌肉記憶;


環(huán)境深度理解:模型從當(dāng)前時刻出發(fā),預(yù)測自身下一步多種動作,并推演不同動作對周圍環(huán)境的影響,及環(huán)境變化對自身行為的反作用,實(shí)現(xiàn)長達(dá)數(shù)分鐘的長時序思考,這是核心運(yùn)行機(jī)制;


閉環(huán)強(qiáng)化校準(zhǔn):在虛擬「駕駛考場」中,通過數(shù)上億輪專業(yè)場景訓(xùn)練和評估反饋,讓模型精準(zhǔn)理解「好行為與差行為的區(qū)別」,基于駕駛常識和人類經(jīng)驗(yàn)校準(zhǔn)行為「答題本」,這一過程即為閉環(huán)強(qiáng)化學(xué)習(xí)。


這里要回答幾個關(guān)鍵問題,強(qiáng)化學(xué)習(xí)到底解決了什么問題?這是給結(jié)果打分,讓模型自己學(xué),模型輸出行為后,系統(tǒng)會根據(jù)結(jié)果給予正向或負(fù)向反饋,讓模型在反復(fù)嘗試中學(xué)會什么是“更優(yōu)解”,過程本身就是一種自我校正。


在實(shí)際訓(xùn)練中,通過獎勵評估機(jī)制直接給行為打分;利用真實(shí)人類行為反饋,反推出獎勵信號, 模型在其中會經(jīng)歷自監(jiān)督學(xué)習(xí),逐步形成穩(wěn)定的決策偏好。


舉例來說先構(gòu)建一個仿真環(huán)境,在其中設(shè)定一條“目標(biāo)線”,車輛如果順利完成左轉(zhuǎn)并線,就得到獎勵;完成得越快、越平順,獎勵越高。


在此基礎(chǔ)上,只保留少量必要的約束,比如壓實(shí)線會被扣分,但不再寫復(fù)雜規(guī)則。在哪個位置變道、如何跨越三條車道、怎樣兼顧效率與安全,全部交給模型在仿真環(huán)境中自行探索。


在這樣的基礎(chǔ)上不需要為每一個特殊路口單獨(dú)采集數(shù)據(jù)。只要仿真環(huán)境中構(gòu)建出“相似結(jié)構(gòu)”的場景,模型就能遷移能力,避免了為成百上千個復(fù)雜路口重復(fù)采數(shù)據(jù)的低效過程。目標(biāo)簡單、約束少,讓模型自己找路徑。


規(guī)則一旦極簡,反而更穩(wěn)定、更通用。


Part 3、實(shí)際的體驗(yàn)

在我們的實(shí)際體驗(yàn)中,換道策略、導(dǎo)航選道,在道路中的剎車控制都有很大的改善。


偏航和復(fù)雜路口,是需要“提前判斷”的場景,NOA的系統(tǒng)在快到路口才反應(yīng)一般感受會很差或者就錯了(要么壓實(shí)線要么錯了),需要在更早的階段就意識到,模型會提前接收到“未來懲罰”,從而主動調(diào)整決策。


實(shí)際上,在擬人化抉擇上,比如判斷安心感充足時果斷切入,不魯莽擠壓旁車;目標(biāo)車道擁堵時,緩慢前行并持續(xù)尋找變道空隙;通過蠕行尋找通行空隙,這些行為都是挺大的改善。


結(jié)論

蔚來的探索揭示了一個核心趨勢:智能駕駛的下半場競爭,本質(zhì)上是"學(xué)習(xí)效率"與"泛化能力"的較量。世界模型賦予系統(tǒng)長時序推演能力,讓車輛能夠"預(yù)見"而非"反應(yīng)";閉環(huán)強(qiáng)化學(xué)習(xí)則通過虛擬考場中的億級輪次訓(xùn)練,使模型在極少規(guī)則約束下自主尋優(yōu),實(shí)現(xiàn)從"學(xué)會開車"到"開好車"的躍遷。實(shí)際體驗(yàn)中換道策略的果斷、復(fù)雜路口的提前預(yù)判、擁堵場景下的蠕行尋隙,都是這一技術(shù)路線落地的直觀印證。



3-958x200_20251021044704_586_20260213110352_663_20260218181015_530.png

特別推薦
技術(shù)文章更多>>
技術(shù)白皮書下載更多>>
熱門搜索

關(guān)閉

?

關(guān)閉