客戶端下載

logo

當(dāng)前位置:首頁 > 資訊 > 資訊詳情

端到端不是終點,大模型才是結(jié)局

Myautotime | 10-22

11865

中國頭部智駕廠商小鵬汽車的掌門人何小鵬曾經(jīng)發(fā)表過一個觀點,端到端只能實現(xiàn)L3,端到端+大模型才能實現(xiàn)L4。這是嚴(yán)謹(jǐn)?shù)募夹g(shù)研判,還是拍腦袋的一家之言?

01

偷換概念,固然有利于產(chǎn)品的宣傳,卻有可能把大家的認(rèn)知搞得一團(tuán)糟。端到端成了自動駕駛行業(yè)最火的營銷熱詞,沒有之一。

大模型破圈效應(yīng)更大,GPT的逆天實力東一句、西一句地多次灌到普通消費者的耳朵里。

端到端大模型的概念被少數(shù)車企和智駕方案商宣傳了好長一段時間,在從業(yè)者群里逐漸變得耳熟能詳。

不過,當(dāng)前的自動駕駛系統(tǒng)能力確定無疑地處于L2++階段,既然端到端+大模型才能實現(xiàn)L4,“端到端大模型”這個概念便有偷梁換柱之嫌。

實際上,端到端和大模型確實是兩個不同的概念。

談概念,就要一竿子扎到底,回到技術(shù)的原點去看一看。

與端到端相對的是規(guī)則+算法的分模塊方案。

與傳統(tǒng)的分模塊方案相比,端的端方案有兩個最根本的不同點,一則是傳統(tǒng)的分模塊自動駕駛系統(tǒng)劃分為感知-決策-執(zhí)行三個模塊,每個模塊之間都有非常明顯的界限。

二則是傳統(tǒng)方案是規(guī)則加算法,端到端方案是全面AI化、模型化。

與生成式AI大模型相對的是基于判別式AI的小模型。

這兩者的區(qū)別在于判別式AI屬于判定模型,它的基本原理是從大量的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)并總結(jié)出決策邊界,從而預(yù)測數(shù)據(jù)的標(biāo)簽。

比如說,在BEV的視角下,行人、二輪車、三輪車、乘用車、大卡車、錐桶……每一個事物的種類都分得明明白白。

生成式模型則是估計各種類型的數(shù)據(jù)分布,比較不同類型下生成數(shù)據(jù)的概率,它的側(cè)重點在于生成新的數(shù)據(jù)。

比如,正慢慢變得火熱并有望在2025年成為自動駕駛行業(yè)最火營銷熱詞的世界模型,它的主要作用就是生成在不同的駕駛策略下的攝像頭視角。

再進(jìn)一步總結(jié)一下,端到端是系統(tǒng)結(jié)構(gòu)形式從規(guī)則向AI的轉(zhuǎn)換,大模型是AI從判別式AI向生成式AI的轉(zhuǎn)變,很明顯是兩種不同的概念。

02

沒有調(diào)查就沒有發(fā)言權(quán)。

一家車企或智駕方案供應(yīng)商要在傳統(tǒng)端到端方案之外開辟第二戰(zhàn)線,上馬生成式AI大模型這種特別消耗人力、物力、金錢、時間的新技術(shù),肯定經(jīng)過了非常仔細(xì)縝密的調(diào)研。

傳統(tǒng)端到端之所以要+大模型,必定是因為大模型能夠解決現(xiàn)有方案無法解決的痛點。

畢竟,大部分公司都在虧錢,不至于像西紅柿首富那么豪橫,非要把錢花在刀把上。

在2023年的CVPR會議上,小鵬汽車自動駕駛高管分享過在廣袤的中國大地上做自動駕駛需要克服的三方面挑戰(zhàn):層出不窮、無視交通規(guī)則的交通參與者,復(fù)雜難解、特別考驗空間幾何能力的道路拓?fù)洌涡郧夷?、神鬼莫辨的交通?biāo)識。

這三個方面的挑戰(zhàn)或痛點,端到端方案來了也只能望洋生嘆。

傳統(tǒng)的端到端方案固然可以消除冗余,通過對計算資源的集約化使用增加車端神經(jīng)網(wǎng)絡(luò)的參數(shù)量。

但是,即便是參數(shù)翻倍,也解決不了上面三個挑戰(zhàn)。

車端模型都是由云端模型壓縮而來,參數(shù)量有著幾十倍的差距,云端模型好使的話,蘿卜快跑也不用配備云端駕駛員了。

因為,參數(shù)翻倍是無法實現(xiàn)從感知能力到認(rèn)知能力的升維。

比如對于第一項挑戰(zhàn)-人車混雜的城區(qū)交通場景中的動態(tài)物體,比識別物體種類更加重要的是,能否建立足夠的通用認(rèn)知能力,并通過對長時序信息和當(dāng)前交通環(huán)境下復(fù)雜語義信息的捕捉理解交通參與者的意圖。

至于包含各種顏色、圖案、數(shù)字、文字信息且形狀各異的交通標(biāo)識,就更加讓人抓狂了,沒有大語言模型的通用理解能力,小模型注定在各種長尾面前無能為力。

所以,無論是對交通參與者的意圖理解,還是對繁雜多變的交通標(biāo)識的語義理解,都需要仰仗生成式AI大模型超強(qiáng)的理解能力,才有可能解決這些感知長尾和決策長尾。

03

魯迅先生說,這世上本沒有路,走的人多了,也就有了路。在端到端大模型這條路上,已經(jīng)有了越來越多的選手。

蔚來、小鵬、理想們紛紛將生成式AI大模型搬進(jìn)車端自動駕駛系統(tǒng)里。

龍生九子,各有不同,正如各家的端到端模型架構(gòu)各有千秋一樣,蔚小理在自動駕駛大模型上做出了各自的技術(shù)選擇。

或許是因為有4顆Orin X芯片在手,算力比較從容,又或許特斯拉選擇了世界模型這條路線,在自動駕駛大模型上,蔚來汽車的世界模型成了蔚小理三家方案中最為硬核的存在。

它的基本原理是根據(jù)車端傳感器采集的當(dāng)前視頻數(shù)據(jù)、本車狀態(tài)和對其它交通參與者意圖的判斷,推演左轉(zhuǎn)、直行、右轉(zhuǎn)后的場景,根據(jù)安全、舒適、效率最大化、社會影響最小化的策略,選擇一條最佳的行駛軌跡。

小鵬的大語言模型體現(xiàn)在其端到端方案中的XBrain模塊上面,對應(yīng)去年在CVPR會議上痛陳的那幾個挑戰(zhàn),它可以用于對動態(tài)物體的意圖判斷、對路牌文字、待轉(zhuǎn)區(qū)交通標(biāo)識的識別。

7月初,理想汽車召開智能駕駛發(fā)布會,宣布推送分段式端到端無圖NOA,并發(fā)布了“本土首個”一體式端到端方案,并且“行業(yè)首創(chuàng)”端到端+視覺語言模型的雙系統(tǒng)方案。

這里的視覺語言模型就是疊加了視覺模態(tài)的大語言模型。值得一提的是,在國內(nèi)車圈,發(fā)布絕不等同于推送。

從理想汽車展示的視覺語言模型的能力來看,其作用和小鵬汽車的XBrain有異曲同工之妙。

在這三家的方案中,蔚來汽車含金量最高。世界模型涉及到對時空的理解和對物理規(guī)律的理解,本質(zhì)上是三維空間智能,空間智能正是AI教母李飛飛的創(chuàng)業(yè)方向。

小鵬和理想汽車方案的本質(zhì)依然是一維文本智能,和世界模型背后的空間智能不可同日而語。

李想6月份高調(diào)公布了理想汽車在智能駕駛上的目標(biāo)-一年內(nèi)實現(xiàn)L3,三年內(nèi)實現(xiàn)L4。

做一下閱讀理解,李想認(rèn)為,端到端可以實現(xiàn)L3,端到端+視覺語言模型可以實現(xiàn)L4,和何小鵬的觀點可謂不謀而合!

水滴汽車公眾號
掃碼關(guān)注,獲取更多汽車資訊
水滴汽車
掃碼下載水滴汽車APP

熱門評論(0)

加載更多

熱門車系資訊

更多 >

D7 DMH

12.58-14.58萬元

雅閣

17.98-25.98萬元

奧迪 e-tron

54.68-64.88萬元

杰德

12.99-18.38萬元

思域

11.99-16.99萬元

  1. 北京水滴交互網(wǎng)絡(luò)科技有限公司

Copyright @ 水滴汽車 京ICP備17030485號-2 京公網(wǎng)備 11010102003639號