特斯拉近日正式發(fā)布了其“完全自動(dòng)駕駛”軟件的最新版本FSD V13.2,并已完成首批用戶的交付。此次更新帶來(lái)了多項(xiàng)新功能,包括停車啟動(dòng)、自動(dòng)換擋以及目的地自動(dòng)泊車等。特斯拉自動(dòng)駕駛工程師Arek Sredzki強(qiáng)調(diào),新版本中的端到端網(wǎng)絡(luò)已經(jīng)能夠?qū)崿F(xiàn)從一個(gè)停車位到另一個(gè)停車位的全程自動(dòng)駕駛(P2P)。
特斯拉FSD的每一次重要更新,總能引起行業(yè)內(nèi)各大智能駕駛玩家的密切關(guān)注。今年年初,特斯拉推送了FSD V12的測(cè)試版本,將城市街道駕駛的軟件棧升級(jí)為單一的端到端神經(jīng)網(wǎng)絡(luò)。這一變革不僅在美國(guó)本土引發(fā)了熱議,也遠(yuǎn)隔重洋,在中國(guó)掀起了一股端到端技術(shù)的熱潮。
當(dāng)前,眾多致力于在自動(dòng)駕駛領(lǐng)域取得領(lǐng)先地位的汽車制造商和智能駕駛供應(yīng)商,開始將端到端技術(shù)作為宣傳的重點(diǎn)。2024年,多家車企或智能駕駛供應(yīng)商聲稱已進(jìn)入“智駕第一梯隊(duì)”,無(wú)論其技術(shù)和產(chǎn)品能力如何,端到端都成為了不可或缺的一個(gè)關(guān)鍵詞。
端到端技術(shù)究竟有何魅力?又存在哪些潛在問(wèn)題?其與傳統(tǒng)自動(dòng)駕駛算法的主要區(qū)別在于系統(tǒng)架構(gòu)和數(shù)據(jù)處理方式。傳統(tǒng)算法通常采用模塊化部署,將感知、預(yù)測(cè)、規(guī)劃和控制等功能劃分為獨(dú)立模塊,雖然結(jié)構(gòu)清晰,但存在誤差累積和信息丟失的問(wèn)題。而端到端架構(gòu)則通過(guò)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)模型,直接從傳感器數(shù)據(jù)映射到車輛控制指令,簡(jiǎn)化了系統(tǒng)結(jié)構(gòu),提高了整體性和穩(wěn)定性。
用比喻來(lái)說(shuō),傳統(tǒng)自動(dòng)駕駛算法就像是制作蛋糕的分步驟過(guò)程,每一步都由專門的廚師負(fù)責(zé),而端到端則像是一個(gè)特級(jí)大廚,從準(zhǔn)備原料到蛋糕出爐全程掌控。這種方式能夠更好地協(xié)調(diào)整個(gè)過(guò)程,減少錯(cuò)誤,并快速學(xué)習(xí)和調(diào)整。
然而,在實(shí)踐過(guò)程中,行業(yè)內(nèi)部出現(xiàn)了兩種路徑選擇:一體化端到端(One Model)和分段式端到端。一體化方案從感知到預(yù)測(cè)規(guī)劃無(wú)縫銜接,確保信息完整傳遞,但一旦出現(xiàn)問(wèn)題,整個(gè)系統(tǒng)難以精確調(diào)試。分段式方案則將感知和決策規(guī)劃分開,并在中間嵌入人工接口,以實(shí)現(xiàn)更靈活和可擴(kuò)展的系統(tǒng)設(shè)計(jì)。
黑芝麻智能采用了One Model架構(gòu)的端到端智能駕駛系統(tǒng),能夠輸入攝像頭、激光雷達(dá)、4D毫米波雷達(dá)、導(dǎo)航地圖等信息,直接輸出駕駛決策所需的預(yù)期軌跡。而Momenta則在去年實(shí)現(xiàn)了兩段式端到端,今年上半年又進(jìn)一步實(shí)現(xiàn)了一段式端到端。
為了進(jìn)一步提升端到端系統(tǒng)決策的準(zhǔn)確性和靈活性,行業(yè)里流行的做法是結(jié)合VLM(視覺語(yǔ)言模型)架構(gòu)。端到端系統(tǒng)負(fù)責(zé)處理感知、決策和執(zhí)行的全過(guò)程,而VLM則作為輔助系統(tǒng),提供對(duì)復(fù)雜交通場(chǎng)景的理解和語(yǔ)義解析。理想汽車的端到端與VLM相結(jié)合的雙系統(tǒng)架構(gòu)方案,基于人類兩套思維系統(tǒng)理論,旨在賦予車端模型更高的性能上限和發(fā)展?jié)摿Α?/p>
許多觀點(diǎn)認(rèn)為端到端+VLA(視覺語(yǔ)言動(dòng)作模型)是端到端+VLM的下一個(gè)階段。VLA將端到端系統(tǒng)與多模態(tài)大模型更徹底地結(jié)合,形成一個(gè)統(tǒng)一的模型框架,使系統(tǒng)能夠更全面地理解和響應(yīng)復(fù)雜的駕駛環(huán)境。元戎啟行CEO周光表示,從VLM到VLA的進(jìn)步就像是從有人指導(dǎo)的初學(xué)者變成了經(jīng)驗(yàn)豐富的老手直接操作,更加高效和安全。
然而,端到端技術(shù)的挑戰(zhàn)也顯而易見,尤其是對(duì)高質(zhì)量數(shù)據(jù)的需求呈指數(shù)級(jí)增長(zhǎng)。受限于高階智能駕駛的量產(chǎn)規(guī)模、算力資源,大多數(shù)車企和智能駕駛公司都面臨高質(zhì)量駕駛數(shù)據(jù)獲取難度大、效率低、成本高的問(wèn)題。為此,商湯絕影升級(jí)發(fā)布了“開悟”世界模型,以滿足端到端模型訓(xùn)練和仿真對(duì)數(shù)據(jù)質(zhì)量的高要求。
蔚來(lái)也在今年的創(chuàng)新科技日上發(fā)布了智能駕駛世界模型NWM,該模型能夠在100毫秒內(nèi)推演出216種可能發(fā)生的場(chǎng)景,并找到最優(yōu)決策。理想汽車也在運(yùn)用云端世界模型對(duì)其快慢雙系統(tǒng)進(jìn)行能力的訓(xùn)練和測(cè)試,以加速系統(tǒng)迭代。
盡管端到端技術(shù)的研發(fā)推進(jìn)面臨重重困難,但眾多企業(yè)正在積極尋求解決方案。奇瑞汽車副總經(jīng)理兼大卓智能CEO谷俊麗表示,核心研發(fā)能力將變?yōu)閿?shù)據(jù)、云計(jì)算以及頂級(jí)AI科學(xué)家三大要素。奇瑞推出的智能駕駛大模型,也是通過(guò)云端世界模型生成豐富場(chǎng)景,預(yù)計(jì)將在未來(lái)幾年實(shí)現(xiàn)兩段式和一段式端到端方案的量產(chǎn)上車。
端到端技術(shù)的落地將促進(jìn)其依賴的上游工具鏈和芯片等技術(shù)的加速發(fā)展,同時(shí)進(jìn)一步提升數(shù)據(jù)和AI人才的重要性。然而,關(guān)于端到端是否就是自動(dòng)駕駛的終極方案,行業(yè)內(nèi)仍存在不同聲音。商湯絕影CEO王曉剛曾表示,端到端技術(shù)并非終點(diǎn),未來(lái)還有通用人工智能、多模態(tài)等新技術(shù)不斷涌現(xiàn)和突破。