【ITBEAR】智能駕駛行業(yè)正迎來技術(shù)革新的浪潮,“端到端”技術(shù)尚未被全面掌握,便已進入了換代時期,深度融合多模態(tài)大模型成為新的進化方向。
近期備受關(guān)注的VLA(Vision-Language-Action Model)模型,便是這一技術(shù)革新的典型代表。該模型結(jié)合了視覺、語言和動作,展現(xiàn)出更高的場景推理與泛化能力,被業(yè)界視為“端到端”方案的升級版。
VLA模型最初在機器人行業(yè)亮相,由谷歌DeepMind推出。然而,其影響力正迅速擴散至智能駕駛領(lǐng)域。谷歌旗下自動駕駛公司W(wǎng)aymo已率先基于該模型推出了自動駕駛多模態(tài)模型EMMA,標(biāo)志著VLA模型正式進軍智能駕駛市場。
與傳統(tǒng)的智能駕駛方案相比,VLA模型的最大特點在于其深度融合了多模態(tài)大模型。這使得智能駕駛系統(tǒng)不僅能夠依賴規(guī)則算法進行決策,更能借助大模型的強大能力,提升對復(fù)雜交通場景的理解與應(yīng)對能力。
理想汽車等業(yè)內(nèi)領(lǐng)軍企業(yè)已經(jīng)開始布局VLA模型。理想汽車在三季度財報電話會議上透露,公司已啟動L4級別自動駕駛的預(yù)研工作,重點研發(fā)車端VLA模型與云端世界模型相結(jié)合的強化學(xué)習(xí)體系。這顯示出VLA模型在智能駕駛領(lǐng)域的應(yīng)用前景備受期待。
然而,VLA模型的上車應(yīng)用并非易事。該模型對技術(shù)和車端芯片算力提出了極高要求。業(yè)內(nèi)人士指出,能夠支持VLA模型上車交付的芯片可能在2026年才會出現(xiàn)。這意味著,在短期內(nèi),VLA模型的大規(guī)模應(yīng)用仍面臨挑戰(zhàn)。
盡管如此,VLA模型的出現(xiàn)無疑為智能駕駛行業(yè)帶來了新的發(fā)展機遇。其深度融合多模態(tài)大模型的特點,有望助力智能駕駛系統(tǒng)在復(fù)雜交通場景中實現(xiàn)更擬人化的表現(xiàn),推動智能駕駛技術(shù)的持續(xù)進步。
同時,VLA模型的發(fā)展也將對智能駕駛行業(yè)的競爭格局產(chǎn)生影響。對于尚未發(fā)力端到端技術(shù)的玩家而言,VLA模型的出現(xiàn)無疑增加了其追趕的難度。后發(fā)制人的機會在這一技術(shù)革新面前顯得更加稀少。
總體來看,VLA模型作為智能駕駛行業(yè)的新星,雖然面臨諸多挑戰(zhàn),但其巨大的發(fā)展?jié)摿蛷V闊的應(yīng)用前景已然顯現(xiàn)。未來,隨著技術(shù)的不斷進步和芯片算力的提升,我們有理由期待VLA模型在智能駕駛領(lǐng)域大放異彩。