【ITBEAR】Waymo近日公布了其最新的自動駕駛研究成果,該成果被命名為“端到端多模態(tài)自動駕駛模型”,簡稱EMMA。這一新模型是基于谷歌的先進(jìn)多模態(tài)大語言模型Gemini而開發(fā)的,旨在增強(qiáng)無人駕駛車輛在錯綜復(fù)雜的環(huán)境中的導(dǎo)航能力。
傳統(tǒng)的自動駕駛系統(tǒng)往往采用分模塊化的設(shè)計(jì),針對感知、映射、預(yù)測和規(guī)劃等不同功能分別開發(fā)。然而,這種方式在系統(tǒng)的擴(kuò)展性和對新環(huán)境的適應(yīng)性上存在明顯的限制。Waymo的研究團(tuán)隊(duì)認(rèn)為,利用Gemini這類經(jīng)過大量互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的多模態(tài)大語言模型,可以有效地突破這些限制。這類模型不僅積累了廣泛的世界知識,還能通過鏈?zhǔn)酵评淼燃夹g(shù)模擬人類的思維方式,以應(yīng)對各種復(fù)雜的駕駛?cè)蝿?wù)。
不過,EMMA模型在實(shí)際應(yīng)用中還面臨一些挑戰(zhàn)。由于計(jì)算成本高昂,該模型目前還無法處理來自激光雷達(dá)或雷達(dá)的3D傳感器輸入,僅能處理有限數(shù)量的圖像幀。同時,研究人員也指出,像Gemini這樣的多模態(tài)大語言模型有時會產(chǎn)生不準(zhǔn)確的“幻覺”,而在無人駕駛領(lǐng)域,對錯誤的容忍度極低。因此,在這些模型能夠廣泛應(yīng)用于實(shí)際車輛之前,還需要進(jìn)行更深入的研究和嚴(yán)格的測試。