【ITBEAR】自動(dòng)駕駛領(lǐng)域的佼佼者Waymo近日宣布,其正在研發(fā)一種全新的訓(xùn)練模型,該模型基于谷歌的多模態(tài)大語言模型Gemini。這一動(dòng)態(tài)標(biāo)志著Waymo在自動(dòng)駕駛技術(shù)上又邁出了重要一步,試圖借助AI研究的深厚積淀來進(jìn)一步鞏固其市場(chǎng)領(lǐng)先地位。
Waymo發(fā)布的研究論文詳細(xì)介紹了名為“端到端多模態(tài)自動(dòng)駕駛模型”(EMMA)的新技術(shù)。該技術(shù)能夠處理并分析傳感器數(shù)據(jù),為自動(dòng)駕駛車輛生成未來的行駛軌跡,從而協(xié)助車輛做出更為精準(zhǔn)和安全的決策。
這是自動(dòng)駕駛領(lǐng)域首次展露出將多模態(tài)大語言模型應(yīng)用于實(shí)際業(yè)務(wù)的跡象。此前,這類模型主要應(yīng)用于聊天機(jī)器人、電子郵件管理等領(lǐng)域,而如今其應(yīng)用范圍有望擴(kuò)展至自動(dòng)駕駛這一高科技領(lǐng)域。
傳統(tǒng)自動(dòng)駕駛系統(tǒng)通常由多個(gè)特定功能的模塊組成,如感知、映射、預(yù)測(cè)和規(guī)劃等。盡管這些模塊在過去取得了一定的成效,但它們之間的誤差積累和通信限制問題也日益凸顯。面對(duì)新環(huán)境時(shí),這些預(yù)定義模塊往往顯得力不從心。
Waymo認(rèn)為,Gemini等MLLM模型的出現(xiàn)為解決上述問題提供了可能。這些模型經(jīng)過海量互聯(lián)網(wǎng)數(shù)據(jù)的訓(xùn)練,擁有豐富的世界知識(shí),并展現(xiàn)出卓越的推理能力。在Waymo的測(cè)試中,EMMA模型在處理復(fù)雜環(huán)境時(shí)表現(xiàn)出色,如遇到動(dòng)物穿越道路或道路施工時(shí),能夠迅速為無人駕駛汽車規(guī)劃出合理的行駛路線。
然而,EMMA模型也存在一定的局限性。例如,它目前還無法整合來自激光雷達(dá)或雷達(dá)的3D傳感器輸入,這在一定程度上限制了其應(yīng)用范圍。同時(shí),多模態(tài)大語言模型可能存在的“幻覺”問題也為無人駕駛汽車的安全性帶來了挑戰(zhàn)。
盡管如此,Waymo的這一創(chuàng)新嘗試仍被視為自動(dòng)駕駛領(lǐng)域的一大突破。隨著技術(shù)的不斷進(jìn)步和完善,相信未來無人駕駛汽車將會(huì)更加智能、安全和高效。