在探討大模型對(duì)科學(xué)發(fā)現(xiàn)的助力時(shí),其“幻覺(jué)問(wèn)題”似乎并不構(gòu)成障礙,反而成為了一種優(yōu)勢(shì)。然而,在自動(dòng)駕駛,尤其是L4級(jí)高安全要求的場(chǎng)景中,這一問(wèn)題卻成為了亟待解決的難題。
具體到自動(dòng)駕駛的錯(cuò)誤率,華為在《云計(jì)算2030》報(bào)告中指出,L3級(jí)自動(dòng)駕駛的容錯(cuò)率為0.1-1%,而L4級(jí)則要求更為嚴(yán)苛,容錯(cuò)率需在0.0001-0.001%之間。這一數(shù)據(jù)為我們提供了衡量當(dāng)前大模型性能的重要參考。
近年來(lái),隨著模型參數(shù)量的增加、訓(xùn)練數(shù)據(jù)的豐富以及新方法的引入,大模型的準(zhǔn)確率確實(shí)在穩(wěn)步提升。例如,GPT3在2020年問(wèn)世時(shí)錯(cuò)誤率約為40%,而到了2022年底,GPT3.5的錯(cuò)誤率已降至20%,GPT4更是進(jìn)一步將錯(cuò)誤率降低到了10%。然而,即便如此,與L4級(jí)自動(dòng)駕駛所需的容錯(cuò)率相比,仍然存在著顯著的差距。
這種差距在理想汽車的實(shí)踐中得到了體現(xiàn)。理想汽車曾嘗試將LLM改造為視覺(jué)語(yǔ)言模型DriveVLM,并應(yīng)用于自動(dòng)駕駛系統(tǒng)。然而,在直播測(cè)試中,該系統(tǒng)卻出現(xiàn)了公然逆行的錯(cuò)誤,暴露了模型輸出錯(cuò)誤率依然較高的問(wèn)題。盡管DriveVLM在阿里巴巴的Qwen-VL或meta的LLaMA2-3B基礎(chǔ)上進(jìn)行了額外的訓(xùn)練和優(yōu)化,但準(zhǔn)確率的提升仍然有限。
自動(dòng)駕駛系統(tǒng)不僅需要高準(zhǔn)確率,還需要在復(fù)雜車流環(huán)境中實(shí)現(xiàn)實(shí)時(shí)決策。這就要求模型的運(yùn)行頻率至少要在十幾赫茲以上。然而,目前理想汽車的視覺(jué)語(yǔ)言模型DriveVLM的運(yùn)行頻率僅為3.3赫茲,無(wú)法滿足實(shí)時(shí)軌跡規(guī)劃的需求。
對(duì)于如何提升自動(dòng)駕駛大模型的性能和實(shí)時(shí)性,業(yè)界存在著不同的看法。有人認(rèn)為,通過(guò)升級(jí)硬件,如將自動(dòng)駕駛芯片從Orin升級(jí)為英偉達(dá)的Thor,可以顯著提升模型的運(yùn)行頻率。然而,這種觀點(diǎn)忽視了模型參數(shù)量對(duì)性能的影響。目前,理想汽車的視覺(jué)語(yǔ)言模型DriveVLM的參數(shù)量?jī)H為22億,遠(yuǎn)低于實(shí)現(xiàn)L4級(jí)自動(dòng)駕駛所需的參數(shù)量。
相比之下,特斯拉的FSD模型在參數(shù)規(guī)模上更為龐大。據(jù)特斯拉透露,其FSD模型的參數(shù)量已經(jīng)從V12.4版本的10億增加到V13版本的數(shù)百億級(jí)別。這種參數(shù)量的提升為特斯拉的自動(dòng)駕駛系統(tǒng)提供了更強(qiáng)的性能和更高的準(zhǔn)確性。
另一方面,本土智駕企業(yè)在自動(dòng)駕駛大模型上的實(shí)踐也取得了一定的進(jìn)展。他們利用頭部AI企業(yè)開(kāi)源的具備圖像理解能力的多模態(tài)大模型,結(jié)合駕駛場(chǎng)景進(jìn)行微調(diào)訓(xùn)練,開(kāi)發(fā)出了自家的視覺(jué)語(yǔ)言智駕大模型。這些模型具備圖文識(shí)別能力和一定的場(chǎng)景理解能力,可以用于識(shí)別潮汐車道、公交車道等交通標(biāo)識(shí),并給出相應(yīng)的駕駛建議。
然而,這些視覺(jué)語(yǔ)言模型仍然存在著局限性。它們主要基于2D圖像輸入進(jìn)行后融合處理,缺乏真正的空間理解能力。要實(shí)現(xiàn)精準(zhǔn)的空間理解,需要同時(shí)輸入車前、車后、左右等多個(gè)攝像頭的圖像輸入,并在3D視角下進(jìn)行綜合判斷。這正是BEV前融合技術(shù)的價(jià)值所在。因此,盡管生成式AI大模型為自動(dòng)駕駛帶來(lái)了新的可能性,但要真正提升自動(dòng)駕駛能力,仍然需要克服許多技術(shù)和實(shí)踐上的挑戰(zhàn)。