在探討大模型于科學(xué)發(fā)現(xiàn)領(lǐng)域的助力時(shí),其“幻覺”特性似乎并不構(gòu)成缺陷,反而成為了一種優(yōu)勢。然而,在自動駕駛這一對安全性要求極高、邊界條件明確的場景中,幻覺問題卻成為了一道必須跨越的障礙。
自動駕駛的容錯(cuò)率與當(dāng)前大模型的錯(cuò)誤率之間存在著顯著的差距。華為在《云計(jì)算2030》報(bào)告中指出,L3級自動駕駛的容錯(cuò)率為0.1-1%,而L4級自動駕駛的容錯(cuò)率更是低至0.0001-0.001%。與此相比,即便GPT4這樣的先進(jìn)大模型,其錯(cuò)誤率仍高達(dá)10%,與L4級自動駕駛的容錯(cuò)率相差了五個(gè)數(shù)量級。
盡管大模型的準(zhǔn)確率在不斷提升,但距離滿足高級別自動駕駛的需求仍有較大差距。以理想汽車的視覺語言模型DriveVLM為例,盡管它基于阿里巴巴的Qwen-VL或meta的LLaMA2-3B進(jìn)行改造,并新增了駕駛場景數(shù)據(jù)、進(jìn)行了RAG檢索增強(qiáng)、AI對齊、強(qiáng)化學(xué)習(xí)、優(yōu)化提示詞等工作,但其準(zhǔn)確率的提升仍然有限。在直播測試中,DriveVLM甚至出現(xiàn)了公然逆行的錯(cuò)誤,暴露了其輸出錯(cuò)誤率依然較高的現(xiàn)實(shí)。
自動駕駛系統(tǒng)需要在正確的時(shí)間和空間下做出正確的決策,實(shí)時(shí)規(guī)劃出安全、舒適、高效的行駛路徑。然而,目前理想汽車的視覺語言模型運(yùn)行頻率僅為3.3赫茲,無法滿足復(fù)雜車流環(huán)境下的實(shí)時(shí)性要求,只能起到輔助提醒的作用。
有人提出,通過升級硬件來提升模型運(yùn)行頻率的解決方案。然而,這并非簡單的硬件升級問題。更高等級的自動駕駛對模型的參數(shù)量有著更高的要求。理想汽車目前用于L3級自動駕駛的視覺語言模型參數(shù)量僅為22億,這樣的參數(shù)規(guī)模無法實(shí)現(xiàn)L4級自動駕駛。
本土智駕企業(yè)紛紛開啟在車端自動駕駛大模型上的實(shí)踐,并非因?yàn)樗麄冏陨砑夹g(shù)多么強(qiáng)悍,而是得益于頭部AI企業(yè)訓(xùn)練出并開源的具備圖像理解能力的多模態(tài)大模型。然而,這些大模型雖然具備圖文識別和場景理解能力,但并不具備真正的空間理解能力。建立空間理解能力的關(guān)鍵在于能夠同時(shí)輸入多個(gè)攝像頭的圖像輸入,進(jìn)行3D視角下的綜合判斷。而當(dāng)前的視覺語言模型只能進(jìn)行后融合,無法建立精準(zhǔn)的空間理解能力。
盡管生成式AI的爆發(fā)讓業(yè)界對自動駕駛能力的進(jìn)展速度一度變得非常樂觀,但從當(dāng)前的技術(shù)現(xiàn)狀來看,通過生成式AI大模型提升自動駕駛能力仍然是一條充滿挑戰(zhàn)的道路。無論是模型的準(zhǔn)確率、運(yùn)行頻率還是空間理解能力,都需要進(jìn)一步的突破和創(chuàng)新。