【ITBEAR】在自動(dòng)駕駛技術(shù)的浩瀚星空中,一條名為“端到端+大模型”的軌跡似乎正逐漸清晰,成為眾多行業(yè)巨擘心中的終極方向。
然而,正如自動(dòng)駕駛技術(shù)的多樣性與復(fù)雜性,大模型的構(gòu)建亦無(wú)固定模板可循。技術(shù)的海洋總是波瀾壯闊,隨著時(shí)光的流逝與新技術(shù)的涌現(xiàn),自動(dòng)駕駛技術(shù)也在不斷進(jìn)化,展現(xiàn)出千姿百態(tài)的面貌。
自2022年末ChatGPT橫空出世以來(lái),生成式AI大模型逐漸分化為兩大流派:語(yǔ)言模型與世界模型。語(yǔ)言模型在數(shù)字世界深耕細(xì)作,從單一文本模態(tài)拓展至包含圖片、視頻的多模態(tài),實(shí)現(xiàn)了文生圖、看圖說(shuō)話、圖生圖、文生視頻等能力,Sora與GPT4-o便是其中的佼佼者。而世界模型則跨越數(shù)字與物理的界限,從一維的數(shù)字智能邁向三維的空間智能。
李飛飛,這位出生于北京、在美國(guó)成就輝煌的AI先驅(qū),對(duì)空間智能有著獨(dú)到的見(jiàn)解。她認(rèn)為,空間智能意味著AI能在三維空間與時(shí)間中以三維方式感知、推理并行動(dòng),與現(xiàn)實(shí)世界進(jìn)行交互。相較于大語(yǔ)言模型以文本序列對(duì)世界進(jìn)行一維表示,空間智能將三維視為表達(dá)的核心。
從自動(dòng)駕駛大模型的賽道來(lái)看,小鵬與理想的選擇更偏向于在文本基礎(chǔ)上疊加圖片和視頻模態(tài)的語(yǔ)言模型,而蔚來(lái)與特斯拉則傾向于空間智能的世界模型。語(yǔ)言模型如東北大哥,先聲奪人,再?zèng)Q定行動(dòng);世界模型則如湖南老表,干脆利落,直接給出行駛軌跡。
在自動(dòng)駕駛技術(shù)的激烈競(jìng)爭(zhēng)中,數(shù)據(jù)標(biāo)注成為關(guān)鍵一環(huán)。然而,隨著端到端范式的到來(lái),許多數(shù)據(jù)需要重新標(biāo)注。語(yǔ)言模型依賴于海量的有監(jiān)督學(xué)習(xí)數(shù)據(jù)標(biāo)注,而世界模型則通過(guò)無(wú)監(jiān)督學(xué)習(xí),無(wú)需數(shù)據(jù)標(biāo)注,便能應(yīng)對(duì)海量數(shù)據(jù)的新范式。蔚來(lái)汽車的世界模型通過(guò)推演萬(wàn)千平行世界,選擇最優(yōu)行駛軌跡,這一能力不僅直接給出行駛結(jié)果,更通過(guò)無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練出對(duì)駕駛場(chǎng)景的深度理解能力,實(shí)現(xiàn)了從感知到認(rèn)知的躍升。
相較于傳統(tǒng)的BEV+OCC感知能力,世界模型展現(xiàn)出更加細(xì)膩的場(chǎng)景理解能力。它能夠理解當(dāng)前的光照條件、天氣情況,這些對(duì)自動(dòng)駕駛至關(guān)重要的因素。通過(guò)海量數(shù)據(jù)的無(wú)監(jiān)督訓(xùn)練,世界模型建立了對(duì)當(dāng)前世界的深度理解能力,為準(zhǔn)確推演未來(lái)世界奠定了堅(jiān)實(shí)基礎(chǔ)。
在這場(chǎng)自動(dòng)駕駛技術(shù)的革命中,算力成為制約發(fā)展的關(guān)鍵。蔚來(lái)選擇世界模型,或許正是基于其對(duì)算力的更高要求。而隨著算力的不斷升級(jí),理想和小鵬從語(yǔ)言模型向世界模型的過(guò)渡,似乎已成為一個(gè)可期的未來(lái)。