【ITBEAR】近日,知名增強現(xiàn)實(AR)技術(shù)公司Rokid推出了其最新一代AR眼鏡——Rokid Glasses,該眼鏡集成了攝像頭、多模態(tài)大模型以及光波導(dǎo)技術(shù),實現(xiàn)了對真實世界的深度感知與用戶交互的顯著提升。然而,盡管技術(shù)進步顯著,當前的AI模型在理解真實世界的空間關(guān)系上仍面臨巨大挑戰(zhàn)。
具體而言,現(xiàn)有的AI視覺模型主要依賴于二維照片進行物體識別,缺乏像人類一樣的空間理解能力,難以準確描述物體間的相對位置和空間關(guān)系。這一局限性不僅影響了AR技術(shù)的進一步發(fā)展,也限制了AR眼鏡在實際應(yīng)用中的廣泛普及。
為了突破這一瓶頸,AR技術(shù)的未來或許需要從更先進的AI大模型中尋找答案。早前,《Pokémon Go》的開發(fā)商Niantic宣布正在開發(fā)一種名為“地理空間大模型”(LGM)的新技術(shù),旨在利用大規(guī)模機器學(xué)習來理解和模擬真實世界的空間關(guān)系。
Niantic認為,通過大語言模型的訓(xùn)練方式,AI有望實現(xiàn)超越人類的空間理解能力,即“空間智能”。這一野心的背后,是Niantic在全球范圍內(nèi)收集的大量真實影像和地圖數(shù)據(jù),這些數(shù)據(jù)來自于其熱門游戲《Pokémon Go》和《Ingress》的玩家。Niantic還開發(fā)了視覺定位系統(tǒng)(VPS),能夠在3D地圖中根據(jù)單個圖像確定用戶的位置。
事實上,Niantic在2021年已經(jīng)發(fā)布了一項名為ManyDepth的技術(shù),該技術(shù)能夠通過單個手機攝像頭直接創(chuàng)建3D地圖,將二維圖像轉(zhuǎn)化為帶有深度信息的三維圖像,而無需依賴LiDAR等深度傳感器。
Niantic的LGM模型目前已經(jīng)訓(xùn)練了超過5000萬個神經(jīng)網(wǎng)絡(luò),擁有超過150萬億個參數(shù),能夠在全球超過100萬個位置運行。該模型的目標是在全球范圍內(nèi)實現(xiàn)對地理空間的共同理解,即使對于那些未被玩家掃描過的地區(qū)也能提供準確的空間信息。
對于AR眼鏡而言,LGM模型的意義不僅在于提供了高精度的空間定位能力,更重要的是,它使計算機能夠更準確、高效地感知和理解物理空間,從而深刻改變?nèi)伺c機器在物理世界中的交互方式。這一技術(shù)突破有望推動AR眼鏡以及智能機器人等設(shè)備的普及和應(yīng)用。
然而,盡管LGM模型在理論上具有巨大的潛力,但在實際應(yīng)用中仍面臨諸多挑戰(zhàn)。首先,LGM模型在中國等尚未出現(xiàn)類似《Pokémon Go》這樣的AR+LBS游戲市場的地區(qū),缺乏足夠的用戶數(shù)據(jù)和場景應(yīng)用。其次,LGM模型目前仍在開發(fā)中,其實際表現(xiàn)和未來前景尚難以斷言。
盡管如此,AI大模型對AR眼鏡的影響已經(jīng)顯而易見。近年來,AR眼鏡的關(guān)鍵轉(zhuǎn)變在于大模型帶來的自然理解能力的大幅提升,使得人機語音交互變得更加自然和流暢。這一變化為AR眼鏡的爆發(fā)提供了前提條件。
從交互體驗的角度來看,AI語音交互的引入顯著改善了AR眼鏡在人機交互方式上的短板。同時,大模型也在推動計算機視覺能力的“基因突變”,為AR眼鏡的未來發(fā)展方向提供了更多可能性。盡管目前AI視覺的價值尚未完全展現(xiàn),但基于攝像頭的AI視覺(端云混合)在理論上具有更高的潛力,能夠降低空間交互的復(fù)雜度和門檻,減少傳感器和傳統(tǒng)計算開銷,從而實現(xiàn)重量和成本的降低以及續(xù)航的提升。