在科技界的最新突破中,谷歌推出了一款名為Genie 2的先進世界模型,它不僅能夠生成無限多樣的3D游戲世界,還能響應玩家的鍵鼠操作,實現(xiàn)了前所未有的可玩性和可控制性。這一技術的發(fā)布,迅速吸引了科技愛好者的廣泛關注,其中就包括了對AI技術充滿熱情的特斯拉CEO馬斯克。
Genie 2與之前的研究相比,最大的亮點在于其長期記憶功能。即便玩家將視角轉向別處,再回到先前的場景時,已存在的游戲世界部分依然能夠穩(wěn)定渲染,不會出現(xiàn)畫面斷裂或失真。這種技術革新,讓游戲世界更加真實、連貫,為玩家?guī)砹顺两降挠螒蝮w驗。
更令人驚嘆的是,Genie 2支持AI NPC(非玩家角色)的加入,這些NPC能夠與玩家控制的角色進行復雜、多樣的交互,使得游戲世界充滿了無限可能。這意味著,玩家可以通過文字描述自己心目中的世界,選擇最心儀的呈現(xiàn)方式,然后親自進入這個世界,與各種角色進行互動,體驗前所未有的游戲樂趣。
馬斯克對這一技術的評價是“很酷”,并隨后接受了DeepMind創(chuàng)始人Hassabis的邀請,共同探討合作開發(fā)AI游戲的可能性??紤]到馬斯克此前曾表示將創(chuàng)辦一家AI游戲工作室,這一合作似乎并非空穴來風。
然而,谷歌DeepMind的這項研究并非僅僅為了娛樂。Genie 2還可以作為訓練和評估具身智能體的平臺,通過創(chuàng)建豐富多樣的游戲環(huán)境,生成AI在訓練期間未見過的評估任務。這種能力對于推動AI技術的發(fā)展具有重要意義,尤其是在實現(xiàn)通用人工智能(AGI)的道路上。
例如,通過文字指令訓練智能體打開正確的門,Genie 2能夠模擬出多種可能的場景和結果,從而幫助智能體學會在不同情況下做出正確的決策。這種訓練方式不僅提高了智能體的適應性和靈活性,還為其在未來的實際應用中打下了堅實的基礎。
Genie 2還展示了世界模型的涌現(xiàn)能力,包括對象交互、復雜的角色動畫、物理模擬以及建模并預測其他智能體行為的能力。這意味著玩家在游戲中的每一個操作都可能引發(fā)不同的連鎖反應和結果,使得游戲體驗更加豐富和多變。
實現(xiàn)這一切的背后,是擴散模型的強大支持。Genie 2作為一種自回歸潛空間擴散模型,在大型視頻數據集上進行了訓練。通過自編碼器的處理,視頻的潛在幀被傳遞到一個大型Transformer動力學模型中,該模型使用與大型語言模型類似的因果掩碼進行訓練。在推理時,Genie 2能夠自回歸方式采樣,對單個操作和過去的幀逐幀執(zhí)行,從而生成連貫、逼真的游戲世界。
谷歌還透露,目前展示的視頻示例都是由未經蒸餾的模型生成,以展示技術的可能性。雖然蒸餾模型可以實現(xiàn)實時控制,但會犧牲一定的輸出質量。不過,隨著技術的不斷進步和優(yōu)化,相信未來Genie 2將能夠為用戶帶來更加流暢、逼真的游戲體驗。