近期,谷歌DeepMind團(tuán)隊(duì)公布了一項(xiàng)名為Genie 2的前沿技術(shù),這是一項(xiàng)基礎(chǔ)世界模型,能夠從圖像或文字描述中生成可供人類或AI智能體互動(dòng)的3D環(huán)境。
據(jù)悉,用戶只需提供一張由Imagen 3生成的圖片及相應(yīng)的文字說(shuō)明,Genie 2便能迅速構(gòu)建出一個(gè)可探索的3D世界。用戶通過(guò)鼠標(biāo)和鍵盤,可以在這個(gè)虛擬環(huán)境中自由行走,體驗(yàn)時(shí)長(zhǎng)可達(dá)一分鐘之久。
Genie 2不僅在生成環(huán)境的一致性上表現(xiàn)出色,還能在用戶移動(dòng)時(shí)精準(zhǔn)呈現(xiàn)視野變化中的細(xì)節(jié),確保體驗(yàn)的真實(shí)感。
谷歌進(jìn)一步透露,Genie 2在生成過(guò)程中能夠模擬物體的交互行為、動(dòng)畫(huà)效果、光照條件、物理反射以及NPC(非玩家角色)的行動(dòng)。許多生成的場(chǎng)景在畫(huà)質(zhì)上接近3A級(jí)游戲水平,并且在物體視角一致性和場(chǎng)景記憶方面展現(xiàn)出了卓越的能力。
這一技術(shù)突破引起了廣泛關(guān)注,有人驚嘆于科技進(jìn)步的速度,認(rèn)為它預(yù)示著視頻游戲的未來(lái)發(fā)展方向。甚至有人設(shè)想,隨著技術(shù)的不斷進(jìn)步,一個(gè)完全虛擬化的世界模型將成為可能。
值得注意的是,在Genie 2發(fā)布后,DeepMind的CEO向特斯拉創(chuàng)始人馬斯克發(fā)出了共同制作AI游戲的邀請(qǐng)。馬斯克對(duì)此回應(yīng)稱:“Cool?!?/p>
谷歌研究人員Jack Parker-Holder通過(guò)實(shí)例展示了Genie 2的靈活性。他提到,當(dāng)向模型輸入不同的語(yǔ)言指令時(shí),比如一張包含紅門和藍(lán)門的圖片,可以生成通往不同方向的3D場(chǎng)景。用戶可以選擇走向紅門或藍(lán)門,探索不同的虛擬世界。
在更加復(fù)雜的場(chǎng)景中,比如包含三門的選擇,Genie 2依然能夠準(zhǔn)確理解指令并生成研究人員期望的3D動(dòng)畫(huà)效果,展現(xiàn)了其強(qiáng)大的理解和生成能力。