ITBear旗下自媒體矩陣:

谷歌DeepMind新突破:Genie 2一鍵構(gòu)建3D交互世界,人與AI共探虛擬新境

   時間:2024-12-05 10:14:32 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

在AI競賽日益激烈的當下,Google DeepMind再次推出了其最新的研究成果——Genie 2,一款能夠生成各種可操控動作、可供玩耍的3D環(huán)境的大型基礎(chǔ)世界模型。這一消息的發(fā)布,恰好趕在了OpenAI即將在未來12天內(nèi)直播新發(fā)布和演示之前,為AI領(lǐng)域再添一把火。

據(jù)了解,Genie 2只需一張?zhí)崾緢D像,就能根據(jù)用戶輸入的文本提示,生成對應的交互式虛擬世界。無論是人類還是AI代理,都可以使用鍵盤和鼠標在由AI生成的3D游戲世界中自由探索和互動。這種前所未有的交互體驗,無疑為AI領(lǐng)域的研究和應用帶來了全新的可能性。

Genie 2的核心是一個自回歸潛在擴散模型,它在大型視頻數(shù)據(jù)集上進行訓練。通過自動編碼器處理后,視頻中的潛在幀被傳遞到大型Transformer動力學模型中。該模型采用與大語言模型類似的因果掩碼進行訓練,使得在推理時,Genie 2能夠以自回歸方式采樣,逐幀獲取單個動作和過去的潛在幀。為了提高動作的可控性,Google DeepMind還使用了CFG(無分類器指導)技術(shù)。

在Genie 2的博客文章中,展示了大量由未蒸餾的基礎(chǔ)模型生成的視頻示例,這些示例充分展示了Genie 2在行動控制、生成反設(shè)事實、長視界記憶、長視頻生成、多樣環(huán)境、3D結(jié)構(gòu)、物體交互、復雜角色動畫、NPC(非玩家角色)、物理、煙霧、光影以及快速原型設(shè)計等方面的卓越效果與優(yōu)勢。盡管蒸餾版本支持實時交互,但在運行時的視覺質(zhì)量會略有降低。

Genie 2在模擬真實世界環(huán)境方面展現(xiàn)出了超強的空間記憶能力。它能夠記住視野中不再存在的世界部分,并在它們再次可見時準確呈現(xiàn)。Genie 2還能夠從同一起始幀生成不同的軌跡,為訓練AI代理提供了模擬不同事實體驗的可能性。

在與Genie 2互動的過程中,用戶可以體驗到智能響應鍵盤按鍵操作、生成反設(shè)事實、長視界記憶以及使用新生成的內(nèi)容生成長視頻等多種功能。例如,用戶可以通過鍵盤和鼠標控制一個可愛的機器人,在由Genie 2生成的3D世界中自由移動和互動。Genie 2還能夠模擬各種物體的相互作用,如爆破氣球、打開門和射擊炸藥桶等。

除了以上功能外,Genie 2還能夠模擬其他AI代理,甚至與它們進行復雜的交互。同時,它還能夠模擬各種物理現(xiàn)象,如水效果、煙霧效果、重力以及燈光等。這些功能使得Genie 2成為了一個極具潛力的訓練和評估具身AI代理的平臺。

Google DeepMind表示,盡管這項研究仍處于早期階段,但Genie 2已經(jīng)展現(xiàn)出了解決安全訓練具體AI代理的結(jié)構(gòu)性問題的潛力。同時,它也為實現(xiàn)邁向通用人工智能(AGI)所需的廣度和通用性邁出了重要的一步。未來,Google DeepMind將繼續(xù)在通用性和一致性方面改進Genie的世界生成能力,為構(gòu)建更通用的AI系統(tǒng)和代理做出貢獻。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version