滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

谷歌DeepMind新突破：Genie 2一鍵構(gòu)建3D交互世界，人與AI共探虛擬新境

時間：2024-12-05 10:14:32 來源：ITBEAR編輯：快訊團隊 發(fā)表評論無障礙通道

在AI競賽日益激烈的當下，Google DeepMind再次推出了其最新的研究成果——Genie 2，一款能夠生成各種可操控動作、可供玩耍的3D環(huán)境的大型基礎(chǔ)世界模型。這一消息的發(fā)布，恰好趕在了OpenAI即將在未來12天內(nèi)直播新發(fā)布和演示之前，為AI領(lǐng)域再添一把火。

據(jù)了解，Genie 2只需一張?zhí)崾緢D像，就能根據(jù)用戶輸入的文本提示，生成對應的交互式虛擬世界。無論是人類還是AI代理，都可以使用鍵盤和鼠標在由AI生成的3D游戲世界中自由探索和互動。這種前所未有的交互體驗，無疑為AI領(lǐng)域的研究和應用帶來了全新的可能性。

Genie 2的核心是一個自回歸潛在擴散模型，它在大型視頻數(shù)據(jù)集上進行訓練。通過自動編碼器處理后，視頻中的潛在幀被傳遞到大型Transformer動力學模型中。該模型采用與大語言模型類似的因果掩碼進行訓練，使得在推理時，Genie 2能夠以自回歸方式采樣，逐幀獲取單個動作和過去的潛在幀。為了提高動作的可控性，Google DeepMind還使用了CFG（無分類器指導）技術(shù)。

在Genie 2的博客文章中，展示了大量由未蒸餾的基礎(chǔ)模型生成的視頻示例，這些示例充分展示了Genie 2在行動控制、生成反設(shè)事實、長視界記憶、長視頻生成、多樣環(huán)境、3D結(jié)構(gòu)、物體交互、復雜角色動畫、NPC（非玩家角色）、物理、煙霧、光影以及快速原型設(shè)計等方面的卓越效果與優(yōu)勢。盡管蒸餾版本支持實時交互，但在運行時的視覺質(zhì)量會略有降低。

Genie 2在模擬真實世界環(huán)境方面展現(xiàn)出了超強的空間記憶能力。它能夠記住視野中不再存在的世界部分，并在它們再次可見時準確呈現(xiàn)。Genie 2還能夠從同一起始幀生成不同的軌跡，為訓練AI代理提供了模擬不同事實體驗的可能性。

在與Genie 2互動的過程中，用戶可以體驗到智能響應鍵盤按鍵操作、生成反設(shè)事實、長視界記憶以及使用新生成的內(nèi)容生成長視頻等多種功能。例如，用戶可以通過鍵盤和鼠標控制一個可愛的機器人，在由Genie 2生成的3D世界中自由移動和互動。Genie 2還能夠模擬各種物體的相互作用，如爆破氣球、打開門和射擊炸藥桶等。

除了以上功能外，Genie 2還能夠模擬其他AI代理，甚至與它們進行復雜的交互。同時，它還能夠模擬各種物理現(xiàn)象，如水效果、煙霧效果、重力以及燈光等。這些功能使得Genie 2成為了一個極具潛力的訓練和評估具身AI代理的平臺。

Google DeepMind表示，盡管這項研究仍處于早期階段，但Genie 2已經(jīng)展現(xiàn)出了解決安全訓練具體AI代理的結(jié)構(gòu)性問題的潛力。同時，它也為實現(xiàn)邁向通用人工智能（AGI）所需的廣度和通用性邁出了重要的一步。未來，Google DeepMind將繼續(xù)在通用性和一致性方面改進Genie的世界生成能力，為構(gòu)建更通用的AI系統(tǒng)和代理做出貢獻。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

圖森未來轉(zhuǎn)型AIGC：自動駕駛老將的新征途

12-23

蘋果AirPods Pro3將升級健康監(jiān)測：心率、體溫檢測功能來襲？

12-23

OpenAI GPT-5開發(fā)坎坷，高昂成本下性能仍不達標何時見真章？

12-23

雷軍豪擲千金，DeepSeek核心開發(fā)者羅福莉或?qū)⒓用诵∶譇I實驗室

12月20日，據(jù)第一財經(jīng)消息，DeepSeek開源大模型DeepSeek-V2的關(guān)鍵開發(fā)者之一羅福莉?qū)⒓尤胄∶?，或供職于小米AI實驗室，領(lǐng)導小米大模型團隊。據(jù)悉，小米AI實驗室自2016年成立以來，已有約…

12-23

榮耀Magic7 RSR保時捷設(shè)計：趙明力挺自研影像，無需聯(lián)名也強大

12-23

小學生成AI項目“評委”，2024 C4-AI大賽創(chuàng)意滿滿引熱議

12-23

榮耀Magic7顏值巔峰？趙明：華為Mate70、小米15都不及它

12-23

前谷歌CEO施密特：AI自我改進時，人類或需暫停其發(fā)展？

12-23

百川智能發(fā)布金融大模型，劍指金融行業(yè)AI革新

TMTPOST -- Baichuan Intelligence, a Chinese AI company founded by WangXiaochuan, has unveiled a new fi…

12-23

字節(jié)跳動豆包大模型再降價，譚待：技術(shù)創(chuàng)新降低成本仍有可觀毛利

12月18日，在火山引擎Force大會上，字節(jié)跳動正式發(fā)布豆包視覺理解模型。而火山引擎總裁譚待也回應稱，豆包大模型通過技術(shù)創(chuàng)新來降低成本，在算法、軟件工程和硬件方案上做了非常多優(yōu)化，3厘/千tokens的…

12-23

羅永浩細紅線布局AI大模型，招聘人才或推AI native硬件新品？

三言科技 12月23日消息，三言科技發(fā)現(xiàn)在招聘平臺，細紅線正在招聘AI產(chǎn)品經(jīng)理、數(shù)據(jù)標注實習生、大模型算法工程師等崗位。而據(jù)鳳凰網(wǎng)科技報道，羅永浩的細紅線將在蛇年春節(jié)前后發(fā)布首款新品。據(jù)了解，這個新品的主菜…

12-23

運機集團攜手華為，智慧礦山首單落地，轉(zhuǎn)型之路邁出重要一步

12-23

天璣8400性能飛躍，輕旗艦邁入全大核時代，中端機市場迎來新變革！

12-23

青云科技AI算力實力獲認可，榮登2024最具商業(yè)潛力榜單！

12-23

尼爾森IQ領(lǐng)航數(shù)字服務(wù)，榮獲“領(lǐng)軍百強”彰顯中國服務(wù)外包實力

12-23

點擊查看更多 +

全站最新

標準研究 | 一份“破風”指南即將發(fā)布，請注意查收！

寶馬攜手中國科技企業(yè)，共創(chuàng)智能座艙新體驗，全景iDrive量產(chǎn)版即將亮相

開啟電動化新篇章奧迪一汽純電動車型正式量產(chǎn)

蔚來李斌回應螢火蟲三眼大燈爭議否認參考iPhone三攝設(shè)計

哪吒汽車創(chuàng)始人方運舟股權(quán)遭凍結(jié)，合眾汽車深陷財務(wù)困境

圖森未來轉(zhuǎn)型AIGC：自動駕駛老將的新征途

熱門內(nèi)容

本欄最新

圖森未來轉(zhuǎn)型AIGC：自動駕駛老將的新征途

蘋果AirPods Pro3將升級健康監(jiān)測：心率、體溫檢測功能來襲？

OpenAI GPT-5開發(fā)坎坷，高昂成本下性能仍不達標何時見真章？

雷軍豪擲千金，DeepSeek核心開發(fā)者羅福莉或?qū)⒓用诵∶譇I實驗室

榮耀Magic7 RSR保時捷設(shè)計：趙明力挺自研影像，無需聯(lián)名也強大

小學生成AI項目“評委”，2024 C4-AI大賽創(chuàng)意滿滿引熱議

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) · 齊魯軟件園魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

谷歌DeepMind新突破：Genie 2一鍵構(gòu)建3D交互世界，人與AI共探虛擬新境

谷歌DeepMind新突破：Genie 2一鍵構(gòu)建3D交互世界，人與AI共探虛擬新境