ITBear旗下自媒體矩陣:

谷歌新突破!神經(jīng)模型竟能驅(qū)動(dòng)游戲引擎?

   時(shí)間:2024-08-29 15:01:39 來源:51CTO作者:楊凌霄編輯:瑞雪 發(fā)表評(píng)論無障礙通道

你沒有聽錯(cuò)!

一提到游戲引擎,你肯定會(huì)聯(lián)想到虛幻5(不自主地再提一次《黑神話:悟空》),Unity,Cocos,但你會(huì)想到用來生成圖像的擴(kuò)散模型也被認(rèn)為是一種游戲引擎嗎?

昨晚,谷歌DeepMind發(fā)布了一款GameNGen的神經(jīng)模型,給出的生成效果,讓人們驚呼:世界模型要來了!

據(jù)介紹,GameNGen,是首個(gè)完全由神經(jīng)模型驅(qū)動(dòng)的游戲引擎,它能夠在長(zhǎng)軌跡中以高質(zhì)量實(shí)現(xiàn)與復(fù)雜環(huán)境的實(shí)時(shí)交互。

厲害之處在于,僅僅在單個(gè)TPU上,GameNGen就能以每秒超過20幀的速度對(duì)經(jīng)典游戲《毀滅戰(zhàn)士》(DOOM)進(jìn)行交互式模擬。畫面沉浸感十足!

下一幀預(yù)測(cè)實(shí)現(xiàn)了29.4的峰值信噪比(PSNR),與有損JPEG壓縮相當(dāng)。在區(qū)分游戲短片段與模擬短片段時(shí),人類評(píng)分者的表現(xiàn)僅略優(yōu)于隨機(jī)猜測(cè)。

馬斯克聽說后,也來迅速圍觀,果斷表示支持:特斯拉也可以利用real world video來做類似的事情。

一個(gè)名為“PRIMEX ”賬號(hào)生成所有帖子都是AI制作的,并由Gork提供支持。緊接著就回復(fù)道:

Tesla FSD已經(jīng)在現(xiàn)實(shí)世界的模擬中運(yùn)行,而且比Doom更準(zhǔn)確,幀率更高。

甚至有網(wǎng)友直接幫馬斯克的Grok出主意:Grok要是可以模擬暗黑破壞神并創(chuàng)造無限世界時(shí),這就很瘋狂了。

01 這款神經(jīng)模型驅(qū)動(dòng)的游戲引擎 谷歌如何做到的?

來看看DeepMind團(tuán)隊(duì)是怎樣精心設(shè)計(jì)的。

首先是無法大規(guī)模進(jìn)行人類數(shù)據(jù)收集的難題,這是他們遇到的第一個(gè)挑戰(zhàn)。最后他們訓(xùn)練了可以自動(dòng)打游戲的Agent(RL Agent),讓這個(gè)Agent去打游戲,并保存其訓(xùn)練過程中的動(dòng)作和觀察結(jié)果,這樣用來訓(xùn)練模型的數(shù)據(jù)解決了。

其次,如何保持前后幀之間的視覺穩(wěn)定性問題?這一點(diǎn)就不得不提他們做了一個(gè)精心的挑選,他們沒有用最新的Stable Diffusion 版本,而是選擇v1.4,并進(jìn)行了技術(shù)處理,使其基于一系列之前的動(dòng)作和觀察結(jié)果(幀)進(jìn)行條件生成。

此外,為了減輕推理過程中的自回歸漂移,研究者還發(fā)現(xiàn)了一個(gè)有效的方法:在訓(xùn)練期間向編碼幀添加高斯噪聲,從而破壞上下文幀,可以讓網(wǎng)絡(luò)能夠糾正之前幀中采樣的信息,這對(duì)于長(zhǎng)時(shí)間保持視覺穩(wěn)定性至關(guān)重要。

最后,解決圖像偽影問題。他們最后采用了潛在解碼器微調(diào)的方法。Stable Diffusion v1.4的預(yù)訓(xùn)練自編碼器將8x8像素塊壓縮為4個(gè)潛在通道,但在預(yù)測(cè)游戲幀時(shí)會(huì)產(chǎn)生明顯的偽影問題,影響了小細(xì)節(jié),特別是底部欄的HUD問題。

為此,研究團(tuán)隊(duì)使用與目標(biāo)幀像素計(jì)算得出的均方誤差(MSE)損失來訓(xùn)練潛在自編碼器的解碼器,這樣既利用了預(yù)訓(xùn)練知識(shí),同時(shí)也提高了圖像質(zhì)量。

概括來說,GameNGen訓(xùn)練比較簡(jiǎn)單,分為兩個(gè)步驟:(1)一個(gè)強(qiáng)化學(xué)習(xí)(RL)代理學(xué)習(xí)玩游戲,并記錄訓(xùn)練過程;(2)訓(xùn)練一個(gè)擴(kuò)散模型來生成下一幀,該模型基于過去幀序列和動(dòng)作進(jìn)行條件生成。條件增強(qiáng)功能可實(shí)現(xiàn)長(zhǎng)軌跡上的穩(wěn)定自回歸生成。

02 游戲圈內(nèi)人士看上頭了

一位圈內(nèi)人士看罷Demo后,認(rèn)為這個(gè)技術(shù)太厲害了,不管是在幀之間的“因”、“果”、“順序”方面都大大超出了預(yù)期,并盛贊了開放模型的意義,甚至對(duì)于云壟斷的谷歌而言也不可或缺。

回到GameNGen,并認(rèn)為有兩處值得注意:

1)他們通過玩Doom毀滅戰(zhàn)士的Agent獲得了無限的訓(xùn)練數(shù)據(jù),這一點(diǎn)非常有意義;

2)他們?cè)谠磶刑砑恿烁咚乖肼暡ⅹ?jiǎng)勵(lì)A(yù)gent“糾正”連續(xù)幀,并說這對(duì)于從模型中獲得長(zhǎng)期穩(wěn)定的“渲染”至關(guān)重要。這一點(diǎn)很有趣——模型需要進(jìn)行錯(cuò)誤修正/引導(dǎo)它以保持穩(wěn)定。

當(dāng)然,他也提到了對(duì)于大模型作為渲染引擎的難題:

“這個(gè)模型是否容易進(jìn)行微調(diào)以實(shí)現(xiàn)“照片真實(shí)感”/光線追蹤重塑——我非常好奇”,畢竟懂得如何微調(diào)大模型的人很少,如果視為某種Doom的基礎(chǔ)模型,從這個(gè)模型中獲得“更漂亮”的渲染得有多難。

當(dāng)然,也有游戲開發(fā)人員,這個(gè)新模型的演示存在不少問題,比如模型雖然能夠記住玩家轉(zhuǎn)身后灰色的墻,這當(dāng)然很棒,但墻完全改變了位置和方向就有點(diǎn)不合理了。有人反駁:這也會(huì)現(xiàn)在盜夢(mèng)空間題材類的游戲中,因?yàn)橥婕业娜蝿?wù)就是強(qiáng)迫模型生成它,同時(shí)又不會(huì)在游戲的“夢(mèng)境”中Over,并表示“我會(huì)玩這個(gè)游戲玩到零血”。

03 Jim Fan的評(píng)價(jià):什么是真正有用的神經(jīng)模型?數(shù)據(jù)是關(guān)鍵

“黑客們喜歡在各種稀奇古怪的地方運(yùn)行《DOOM》已經(jīng)成為一種傳統(tǒng):恒溫器、“智能”烤面包機(jī),甚至自動(dòng)取款機(jī)。現(xiàn)在,他們僅用擴(kuò)散模型就能運(yùn)行《DOOM》。每一個(gè)像素都是生成的。之前我說過“Sora是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎”,其實(shí)不完全對(duì),因?yàn)镾ora無法與之互動(dòng)。你只能設(shè)置初始條件(一個(gè)文本或初始幀),然后被動(dòng)地觀看模擬過程。

上圖:網(wǎng)友在游戲《我的世界》中運(yùn)用《DOOM》

GameNGen 是一個(gè)真正的神經(jīng)世界模型。它將過去的幀(狀態(tài))和用戶的動(dòng)作(鍵盤/鼠標(biāo))作為輸入,并輸出下一幀。它在《DOOM》中的表現(xiàn)是我見過的最令人印象深刻的。

然而,這也帶來了重大缺陷。讓我們深入探討一下:

1. GameNGen 在單個(gè)游戲上極度過擬合,它通過訓(xùn)練 9 億幀(!?。?shí)現(xiàn)了這一點(diǎn)。這個(gè)數(shù)字極其龐大,幾乎是訓(xùn)練 Stable Diffusion v1 數(shù)據(jù)集的 40%。在這種情況下,它很可能記住了《DOOM》在各種場(chǎng)景下的渲染方式。畢竟,《DOOM》本身的內(nèi)容并不多。

2. GameNGen 更像是一個(gè)被吹捧的 NeRF,而不是一個(gè)視頻生成模型。NeRF 利用從不同視角拍攝的場(chǎng)景圖像,重建該場(chǎng)景的 3D 表示。NeRF 的基礎(chǔ)版本沒有泛化能力,也就是說,它無法“想象”出新場(chǎng)景。GameNGen 不像Sora:設(shè)計(jì)上,它無法合成新游戲或交互機(jī)制。

3. 這篇論文的難點(diǎn)不在于擴(kuò)散模型,而在于數(shù)據(jù)集。作者首先訓(xùn)練了強(qiáng)化學(xué)習(xí)(RL)代理在不同技能水平下玩游戲,并收集了 9 億對(duì)(幀,動(dòng)作)用于訓(xùn)練。大多數(shù)在線視頻數(shù)據(jù)集并不包含動(dòng)作信息,這意味著這種方法無法外推。數(shù)據(jù)始終是動(dòng)作驅(qū)動(dòng)的世界模型的瓶頸。

4. 我認(rèn)為游戲世界模型有兩個(gè)實(shí)際用例:(1)編寫提示詞來創(chuàng)建可玩的世界,這些世界通常需要游戲工作室多年才能制作完成;(2)使用世界模型來訓(xùn)練更好的具身 AI。兩個(gè)用例都無法實(shí)現(xiàn)。用例(2)不可行,因?yàn)橛?GameNGen 訓(xùn)練代理并沒有比直接使用《DOOM》模擬器更有優(yōu)勢(shì)。如果神經(jīng)世界模型可以模擬傳統(tǒng)手工制作圖形引擎無法實(shí)現(xiàn)的場(chǎng)景,那會(huì)更有趣。

什么是真正有用的神經(jīng)世界模型? @elonmusk 在回復(fù)中說過“特斯拉可以用真實(shí)世界視頻做類似的事情”。這并不令人意外:Autopilot 團(tuán)隊(duì)可能擁有數(shù)萬億對(duì)(攝像頭畫面,方向盤動(dòng)作)。再一次,數(shù)據(jù)是關(guān)鍵!有如此豐富的真實(shí)世界數(shù)據(jù),完全有可能學(xué)習(xí)一個(gè)涵蓋各種邊緣案例的通用駕駛模擬器,并用它來部署和驗(yàn)證新的 FSD 構(gòu)建,而不需要實(shí)際的汽車。

GameNGen 仍然是一個(gè)非常出色的概念驗(yàn)證。至少我們現(xiàn)在知道,9 億幀是將高分辨率《DOOM》壓縮到神經(jīng)網(wǎng)絡(luò)中的上限?!?/p>

可以看出,GameNGen 讓我們看來了一個(gè)新的游戲生成方式,數(shù)據(jù)不夠就讓AI智能體幫產(chǎn)生數(shù)據(jù),效果不夠就挑選合適的方案來提升。“什么是真正有用的神經(jīng)世界模型”,這一點(diǎn)很有提醒意義。也許很快我們就能看到以擴(kuò)散模型為游戲引擎的爆款游戲問世了!

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version