ITBear旗下自媒體矩陣:

機(jī)器人領(lǐng)域突破!智元與上交大共創(chuàng)4D世界模型EnerVerse

   時(shí)間:2025-01-09 17:39:31 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

在機(jī)器人技術(shù)領(lǐng)域,一項(xiàng)重大突破于近日由智元機(jī)器人、上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室攜手實(shí)現(xiàn)。他們共同研發(fā)的4D世界模型EnerVerse,旨在解決機(jī)器人在復(fù)雜任務(wù)中的動(dòng)作規(guī)劃難題,為機(jī)器人技術(shù)開(kāi)辟了新的道路。

傳統(tǒng)的機(jī)器人動(dòng)作規(guī)劃方法,在多模態(tài)空間(如語(yǔ)言、視覺(jué)和動(dòng)作)之間難以實(shí)現(xiàn)精確對(duì)齊,同時(shí)缺乏大規(guī)模、多模態(tài)且?guī)в袆?dòng)作標(biāo)簽的數(shù)據(jù)集。而EnerVerse通過(guò)引入自回歸擴(kuò)散模型(autoregressive diffusion),在生成未來(lái)具身空間的同時(shí),能夠引導(dǎo)機(jī)器人完成復(fù)雜任務(wù),顯著提升了動(dòng)作規(guī)劃的性能。

EnerVerse的核心設(shè)計(jì)包括逐塊生成的自回歸擴(kuò)散模型、稀疏記憶機(jī)制(Sparse Memory)與自由錨定視角(Free Anchor View, FAV)。其中,自回歸擴(kuò)散模型采用基于時(shí)空注意力的UNet結(jié)構(gòu),通過(guò)卷積與雙向注意力建模每個(gè)空間塊內(nèi)部,并通過(guò)單向因果邏輯保持時(shí)間一致性,確保生成的序列邏輯合理。稀疏記憶機(jī)制則借鑒了大模型的上下文記憶,有效降低了計(jì)算開(kāi)銷(xiāo),同時(shí)提升了長(zhǎng)程任務(wù)的生成能力。而自由錨定視角方法則解決了具身操作中由于遮擋關(guān)系復(fù)雜,難以構(gòu)建完美全局視角的問(wèn)題。

自由錨定視角方法允許根據(jù)場(chǎng)景靈活重置錨定視角,避免固定多視角在狹窄空間中的局限性。它使用視線方向圖作為視角控制條件,同時(shí)將擴(kuò)散模型中的2D空間注意力擴(kuò)展為跨視角的3D空間注意力,確保生成的多視角視頻在幾何上保持一致。通過(guò)在仿真數(shù)據(jù)上微調(diào)的4D生成模型與4D高斯?jié)姙R交替迭代,構(gòu)建了一個(gè)數(shù)據(jù)飛輪,為真實(shí)場(chǎng)景下的FAV生成提供偽真值支持。

在EnerVerse架構(gòu)中,生成網(wǎng)絡(luò)下游集成了Diffusion策略頭,打通了未來(lái)空間生成與機(jī)器人動(dòng)作規(guī)劃的全鏈條。這一設(shè)計(jì)使得生成網(wǎng)絡(luò)在逆擴(kuò)散的第一步即可輸出未來(lái)動(dòng)作序列,無(wú)需等待完整的空間生成過(guò)程,確保了動(dòng)作預(yù)測(cè)的實(shí)時(shí)性。同時(shí),稀疏記憶隊(duì)列存儲(chǔ)真實(shí)或重建的FAV觀測(cè)結(jié)果,有效提升了長(zhǎng)程任務(wù)規(guī)劃能力。

實(shí)驗(yàn)結(jié)果表明,EnerVerse在視頻生成、動(dòng)作規(guī)劃等方面均表現(xiàn)出卓越的性能。在短程生成任務(wù)中,EnerVerse的表現(xiàn)優(yōu)于現(xiàn)有的微調(diào)視頻生成模型。而在長(zhǎng)程生成任務(wù)中,EnerVerse展現(xiàn)出更強(qiáng)的邏輯一致性與連續(xù)生成能力,這是現(xiàn)有模型無(wú)法比擬的。EnerVerse在LIBERO仿真場(chǎng)景和AgiBot World真實(shí)場(chǎng)景中生成的多視角視頻質(zhì)量也得到了充分驗(yàn)證。

在動(dòng)作規(guī)劃能力方面,EnerVerse同樣表現(xiàn)出色。在LIBERO基準(zhǔn)測(cè)試中,EnerVerse在機(jī)器人動(dòng)作規(guī)劃任務(wù)中取得了顯著優(yōu)勢(shì)。其單視角模型在LIBERO四類(lèi)任務(wù)中的平均成功率已超過(guò)現(xiàn)有最佳方法,多視角設(shè)定更是進(jìn)一步提升了任務(wù)成功率。消融實(shí)驗(yàn)也表明,稀疏記憶對(duì)長(zhǎng)程序列生成的合理性及長(zhǎng)程動(dòng)作預(yù)測(cè)精度至關(guān)重要。

通過(guò)可視化Diffusion策略頭中的交叉注意力模塊,研究發(fā)現(xiàn)EnerVerse生成的未來(lái)空間與預(yù)測(cè)的動(dòng)作空間具有較強(qiáng)的時(shí)序一致性。這一發(fā)現(xiàn)進(jìn)一步證明了EnerVerse在未來(lái)空間生成與動(dòng)作規(guī)劃任務(wù)中的優(yōu)勢(shì)。

EnerVerse架構(gòu)的提出,不僅突破了機(jī)器人任務(wù)規(guī)劃的技術(shù)瓶頸,還為多模態(tài)、長(zhǎng)程任務(wù)的研究提供了全新范式。隨著項(xiàng)目的開(kāi)源推進(jìn),EnerVerse有望進(jìn)一步優(yōu)化、拓展其應(yīng)用邊界,加速機(jī)器人技術(shù)從實(shí)驗(yàn)室邁向?qū)嶋H應(yīng)用,為工業(yè)制造、物流配送等場(chǎng)景帶來(lái)更高的生產(chǎn)效率。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類(lèi)資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version