在具身智能研究領(lǐng)域,如何使機(jī)器人在任務(wù)指導(dǎo)和實(shí)時(shí)環(huán)境感知的基礎(chǔ)上規(guī)劃未來行動(dòng),一直是科研人員面臨的重大挑戰(zhàn)。這一難題主要受到“模態(tài)對齊”和“數(shù)據(jù)稀缺性”兩大因素的制約。近日,智元機(jī)器人團(tuán)隊(duì)提出了一種名為EnerVerse的創(chuàng)新架構(gòu),該架構(gòu)通過自回歸擴(kuò)散模型,在生成未來具身空間的同時(shí),也指導(dǎo)機(jī)器人執(zhí)行復(fù)雜任務(wù)。
EnerVerse架構(gòu)與現(xiàn)有的視頻生成模型應(yīng)用方法存在顯著差異。它深入結(jié)合了具身任務(wù)的實(shí)際需求,創(chuàng)新性地引入了稀疏記憶機(jī)制(Sparse Memory)和自由錨定視角(Free Anchor View, FAV)。這一創(chuàng)新不僅顯著提升了4D生成能力,還在動(dòng)作規(guī)劃性能上實(shí)現(xiàn)了重大突破。
據(jù)智元機(jī)器人團(tuán)隊(duì)介紹,實(shí)驗(yàn)結(jié)果顯示,EnerVerse不僅具備生成未來空間的能力,還在機(jī)器人動(dòng)作規(guī)劃任務(wù)中達(dá)到了當(dāng)前最優(yōu)水平(SOTA)。這一成果標(biāo)志著在具身智能領(lǐng)域取得了重要進(jìn)展。目前,EnerVerse的項(xiàng)目主頁和論文《EnerVerse:設(shè)想機(jī)器人操作的具身未來空間》已經(jīng)上線,模型及相關(guān)數(shù)據(jù)集也即將面向公眾開源。
EnerVerse的主要科研成員來自智元機(jī)器人研究院的具身算法團(tuán)隊(duì)。論文的共同第一作者黃思淵,是上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室的聯(lián)合培養(yǎng)博士生,師從香港中文大學(xué)多媒體實(shí)驗(yàn)室(CUHK-MMLab)的李鴻升教授。黃思淵博士期間的研究方向主要集中在基于多模態(tài)大模型的具身智能和高效智能體的研究,并在CoRL、MM、IROS、ECCV等國際頂級(jí)會(huì)議上以第一作者或共同第一作者身份發(fā)表了多篇論文。
另一位共同第一作者陳立梁,則是智元機(jī)器人的具身算法專家,主要負(fù)責(zé)具身空間智能和世界模型的研究。EnerVerse架構(gòu)的成功研發(fā),不僅展示了智元機(jī)器人團(tuán)隊(duì)在具身智能領(lǐng)域的深厚積累,也為未來機(jī)器人技術(shù)的發(fā)展提供了新的思路和方向。