ITBear旗下自媒體矩陣:

北大智元聯(lián)合發(fā)布OmniManip:視覺(jué)語(yǔ)言模型賦能機(jī)器人高精度操作

   時(shí)間:2025-01-23 13:49:32 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

在探索具身智能領(lǐng)域的道路上,如何將視覺(jué)語(yǔ)言基礎(chǔ)模型(VLMs)應(yīng)用于機(jī)器人以實(shí)現(xiàn)通用操作,一直是科研人員關(guān)注的焦點(diǎn)。這一目標(biāo)的實(shí)現(xiàn)面臨兩大核心挑戰(zhàn):VLMs缺乏精確的3D理解能力,以及難以輸出低層次的機(jī)器人動(dòng)作。

傳統(tǒng)的VLMs主要通過(guò)對(duì)比學(xué)習(xí)范式訓(xùn)練,以2D圖像和文本作為輸入,這限制了它們?cè)?D空間中的理解和應(yīng)用能力。同時(shí),盡管將VLMs在機(jī)器人數(shù)據(jù)上進(jìn)行微調(diào)以構(gòu)建視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型被視為一種有潛力的解決方案,但高昂的數(shù)據(jù)收集成本和模型的泛化能力限制,使得這一方案仍面臨諸多挑戰(zhàn)。

為了克服這些難題,北京大學(xué)與智元機(jī)器人團(tuán)隊(duì)攜手提出了OmniManip架構(gòu)。這一架構(gòu)基于以對(duì)象為中心的3D交互基元,成功地將VLMs的高層次推理能力轉(zhuǎn)化為機(jī)器人的低層次高精度動(dòng)作。OmniManip通過(guò)引入VLM規(guī)劃和機(jī)器人執(zhí)行的雙閉環(huán)系統(tǒng)設(shè)計(jì),有效解決了大模型幻覺(jué)問(wèn)題和真實(shí)環(huán)境操作的不確定性,實(shí)現(xiàn)了操作性能的顯著提升。

OmniManip的關(guān)鍵設(shè)計(jì)包括基于VLMs的任務(wù)解析、以物體為中心的交互基元作為空間約束、閉環(huán)VLM規(guī)劃和閉環(huán)機(jī)器人執(zhí)行。利用VLMs強(qiáng)大的常識(shí)推理能力,OmniManip能夠?qū)⑷蝿?wù)分解為多個(gè)結(jié)構(gòu)化階段,每個(gè)階段都明確指定了主動(dòng)物體、被動(dòng)物體和動(dòng)作類型。通過(guò)3D基座模型生成任務(wù)相關(guān)物體的3D模型和規(guī)范化空間,OmniManip使得VLMs能夠直接在該空間中采樣3D交互基元,作為動(dòng)作的空間約束,從而優(yōu)化求解出主動(dòng)物體在被動(dòng)物體規(guī)范坐標(biāo)系下的目標(biāo)交互姿態(tài)。

在閉環(huán)VLM規(guī)劃階段,OmniManip將目標(biāo)交互姿態(tài)下的主動(dòng)/被動(dòng)物體渲染成圖像,由VLMs進(jìn)行評(píng)估與重采樣,實(shí)現(xiàn)VLMs對(duì)自身規(guī)劃結(jié)果的閉環(huán)調(diào)整。而在閉環(huán)機(jī)器人執(zhí)行階段,通過(guò)物體6D姿態(tài)跟蹤器實(shí)時(shí)更新主動(dòng)/被動(dòng)物體的位姿,并將其轉(zhuǎn)換為機(jī)械臂末端執(zhí)行器的操作軌跡,實(shí)現(xiàn)閉環(huán)執(zhí)行。

OmniManip具備通用泛化能力,不受特定場(chǎng)景和物體的限制。這一特性使得OmniManip能夠被廣泛應(yīng)用于數(shù)字資產(chǎn)自動(dòng)標(biāo)注/合成管道等領(lǐng)域,實(shí)現(xiàn)大規(guī)模的機(jī)器人軌跡自動(dòng)采集。目前,研究團(tuán)隊(duì)已經(jīng)開(kāi)源了泛化操作大規(guī)模數(shù)據(jù)集和對(duì)應(yīng)的仿真評(píng)測(cè)基準(zhǔn),為相關(guān)領(lǐng)域的進(jìn)一步研究提供了有力支持。

在智元機(jī)器人方面,其量產(chǎn)的第1000臺(tái)通用具身機(jī)器人已于本月正式下線。這批機(jī)器人中包括731臺(tái)雙足人形機(jī)器人(遠(yuǎn)征A2/靈犀X1)和269臺(tái)輪式通用機(jī)器人(遠(yuǎn)征A2-D/A2-W)。這一成果不僅展示了智元機(jī)器人在機(jī)器人量產(chǎn)方面的實(shí)力,也進(jìn)一步驗(yàn)證了OmniManip架構(gòu)的有效性和實(shí)用性。

智元機(jī)器人的發(fā)展也備受關(guān)注。據(jù)悉,以“天才少年”身份加入華為的稚暉君已于2022年底宣布離職,并創(chuàng)業(yè)成立了智元機(jī)器人。2024年9月3日,智元機(jī)器人完成了A++++++輪融資,估值已超過(guò)70億元。這一輪融資得到了包括北汽、上汽、比亞迪在內(nèi)的國(guó)內(nèi)汽車巨頭的支持,為智元機(jī)器人的未來(lái)發(fā)展注入了強(qiáng)勁動(dòng)力。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version