ITBear旗下自媒體矩陣:

清華團(tuán)隊(duì)CoRL 2024摘得最佳論文獎(jiǎng),機(jī)器人模仿學(xué)習(xí)新突破!

   時(shí)間:2025-01-29 13:54:19 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無障礙通道

在近日閉幕的2024年度全球機(jī)器人學(xué)習(xí)頂級(jí)盛會(huì)CoRL(Conference on Robot Learning)上,來自中國清華大學(xué)的高陽教授團(tuán)隊(duì)?wèi){借出色研究成果,在X-Embodiment Workshop中榮獲最佳論文獎(jiǎng)。該獎(jiǎng)項(xiàng)不僅彰顯了團(tuán)隊(duì)在機(jī)器人模仿學(xué)習(xí)領(lǐng)域的卓越貢獻(xiàn),也標(biāo)志著中國學(xué)者在全球機(jī)器人技術(shù)前沿探索中的顯著地位。

CoRL會(huì)議作為機(jī)器人學(xué)習(xí)領(lǐng)域的頂尖交流平臺(tái),每年都會(huì)吸引來自世界各地頂尖學(xué)府的最新研究成果。此次獲獎(jiǎng)的論文《Data Scaling Laws in Imitation Learning for Robotic Manipulation》,由高陽教授及其學(xué)生林凡淇、胡英東、盛平岳、Chuan Wen、游嘉誠共同完成。論文聚焦于模仿學(xué)習(xí)中數(shù)據(jù)規(guī)模定律的應(yīng)用,特別是在實(shí)現(xiàn)零樣本泛化方面的潛力。

研究過程中,團(tuán)隊(duì)通過精心設(shè)計(jì)的實(shí)驗(yàn)方案,收集了超過4萬次人類演示數(shù)據(jù),并在超過1.5萬次機(jī)器人實(shí)際操作中進(jìn)行了驗(yàn)證。實(shí)驗(yàn)發(fā)現(xiàn),策略的泛化能力關(guān)鍵在于環(huán)境和對(duì)象的多樣性,而非演示數(shù)量的簡(jiǎn)單累積?;谶@一發(fā)現(xiàn),團(tuán)隊(duì)創(chuàng)新性地提出了一種高效數(shù)據(jù)收集策略,僅需四位采集者花費(fèi)一下午時(shí)間,即可獲取足夠數(shù)據(jù),使機(jī)器人在新環(huán)境和新對(duì)象上的任務(wù)成功率接近90%。

為了進(jìn)一步驗(yàn)證模型的泛化能力,研究團(tuán)隊(duì)將機(jī)器人部署在多種野外環(huán)境中,包括火鍋店、咖啡館、電梯、噴泉等,這些環(huán)境在數(shù)據(jù)收集階段均未涉及。結(jié)果顯示,模型在這些全新環(huán)境中表現(xiàn)出色,泛化能力遠(yuǎn)超預(yù)期。

論文詳細(xì)闡述了實(shí)驗(yàn)設(shè)計(jì)過程,團(tuán)隊(duì)使用手持夾持器(UMI)在不同環(huán)境中收集人類演示數(shù)據(jù),并采用擴(kuò)散策略(Diffusion Policy)對(duì)數(shù)據(jù)進(jìn)行建模。實(shí)驗(yàn)任務(wù)包括倒水、鼠標(biāo)移動(dòng)、疊毛巾和拔掉充電器等,通過改變訓(xùn)練環(huán)境數(shù)量、物體數(shù)量和演示數(shù)量,深入研究了策略泛化性能的變化規(guī)律。

研究結(jié)果顯示,策略的泛化能力與訓(xùn)練物體數(shù)量、環(huán)境數(shù)量和訓(xùn)練環(huán)境-物體對(duì)數(shù)關(guān)系密切,符合冪律分布。隨著訓(xùn)練物體和環(huán)境數(shù)量的增加,策略在未見過的物體和環(huán)境上的表現(xiàn)顯著提高。這一發(fā)現(xiàn)為機(jī)器人模仿學(xué)習(xí)領(lǐng)域提供了新的理論支撐和實(shí)踐指導(dǎo)。

獲獎(jiǎng)團(tuán)隊(duì)成員林凡淇和胡英東均為清華大學(xué)交叉信息研究院(IIIS)的博士生,他們的研究重點(diǎn)聚焦于具身智能領(lǐng)域,致力于通過大規(guī)模數(shù)據(jù)實(shí)現(xiàn)機(jī)器人的人類水平操作能力。盛平岳是IIIS姚班的本科生,對(duì)機(jī)器人技術(shù)、模仿學(xué)習(xí)和算法有著濃厚興趣。Chuan Wen同為IIIS博士生,與賓夕法尼亞大學(xué)GRASP實(shí)驗(yàn)室保持密切合作,目前在伯克利人工智能研究(BAIR)擔(dān)任訪問學(xué)者。游嘉誠則是IIIS的一年級(jí)博士生。

高陽教授作為團(tuán)隊(duì)指導(dǎo)老師,現(xiàn)任上海期智研究院PI及清華大學(xué)交叉信息研究院助理教授,專注于強(qiáng)化學(xué)習(xí)與機(jī)器人領(lǐng)域的研究。他領(lǐng)導(dǎo)的具身視覺與機(jī)器人實(shí)驗(yàn)室(EVAR Lab)致力于利用人工智能技術(shù)賦能機(jī)器人,打造通用的具身智能框架。

CoRL 2024會(huì)議還宣布了其他最佳論文獲獎(jiǎng)名單,包括Kuo-Hao Zeng等人的《PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators》和Franck Djeumou等人的《One Model to Drift Them All》。這些研究同樣在機(jī)器人學(xué)習(xí)領(lǐng)域取得了重要突破,為未來的技術(shù)發(fā)展提供了寶貴借鑒。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version