ITBear旗下自媒體矩陣:

銀河通用攜手多家機(jī)構(gòu)發(fā)布GraspVLA,開啟端到端具身抓取新時(shí)代

   時(shí)間:2025-01-10 15:26:33 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無障礙通道

近日,銀河通用攜手北京智源人工智能研究院(BAAI)、北京大學(xué)及香港大學(xué)的科研團(tuán)隊(duì),共同發(fā)布了一款名為GraspVLA的突破性大模型。這款模型專注于具身智能領(lǐng)域,旨在通過人工智能技術(shù)的深度融入,使機(jī)器人等物理實(shí)體具備感知、學(xué)習(xí)和與環(huán)境動(dòng)態(tài)交互的能力。

GraspVLA大模型的構(gòu)建過程包括預(yù)訓(xùn)練和后訓(xùn)練兩個(gè)階段。其預(yù)訓(xùn)練階段完全基于海量的合成大數(shù)據(jù),數(shù)據(jù)量之巨前所未有,達(dá)到了十億幀“視覺-語言-動(dòng)作”對(duì)。這一龐大的數(shù)據(jù)集使模型掌握了泛化閉環(huán)抓取能力,奠定了堅(jiān)實(shí)的基礎(chǔ)。

經(jīng)過預(yù)訓(xùn)練的GraspVLA模型,能夠直接實(shí)現(xiàn)從模擬環(huán)境到現(xiàn)實(shí)環(huán)境的無縫遷移。在未見過的真實(shí)場(chǎng)景和物體上,模型無需任何先驗(yàn)知識(shí)即可進(jìn)行測(cè)試,并展現(xiàn)出強(qiáng)大的泛化能力,滿足了大多數(shù)產(chǎn)品的實(shí)際需求。對(duì)于特定場(chǎng)景下的特殊需求,后訓(xùn)練階段僅需少量樣本學(xué)習(xí),即可將基礎(chǔ)能力遷移至特定場(chǎng)景,既保持了高泛化性,又形成了符合產(chǎn)品需求的專業(yè)技能。

為了驗(yàn)證GraspVLA模型的泛化能力,官方提出了七大“金標(biāo)準(zhǔn)”,包括光照泛化、背景泛化、平面位置泛化、空間高度泛化、動(dòng)作策略泛化、動(dòng)態(tài)干擾泛化和物體類別泛化。這些標(biāo)準(zhǔn)全面覆蓋了機(jī)器人抓取任務(wù)中可能遇到的各種復(fù)雜情況。

在光照泛化測(cè)試中,模型在不同光照條件下均能保持穩(wěn)定的抓取性能。背景泛化測(cè)試中,模型在復(fù)雜多變的背景下依然能夠準(zhǔn)確識(shí)別目標(biāo)物體。平面位置泛化和空間高度泛化測(cè)試中,模型能夠靈活應(yīng)對(duì)不同位置和高度的目標(biāo)物體。動(dòng)作策略泛化測(cè)試中,模型展現(xiàn)了多樣化的抓取策略。動(dòng)態(tài)干擾泛化測(cè)試中,模型在動(dòng)態(tài)環(huán)境中依然能夠準(zhǔn)確抓取目標(biāo)。物體類別泛化測(cè)試中,模型對(duì)不同類別的物體均展現(xiàn)出了良好的抓取能力。

GraspVLA大模型的發(fā)布,標(biāo)志著具身智能領(lǐng)域取得了重大進(jìn)展。它不僅提升了機(jī)器人在復(fù)雜環(huán)境中的抓取能力,還為未來人工智能與物理實(shí)體的深度融合奠定了堅(jiān)實(shí)基礎(chǔ)。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version