在科技日新月異的今天,人工智能與機(jī)器人技術(shù)正以前所未有的速度交融發(fā)展。2023年以來(lái),以大模型為核心的人工智能技術(shù)和以具身智能為特征的機(jī)器人技術(shù),共同構(gòu)成了科技進(jìn)步的兩大支柱。將人工智能算法,尤其是大模型技術(shù),應(yīng)用于提升機(jī)器人的智能水平,已成為一種必然趨勢(shì)。
在此背景下,“機(jī)器人學(xué)習(xí)”與“具身大腦”這兩個(gè)概念迅速升溫,成為業(yè)界熱議的焦點(diǎn)。通過與多位行業(yè)專家的交流,我們了解到,“具身大腦”的定義并非一成不變,它泛指任何將人工智能算法與機(jī)器人技術(shù)相結(jié)合,以提升機(jī)器人在交互、感知與控制方面能力的技術(shù)體系。
當(dāng)前,國(guó)內(nèi)專注于機(jī)器人模型研發(fā)的廠商大致可以分為兩大派別:身體控制派和交互感知派。而從技術(shù)源頭上看,這些廠商又可細(xì)分為視覺感知派、強(qiáng)化學(xué)習(xí)派和語(yǔ)言模型派等多個(gè)流派。然而,在解決機(jī)器人大腦問題上,各技術(shù)流派之間存在著路徑差異和觀點(diǎn)分歧。
在過去的一年里,研究基礎(chǔ)模型出身的大模型派在機(jī)器人領(lǐng)域的落地實(shí)踐尤為艱難。除了激烈的市場(chǎng)競(jìng)爭(zhēng)外,更關(guān)鍵的是,端側(cè)模型在機(jī)器人終端的落地還面臨著芯片開發(fā)的挑戰(zhàn),這導(dǎo)致機(jī)器人廠商、大模型廠商與芯片廠商之間形成了一種復(fù)雜的三角關(guān)系。
這種三角關(guān)系目前正處于一種負(fù)向增強(qiáng)的反饋循環(huán)中。首先,端側(cè)模型在機(jī)器人上的應(yīng)用需要適配特定的芯片,但芯片的迭代往往基于市場(chǎng)需求。由于機(jī)器人尚未從專業(yè)級(jí)產(chǎn)品轉(zhuǎn)變?yōu)橄M(fèi)級(jí)產(chǎn)品,其出貨量遠(yuǎn)低于手機(jī)、PC等硬件設(shè)備,因此適配機(jī)器人端側(cè)模型的芯片遲遲未能推出。其次,機(jī)器人消費(fèi)市場(chǎng)的擴(kuò)大高度依賴于智能水平的提升,即AI模型的迭代,而AI模型的升級(jí)又需要大量真實(shí)世界的高質(zhì)量數(shù)據(jù),這些數(shù)據(jù)需要通過機(jī)器人與用戶進(jìn)行交互來(lái)獲取。然而,目前具身VLA(一種機(jī)器人大腦模型)的實(shí)際效果還遠(yuǎn)未達(dá)到消費(fèi)級(jí)可用的精度和準(zhǔn)確率要求,導(dǎo)致機(jī)器人的智能水平迭代緩慢,出貨量進(jìn)一步減少,這又反過來(lái)影響了芯片的研發(fā)和出貨成本。
在這段三角關(guān)系中,模型廠商、芯片廠商和機(jī)器人廠商都期待著對(duì)方能主動(dòng)打破僵局。然而,現(xiàn)實(shí)卻陷入了僵局,難以自拔。大模型在機(jī)器人終端的落地是端側(cè)AI發(fā)展的一個(gè)縮影,至少在短期內(nèi),將大模型商業(yè)化寄托于機(jī)器人領(lǐng)域可能會(huì)面臨重重困難。
盡管如此,大模型在提升機(jī)器人智能水平方面仍然扮演著至關(guān)重要的角色。它們主要作為“大腦”存在,負(fù)責(zé)泛化與規(guī)劃能力。然而,在目前的實(shí)際應(yīng)用中,大模型更多地是幫助機(jī)器人進(jìn)行簡(jiǎn)單的任務(wù)理解與拆分。機(jī)器人仍然在執(zhí)行逐個(gè)任務(wù),更多停留在交互層面,尚未展現(xiàn)出學(xué)習(xí)能力的顯著增強(qiáng)和多模態(tài)任務(wù)的實(shí)現(xiàn)。機(jī)器人在執(zhí)行任務(wù)時(shí)更多地依賴短期動(dòng)作規(guī)劃,而很少用到大模型的長(zhǎng)期規(guī)劃能力。
為了提升機(jī)器人的智能水平,大模型廠商正在積極探索各種方法。例如,面壁智能正致力于讓機(jī)器人能夠完成更加多樣、復(fù)雜且多步操作的任務(wù),以提高執(zhí)行準(zhǔn)確率和泛化性。而RockAI則選擇將文本、語(yǔ)音、視頻以及機(jī)體參數(shù)進(jìn)行整體對(duì)齊,然后一起輸入給大模型進(jìn)行處理。然而,這些努力仍然處于初級(jí)階段,大模型的泛化、規(guī)劃、糾錯(cuò)等能力在機(jī)器人側(cè)的應(yīng)用還相對(duì)初步。
數(shù)據(jù)不足是當(dāng)前大模型在機(jī)器人領(lǐng)域應(yīng)用面臨的最大挑戰(zhàn)之一。由于機(jī)器人尚未實(shí)現(xiàn)量產(chǎn),無(wú)法從專業(yè)級(jí)轉(zhuǎn)變?yōu)橄M(fèi)級(jí)產(chǎn)品,因此難以獲取大量的、多元化的預(yù)訓(xùn)練數(shù)據(jù)。這導(dǎo)致模型廠商在提升模型泛化性方面遇到了困難。不同形態(tài)的機(jī)器人對(duì)大模型有不同的要求,而短時(shí)間內(nèi)實(shí)現(xiàn)設(shè)備泛化也面臨著諸多挑戰(zhàn)。
除了數(shù)據(jù)問題外,算力也是制約機(jī)器人端模型發(fā)展的關(guān)鍵瓶頸之一。目前,國(guó)內(nèi)研究基礎(chǔ)大模型的主力軍雖然也在發(fā)力“端側(cè)小模型”,但起步較晚、技術(shù)進(jìn)展緩慢。云端大模型雖然參數(shù)規(guī)模龐大、能力強(qiáng)大,但無(wú)法在機(jī)器人本體上離線部署。而端側(cè)小模型雖然能夠在機(jī)器人上運(yùn)行,但在任務(wù)泛化、智能理解等方面仍無(wú)法與云端大模型相提并論。因此,如何在保持大模型能力的同時(shí)實(shí)現(xiàn)高效部署是當(dāng)前亟待解決的問題之一。
為了應(yīng)對(duì)這些挑戰(zhàn),不少大模型廠商正在積極探索解決方案。例如,一些廠商通過端云協(xié)作的方式實(shí)現(xiàn)大小模型的協(xié)同訓(xùn)練和部署。他們首先在云端訓(xùn)練大模型,然后通過知識(shí)蒸餾、模型量化等方法得到一個(gè)小模型,再將其部署在終端上。這種做法既能保持大模型的能力,又能實(shí)現(xiàn)更高效的部署。還有一些廠商通過優(yōu)化推理框架、適配不同芯片等方式來(lái)提高模型在終端上的運(yùn)行效率。
然而,這些努力仍然需要機(jī)器人廠商、芯片廠商和大模型廠商之間的緊密合作。只有三方共同努力、互相支持,才能打破當(dāng)前的僵局,推動(dòng)機(jī)器人技術(shù)向前發(fā)展。
值得注意的是,雖然當(dāng)前機(jī)器人領(lǐng)域面臨著諸多挑戰(zhàn)和困難,但業(yè)界對(duì)未來(lái)仍然充滿信心。隨著技術(shù)的不斷進(jìn)步和市場(chǎng)的逐步擴(kuò)大,相信在不久的將來(lái),機(jī)器人技術(shù)一定能夠取得更大的突破和進(jìn)展。
在探索機(jī)器人技術(shù)的過程中,不少業(yè)內(nèi)人士也提出了寶貴的建議和意見。他們認(rèn)為,要推動(dòng)機(jī)器人技術(shù)的發(fā)展,需要注重技術(shù)創(chuàng)新和人才培養(yǎng)。同時(shí),還需要加強(qiáng)產(chǎn)業(yè)鏈上下游之間的合作與協(xié)同,共同推動(dòng)整個(gè)行業(yè)的健康發(fā)展。
還有一些專家指出,當(dāng)前機(jī)器人領(lǐng)域的研究還存在一些盲點(diǎn)和不足之處。例如,對(duì)于機(jī)器人的本體構(gòu)型、肢體參數(shù)等方面的研究還不夠深入;對(duì)于如何更好地利用仿真數(shù)據(jù)進(jìn)行模型訓(xùn)練等問題也需要進(jìn)一步探索。
盡管如此,隨著技術(shù)的不斷進(jìn)步和市場(chǎng)的逐步擴(kuò)大,相信這些問題都將得到逐步解決。未來(lái),機(jī)器人技術(shù)一定能夠在更多領(lǐng)域得到廣泛應(yīng)用,為人類社會(huì)的發(fā)展和進(jìn)步做出更大的貢獻(xiàn)。