ITBear旗下自媒體矩陣:

人形機(jī)器人時(shí)代來(lái)臨?4大CEO激辯,未來(lái)已至還是尚早?

   時(shí)間:2024-09-20 16:17:27 來(lái)源:ITBEAR作者:柳晴雪編輯:瑞雪 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR】9月20日消息,

作者 | 王欣

編輯 | 苗正卿

頭圖 | 阿里供圖

“通用機(jī)器人一定要做成人形,而且是有兩條腿的人形?!?/p>

在圓桌討論的一開(kāi)始,逐際動(dòng)力創(chuàng)始人張巍就火藥味十足地定義了他眼中的人形機(jī)器人理想形態(tài)。自稱(chēng)“先看腿”的張巍認(rèn)為:人形機(jī)器人不是傳統(tǒng)機(jī)械臂公司的延續(xù),它的本質(zhì)就是要長(zhǎng)出兩條腿來(lái)。通用的移動(dòng)能力其實(shí)是不太需要雙臂的,只要弄成一個(gè)單臂就可以了。

不過(guò)有趣的是,逐際動(dòng)力最新的人形機(jī)器人——CL-1采用的卻是雙臂設(shè)計(jì)。

而北大-銀河通用具身智能聯(lián)合實(shí)驗(yàn)室主任王鶴則持有不同觀點(diǎn),王鶴認(rèn)為:相比雙足形態(tài),將兩條腿并成一條的輪式能以最便宜的價(jià)格穩(wěn)定落地。這是因?yàn)槠降厣?,輪子是夠用的。而在零售商超和工廠場(chǎng)景的諸多動(dòng)作都需要用到雙臂。

在9月19日,云棲大會(huì)主題為《人形機(jī)器人的“圖靈時(shí)刻”》的圓桌對(duì)話現(xiàn)場(chǎng),星動(dòng)紀(jì)元?jiǎng)?chuàng)始人陳建宇、北大-銀河通用具身智能聯(lián)合實(shí)驗(yàn)室主任王鶴、宇樹(shù)科技創(chuàng)始人王興興、逐際動(dòng)力創(chuàng)始人張巍以及至頂科技CEO高飛,共同探討了人形機(jī)器人當(dāng)下最受關(guān)注的幾個(gè)問(wèn)題。

與路線高度統(tǒng)一的大模型行業(yè)不同,這些人形機(jī)器人公司的路線各不相同,他們旗幟鮮明地表明不同觀點(diǎn),也讓我充分感受到人形機(jī)器人行業(yè)最有趣的地方:永遠(yuǎn)不缺乏顛覆傳統(tǒng)的“暴論”和鮮活的非共識(shí)。

比如,在一眾人形機(jī)器人和大模型公司都在探索商業(yè)化路徑時(shí),張巍反而認(rèn)為:

要避免過(guò)早做商業(yè)化。

張巍舉了ChatGPT2.0的例子——在ChatGPT初期做一個(gè)超級(jí)應(yīng)用,要打一堆補(bǔ)丁增加了部署和售后的很多成本,最終商業(yè)邏輯還是挺難跑通。關(guān)鍵點(diǎn)還是要看技術(shù)的開(kāi)關(guān)何時(shí)打開(kāi)。

而在衡量人形機(jī)器人技術(shù)水平的話題上,大家的想法終于收斂到了一個(gè)關(guān)鍵節(jié)點(diǎn):

泛化。

“把一個(gè)機(jī)器人拉到它以前沒(méi)有見(jiàn)到的場(chǎng)景,只要簡(jiǎn)單演示一下怎么操作,它就可以很自然地做好了。”宇樹(shù)科技創(chuàng)始人王興興認(rèn)為這種泛化的性質(zhì)非常有價(jià)值。

那么如何測(cè)試機(jī)器人有沒(méi)有達(dá)到一個(gè)真正的泛化性?

“在演示的過(guò)程中,你就給它搗亂,走的時(shí)候突然去踹一腳,突然給它下面擺很多不平的東西。它做操作抓取的時(shí)候,突然把這個(gè)東西給拿開(kāi)。再看它還能不能很穩(wěn)定的、很智能的去適應(yīng)完成?!毙莿?dòng)紀(jì)元?jiǎng)?chuàng)始人陳建宇給出了方法論。

這種測(cè)試方法,讓我想到了宇樹(shù)出圈的“王興興暴力測(cè)試機(jī)器人”場(chǎng)景。

和許多機(jī)器人公司相同,2022年表現(xiàn)驚艷的大語(yǔ)言模型,讓曾經(jīng)遲疑的王興興看到了人形機(jī)器人的更多可能,于是很快發(fā)布了兩款人形機(jī)器人。

這次大模型浪潮,也給具身智能帶來(lái)了新的機(jī)遇——“行業(yè)開(kāi)始思考,怎么樣去做機(jī)器人的Scaling Law?!标惤ㄓ钸@樣總結(jié)大模型帶來(lái)的啟發(fā)。

受到大模型技術(shù)的影響,機(jī)器人領(lǐng)域的發(fā)展經(jīng)歷了從“規(guī)則驅(qū)動(dòng)”到“算法驅(qū)動(dòng)”再到“數(shù)據(jù)驅(qū)動(dòng)”的跳變。

王興興表示,通用機(jī)器人尤其通用人形機(jī)器人算是目前大模型最好的落地載體。

在巨量的資金人才投入和技術(shù)的快速迭代下,大家對(duì)于未來(lái)仍然較為樂(lè)觀。

王鶴預(yù)測(cè),從明年開(kāi)始將會(huì)是商用的元年,銀河通用5年的目標(biāo)則是在零售和工廠場(chǎng)景中達(dá)到1萬(wàn)臺(tái)。銀河通用向虎嗅展示了他們?cè)谡桂^現(xiàn)場(chǎng)布置的零售場(chǎng)景,前來(lái)體驗(yàn)的觀眾排出了10米的長(zhǎng)隊(duì),觀眾在iPad端下單后,銀河通用的GALBOT的通用機(jī)器人從貨架上拿到對(duì)應(yīng)物品遞給觀眾。而這項(xiàng)技術(shù)已經(jīng)達(dá)到了產(chǎn)業(yè)化的邊界。

銀河智能展臺(tái)排起了十米長(zhǎng)隊(duì) 圖源:銀河智能

王興興認(rèn)為,三年內(nèi)相對(duì)通用性的人形機(jī)器人大概率會(huì)出現(xiàn)。5年后,可能會(huì)發(fā)生天翻地覆的變化。

在圓桌討論的最后環(huán)節(jié),大家對(duì)一個(gè)問(wèn)題卻一反常態(tài)地達(dá)成了共識(shí),或許這能解釋這些人早早潛入人形機(jī)器人行業(yè)的原因。

——當(dāng)被問(wèn)道“人形機(jī)器人的圖靈時(shí)刻是否會(huì)到來(lái)”時(shí),所有嘉賓都堅(jiān)定地相信,這一時(shí)刻終會(huì)來(lái)臨。

以下為對(duì)話實(shí)錄,由虎嗅整理編輯:(在不改變?cè)獾那闆r下,有刪減調(diào)整)

主持人:AI已經(jīng)讓我們的信息有點(diǎn)真假難辨了,但目前AI還是基于文本,它不是物理世界的,所以我們需要討論一下人形機(jī)器人這樣的物理智能載體,它在大模型帶動(dòng)下會(huì)發(fā)生什么樣的變化,或者某一天我們也會(huì)迎來(lái)它的圖靈時(shí)刻?令我們難分真假,敲門(mén)的不知道是機(jī)器還是人,這一天是否會(huì)到來(lái)?我們圍繞這個(gè)話題請(qǐng)4位嘉賓交流。

我們第一輪問(wèn)題討論的是初心,因?yàn)榇蠹叶际莿?chuàng)業(yè)者,創(chuàng)業(yè)者初心是很重要的,你們初心就是產(chǎn)業(yè)的創(chuàng)新。第一個(gè)問(wèn)題想問(wèn)王興興,我知道宇樹(shù)已經(jīng)創(chuàng)立很多年了,曾經(jīng)一度你還反對(duì)過(guò)做人形機(jī)器人。但前兩年宇樹(shù)很快把人形機(jī)器人做出來(lái)了,所以我想問(wèn)的是:什么使你改變了態(tài)度,還是一開(kāi)始你隱藏了意圖?

王興興:對(duì),三四年前有投資人問(wèn)我,做不做人形機(jī)器人,我堅(jiān)決反對(duì)做人形機(jī)器人。

原因也比較簡(jiǎn)單,2009、2010年我大一時(shí),就做過(guò)小的人形機(jī)器人。我發(fā)現(xiàn),當(dāng)前人類(lèi)技術(shù)其實(shí)沒(méi)有辦法駕馭這么復(fù)雜的機(jī)器人系統(tǒng)。一個(gè)機(jī)器人系統(tǒng)復(fù)雜到一定程度以后,就變成非人力可維護(hù),做一些簡(jiǎn)單事情可以,想要復(fù)雜或者泛用性,人類(lèi)的技術(shù)沒(méi)辦法駕馭,所以就沒(méi)有做人形機(jī)器人。

但后來(lái)大家也知道,最近一波差不多從2016年開(kāi)始,新的AI技術(shù)誕生了,并且2018年、2019年,在機(jī)器人AI上已經(jīng)看到一些苗頭。在2022年時(shí),大語(yǔ)言模型發(fā)展非常驚艷,我們就在2023年初開(kāi)始正式做人形機(jī)器人。大家可以看到,雖然我們做人形機(jī)器人起步相對(duì)比較晚的,但到現(xiàn)在差不多一年半多時(shí)間,我們已經(jīng)發(fā)布過(guò)兩款人形機(jī)器人,而且目前取得的效果也非常驚艷。所以,在某種程度上,無(wú)論是硬件還是軟件的發(fā)展節(jié)奏,都超過(guò)我自己的預(yù)計(jì)。

主持人:第二個(gè)問(wèn)題我想問(wèn)一下張巍,我看到我們的定位寫(xiě)的是我們是一個(gè)通用機(jī)器人公司,通用機(jī)器人一定要做成人形嗎?因?yàn)檫@個(gè)很有爭(zhēng)議,你怎么看?

張?。何矣X(jué)得一定要做成人形,而且是有兩條腿的人形機(jī)器人。可能這個(gè)見(jiàn)仁見(jiàn)智,每個(gè)人觀點(diǎn)不一樣。

我簡(jiǎn)單說(shuō)一下我對(duì)通用機(jī)器人的理解,我首先覺(jué)得,機(jī)器人和AI,它的使命是不同的,AI是代替人來(lái)思考決策的,機(jī)器人本質(zhì)上要代替人來(lái)運(yùn)動(dòng)的,所以它必須能動(dòng)。大家看到的各式各樣的機(jī)器人非常多,它們本質(zhì)上就在做兩件事情,一件事情就是要移動(dòng),另外一件事情就是操作。所謂的通用機(jī)器人,就是在這兩個(gè)能力上都能達(dá)到跟人一樣的環(huán)境適應(yīng)能力和任務(wù)的泛化性。

值得一提的是,通用的移動(dòng)能力其實(shí)是不太需要雙臂的,只要弄成一個(gè)單臂就可以了。但是通用的操作能力反而是需要雙腿的,不然你可能都沒(méi)法到人能夠到的地方去干活。我覺(jué)得這一代AGI的發(fā)展,相比上一代最大的區(qū)別,是從專(zhuān)用到通用的一個(gè)變化。可是在大模型出來(lái)之前,我感覺(jué)通用這個(gè)詞是個(gè)貶義詞,感覺(jué)一說(shuō)什么通用就證明它是沒(méi)什么用。

但是大模型出來(lái)以后,大家發(fā)現(xiàn)像以前我們這種在專(zhuān)業(yè)領(lǐng)域里搜數(shù)據(jù)、做專(zhuān)項(xiàng)任務(wù)的訓(xùn)練方式是有很大局限性的,反而我們要忽略一下專(zhuān)項(xiàng)的能力,要先構(gòu)建一個(gè)通用的基礎(chǔ)模型的能力,然后再在上面長(zhǎng)出專(zhuān)用的能力,這才是系統(tǒng)化解決泛化性的一個(gè)關(guān)鍵。我覺(jué)得軟件算法的通用性靠大模型技術(shù);機(jī)器人跟物理世界交互的這個(gè)通用性,靠人形機(jī)器人。這也是我們公司關(guān)注的賽道。

主持人:但是您剛才說(shuō)的是有腿的,我不是挑事,我看到王鶴老師的官網(wǎng)上有機(jī)器人沒(méi)有腿的。我想問(wèn)一下王鶴您對(duì)人形機(jī)器人怎么理解,有什么形態(tài)算人形?

王鶴:我們公司叫銀河通用,所以從建立的第一天,我們的目標(biāo)就是要達(dá)成通用機(jī)器人。但是通用機(jī)器人有一個(gè)過(guò)程,它要先做到單一場(chǎng)景、多任務(wù)、可移動(dòng),然后再做到多場(chǎng)景、多任務(wù),最后做到全場(chǎng)景,幾乎是全任務(wù)。在這個(gè)過(guò)程中,不同階段的形態(tài),也有它最適合、最經(jīng)濟(jì)、最穩(wěn)定的載體。所以通用機(jī)器人這個(gè)萬(wàn)億市場(chǎng)剛剛開(kāi)局的時(shí)候,我們選擇了先從幾個(gè)場(chǎng)景里頭的多任務(wù)做起:比如說(shuō)在零售商超場(chǎng)景去上貨、下貨,在工廠里去抱箱子。

在這些場(chǎng)合,我們發(fā)現(xiàn)平地上,輪子是夠用的。并不能說(shuō)我們沒(méi)有腿,我們是把兩只腿并在了一起,這樣它能夠手碰到地,撿地面的東西。那為什么要雙手呢?因?yàn)槲覀儼l(fā)現(xiàn),抱箱子需要兩只手,在超市里頭一只手拿籃子、一只手拿貨,也是需要兩只手。

所以,我們的形態(tài)目前是360度輪,雙腿并成一條腿,站直1.73米,最高可以夠到2.4米,蹲下來(lái)可以摸地,能以最便宜的價(jià)格、最穩(wěn)定的機(jī)器人技術(shù)率先實(shí)現(xiàn)可以落地的場(chǎng)景。

主持人:我聽(tīng)明白了,王鶴老師說(shuō)也要有腿,但是對(duì)腿的定義不一樣。我問(wèn)一下陳建宇,我們的定位當(dāng)中也一個(gè)詞叫“具身智能和人形機(jī)器人”,大家討論的時(shí)候總是把兩個(gè)詞放到一塊兒,你怎么看?

陳建宇:我覺(jué)得這是大家比較容易混淆的概念,雖然這兩個(gè)詞非常的相近,但是它們的側(cè)重點(diǎn)還是不太相同的。對(duì)于具身智能來(lái)說(shuō),我們主要的是關(guān)注智能性所謂軟的這個(gè)層面。但它對(duì)形態(tài)其實(shí)是要求不高的,可以是人形的、四足的、輪式的、機(jī)械臂的,甚至就是一個(gè)桌子、椅子,只要它能動(dòng),都可以給它賦予具身智能,它是在這一層面更廣泛的概念。

當(dāng)然,人形機(jī)器人顧名思義,形態(tài)一定是人形的。當(dāng)然它不僅僅是要研究人形機(jī)器人所對(duì)應(yīng)的具身智能怎么去做?同時(shí)我們也需要去研究它的本體怎么去做?這里面有很多的挑戰(zhàn)性,包括我們講人形機(jī)器人還會(huì)討論它的核心零部件、它的產(chǎn)業(yè)鏈、它的工程量產(chǎn)。

星動(dòng)紀(jì)元同時(shí)非常重視具身智能和人形機(jī)器人這兩個(gè)層面,其實(shí)也是代表我們非常重視軟件和硬件的協(xié)同一體的發(fā)展。因?yàn)閷?duì)我們?nèi)祟?lèi)來(lái)說(shuō),我們?nèi)四X和身體本身就是不可分割的,本身就是從小到大我們同時(shí)去發(fā)育起來(lái)的,所以我們也是秉承這個(gè)觀點(diǎn),我們認(rèn)為機(jī)器人的軟件和硬件也需要協(xié)同發(fā)展。

主持人:不只是腿的變化,其他的物件,能動(dòng)的桌子、椅子也是一種具身智能。接下來(lái)我問(wèn)第二輪問(wèn)題,人形機(jī)器人現(xiàn)在很熱,很多人關(guān)心,有這種表演等等,大家都去看。但是不同的人看人形機(jī)器人他的角度不一樣。請(qǐng)各位聊聊,人形機(jī)器人怎么看門(mén)道,它的技術(shù)含量到底體現(xiàn)在哪兒?如果我們?nèi)ヒ粋€(gè)展會(huì)看到人形機(jī)器人你到底看哪個(gè)位置,會(huì)說(shuō)這個(gè)東西有技術(shù)含量很大?

陳建宇:如果我們非常粗略的把人形機(jī)器人技術(shù)分成三大塊,就是大腦、小腦和本體。相對(duì)來(lái)說(shuō),這里面最關(guān)鍵的,我個(gè)人認(rèn)為是小腦的層面,因?yàn)樗亲罨A(chǔ)的一個(gè)部分。如果只有一個(gè)本體和一個(gè)大腦,缺了小腦的話,只能成為會(huì)思考的一堆爛鐵。所以,它是承接大腦的你的思考、你的規(guī)劃,并調(diào)用我們這個(gè)硬件本體,真正能幫助我們到這個(gè)世界里面干活的。

而同時(shí)我個(gè)人認(rèn)為,相比于其他幾個(gè)部分,現(xiàn)在人形機(jī)器人的小腦部分,反而是最薄弱的,同時(shí)也是技術(shù)的不確定性最高的,最沒(méi)有收斂的。雖然本體核心硬件的做法也非常難,但是我們可以借鑒很多產(chǎn)業(yè),包括工業(yè)機(jī)器人、電動(dòng)車(chē)的產(chǎn)業(yè)。受益于大語(yǔ)言模型,大腦的技術(shù)相對(duì)來(lái)說(shuō)還挺強(qiáng)大的。但是對(duì)于小腦來(lái)說(shuō),我們發(fā)現(xiàn)大部分的機(jī)器人現(xiàn)在還是用的十幾年前、甚至幾十年前的工業(yè)機(jī)器人或者掃地機(jī)這一類(lèi)的技術(shù)來(lái)去做。所以,這是局限的一個(gè)關(guān)鍵。

我們希望人形機(jī)器人的小腦,使它的雙腿能夠像人一樣的又穩(wěn)又快又靈活,能夠幫助我們到達(dá)任何地方,我們希望它的雙手能夠幫助我們上的廳堂、下的廚房、進(jìn)得工廠,什么都能夠去干,做非常靈巧的事情,這是我們希望的,但是現(xiàn)在其實(shí)沒(méi)達(dá)到。

回答剛才的問(wèn)題,怎么去鑒別?我們會(huì)看到各種各樣的一些demo存在。我覺(jué)得鑒別的點(diǎn)是,不管是行走還是操作有沒(méi)有達(dá)到一個(gè)真正的泛化性?比如說(shuō)在演示的過(guò)程中,你就給它搗亂,走的時(shí)候突然去踹一腳,突然給它下面擺很多不平的東西。然后它做操作抓取的時(shí)候,突然把這個(gè)東西給拿開(kāi),或者給它搗一些亂。你看它還能不能很穩(wěn)定的、很智能的去適應(yīng)、去完成。

主持人:我擔(dān)心您說(shuō)完之后,大家把線頭拉上了。王鶴老師,您怎么看?

王鶴:銀河通用目前最關(guān)心的是機(jī)器人上半身的“手眼腦”協(xié)調(diào),這里有大腦、有小腦、有對(duì)本體的控制。首先是我們的泛化抓取技術(shù),這項(xiàng)技術(shù)可以明了地展示何謂具身智能。泛化的意思是不管給我透明的、高光的、吸光的,各種材質(zhì),任意擺放的物體,機(jī)器人都能抓。此外,像抱箱子、拿藥盒,是完全靠視覺(jué)引導(dǎo)的泛化,貨架、地面等等都沒(méi)有任何二維碼或者標(biāo)記,跟我們?nèi)祟?lèi)一樣,都是看圖去理解。談到跟大腦耦合,那就是我們說(shuō)一句話,機(jī)器人直接零代碼部署。第一次見(jiàn)過(guò)這個(gè)任務(wù),機(jī)器人就能夠操作,包括我們現(xiàn)在最前沿的技術(shù),端到端的大模型。(屏幕上展示的)是我們?cè)谟糜顦?shù)的四足機(jī)器人去訓(xùn)練和測(cè)試導(dǎo)航能力,我們說(shuō)一句話,在完全沒(méi)見(jiàn)過(guò)的環(huán)境中,機(jī)器人就能夠沿著我們的命令不見(jiàn)圖的、只用視頻作為輸入按照指令行走。

所以,我認(rèn)為人形機(jī)器人的技術(shù)含金量可以從這兩個(gè)地方總結(jié):一是它的泛化性到底有多強(qiáng),是不是通向未來(lái)真正的通用;二是它能不能跟人之間能夠用自然語(yǔ)言來(lái)溝通,然后實(shí)現(xiàn)零代碼的部署。

主持人:不止能干活,還能交流,興興怎么看,你主要看哪個(gè)位置?

王興興:對(duì)人形機(jī)器人,大家還是希望有一個(gè)AI模型,無(wú)論是運(yùn)動(dòng)、操作都能做。當(dāng)下,基本上大家分開(kāi)的會(huì)多一些。比如說(shuō)對(duì)于全身運(yùn)動(dòng)的話,我個(gè)人希望到明年,機(jī)器人能做非常復(fù)雜的全身運(yùn)動(dòng)表演之類(lèi)的事情。當(dāng)然,我們現(xiàn)在也做了一部分,但目前大部分動(dòng)作還是單個(gè)做訓(xùn)練的,不是全連在一起,而且每次訓(xùn)練還是挺花時(shí)間和花人力的。如果能有一套全面的,比如說(shuō)能做全身運(yùn)動(dòng),只要給它看個(gè)視頻,或者做一個(gè)簡(jiǎn)單的演示,它完全能學(xué)會(huì)一個(gè)動(dòng)作,這樣對(duì)于表演這個(gè)事情,就會(huì)有天翻地覆的變化。

另外,希望有更好的操作能力。比如操作一些簡(jiǎn)單桌面的整理,或者做一些復(fù)雜的生產(chǎn)裝備,或者相對(duì)來(lái)說(shuō)設(shè)計(jì)更復(fù)雜的推理事情,操作能力有更強(qiáng)的提升,或者真正解決生活中手臂操作相關(guān)的事情,都是非常有價(jià)值的。目前這兩部分,大家都已經(jīng)取得了一定的進(jìn)步,但離真正比較泛用性的還有一些距離。舉個(gè)例子,你把一個(gè)機(jī)器人拉到它以前沒(méi)有見(jiàn)到的場(chǎng)景,你只要簡(jiǎn)單演示一下怎么操作,它就可以很自然地,或者自我強(qiáng)化地做好了,我覺(jué)得這是非常有價(jià)值的。

主持人:如果你看到一個(gè)機(jī)器人,第一眼看哪個(gè),眼光落到哪里?

王興興:都可以看一下,個(gè)人的審美不太一樣!

主持人:張巍覺(jué)得呢?

張?。嚎礄C(jī)器人門(mén)道,和幾位嘉賓一樣,就看兩個(gè)關(guān)鍵詞:泛化、通用,這是本次變革最關(guān)鍵的兩個(gè)詞。具體看哪兒,看腦還是手,我提供一個(gè)角度,咱們先看腿。因?yàn)槿诵螜C(jī)器人之所以是一個(gè)新的物種,它不是一個(gè)傳統(tǒng)機(jī)械臂公司的延續(xù),它的本質(zhì)就是要長(zhǎng)出兩條腿來(lái),我覺(jué)得腿是機(jī)器人有通用能力的基礎(chǔ)。看腿看什么呢?主要看兩點(diǎn):一個(gè)是腿有沒(méi)有完成本職的工作,地形的泛化能力;二是看它能否支撐雙臂完成全身協(xié)同通用的操作,這也是腿存在的重要價(jià)值。

我們的視頻大家看到這個(gè)小的雙足機(jī)器人,它是沒(méi)有腳掌的,相當(dāng)于人踩著高蹺,其實(shí)是很難平衡的,是我們用來(lái)測(cè)試AI算法能力的。大家可以看到機(jī)器人地形上適應(yīng)能力和泛化能力基本達(dá)到了類(lèi)人的能力,我個(gè)人踩著高蹺在山里,你推我一把,我估計(jì)也會(huì)摔倒,這方面算是一個(gè)比較重要的進(jìn)展。

另外,它在一定負(fù)載4公斤前提下全身協(xié)同的操作,這樣的展示,尤其有負(fù)載的情況下相對(duì)比較少的。主要是雙腿既要保持自身的平衡,同時(shí)要四肢協(xié)同發(fā)力來(lái)完成這樣大負(fù)載的操作。過(guò)程中還要?jiǎng)討B(tài)通過(guò)腿,全身協(xié)調(diào)來(lái)調(diào)整重心,有一定的挑戰(zhàn)性。但這樣全身協(xié)同的操作任務(wù),我覺(jué)得是區(qū)分人形機(jī)器人和固定雙臂機(jī)器人最重要的區(qū)別,也是我們比較關(guān)注的技術(shù)點(diǎn)。

主持人:我總結(jié)一下,幾位看法有一定一致性。

一,它不能認(rèn)生,它去別的地方就認(rèn)生,“社恐”這個(gè)事就不行,它必須是E型人格。

二,雙手和雙腳,四肢的作用很重要,移動(dòng)和操作的控制是非常重要的兩個(gè)觀察切入點(diǎn)。

接下來(lái),我們已經(jīng)討論完技術(shù)的點(diǎn),大家肯定很關(guān)心干活問(wèn)題,因?yàn)橹皟奢営懻摃r(shí)也提及到了,機(jī)器人到底什么時(shí)候能干活?干活指的是進(jìn)工廠,或者在商業(yè)場(chǎng)景,我們進(jìn)家門(mén)了。我想請(qǐng)幾位專(zhuān)家聊一聊,從你們眼中看,人形機(jī)器人干活的時(shí)間線是怎樣的?馬斯克很樂(lè)觀,馬斯克說(shuō)大概2-3代以后100萬(wàn)臺(tái)出貨量,可能很多人會(huì)購(gòu)買(mǎi),你們有沒(méi)有一個(gè)時(shí)間點(diǎn)?因?yàn)檫@是一個(gè)公眾場(chǎng)合,我希望大家說(shuō)的具體一點(diǎn),無(wú)論對(duì)和錯(cuò),以后我們做媒體都有稿子寫(xiě)了。

陳建宇:我覺(jué)得這個(gè)應(yīng)用,包括落地也需要準(zhǔn)確的定義,如果不是特別嚴(yán)苛的定義,不管是工業(yè)還是商用,甚至是家用,可能在一兩年時(shí)間就能初步簡(jiǎn)單工作。根據(jù)羅杰斯創(chuàng)新擴(kuò)散的模型,任何產(chǎn)業(yè)都有早期的使用者,他愿意去嘗試、試錯(cuò),在產(chǎn)品還沒(méi)有特別完善的時(shí)候。我相信這兩年你們會(huì)看到各個(gè)行業(yè)會(huì)有早期的試用者。

如果真的大規(guī)模應(yīng)用的話,進(jìn)入家庭,它一定相對(duì)來(lái)說(shuō)需要比較長(zhǎng)的時(shí)間。因?yàn)閷?duì)家庭來(lái)說(shuō),它是一個(gè)沒(méi)有邊界的泛化要求。從大規(guī)模應(yīng)用發(fā)展一定是工業(yè)這種場(chǎng)景會(huì)更先進(jìn)一些,因?yàn)樗怯羞吔绲模梢匀藶橹贫ㄒ恍┮?guī)則,包括一些標(biāo)準(zhǔn)場(chǎng)景是怎么樣的,你可以人為去控制它。在最終的機(jī)器人ChatGPT,或者它的“圖靈時(shí)刻”還沒(méi)有到來(lái)之前,我們能逐步應(yīng)用起來(lái)。

同時(shí)第二個(gè)難點(diǎn),對(duì)工業(yè)場(chǎng)景的話,你可以把它和人隔開(kāi),并且它做的事情相對(duì)比較固定一些,小腦取得一定進(jìn)展之后,它就可以用起來(lái)了。在工廠里干活不需要工人必須會(huì)做數(shù)學(xué)題,他能干這道工序就可以了,但對(duì)人來(lái)說(shuō),它的要求就會(huì)高很多,同時(shí)也會(huì)引來(lái)安全性的問(wèn)題。

王鶴:今天在云棲大會(huì)的現(xiàn)場(chǎng),我們銀河通用的機(jī)器人也展示了在零售場(chǎng)景的億應(yīng)用,我剛剛看到同事給我們發(fā)來(lái)的圖片,有10米的長(zhǎng)隊(duì),觀眾在我們ipad端下單,銀河通用的GALBOT的通用機(jī)器人就給大家從貨架上拿你想要的東西遞給觀眾。像這樣的零售場(chǎng)景,主要是抓取和放置的東西,現(xiàn)在的技術(shù)已經(jīng)達(dá)到了產(chǎn)業(yè)化的邊界。我們預(yù)測(cè),從明年開(kāi)始將會(huì)是商用的元年。5年,我們的目標(biāo)是在零售和車(chē)廠的抱箱子達(dá)到1萬(wàn)臺(tái);10年,我認(rèn)為安全性可以達(dá)到家庭標(biāo)準(zhǔn);15年,我預(yù)計(jì)可能會(huì)產(chǎn)生千萬(wàn)乃至大千萬(wàn)級(jí)別的市場(chǎng)。

王興興:我個(gè)人其實(shí)還是相對(duì)比較樂(lè)觀的,我覺(jué)得到明年,在一些公益場(chǎng)景,或者在固定場(chǎng)景做一些有商業(yè)價(jià)值的落地應(yīng)用,像銀河通用這邊,基本上問(wèn)題不大。我個(gè)人還是相對(duì)樂(lè)觀,我覺(jué)得3年左右,至少全球范圍內(nèi)大概率會(huì)出現(xiàn)通用型的機(jī)器人AI。因?yàn)楦^(guò)去10年不一樣,現(xiàn)在整個(gè)機(jī)器人AI的人才、資金都是幾百倍甚至上千倍的巨量投入,所以整個(gè)時(shí)間進(jìn)展會(huì)比較快。5年左右,可能會(huì)發(fā)生天翻地覆的變化。

張?。何矣X(jué)得幾位嘉賓都預(yù)測(cè)得非常好,我就不預(yù)測(cè)準(zhǔn)確的時(shí)間點(diǎn),我談?wù)劼涞剡^(guò)程中的一些思考,我補(bǔ)充一下。

首先這個(gè)賽道,我認(rèn)為用時(shí)間衡量它是比較難的一件事情,我管這個(gè)賽道的產(chǎn)業(yè)發(fā)展叫“事件驅(qū)動(dòng)”,它更關(guān)鍵看AI技術(shù)的關(guān)鍵開(kāi)關(guān)什么時(shí)候能找到,而不是用具體時(shí)間衡量它。

我也是相對(duì)樂(lè)觀,只不過(guò)我們要避免過(guò)早做商業(yè)化。比如在大模型ChatGPT2.0、3.0的時(shí)候你要做一個(gè)超級(jí)應(yīng)用,肯定要打一堆補(bǔ)丁。因?yàn)樯弦淮斯ぶ悄芎蜋C(jī)器人落地過(guò)程中也遇到了很多挑戰(zhàn),大家都調(diào)侃“人工智能等于智能不夠靠人工”,所以增加了部署和售后的很多成本,最終商業(yè)邏輯還是挺難跑通。所以我覺(jué)得不用太用時(shí)間衡量,關(guān)鍵是看技術(shù)的開(kāi)關(guān)。

主持人:說(shuō)到這兒,我再補(bǔ)充最后一輪問(wèn)題,就是關(guān)于大模型和機(jī)器人之間的關(guān)系。大模型這個(gè)技術(shù)和背后的體系對(duì)于人形機(jī)器人的發(fā)展起到了什么樣的影響?

張?。悍浅4?。因?yàn)槲矣X(jué)得機(jī)器人這一波的發(fā)展不是它自我革命,就是Agent發(fā)展所帶來(lái)的,所以發(fā)展是靠大模型技術(shù)和大模型技術(shù)背后的技術(shù)。

我說(shuō)一個(gè)背后的思考,不說(shuō)具體的應(yīng)用。我覺(jué)得這幾年由于受到大模型技術(shù)的啟發(fā),機(jī)器人領(lǐng)域的發(fā)展也經(jīng)歷了從“規(guī)則驅(qū)動(dòng)”到“算法驅(qū)動(dòng)”再到“數(shù)據(jù)驅(qū)動(dòng)”的跳變。以前可能看你有什么算法,然后根據(jù)算法的需求來(lái)收數(shù)據(jù)、來(lái)解決問(wèn)題?,F(xiàn)在的思維變了,我們首先要看你有什么數(shù)據(jù)、你有多少量的數(shù)據(jù),然后你獲取新數(shù)據(jù)的方式和成本是怎么樣的,這些數(shù)據(jù)的quality分布是什么樣的,這就直接決定了你采用什么樣的算法做訓(xùn)練,甚至也決定了你的訓(xùn)練。所以我們公司有一個(gè)口號(hào)叫“軟件定義硬件,但數(shù)據(jù)定義軟件”,這是我們的思路。

王興興:我一直感覺(jué)通用機(jī)器人尤其通用人形機(jī)器人算是目前大模型最好的落地載體,它其實(shí)可以解決大模型目前落地場(chǎng)景的問(wèn)題,所以我覺(jué)得兩個(gè)是非常好的組合關(guān)系。

王鶴:我覺(jué)得現(xiàn)在的通用機(jī)器人,我們雖然有一些技能,但幾乎都是分立的一些小模型。所以大模型賦能這些技能有幾步:第一步是大模型可以作為一個(gè)Agent來(lái)調(diào)用這些API進(jìn)行長(zhǎng)程的任務(wù)規(guī)劃,第二步是大模型可以作為一個(gè)Monitor,它看小模型執(zhí)行過(guò)程中有沒(méi)有出任何錯(cuò)誤,及時(shí)去終止或者調(diào)用別的技能來(lái)挽救這些錯(cuò)誤,比如藥盒掉到地上了,它立馬說(shuō)“你得給它撿起來(lái)”;第三步則是最有想象力的端到端,Vision、Language、Action,把動(dòng)作作為大模型輸出的模態(tài),像自動(dòng)駕駛一樣,我們實(shí)現(xiàn)一個(gè)把通用感知、通用規(guī)劃或通用執(zhí)行融為一體的大模型。

陳建宇:我認(rèn)為大模型帶給我們最重要的啟發(fā),就是告訴我們Scaling Law的存在。大家都說(shuō)通用機(jī)器人,必須要有它所匹配的通用智能,所以大模型啟發(fā)我們?nèi)ニ伎迹ㄒ龑?dǎo)我們?nèi)ニ伎荚趺礃尤プ鰴C(jī)器人的Scaling Law。同時(shí),它也帶給我們一些語(yǔ)言模型領(lǐng)域的技術(shù),比如說(shuō)Transformer的架構(gòu),比如說(shuō)Predict next Token的算法技術(shù),包括你怎么Scaling這樣的數(shù)據(jù)和這樣的算力。當(dāng)然這些也還是不夠的,畢竟我們的機(jī)器人需要在物理世界去交互、去做事情,去理解整個(gè)物理世界。所以在算法,模型、數(shù)據(jù)層面,都有很多不同需要我們探索。

主持人:剛剛您談到算力和數(shù)據(jù),我想追問(wèn)一個(gè)問(wèn)題。現(xiàn)在合成的、網(wǎng)絡(luò)的、仿真數(shù)據(jù)的比例是什么情況?算力的匹配是怎樣的,是云端還是本地的?

陳建宇:現(xiàn)在應(yīng)該還沒(méi)有數(shù)據(jù)的比例,其實(shí)還沒(méi)有達(dá)到一個(gè)完全收斂的狀態(tài)、固定一定是多少的比例。比如以我們來(lái)說(shuō),我們是根據(jù)機(jī)器人的特性。比如我們的運(yùn)動(dòng)、控制、行走的數(shù)據(jù),我們幾乎是純粹的仿真里面的數(shù)據(jù)。但是我們對(duì)操作來(lái)說(shuō),我們目前又幾乎是純粹的真實(shí)世界獲取的數(shù)據(jù),這是根據(jù)它的仿真難度、數(shù)據(jù)獲取的難度,以及你的算法所匹配的程度來(lái)定的,未來(lái)可能會(huì)有一些改變。

主持人:算力在云端還是本地,這個(gè)分配是什么樣的?

陳建宇:我認(rèn)為這個(gè)跟大模型不一樣,大模型的算力可以完全在云端,但是對(duì)于機(jī)器人來(lái)說(shuō),你必須要有本地的算力。因?yàn)樗鼘?duì)延時(shí)或者斷網(wǎng)零容忍,會(huì)對(duì)物理世界造成嚴(yán)重的影響。所以說(shuō)大體一分的話,如果你分大腦和小腦,簡(jiǎn)單一分,小腦在本地,大腦在云端。

主持人:是云端協(xié)同的設(shè)計(jì)。我們最后還有1分鐘時(shí)間,大家覺(jué)得人形機(jī)器人能變成真假難分嗎?

陳建宇:能。

王鶴:一定能。

王興興:能。

張?。阂欢ê捅仨毮?。

Tips:我是虎嗅科技醫(yī)療組的王欣,關(guān)注AI及創(chuàng)投領(lǐng)域,行業(yè)人士交流可加微信:13206438539,請(qǐng)注明身份。

正在改變與想要改變世界的人,都在虎嗅APP

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類(lèi)資訊
全站最新
熱門(mén)內(nèi)容