ITBear旗下自媒體矩陣:

具身智能的謹(jǐn)慎豪賭:下注端到端,勝算幾何?

   時間:2024-10-09 03:21:03 來源:ITBEAR作者:鐘景軒編輯:瑞雪 發(fā)表評論無障礙通道

然而,盡管人形機(jī)器人在形態(tài)和操作上具有優(yōu)勢,但要實(shí)現(xiàn)真正的智能,還需解決軟件與硬件的耦合問題。為實(shí)現(xiàn)這一目標(biāo),具身智能領(lǐng)域的不同團(tuán)隊采取了多樣化的技術(shù)路線,其中端到端架構(gòu)和分層決策模型是最為突出的兩種。

端到端架構(gòu),作為一種將“大腦”和“小腦”合為一體的方法,通過單一的神經(jīng)網(wǎng)絡(luò),直接將任務(wù)目標(biāo)轉(zhuǎn)化為控制信號。特斯拉的Optimus機(jī)器人和谷歌的RT-2項目便是這一架構(gòu)的典型代表。它們能夠通過視覺輸入直接生成動作輸出,完成復(fù)雜的任務(wù)。然而,端到端模型需要大量的數(shù)據(jù)和算力來驅(qū)動,這使得其在實(shí)際應(yīng)用中面臨挑戰(zhàn)。

相比之下,分層決策模型則通過將感知、規(guī)劃決策、控制和執(zhí)行各模塊分解為多個層級,分別進(jìn)行訓(xùn)練,最終再整合起來。這種方法在即時性、可解釋性和可控性方面具有優(yōu)勢,且由于可以逐一精準(zhǔn)突破,在訓(xùn)練單個模型中所需的數(shù)據(jù)量相對較少。Figure AI的Figure 02便是這一架構(gòu)的佼佼者,其高達(dá)200hz的輸出頻率意味著執(zhí)行動作的延時極低。

在國內(nèi),分層決策模型也受到了廣泛的關(guān)注。智元機(jī)器人、穹徹智能和銀河通用等初創(chuàng)公司都選擇了這一技術(shù)路線,并根據(jù)自己的理解設(shè)計出各自的解決方案。他們致力于解決“大小腦”問題,實(shí)現(xiàn)從感知到執(zhí)行的閉環(huán)。

無論是端到端架構(gòu)還是分層決策模型,數(shù)據(jù)都是訓(xùn)練效果的關(guān)鍵因素。具身智能玩家們需要共同面臨數(shù)據(jù)質(zhì)量和數(shù)量的挑戰(zhàn),以提高機(jī)器人的智能水平。模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)、真實(shí)數(shù)據(jù)與仿真數(shù)據(jù)之間的優(yōu)劣也成為了研究的熱點(diǎn)。

在具身智能的較量中,不同的技術(shù)路線和解決方案層出不窮。從登月派到落地派,從端到端到分層決策,每一種方法都有其獨(dú)特的優(yōu)勢和挑戰(zhàn)。然而,無論選擇哪條道路,實(shí)現(xiàn)智能、攻克軟件與硬件的耦合都是最終的目標(biāo)。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version