ITBear旗下自媒體矩陣:

AI大模型步入多模態(tài)時代,具身智能與機器人迎新突破!

   時間:2024-10-25 20:16:32 來源:ITBEAR作者:任飛揚編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】在人工智能領(lǐng)域,莫拉維克悖論揭示了AI與人類認知能力之間的顯著差異:復雜邏輯對AI來說相對容易,而基本的感知運動技能卻需耗費巨大計算資源。這一悖論凸顯了當前AI技術(shù)的局限性。

人類作為多模態(tài)生物,通過多種感官模式感知世界,并據(jù)此進行決策和行動。隨著傳感器融合和AI技術(shù)的演進,現(xiàn)代機器人也逐步配備多模態(tài)傳感器,變得愈加智能。

![圖片1: 機器人配備多模態(tài)傳感器](圖片鏈接1)

Transformer模型和大語言模型(LLM)的出現(xiàn),推動了多模態(tài)AI的集成化發(fā)展,使得單個模型能同時處理多種數(shù)據(jù)類型,大幅提高了AI系統(tǒng)的綜合感知能力。

2024年,多模態(tài)技術(shù)加速發(fā)展。OpenAI發(fā)布的Sora能根據(jù)文本描述生成視頻,而GPT-4o則顯著提升了人機交互性能,實現(xiàn)了音頻、視覺和文本之間的實時推理。

![圖片2: OpenAI發(fā)布的Sora和GPT-4o](圖片鏈接2)

谷歌也不甘落后,發(fā)布了Gemini 1.5,大幅擴展了上下文長度,并探討了Project Astra的未來愿景,這是一款能處理多模態(tài)信息的通用AI助手。

多模態(tài)LLM有望改變機器人的分析、推理和學習能力,推動機器人從專用轉(zhuǎn)向通用,進而產(chǎn)生規(guī)?;慕?jīng)濟效應(yīng),被更多領(lǐng)域采用。

![圖片3: 通用機器人](圖片鏈接3)

在具身智能方面,盡管已取得一定進展,但仍需更輕便的設(shè)計、更長的運行時間以及更強大的邊緣計算平臺。人形機器人因形體與人類相似,有望在人類環(huán)境中駕輕就熟,執(zhí)行所需操作。

Robotics Transformer(RT)正在快速發(fā)展,它可以將多模態(tài)輸入直接轉(zhuǎn)化為行動編碼,展現(xiàn)出強大的泛化能力。

![圖片4: Robotics Transformer](圖片鏈接4)

Arm作為未來機器人技術(shù)的基石,提出機器人腦應(yīng)為異構(gòu)AI計算系統(tǒng),以提供出色性能、實時響應(yīng)和高能效。Arm處理器已廣泛應(yīng)用于機器人領(lǐng)域,期待與生態(tài)系統(tǒng)合作,共同推動AI機器人發(fā)展。

![圖片5: Arm處理器在機器人領(lǐng)域的應(yīng)用](圖片鏈接5)

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version