ITBear旗下自媒體矩陣:

Meta發(fā)布開源AI模型 ImageBind,可將多種數(shù)據(jù)流整合在一起

   時間:2023-05-10 09:58:11 來源:ITBEAR編輯:茹茹 發(fā)表評論無障礙通道

【ITBEAR科技資訊】5月10日消息,meta公司發(fā)布了一項新的開源人工智能模型ImageBind。該模型可以將文本、音頻、視覺數(shù)據(jù)、溫度和運動讀數(shù)等多種數(shù)據(jù)流整合在一起,并將其嵌入到一個多維索引空間中。該研究表明,未來的人工智能系統(tǒng)將能夠創(chuàng)建沉浸式、多感官的體驗,與目前針對文本輸入的系統(tǒng)一樣,交叉引用這些數(shù)據(jù)。

據(jù)ITBEAR科技資訊了解,該模型是第一個將六種類型數(shù)據(jù)整合到一個嵌入空間中的模型。這些數(shù)據(jù)包括:視覺(包括圖像和視頻);熱力(紅外圖像);文本;音頻;深度信息;以及由慣性測量單元(IMU)產(chǎn)生的運動讀數(shù)。

未來的人工智能系統(tǒng)將能夠像當(dāng)前針對文本輸入的系統(tǒng)一樣,交叉引用這些數(shù)據(jù)。例如,未來的虛擬現(xiàn)實設(shè)備將不僅能夠生成音頻和視覺輸入,還能夠生成你所處的環(huán)境和物理站臺的運動。這將讓用戶在體驗中感受到更多的真實感和身臨其境的感覺。

meta公司的這項研究顯示了未來版本的系統(tǒng)如何能夠整合其他數(shù)據(jù)流,例如生成與視頻輸出匹配的音頻。而這種開源的做法,也將在人工智能領(lǐng)域受到更多的關(guān)注。雖然這項研究仍處于初步階段,但對于人工智能領(lǐng)域的發(fā)展具有重要的指導(dǎo)意義。

標(biāo)簽: Meta
舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version