ITBear旗下自媒體矩陣:

Meta發(fā)布開(kāi)源AI模型 ImageBind,可將多種數(shù)據(jù)流整合在一起

   時(shí)間:2023-05-10 09:58:11 來(lái)源:ITBEAR編輯:茹茹 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR科技資訊】5月10日消息,meta公司發(fā)布了一項(xiàng)新的開(kāi)源人工智能模型ImageBind。該模型可以將文本、音頻、視覺(jué)數(shù)據(jù)、溫度和運(yùn)動(dòng)讀數(shù)等多種數(shù)據(jù)流整合在一起,并將其嵌入到一個(gè)多維索引空間中。該研究表明,未來(lái)的人工智能系統(tǒng)將能夠創(chuàng)建沉浸式、多感官的體驗(yàn),與目前針對(duì)文本輸入的系統(tǒng)一樣,交叉引用這些數(shù)據(jù)。

據(jù)ITBEAR科技資訊了解,該模型是第一個(gè)將六種類(lèi)型數(shù)據(jù)整合到一個(gè)嵌入空間中的模型。這些數(shù)據(jù)包括:視覺(jué)(包括圖像和視頻);熱力(紅外圖像);文本;音頻;深度信息;以及由慣性測(cè)量單元(IMU)產(chǎn)生的運(yùn)動(dòng)讀數(shù)。

未來(lái)的人工智能系統(tǒng)將能夠像當(dāng)前針對(duì)文本輸入的系統(tǒng)一樣,交叉引用這些數(shù)據(jù)。例如,未來(lái)的虛擬現(xiàn)實(shí)設(shè)備將不僅能夠生成音頻和視覺(jué)輸入,還能夠生成你所處的環(huán)境和物理站臺(tái)的運(yùn)動(dòng)。這將讓用戶(hù)在體驗(yàn)中感受到更多的真實(shí)感和身臨其境的感覺(jué)。

meta公司的這項(xiàng)研究顯示了未來(lái)版本的系統(tǒng)如何能夠整合其他數(shù)據(jù)流,例如生成與視頻輸出匹配的音頻。而這種開(kāi)源的做法,也將在人工智能領(lǐng)域受到更多的關(guān)注。雖然這項(xiàng)研究仍處于初步階段,但對(duì)于人工智能領(lǐng)域的發(fā)展具有重要的指導(dǎo)意義。

標(biāo)簽: Meta
舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類(lèi)資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version