【ITBEAR科技資訊】5月10日消息,meta公司發(fā)布了一項(xiàng)新的開(kāi)源人工智能模型ImageBind。該模型可以將文本、音頻、視覺(jué)數(shù)據(jù)、溫度和運(yùn)動(dòng)讀數(shù)等多種數(shù)據(jù)流整合在一起,并將其嵌入到一個(gè)多維索引空間中。該研究表明,未來(lái)的人工智能系統(tǒng)將能夠創(chuàng)建沉浸式、多感官的體驗(yàn),與目前針對(duì)文本輸入的系統(tǒng)一樣,交叉引用這些數(shù)據(jù)。
據(jù)ITBEAR科技資訊了解,該模型是第一個(gè)將六種類(lèi)型數(shù)據(jù)整合到一個(gè)嵌入空間中的模型。這些數(shù)據(jù)包括:視覺(jué)(包括圖像和視頻);熱力(紅外圖像);文本;音頻;深度信息;以及由慣性測(cè)量單元(IMU)產(chǎn)生的運(yùn)動(dòng)讀數(shù)。
未來(lái)的人工智能系統(tǒng)將能夠像當(dāng)前針對(duì)文本輸入的系統(tǒng)一樣,交叉引用這些數(shù)據(jù)。例如,未來(lái)的虛擬現(xiàn)實(shí)設(shè)備將不僅能夠生成音頻和視覺(jué)輸入,還能夠生成你所處的環(huán)境和物理站臺(tái)的運(yùn)動(dòng)。這將讓用戶(hù)在體驗(yàn)中感受到更多的真實(shí)感和身臨其境的感覺(jué)。
meta公司的這項(xiàng)研究顯示了未來(lái)版本的系統(tǒng)如何能夠整合其他數(shù)據(jù)流,例如生成與視頻輸出匹配的音頻。而這種開(kāi)源的做法,也將在人工智能領(lǐng)域受到更多的關(guān)注。雖然這項(xiàng)研究仍處于初步階段,但對(duì)于人工智能領(lǐng)域的發(fā)展具有重要的指導(dǎo)意義。