【ITBEAR科技資訊】5月10日消息,meta公司發(fā)布了一項新的開源人工智能模型ImageBind。該模型可以將文本、音頻、視覺數(shù)據(jù)、溫度和運動讀數(shù)等多種數(shù)據(jù)流整合在一起,并將其嵌入到一個多維索引空間中。該研究表明,未來的人工智能系統(tǒng)將能夠創(chuàng)建沉浸式、多感官的體驗,與目前針對文本輸入的系統(tǒng)一樣,交叉引用這些數(shù)據(jù)。
據(jù)ITBEAR科技資訊了解,該模型是第一個將六種類型數(shù)據(jù)整合到一個嵌入空間中的模型。這些數(shù)據(jù)包括:視覺(包括圖像和視頻);熱力(紅外圖像);文本;音頻;深度信息;以及由慣性測量單元(IMU)產(chǎn)生的運動讀數(shù)。
未來的人工智能系統(tǒng)將能夠像當(dāng)前針對文本輸入的系統(tǒng)一樣,交叉引用這些數(shù)據(jù)。例如,未來的虛擬現(xiàn)實設(shè)備將不僅能夠生成音頻和視覺輸入,還能夠生成你所處的環(huán)境和物理站臺的運動。這將讓用戶在體驗中感受到更多的真實感和身臨其境的感覺。
meta公司的這項研究顯示了未來版本的系統(tǒng)如何能夠整合其他數(shù)據(jù)流,例如生成與視頻輸出匹配的音頻。而這種開源的做法,也將在人工智能領(lǐng)域受到更多的關(guān)注。雖然這項研究仍處于初步階段,但對于人工智能領(lǐng)域的發(fā)展具有重要的指導(dǎo)意義。