ITBear旗下自媒體矩陣:

智源發(fā)布Emu3:原生多模態(tài)世界模型,能否一統(tǒng)圖像文本視頻?

   時間:2024-10-22 07:21:29 來源:ITBEAR作者:趙云飛編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3,該模型在文本、圖像和視頻三種模態(tài)數(shù)據(jù)的理解和生成上展現(xiàn)出卓越能力。其獨特之處在于,僅需基于下一個token預(yù)測,無需依賴擴散模型或組合方法,便能實現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一處理。

在圖像生成任務(wù)中,Emu3的表現(xiàn)優(yōu)于SD-1.5與SDXL模型,獲得了人類偏好評測的高度認(rèn)可。同時,在視覺語言理解任務(wù)中,Emu3也展現(xiàn)出了強大的實力,其對于12項基準(zhǔn)測試的平均得分超越了LlaVA-1.6。在視頻生成任務(wù)中,Emu3同樣表現(xiàn)出色,VBench基準(zhǔn)測試得分高于OpenSora 1.2。

Emu3配備了一個強大的視覺tokenizer,能夠?qū)⒁曨l和圖像轉(zhuǎn)換為離散token,這些token可以與文本tokenizer輸出的離散token一同送入模型中。這一特性為Any-to-Any任務(wù)提供了更加統(tǒng)一的研究范式。

Emu3的研究結(jié)果充分證明了下一個token預(yù)測作為多模態(tài)模型范式的強大潛力,它不僅能實現(xiàn)超越語言本身的大規(guī)模多模態(tài)學(xué)習(xí),還能在多模態(tài)任務(wù)中取得先進(jìn)性能。目前,Emu3已開源關(guān)鍵技術(shù)和模型,為相關(guān)研究提供了有力支持。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version