ITBear旗下自媒體矩陣:

智源發(fā)布Emu3:圖像文本視頻大一統(tǒng),多模態(tài)世界新突破!

   時(shí)間:2024-10-22 15:34:03 來(lái)源:ITBEAR作者:沈瑾瑜編輯:瑞雪 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR】智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3,該模型在文本、圖像及視頻的理解與生成領(lǐng)域?qū)崿F(xiàn)了顯著突破。Emu3的創(chuàng)新之處在于,它僅需基于下一個(gè)token的預(yù)測(cè),便能高效處理三種模態(tài)數(shù)據(jù),無(wú)需依賴(lài)擴(kuò)散模型或組合方法。

在圖像生成方面,Emu3的性能超越了SD-1.5與SDXL模型;在視覺(jué)語(yǔ)言理解上,它則優(yōu)于LlaVA-1.6;而在視頻生成領(lǐng)域,Emu3的表現(xiàn)同樣出色,超過(guò)了OpenSora 1.2。Emu3還具備強(qiáng)大的視覺(jué)tokenizer功能,能將視頻和圖像轉(zhuǎn)換為離散token,與文本tokenizer輸出的token共同送入模型處理。

研究表明,通過(guò)將復(fù)雜的多模態(tài)設(shè)計(jì)簡(jiǎn)化為token本身,Emu3在大規(guī)模訓(xùn)練和推理中展現(xiàn)出了巨大的潛力。目前,Emu3的關(guān)鍵技術(shù)和模型已經(jīng)開(kāi)源,項(xiàng)目頁(yè)面也已正式上線(xiàn)。

對(duì)于研究人員而言,Emu3提供了一個(gè)統(tǒng)一的研究范式,值得深入探索。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類(lèi)資訊
全站最新
熱門(mén)內(nèi)容