ITBear旗下自媒體矩陣：

滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

智源發(fā)布Emu3：原生多模態(tài)世界模型，能否一統(tǒng)圖像文本視頻？

時間：2024-10-22 07:21:29 來源：ITBEAR作者：趙云飛編輯：瑞雪 發(fā)表評論無障礙通道

【ITBEAR】智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3，該模型在文本、圖像和視頻三種模態(tài)數(shù)據(jù)的理解和生成上展現(xiàn)出卓越能力。其獨特之處在于，僅需基于下一個token預(yù)測，無需依賴擴散模型或組合方法，便能實現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一處理。

在圖像生成任務(wù)中，Emu3的表現(xiàn)優(yōu)于SD-1.5與SDXL模型，獲得了人類偏好評測的高度認(rèn)可。同時，在視覺語言理解任務(wù)中，Emu3也展現(xiàn)出了強大的實力，其對于12項基準(zhǔn)測試的平均得分超越了LlaVA-1.6。在視頻生成任務(wù)中，Emu3同樣表現(xiàn)出色，VBench基準(zhǔn)測試得分高于OpenSora 1.2。

Emu3配備了一個強大的視覺tokenizer，能夠?qū)⒁曨l和圖像轉(zhuǎn)換為離散token，這些token可以與文本tokenizer輸出的離散token一同送入模型中。這一特性為Any-to-Any任務(wù)提供了更加統(tǒng)一的研究范式。

Emu3的研究結(jié)果充分證明了下一個token預(yù)測作為多模態(tài)模型范式的強大潛力，它不僅能實現(xiàn)超越語言本身的大規(guī)模多模態(tài)學(xué)習(xí)，還能在多模態(tài)任務(wù)中取得先進(jìn)性能。目前，Emu3已開源關(guān)鍵技術(shù)和模型，為相關(guān)研究提供了有力支持。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

索泰辟謠：印尼工廠未量產(chǎn)RTX 5090，視頻實為4070 Ti Super

查詢發(fā)現(xiàn)，索泰 RTX 4070 Ti Super Solid 是該品牌最大的一款 RTX 4070 Ti Super顯卡，采用了三槽式設(shè)計，但由于加厚的 GPU 散熱器，需要至少四槽兼容性才能完…

10-22

NASA與SpaceX或?qū)ⅰ癈rew-8”返航延至10月23日

10 月 22 日消息，當(dāng)?shù)貢r間 10 月 21日，美國國家航空航天局（NASA）發(fā)表聲明稱，佛羅里達(dá)州多個潛在濺落地點附近的天氣狀況仍然不利于“Crew-8”返航任務(wù)的進(jìn)行。聲明稱，如果天氣狀…

10-22

特斯拉新App曝光：Apple Watch變身數(shù)字車鑰匙？

10 月 22 日消息，消息源 Aaron Perris 挖掘適用于 iOS 18的特斯拉應(yīng)用之后，發(fā)現(xiàn)了相關(guān)的代碼，暗示特斯拉即將推出 watchOS 新版應(yīng)用，支持 Apple Watch 充…

10-22

華為新推手語視頻服務(wù)，聽障人士客服體驗再升級！

快科技10月21日消息，據(jù)華為官方介紹，華為手語視頻服務(wù)已正式上線。該服務(wù)主要為了幫助聽障人士，通過視頻的方式進(jìn)行手語實時溝通，提供無障礙的服務(wù)支持。服務(wù)時間為國家法定工作日的上午9:00-12:30、下…

10-22

中國移動突發(fā)系統(tǒng)故障，用戶登陸受阻，搶修緊急進(jìn)行中

快科技10月21日消息，據(jù)多位用戶反饋，目前中國移動10086客戶端無法登陸。據(jù)國內(nèi)媒體報道，中國移動客服回應(yīng)稱這是系統(tǒng)故障，官網(wǎng)及微信登錄受阻，目前公司技術(shù)人員正在緊急搶修。此次故障大約于下午4點出現(xiàn)，…

10-22

中國移動廣東公司系統(tǒng)故障已修復(fù)，及時致歉獲諒解

快科技10月21日消息，今天下午4點左右，多位中國移動用戶反饋，客戶端和官網(wǎng)等無法登陸。當(dāng)時中國移動客服表示是系統(tǒng)故障，已經(jīng)開始緊急搶修，預(yù)計需3-4小時。根據(jù)中國移動廣東公司官微消息，今日15:47起，…

10-22

張雪峰怒斥商標(biāo)搶注，其商標(biāo)曾屢遭“黑手”

快科技10月21日消息，今天下午，張雪峰發(fā)微博稱：“我寧可成為中國知識產(chǎn)權(quán)界的一個標(biāo)志性的反面案例，我也不會讓搶注商標(biāo)的壞人得逞，拿到一分錢！企查查APP顯示，張子彪（張雪峰）名下的蘇州研途教育科技有限公司…

10-22

華為全球領(lǐng)跑！中國PCT專利申請量連續(xù)5年穩(wěn)居世界第一

《專利合作條約》（PCT）是知識產(chǎn)權(quán)領(lǐng)域重要的國際條約之一，PCT于1970年締結(jié)，目前已有158個締約國。申請人只需提交一件PCT國際專利申請，就可以同時在多個締約國中尋求專利保護(hù)。排名前十的企業(yè)還有…

10-22

特斯拉新App曝光：Apple Watch變身車鑰匙，你期待嗎？

IT之家 10 月 22 日消息，消息源 Aaron Perris 挖掘適用于 iOS 18的特斯拉應(yīng)用之后，發(fā)現(xiàn)了相關(guān)的代碼，暗示特斯拉即將推出 watchOS 新版應(yīng)用，支持 Apple Watch 充…

10-22

辛巴與葉柯互懟，伍佰評價引爭議，誰該“滾出”互聯(lián)網(wǎng)？

鞭牛士 10月21日消息，#辛巴怒懟葉柯#話題今日登上微博熱搜，據(jù)悉，辛巴昨日在直播中直指網(wǎng)紅“名媛”葉柯沒有資格評價伍佰。辛巴表示，他代表聽所謂“猥瑣哥”的歌曲長大的80后、90后們說一句話：“葉柯，給我…

10-22

辛巴炮轟葉珂要求其退網(wǎng)，黃曉明被波及，葉珂關(guān)閉評論

原來辛巴是伍佰的鐵粉，葉珂吐槽伍佰的歌猥瑣，這不就撞到辛巴槍口上了嘛。網(wǎng)友們一看，這不行啊，辛巴這也太猛了，完全不給黃曉明面子?？磥砣~珂這次也是有點扛不住了，畢竟辛巴可是個說到做到的主兒，她要是回應(yīng)了，辛巴…

10-22

辛巴與葉珂激烈交鋒，究竟為何引發(fā)網(wǎng)友熱議？

近日，黃曉明女友葉珂在直播間的一些言論引發(fā)了軒然大波。有網(wǎng)友發(fā)現(xiàn)，自從黃曉明和葉珂官宣后，葉珂就再也沒有直播過。葉珂的言論確實不恰當(dāng)，但是辛巴這種攻擊性的方式也讓人感到不適。在這場風(fēng)波中，黃曉明也做出了回…

10-22

意甲聯(lián)賽看點：維羅納狀態(tài)爆棚，蒙扎近期略顯低迷

維羅納本賽季的表現(xiàn)中規(guī)中矩，7輪聯(lián)賽過后，取得了3勝4負(fù)的成績，以9個積分排名聯(lián)賽第12位，與上賽季相差不大。蒙扎本賽季的表現(xiàn)非常糟糕，7輪聯(lián)賽過后，取得了4平3負(fù)的成績，以4個積分排名聯(lián)賽第9位（也就是倒…

10-22

華為新專利曝光：屏幕切換技術(shù)再突破！

金融界2024年10月21日消息，國家知識產(chǎn)權(quán)局信息顯示，華為技術(shù)有限公司取得一項名為“屏幕切換方法、終端、存儲介質(zhì)、芯片系統(tǒng)及程序產(chǎn)品”的專利，授權(quán)公告號CN 115695625 B ，申請日期為 202…

10-22

10月21日華立股份漲停，華為鴻蒙大數(shù)據(jù)產(chǎn)業(yè)鏈熱度飆升！

證券之星消息，華立股份10月21日漲停收盤，收盤價16.1元。該股于9點25分漲停，1次打開漲停，截止收盤封單資金為2.2億元，占其流通市值5.08%。 10月21日的資金流向數(shù)據(jù)方面，主力資金凈流出7917…

10-22

點擊查看更多 +

全站最新

高通攜手騰訊推進(jìn)端側(cè)AI，7B/3B模型引領(lǐng)新時代！

高通驍龍8至尊版受捧，首批旗艦新機即將亮相！

小米15系列全球首發(fā)驍龍8至尊版，性能再升級！

蘋果新款妙控外設(shè)曝光：USB-C端口上位，位置或?qū)⒄{(diào)整？

特斯拉新App曝光：Apple Watch變身數(shù)字車鑰匙？

iPad mini 7 到手需升級iOS，18.0.1新版本體驗如何？

熱門內(nèi)容

本欄最新

中國移動突發(fā)系統(tǒng)故障，用戶登陸受阻，搶修緊急進(jìn)行中

中國移動廣東公司系統(tǒng)故障已修復(fù)，及時致歉獲諒解

張雪峰怒斥商標(biāo)搶注，其商標(biāo)曾屢遭“黑手”

華為全球領(lǐng)跑！中國PCT專利申請量連續(xù)5年穩(wěn)居世界第一

特斯拉新App曝光：Apple Watch變身車鑰匙，你期待嗎？

辛巴與葉柯互懟，伍佰評價引爭議，誰該“滾出”互聯(lián)網(wǎng)？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) · 齊魯軟件園魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

智源發(fā)布Emu3：原生多模態(tài)世界模型，能否一統(tǒng)圖像文本視頻？

智源發(fā)布Emu3：原生多模態(tài)世界模型，能否一統(tǒng)圖像文本視頻？