ITBear旗下自媒體矩陣:

谷歌Fluid新突破:AI文生圖自回歸模型優(yōu)于擴(kuò)散模型?

   時間:2024-10-23 14:38:54 來源:ITBEAR作者:陸辰風(fēng)編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】谷歌DeepMind團(tuán)隊與麻省理工學(xué)院(MIT)攜手,近日推出了一款名為“Fluid”的全新模型,該模型在文生圖領(lǐng)域取得了顯著突破。當(dāng)模型參數(shù)規(guī)模達(dá)到105億時,其表現(xiàn)尤為出色。

在文生圖技術(shù)中,自回歸模型與擴(kuò)散模型一直備受關(guān)注。其中,擴(kuò)散模型因能生成高質(zhì)量圖像而備受矚目,而自回歸模型則常用于文本生成。

然而,谷歌DeepMind與MIT團(tuán)隊的研究發(fā)現(xiàn),通過采用連續(xù)tokens和隨機(jī)生成順序,自回歸模型的性能和可擴(kuò)展性得到了顯著提升。

連續(xù)tokens的使用減少了信息丟失,使模型能更好地重建圖像。而隨機(jī)生成順序則讓模型在理解整體圖像結(jié)構(gòu)時表現(xiàn)更為出色。

在重要基準(zhǔn)測試中,F(xiàn)luid模型超越了Stable Diffusion 3擴(kuò)散模型和谷歌此前的Parti自回歸模型。與Parti相比,F(xiàn)luid在參數(shù)規(guī)模較小的情況下仍取得了相同的FID分?jǐn)?shù)。

//
舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version