【ITBEAR】谷歌DeepMind團(tuán)隊與麻省理工學(xué)院(MIT)攜手,近日推出了一款名為“Fluid”的全新模型,該模型在文生圖領(lǐng)域取得了顯著突破。當(dāng)模型參數(shù)規(guī)模達(dá)到105億時,其表現(xiàn)尤為出色。
在文生圖技術(shù)中,自回歸模型與擴(kuò)散模型一直備受關(guān)注。其中,擴(kuò)散模型因能生成高質(zhì)量圖像而備受矚目,而自回歸模型則常用于文本生成。
然而,谷歌DeepMind與MIT團(tuán)隊的研究發(fā)現(xiàn),通過采用連續(xù)tokens和隨機(jī)生成順序,自回歸模型的性能和可擴(kuò)展性得到了顯著提升。
連續(xù)tokens的使用減少了信息丟失,使模型能更好地重建圖像。而隨機(jī)生成順序則讓模型在理解整體圖像結(jié)構(gòu)時表現(xiàn)更為出色。
在重要基準(zhǔn)測試中,F(xiàn)luid模型超越了Stable Diffusion 3擴(kuò)散模型和谷歌此前的Parti自回歸模型。與Parti相比,F(xiàn)luid在參數(shù)規(guī)模較小的情況下仍取得了相同的FID分?jǐn)?shù)。