ITBear旗下自媒體矩陣:

谷歌Fluid挑戰(zhàn)新共識(shí),AI文生圖自回歸模型力壓擴(kuò)散模型?

   時(shí)間:2024-10-23 14:26:25 來(lái)源:ITBEAR作者:顧青青編輯:瑞雪 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR】谷歌DeepMind團(tuán)隊(duì)與麻省理工學(xué)院(MIT)合作推出了一款名為“Fluid”的新模型,該模型在文生圖領(lǐng)域取得了顯著成果。據(jù)科技媒體The Decoder報(bào)道,F(xiàn)luid模型在參數(shù)規(guī)模達(dá)到105億時(shí),能夠生成最佳的圖像效果。

在文生圖領(lǐng)域,自回歸模型與擴(kuò)散模型一直存在競(jìng)爭(zhēng)。擴(kuò)散模型通過(guò)迭代減少隨機(jī)噪聲來(lái)生成高質(zhì)量數(shù)據(jù),而自回歸模型則依賴(lài)于序列中的前面元素來(lái)預(yù)測(cè)下一個(gè)元素。

Fluid模型之所以能夠在文生圖領(lǐng)域脫穎而出,關(guān)鍵在于其采用了連續(xù)tokens和隨機(jī)生成順序兩個(gè)創(chuàng)新設(shè)計(jì)。連續(xù)tokens能夠更精確地圖像信息存儲(chǔ),減少信息丟失,而隨機(jī)生成順序則讓模型在每一步都能預(yù)測(cè)任意位置的多個(gè)像素,從而更好地理解整體圖像結(jié)構(gòu)。

在重要基準(zhǔn)測(cè)試中,F(xiàn)luid模型超越了Stable Diffusion 3擴(kuò)散模型和谷歌此前的Parti自回歸模型。與Parti相比,F(xiàn)luid在參數(shù)規(guī)模遠(yuǎn)小于Parti的情況下,仍能在MS-COCO上達(dá)到相同的FID分?jǐn)?shù)。

//
舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類(lèi)資訊
全站最新
熱門(mén)內(nèi)容