【ITBEAR】近日,一個(gè)名為Mochi 1的開(kāi)源視頻生成模型引起了廣泛關(guān)注,該模型由新興AI公司Genmo推出,并在視頻生成領(lǐng)域掀起了不小的波瀾。據(jù)悉,Mochi 1不僅在運(yùn)動(dòng)質(zhì)量上表現(xiàn)出眾,還具有極高的提示依從性,這意味著它能夠根據(jù)用戶提供的文本說(shuō)明,生成高度符合要求的視頻內(nèi)容。
Mochi 1的強(qiáng)大功能得益于其背后的新型非對(duì)稱(chēng)擴(kuò)散Transformer(AsymmDiT)架構(gòu),以及高達(dá)100億的參數(shù)量。這使得它成為有史以來(lái)開(kāi)源的最大視頻生成模型。Mochi 1還采用了VAE編碼器進(jìn)行視頻壓縮,有效提升了計(jì)算效率。
在評(píng)估方面,Mochi 1展現(xiàn)出了優(yōu)異的性能。通過(guò)視覺(jué)語(yǔ)言模型進(jìn)行基準(zhǔn)測(cè)試,其在提示依從性方面取得了顯著成果。同時(shí),在運(yùn)動(dòng)質(zhì)量評(píng)估中,Mochi 1也以其流暢的視頻生成和逼真的運(yùn)動(dòng)動(dòng)態(tài)贏得了高度評(píng)價(jià)。
盡管Mochi 1在視頻生成領(lǐng)域取得了顯著進(jìn)展,但Genmo團(tuán)隊(duì)并未止步。他們表示,將在今年年底前發(fā)布Mochi 1的完整版——Mochi 1 HD。這一版本將支持720p視頻生成,具備更高的保真度和更流暢的運(yùn)動(dòng)表現(xiàn),有望解決復(fù)雜場(chǎng)景中的邊緣問(wèn)題。
Genmo還計(jì)劃開(kāi)發(fā)圖像到視頻的功能,并致力于提高模型的可控性和可操控性。這將使用戶能夠更精確地控制輸出內(nèi)容,進(jìn)一步拓展視頻生成模型的應(yīng)用場(chǎng)景。
隨著Mochi 1的開(kāi)源和不斷完善,視頻生成技術(shù)正逐漸走向成熟。這一技術(shù)的廣泛應(yīng)用將為娛樂(lè)、廣告、教育等領(lǐng)域帶來(lái)革命性的變革。同時(shí),它也為藝術(shù)家和創(chuàng)作者提供了一個(gè)全新的創(chuàng)作平臺(tái),使他們能夠通過(guò)AI生成的視頻將自己的愿景變?yōu)楝F(xiàn)實(shí)。