【ITBEAR】近期,中國AI視頻賽道呈現(xiàn)出井噴式發(fā)展,多個廠商如快手可靈、Minimax海螺AI、生數(shù)科技Vidu及智譜清影紛紛發(fā)布新產(chǎn)品,這些AI視頻產(chǎn)品在全球范圍內(nèi)廣受認可。國外用戶甚至表示,由于國內(nèi)產(chǎn)品的出色表現(xiàn),他們不再需要Sora,并設法使用中國手機號體驗國內(nèi)AI產(chǎn)品。
尤為引人注目的是字節(jié)的最新產(chǎn)品——豆包·視頻生成模型。在9月24日的火山引擎AI創(chuàng)新巡展深圳站上,該模型與Seaweed模型一同發(fā)布,其運鏡和轉(zhuǎn)場效果令人震撼,被視為AI視頻領域的斷層式領先。
相較于其他AI視頻產(chǎn)品,豆包·視頻生成模型在語義理解和一致性方面表現(xiàn)出色。測試中,它成功完成了復雜的場景和鏡頭變化,如深夜巷子中的濃煙、地面污水、老鼠走動,以及雪人戴禮帽坐在垃圾桶上喝啤酒等場景,且畫面通透,所有細節(jié)都精準呈現(xiàn)。
豆包模型還展示了其在動畫教育領域的潛力,如生成夜晚森林中的篝火派對場景,其中穿著超人服裝的小豬在打碟,其他小動物跟隨節(jié)奏搖擺,畫面中所有動物的動作都高度協(xié)調(diào)。
在與Sora的對比測試中,豆包模型同樣表現(xiàn)出色。它解決了Sora在角色一致性和語義理解方面的問題,如廣場中氣球人的運動方向和畫面內(nèi)容的準確呈現(xiàn),以及人臉和玩滑板畫面的合理生成。
字節(jié)在AI視頻技術(shù)領域的持續(xù)投入和創(chuàng)新,使其在這一領域取得了顯著成果。從早期的Make Pixels Dance項目,到如今的豆包·視頻生成模型,字節(jié)的每一步都走得穩(wěn)健而有力。相比之下,Sora由于產(chǎn)品未完全開發(fā)完成,其在市場上的表現(xiàn)顯得有些乏力。
豆包·視頻生成模型的成功,得益于其采用的DiT架構(gòu),這一架構(gòu)結(jié)合了擴散模型和Transformer,盡管在初期因其高門檻而遭到質(zhì)疑,但現(xiàn)在看來,這一選擇無疑是正確的。通過不斷優(yōu)化和定制化技術(shù),豆包模型在視頻生成的穩(wěn)定性、泛化能力以及多鏡頭一致性方面都表現(xiàn)出色。
總的來說,中國AI視頻賽道的快速發(fā)展,不僅為全球用戶帶來了更多優(yōu)質(zhì)的選擇,也推動了整個行業(yè)的進步。而字節(jié)的豆包·視頻生成模型,無疑是這一進程中的一顆璀璨明星。