ITBear旗下自媒體矩陣:

實測字節(jié)豆包視頻生成模型:Sora畫的餅,這回真的熟了?

   時間:2024-10-09 03:27:29 來源:ITBEAR作者:柳晴雪編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】近期,中國AI視頻賽道呈現(xiàn)出井噴式發(fā)展,多個廠商如快手可靈、Minimax海螺AI、生數(shù)科技Vidu及智譜清影紛紛發(fā)布新產(chǎn)品,這些AI視頻產(chǎn)品在全球范圍內(nèi)廣受認可。國外用戶甚至表示,由于國內(nèi)產(chǎn)品的出色表現(xiàn),他們不再需要Sora,并設法使用中國手機號體驗國內(nèi)AI產(chǎn)品。

尤為引人注目的是字節(jié)的最新產(chǎn)品——豆包·視頻生成模型。在9月24日的火山引擎AI創(chuàng)新巡展深圳站上,該模型與Seaweed模型一同發(fā)布,其運鏡和轉(zhuǎn)場效果令人震撼,被視為AI視頻領域的斷層式領先。

相較于其他AI視頻產(chǎn)品,豆包·視頻生成模型在語義理解和一致性方面表現(xiàn)出色。測試中,它成功完成了復雜的場景和鏡頭變化,如深夜巷子中的濃煙、地面污水、老鼠走動,以及雪人戴禮帽坐在垃圾桶上喝啤酒等場景,且畫面通透,所有細節(jié)都精準呈現(xiàn)。

豆包模型還展示了其在動畫教育領域的潛力,如生成夜晚森林中的篝火派對場景,其中穿著超人服裝的小豬在打碟,其他小動物跟隨節(jié)奏搖擺,畫面中所有動物的動作都高度協(xié)調(diào)。

在與Sora的對比測試中,豆包模型同樣表現(xiàn)出色。它解決了Sora在角色一致性和語義理解方面的問題,如廣場中氣球人的運動方向和畫面內(nèi)容的準確呈現(xiàn),以及人臉和玩滑板畫面的合理生成。

字節(jié)在AI視頻技術(shù)領域的持續(xù)投入和創(chuàng)新,使其在這一領域取得了顯著成果。從早期的Make Pixels Dance項目,到如今的豆包·視頻生成模型,字節(jié)的每一步都走得穩(wěn)健而有力。相比之下,Sora由于產(chǎn)品未完全開發(fā)完成,其在市場上的表現(xiàn)顯得有些乏力。

豆包·視頻生成模型的成功,得益于其采用的DiT架構(gòu),這一架構(gòu)結(jié)合了擴散模型和Transformer,盡管在初期因其高門檻而遭到質(zhì)疑,但現(xiàn)在看來,這一選擇無疑是正確的。通過不斷優(yōu)化和定制化技術(shù),豆包模型在視頻生成的穩(wěn)定性、泛化能力以及多鏡頭一致性方面都表現(xiàn)出色。

總的來說,中國AI視頻賽道的快速發(fā)展,不僅為全球用戶帶來了更多優(yōu)質(zhì)的選擇,也推動了整個行業(yè)的進步。而字節(jié)的豆包·視頻生成模型,無疑是這一進程中的一顆璀璨明星。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version