ITBear旗下自媒體矩陣:

快手?jǐn)y手北大開源新AI模型,10秒768P視頻輕松生成?

   時間:2024-10-12 23:40:04 來源:ITBEAR作者:柳晴雪編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】近日,快手科技與北京大學(xué)及北京郵電大學(xué)的研究團隊聯(lián)手,推出了一款名為Pyramid Flow的開源文生視頻AI模型,該模型為開發(fā)者、藝術(shù)家和創(chuàng)作者提供了更加高效、靈活的視頻生成解決方案。

Pyramid Flow在視頻生成速度上表現(xiàn)優(yōu)異,僅需56秒即可生成一段5秒、384p的視頻,其速度在同類模型中名列前茅,甚至超越了部分全序列擴散模型。

在視頻質(zhì)量方面,Pyramid Flow同樣表現(xiàn)出色。它能夠基于文本描述,生成最長10秒、1280x768分辨率、24fps的高質(zhì)量視頻,同時在光影效果、運動動作一致性、文本語義還原和色彩搭配等方面也展現(xiàn)出卓越的性能。

為了實現(xiàn)高效的視頻生成,Pyramid Flow引入了新穎的“金字塔流匹配”技術(shù),通過分階段生成視頻來降低計算成本。與傳統(tǒng)模型相比,它在大多數(shù)階段使用低分辨率,僅在最終階段達到全分辨率,有效減少了所需的tokens數(shù)量,僅為傳統(tǒng)擴散模型的四分之一。

目前,這款創(chuàng)新的Pyramid Flow模型已在Hugging Face平臺上線,并實現(xiàn)了完全開源。這一技術(shù)的推出,不僅為視頻生成領(lǐng)域帶來了新的突破,也為處理和生成高維度視頻數(shù)據(jù)提供了有效的解決方案。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version