ITBear旗下自媒體矩陣:

快手新動(dòng)作!聯(lián)合推出開(kāi)源文生視頻AI模型,效果如何?

   時(shí)間:2024-10-12 11:25:20 來(lái)源:ITBEAR作者:唐云澤編輯:瑞雪 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR】近日,快手科技、北京大學(xué)和北京郵電大學(xué)攜手,共同推出了Pyramid Flow文生視頻模型。這款模型能夠根據(jù)用戶輸入的文本,生成最長(zhǎng)可達(dá)10秒、分辨率為1280x768、幀率為24fps的高質(zhì)量視頻。這一創(chuàng)新成果為開(kāi)發(fā)者、藝術(shù)家和創(chuàng)作者們帶來(lái)了更高效、更靈活的視頻生成解決方案,并已在Hugging Face平臺(tái)上線,實(shí)現(xiàn)完全開(kāi)源。

Pyramid Flow的核心優(yōu)勢(shì)在于其高效生成的能力。該模型采用新技術(shù),通過(guò)統(tǒng)一的AI模型分階段生成視頻,其中大多數(shù)階段為低分辨率,僅在最后階段達(dá)到全分辨率。這種“金字塔流匹配”方法在保持視頻高視覺(jué)質(zhì)量的同時(shí),大幅降低了計(jì)算成本,其tokens數(shù)量?jī)H為傳統(tǒng)diffusion模型的四分之一。

在推理速度方面,Pyramid Flow同樣表現(xiàn)出色。它能夠在56秒內(nèi)生成一個(gè)5秒、384p的視頻,速度上媲美甚至超過(guò)了許多全序列diffusion模型。

Pyramid Flow在MIT許可證下發(fā)布,允許包括商業(yè)應(yīng)用、修改和再分發(fā)在內(nèi)的廣泛使用。這一開(kāi)源和商業(yè)友好的政策,吸引了眾多希望將模型集成到專有系統(tǒng)中的開(kāi)發(fā)者和公司。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version