【ITBEAR】復(fù)旦大學(xué)攜手百度,近期共同推出了名為Hallo2的AI模型,這一創(chuàng)新成果在視頻生成領(lǐng)域取得了顯著突破。該模型能夠生成長達(dá)數(shù)小時(shí)、分辨率為4K的高質(zhì)量人物動(dòng)畫,并已開源至GitHub,供全球開發(fā)者免費(fèi)使用與研究,為視頻生成技術(shù)的普及與發(fā)展注入了新動(dòng)力。
Hallo2的亮點(diǎn)在于其引入了可調(diào)整的語義文本標(biāo)簽,使得肖像表情的生成更加可控且多樣化。這一特性使得Hallo2成為首個(gè)能夠?qū)崿F(xiàn)4K分辨率、長達(dá)1小時(shí)音頻驅(qū)動(dòng)人像圖像動(dòng)畫的AI模型。
在應(yīng)用領(lǐng)域,Hallo2展現(xiàn)出廣泛潛力。在電影和視頻制作中,它可用于增強(qiáng)角色的面部表情和口型動(dòng)畫;在虛擬助手和數(shù)字人領(lǐng)域,Hallo2則能創(chuàng)造出逼真的虛擬形象,提升用戶體驗(yàn)。
技術(shù)層面,Hallo2基于latent diffusion models構(gòu)建,并引入了數(shù)據(jù)增強(qiáng)技術(shù),如patch-drop和高斯噪聲,以及向量量化生成對(duì)抗網(wǎng)絡(luò)和時(shí)間對(duì)齊技術(shù),確保了視頻的視覺一致性、時(shí)間連貫性以及高質(zhì)量與流暢性。