ITBear旗下自媒體矩陣:

OpenAI發(fā)布Sora文生視頻大模型,清華大學(xué)亦有新專利公布

   時(shí)間:2024-02-21 08:52:36 來源:ITBEAR編輯:瑞雪 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR科技資訊】2月21日消息,近日,人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI發(fā)布了其首款名為Sora的文本生成視頻大模型。這款模型能夠根據(jù)用戶提供的文字提示,生成長(zhǎng)達(dá)60秒的高質(zhì)量視頻。令人驚嘆的是,Sora所輸出的視頻效果堪比專業(yè)的影視CG,因此在發(fā)布后迅速引爆了科技圈。

Sora文生視頻火爆出圈!清華大學(xué)公布文生視頻專利

與此同時(shí),在文生視頻技術(shù)的研發(fā)上,國(guó)內(nèi)高校也取得了顯著進(jìn)展。據(jù)國(guó)家知識(shí)產(chǎn)權(quán)局網(wǎng)站公布的信息,清華大學(xué)于2月2日申請(qǐng)了一項(xiàng)名為“一種定制化多主體文生視頻方法、裝置、設(shè)備及介質(zhì)”的專利。該專利涉及神經(jīng)網(wǎng)絡(luò)技術(shù)領(lǐng)域,為文生視頻技術(shù)的進(jìn)一步發(fā)展提供了新的思路。

Sora文生視頻火爆出圈!清華大學(xué)公布文生視頻專利

據(jù)ITBEAR科技資訊了解,清華大學(xué)的這項(xiàng)專利申請(qǐng)中詳細(xì)描述了一種定制化多主體文生視頻的方法。該方法需要獲取多個(gè)主體分別對(duì)應(yīng)的主體文本表述以及主體圖像;然后,基于這些信息,進(jìn)一步獲取混合文本和組合圖像。接下來,將混合文本和組合圖像輸入到文生視頻模型中,生成第二噪聲預(yù)測(cè)值,并根據(jù)這個(gè)預(yù)測(cè)值與組合圖像,計(jì)算出第二損失和第三損失。通過綜合考慮第一損失、第二損失與第三損失,對(duì)文生視頻模型進(jìn)行優(yōu)化,從而得到一個(gè)性能更優(yōu)的文生視頻模型。

這項(xiàng)專利技術(shù)的創(chuàng)新之處在于,它通過多種損失函數(shù)對(duì)文生視頻模型的參數(shù)進(jìn)行優(yōu)化,確保在基于文本描述生成視頻中的圖像時(shí),文本描述與定制化主體能夠保持一致。同時(shí),該技術(shù)在生成過程中能夠確保每個(gè)主體的特征不會(huì)發(fā)生混淆,并且在最終的視頻中消除合成痕跡,從而提升視頻的整體質(zhì)量和觀感。

標(biāo)簽: Sora
舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容