ITBear旗下自媒體矩陣:

字節(jié)跳動(dòng)OmniHuman技術(shù):一張圖一段音,輕松生成全身動(dòng)畫

   時(shí)間:2025-02-06 16:08:00 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評論無障礙通道

近日,字節(jié)跳動(dòng)的研究團(tuán)隊(duì)向公眾展示了一項(xiàng)前沿的AI技術(shù)——一款名為OmniHuman-1的模型,該模型能夠僅憑一張圖片和一段音頻,自動(dòng)生成半身乃至全身的動(dòng)畫視頻。

據(jù)字節(jié)跳動(dòng)介紹,與市面上那些僅能生成面部或上半身動(dòng)畫的深度偽造技術(shù)相比,OmniHuman-1展現(xiàn)出了更為強(qiáng)大的能力。它不僅能生成高度逼真的全身動(dòng)畫,還能確保動(dòng)畫中的手勢和面部表情與輸入的語音或音樂完美同步,為用戶帶來前所未有的視覺體驗(yàn)。

為了驗(yàn)證OmniHuman-1的實(shí)力,字節(jié)跳動(dòng)在其OmniHuman-lab項(xiàng)目頁面上發(fā)布了一系列測試視頻。這些視頻中,AI不僅成功“復(fù)刻”了一場TED演講,還創(chuàng)造了一個(gè)栩栩如生的、會(huì)說話的阿爾伯特·愛因斯坦形象,令人嘆為觀止。

在本周一發(fā)布的一篇論文中,字節(jié)跳動(dòng)進(jìn)一步闡述了OmniHuman-1的技術(shù)特點(diǎn)。該模型支持多種體型和畫面比例,能夠根據(jù)輸入的數(shù)據(jù)自適應(yīng)調(diào)整,從而生成更加自然流暢的視頻效果。這一特性使得OmniHuman-1在動(dòng)畫生成領(lǐng)域獨(dú)樹一幟。

據(jù)了解,OmniHuman-1的出色表現(xiàn)得益于其龐大的訓(xùn)練數(shù)據(jù)集。字節(jié)跳動(dòng)表示,該模型基于約19000小時(shí)的人類運(yùn)動(dòng)數(shù)據(jù)進(jìn)行訓(xùn)練,因此具備了強(qiáng)大的泛化能力。它能夠在內(nèi)存限制內(nèi)生成任意長度的視頻,并適應(yīng)不同的輸入信號,為用戶提供了極大的靈活性。

研究人員還對OmniHuman-1的真實(shí)性和準(zhǔn)確性給予了高度評價(jià)。他們指出,與其他同類動(dòng)畫工具相比,OmniHuman-1在生成動(dòng)畫時(shí)更加精準(zhǔn)、自然,為用戶帶來了更加逼真的視覺享受。然而,目前該工具仍處于研發(fā)階段,暫不提供下載或相關(guān)服務(wù),未來是否會(huì)面向公眾開放尚不得而知。

舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容