近日,字節(jié)跳動(dòng)的研究團(tuán)隊(duì)向公眾展示了一項(xiàng)前沿的AI技術(shù)——一款名為OmniHuman-1的模型,該模型能夠僅憑一張圖片和一段音頻,自動(dòng)生成半身乃至全身的動(dòng)畫視頻。
據(jù)字節(jié)跳動(dòng)介紹,與市面上那些僅能生成面部或上半身動(dòng)畫的深度偽造技術(shù)相比,OmniHuman-1展現(xiàn)出了更為強(qiáng)大的能力。它不僅能生成高度逼真的全身動(dòng)畫,還能確保動(dòng)畫中的手勢和面部表情與輸入的語音或音樂完美同步,為用戶帶來前所未有的視覺體驗(yàn)。
為了驗(yàn)證OmniHuman-1的實(shí)力,字節(jié)跳動(dòng)在其OmniHuman-lab項(xiàng)目頁面上發(fā)布了一系列測試視頻。這些視頻中,AI不僅成功“復(fù)刻”了一場TED演講,還創(chuàng)造了一個(gè)栩栩如生的、會(huì)說話的阿爾伯特·愛因斯坦形象,令人嘆為觀止。
在本周一發(fā)布的一篇論文中,字節(jié)跳動(dòng)進(jìn)一步闡述了OmniHuman-1的技術(shù)特點(diǎn)。該模型支持多種體型和畫面比例,能夠根據(jù)輸入的數(shù)據(jù)自適應(yīng)調(diào)整,從而生成更加自然流暢的視頻效果。這一特性使得OmniHuman-1在動(dòng)畫生成領(lǐng)域獨(dú)樹一幟。
據(jù)了解,OmniHuman-1的出色表現(xiàn)得益于其龐大的訓(xùn)練數(shù)據(jù)集。字節(jié)跳動(dòng)表示,該模型基于約19000小時(shí)的人類運(yùn)動(dòng)數(shù)據(jù)進(jìn)行訓(xùn)練,因此具備了強(qiáng)大的泛化能力。它能夠在內(nèi)存限制內(nèi)生成任意長度的視頻,并適應(yīng)不同的輸入信號,為用戶提供了極大的靈活性。
研究人員還對OmniHuman-1的真實(shí)性和準(zhǔn)確性給予了高度評價(jià)。他們指出,與其他同類動(dòng)畫工具相比,OmniHuman-1在生成動(dòng)畫時(shí)更加精準(zhǔn)、自然,為用戶帶來了更加逼真的視覺享受。然而,目前該工具仍處于研發(fā)階段,暫不提供下載或相關(guān)服務(wù),未來是否會(huì)面向公眾開放尚不得而知。