ITBear旗下自媒體矩陣:

即夢AI新技能:圖+音合成視頻,內測即將開啟!

   時間:2025-02-07 18:35:14 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

近日,即夢AI在官方社交媒體平臺上發(fā)布了一則令人矚目的消息,預告了其即將上線的新功能。這項功能的核心在于一個名為OmniHuman的多模態(tài)視頻生成模型,該模型由字節(jié)跳動自主研發(fā),旨在通過用戶提供的單張圖片和音頻文件,自動生成富有生動感的AI視頻。

根據即夢AI發(fā)布的預告視頻顯示,OmniHuman模型的應用場景極為廣泛。用戶只需簡單地上傳一張包含人物肖像、半身或全身的圖片,并搭配一段音頻,模型便能在視頻中讓該人物根據音頻內容做出相應的動作,無論是演講、唱歌、演奏樂器還是移動,都能呈現得栩栩如生。這一技術有望極大地提升AI短片的制作效率和質量。

OmniHuman模型在解決人物視頻生成中常見的手勢崩壞問題上,相較于現有方法取得了顯著的進步。該模型還支持非真人圖片輸入,如動漫、3D卡通等,生成的視頻能夠保持輸入圖片的特定風格和原有的運動模式,這一特性無疑為創(chuàng)作者提供了更多的可能性。

據即夢AI技術主頁的信息顯示,OmniHuman模型為閉源模型,這意味著它不會對外公開下載。這一決策可能是為了防止該技術被不當利用。同時,從技術主頁展示的演示效果來看,OmniHuman的生成效果已經相當自然,令人印象深刻。

盡管OmniHuman模型已經表現出色,但即夢AI的相關負責人透露,該模型在生成影視真實級別的視頻上仍存在一定的提升空間。因此,由該模型支持的多模態(tài)視頻生成功能將在即夢平臺上以小范圍內測的形式進行調優(yōu)調整,并逐步向用戶開放。

為了確保AI技術的正面應用,即夢AI還宣布將對此功能設置嚴格的安全審核機制,并對輸出的視頻標注水印以作提醒。這一舉措旨在保障視頻創(chuàng)作者能夠更好地實現想象力的表達,同時防止技術被濫用。

隨著OmniHuman模型的逐步推廣和應用,我們有理由相信,AI視頻生成技術將迎來一個全新的發(fā)展階段,為視頻創(chuàng)作者提供更多元化、更高效的創(chuàng)作工具。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯(lián)系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version