近期,阿里巴巴(中國)有限公司在視頻生成技術(shù)領(lǐng)域的一項(xiàng)新進(jìn)展引起了廣泛關(guān)注。據(jù)天眼查知識產(chǎn)權(quán)信息透露,該公司已成功獲得“一種圖生視頻方法和裝置”的專利授權(quán),標(biāo)志著其在智能化視頻生成領(lǐng)域取得了重要突破。
該專利的核心技術(shù)在于實(shí)現(xiàn)智能化、端到端的圖像到視頻的轉(zhuǎn)換過程。具體而言,這一方法首先會將包含目標(biāo)對象的源圖像輸入至一個(gè)先進(jìn)的視頻生成模型中,以此為基礎(chǔ)生成初步的素材視頻。隨后,系統(tǒng)會分析素材視頻,確定幀間變換矩陣序列,為后續(xù)的圖像處理提供關(guān)鍵數(shù)據(jù)支持。
在此基礎(chǔ)上,專利進(jìn)一步利用源圖像生成目標(biāo)對象對應(yīng)的對象掩碼圖像。通過應(yīng)用幀間變換矩陣序列,系統(tǒng)能夠生成一系列掩碼圖像和目標(biāo)對象圖像。這些圖像序列為后續(xù)的視頻生成提供了豐富的素材。
接下來,系統(tǒng)會整合源圖像、掩碼圖像序列和目標(biāo)對象圖像序列,形成目標(biāo)輸入數(shù)據(jù)。這些數(shù)據(jù)隨后被送入另一個(gè)支持局部重繪的視頻生成模型中,經(jīng)過精細(xì)處理,最終生成高質(zhì)量的目標(biāo)視頻。這一過程巧妙地結(jié)合了兩次模型生成,不僅顯著提升了視頻生成的智能化程度,還確保了目標(biāo)對象在視頻中的運(yùn)動(dòng)軌跡多樣且自然,避免了不必要的擴(kuò)散現(xiàn)象。
尤為該專利無需預(yù)設(shè)運(yùn)動(dòng)參數(shù)即可實(shí)現(xiàn)上述復(fù)雜的視頻生成過程。這一創(chuàng)新特性賦予了視頻生成更大的靈活性和多樣性,使其能夠適應(yīng)更多樣化的應(yīng)用場景需求。無論是廣告制作、動(dòng)畫制作還是虛擬現(xiàn)實(shí)等領(lǐng)域,該技術(shù)都有望發(fā)揮重要作用。