近日,阿里巴巴(中國)有限公司在視頻生成技術(shù)領(lǐng)域取得了新進展,一項名為“一種圖生視頻方法和裝置”的專利被正式公布。據(jù)天眼查知識產(chǎn)權(quán)信息顯示,這項專利的公布標志著阿里巴巴在智能化視頻生成方面邁出了重要一步。
該專利的核心在于,通過一種創(chuàng)新的實施例,實現(xiàn)了從靜態(tài)圖像到動態(tài)視頻的智能化轉(zhuǎn)換。具體而言,該方法首先將包含目標對象的源圖像輸入到一個精心設(shè)計的第一視頻生成模型中,從而生成一個基礎(chǔ)的素材視頻。接下來,根據(jù)這個素材視頻,系統(tǒng)會自動確定一個幀間變換矩陣序列,這個序列用于描述視頻中幀與幀之間的變換關(guān)系。
在獲取了幀間變換矩陣序列后,系統(tǒng)會進一步從源圖像中提取出目標對象對應(yīng)的對象掩碼圖像。這個掩碼圖像相當于一個“模板”,用于在后續(xù)步驟中準確地識別和提取目標對象。隨后,將幀間變換矩陣序列應(yīng)用于這個對象掩碼圖像,生成一系列掩碼圖像,組成掩碼圖像序列。同時,將幀間變換矩陣序列也應(yīng)用于源圖像,生成一系列目標對象圖像,組成目標對象圖像序列。
有了這些基礎(chǔ)數(shù)據(jù)后,系統(tǒng)會根據(jù)源圖像、掩碼圖像序列和目標對象圖像序列,確定一個目標輸入數(shù)據(jù)。這個數(shù)據(jù)被輸入到一個支持局部重繪的第二視頻生成模型中。這個模型能夠利用前面的數(shù)據(jù),生成一個與目標對象高度匹配、且運動軌跡多樣的目標視頻。
這種方法實現(xiàn)了智能化端到端的圖生視頻生成,無需預(yù)先設(shè)定運動參數(shù)。這意味著,系統(tǒng)能夠自動地根據(jù)源圖像中的目標對象,生成具有豐富運動軌跡的視頻,同時保持目標對象在視頻中的清晰度和連貫性,避免了目標對象的擴散問題。
阿里巴巴的這項專利,無疑為視頻生成技術(shù)帶來了新的突破。隨著智能化技術(shù)的不斷發(fā)展,這種圖生視頻方法將在各個領(lǐng)域發(fā)揮越來越重要的作用,為人們的生活和工作帶來更多便利和樂趣。