近期,字節(jié)跳動智能創(chuàng)作團(tuán)隊研發(fā)了業(yè)內(nèi)首個通用視頻轉(zhuǎn)場推薦方案AutoTransition,致力于解決目前視頻剪輯中存在的學(xué)習(xí)成本高,編輯效率低等問題,該項成果目前已入選計算機(jī)視覺領(lǐng)域頂會ECCV2022(European Conference on Computer Vision)。
隨著短視頻的迅猛發(fā)展和普及,每天都有海量用戶通過視頻來記錄和分享生活。對于缺乏專業(yè)剪輯和視頻編輯知識的普通用戶而言,視頻的制作和剪輯卻具有很高的門檻。
AutoTransition兼顧靈活性與高性能,面向轉(zhuǎn)場這一視頻剪輯中最常使用的編輯元素,通過將轉(zhuǎn)場推薦任務(wù)建模為多模態(tài)匹配和檢索問題,從大量視頻數(shù)據(jù)中自動學(xué)習(xí)轉(zhuǎn)場匹配關(guān)系,實現(xiàn)了對任意視頻和音頻輸入推薦高質(zhì)量的轉(zhuǎn)場效果。借助AutoTransition,用戶可以快速一鍵生成優(yōu)質(zhì)轉(zhuǎn)場視頻,使剪輯效率得到顯著提升。
據(jù)介紹,相比于基于一系列預(yù)定義的策略或隨機(jī)選取的剪輯方式,AutoTransition能夠有效地從海量數(shù)據(jù)中學(xué)習(xí)到專業(yè)的剪輯知識,并基于對視頻和音頻的理解推薦高質(zhì)量轉(zhuǎn)場;相比于人工剪輯,AutoTransition模型能夠在極短時間內(nèi)完成推薦,顯著提升編輯效率,并且推薦結(jié)果可媲美甚至超越專家剪輯的效果;得益于優(yōu)秀的擴(kuò)展性,AutoTransition可以方便地和其他的視頻處理技術(shù)結(jié)合(例如視頻高光提取、視頻聚類和排序等),以實現(xiàn)更全面的視頻剪輯能力,幫助視頻工作者進(jìn)一步提升視頻編輯的效率。
目前,AutoTransition的衍生技術(shù)已經(jīng)成功落地于抖音和智能創(chuàng)作ToB工具箱等多項業(yè)務(wù)場景中。字節(jié)跳動智能創(chuàng)作團(tuán)隊表示:首個視頻轉(zhuǎn)場數(shù)據(jù)集和AutoTransition代碼均已開源,以期吸引更多同行關(guān)注這一新領(lǐng)域,共同推動智能視頻剪輯的快速發(fā)展。未來,該團(tuán)隊準(zhǔn)備將這一方案擴(kuò)展到更多的視頻剪輯元素,包括但不限于視頻動畫,視頻貼紙和裁剪變換等,同時還將嘗試和其他視頻處理技術(shù)結(jié)合,以實現(xiàn)更全面的視頻剪輯功能。