根據(jù)Cisco VNI數(shù)據(jù),預(yù)計到2022年,全球CDN流量規(guī)模將達(dá)到252EB/m,其中,互聯(lián)網(wǎng)視頻流量占比呈逐年上升趨勢。在視頻行業(yè)高速發(fā)展的過程中,帶寬、網(wǎng)絡(luò)得以豐富,視頻的高清體驗不斷提升,分辨率從1k、4k到8k,甚至到超高清。從生物學(xué)角度,滿足人眼真正的沉浸式需要50k分辨率。高清視頻的發(fā)展使得用戶對視頻/圖像質(zhì)量的要求永無止境,其真實體驗感受評測難度也相應(yīng)增加,如何全面客觀評價視頻畫質(zhì)的質(zhì)量是否得到提升?
“針對以上難題,金山云發(fā)布圖像視頻感知評價指標(biāo)Kingsoft Cloud Perceptual Assessment(KPA),希望以此助力行業(yè)實現(xiàn)‘讓視頻更高清’的目標(biāo)。”金山云高級研發(fā)總監(jiān)樊鴻飛在近日的LiveVideoStackCon 2020北京(音視頻技術(shù)大會)上表示。
比VMAF應(yīng)用范圍更廣
當(dāng)下,主觀質(zhì)量評價和客觀質(zhì)量評價是行業(yè)內(nèi)兩大類圖像視頻質(zhì)量評價方法,其中客觀質(zhì)量評價分為全參考評價指標(biāo)、半?yún)⒖荚u價指標(biāo)和無參考評價指標(biāo)。據(jù)樊鴻飛介紹,目前,能夠達(dá)到商用級的評價指標(biāo)非常少,學(xué)術(shù)界的評價指標(biāo)主要都是針對有非常明確邊界條件約束的場景。商用級的全參考評價指標(biāo)目前除了PSNR和SSIM之外,就是Netflix在2016年發(fā)布的VMAF了,VMAF是第一個開源的商用評價指標(biāo),也是高清視頻領(lǐng)域的并經(jīng)之路。無參考評價指標(biāo)主要有BRISQUE、NIQE和VSFA,金山云KPA選擇了無參考這個賽道。
KPA與VMAF的區(qū)別在于,一方面VMAF是全參考的畫質(zhì)視頻指標(biāo),而KPA是一組無參考的畫質(zhì)視頻指標(biāo),KPA可以應(yīng)用在全參考來計算DMOS,同時KPA除了通用的整體質(zhì)量評價外,還包括子維度質(zhì)量、局部質(zhì)量等細(xì)分評價指標(biāo),應(yīng)用范圍更廣泛;另一方面,VMAF針對高清PGC視頻有比較強(qiáng)的能力,針對UGC沒有進(jìn)行特殊優(yōu)化,而KPA主要針對UGC視頻。
金山云KPA主要希望用客觀指標(biāo)來衡量人眼的主觀感受。“然而在畫質(zhì)評測行業(yè),用客觀指標(biāo)來衡量主觀質(zhì)量一直以來都是一個世界難題。由于設(shè)備分辨率、觀測距離、屏幕大小的區(qū)別等,觀看同一段視頻的主觀質(zhì)量體驗會存在差距。此外,除了整體分?jǐn)?shù)以外,還有各個子維度的分?jǐn)?shù),比如色彩、亮度、清晰度、畸變等。另外還涉及到網(wǎng)絡(luò)卡頓問題、VR視頻......,問題非常復(fù)雜。因此,金山云KPA并不是用一個算法來解決所有的事情,目前發(fā)布的KPA主要針對于UGC視頻,對于播放場景的映射也是針對于常用場景,同時我們也在探索包括子維度評價、局部評價、評價映射等主觀評價的各細(xì)分業(yè)務(wù)場景指標(biāo)。”樊鴻飛表示。
在UGC場景排名問鼎
針對現(xiàn)有評價指標(biāo)算法,尤其是無參考評價算法精度較低的問題,金山云KPA主要從兩個方向進(jìn)行了重點研究和優(yōu)化:一個是數(shù)據(jù)篩選,另一個是模型攻防。
在數(shù)據(jù)層面,通過收集各種場景下UGC及PGC視頻,并保證至少50以上的專業(yè)評測人員對每個視頻進(jìn)行主觀評測,從源頭上避免數(shù)據(jù)主觀評測波動和精度問題。同時,對收集到的數(shù)據(jù),從內(nèi)容、場景、質(zhì)量等多個維度進(jìn)行平衡篩選,在確保數(shù)據(jù)規(guī)模遠(yuǎn)超業(yè)界開源數(shù)據(jù)的基礎(chǔ)上,提升數(shù)據(jù)的多樣性。在模型層面,通過攻防設(shè)計、協(xié)同學(xué)習(xí)、困難樣本挖掘等方法,提升模型的魯棒性和精度,在UGC場景中SROCC和gMAD分?jǐn)?shù)均優(yōu)于業(yè)界知名的有參考算法VMAF。
金山云KPA可以有效應(yīng)用于編碼及AI方向,避免或減少畫質(zhì)損失,提升視頻或圖像主觀質(zhì)量。在編碼方向,通過KPA對視頻進(jìn)行場景級、幀級等全局質(zhì)量預(yù)測分析,塊級局部質(zhì)量預(yù)測分析,結(jié)合JND模型作為其最小可察覺主觀失真衡量,并由此自動決策出編碼所需要的CRF、QP等參數(shù),能更好地匹配人類視覺主觀系統(tǒng),消除視覺感知冗余,在保證主觀質(zhì)量相同的情況下降低碼率或者在相同碼率下提升主觀質(zhì)量;在AI增強(qiáng)方向,通過將KPA的全局/局部/子維度評價作為不同側(cè)重點的loss或者判別器加入到模型訓(xùn)練中,指導(dǎo)模型朝更好的畫質(zhì)方向進(jìn)行優(yōu)化,進(jìn)一步提升主觀畫質(zhì)。
“在近幾年對AI的研究中發(fā)現(xiàn),這項技術(shù)可在眾多領(lǐng)域廣泛應(yīng)用,且能大幅度提升各領(lǐng)域的原有性能。在畫質(zhì)評測相關(guān)的任務(wù)中,AI也幫助我們大幅度提升了SROCC和PLCC等指標(biāo)。未來,我們的重點研究方向包括:1.進(jìn)一步提升KPA泛化性,完善對各分辨率視頻映射能力;2.提升視頻編碼中JND、RDO等模塊算法主觀質(zhì)量;3.利用KPA進(jìn)行更好的超分辨率、去噪等AI算法研發(fā);4.針對相機(jī)拍攝所需要的偏色、暗場、畸變等維度研究評價指標(biāo)。一方面,我們希望KPA能夠拋磚引玉,吸引更多學(xué)術(shù)界的學(xué)者來關(guān)注企業(yè)應(yīng)用中真正的訴求;另一方面,希望KPA能夠幫助視頻行業(yè)進(jìn)一步提升視頻質(zhì)量,推進(jìn)視頻高清應(yīng)用的發(fā)展。”樊鴻飛在演講最后表示。