近日,中國移動攜手南京大學團隊,在人工智能領(lǐng)域取得了一項重要突破,成功研發(fā)出了一種高保真2D數(shù)字人說話驅(qū)動系統(tǒng)。這一創(chuàng)新旨在優(yōu)化客戶服務體驗,降低運營成本,并為智能客服、教育培訓及廣告營銷等多個領(lǐng)域帶來革新。
作為全球用戶規(guī)模最大的通信運營商,中國移動面臨著巨大的客戶服務需求。盡管智能語音客服已經(jīng)廣泛應用于日常業(yè)務中,但其提供的服務體驗仍無法與人工客服的面對面、個性化服務相提并論。為了改善這一現(xiàn)狀,中國移動九天視覺團隊與南京大學邰穎團隊攜手,共同研發(fā)了這款高保真2D數(shù)字人說話驅(qū)動系統(tǒng)。
該系統(tǒng)能夠根據(jù)目標人物的照片或視頻以及任意音頻,生成與之同步的說話視頻流。生成的數(shù)字人形象逼真,表情姿態(tài)自然,且具備較高的實時性。這一技術(shù)不僅實現(xiàn)了人物數(shù)字替身的構(gòu)建,還與語言大模型、音頻合成能力進行了有機整合,為用戶提供了更為真實、自然的交互體驗。
在技術(shù)攻堅和方案創(chuàng)新方面,該系統(tǒng)取得了顯著的成果。首先,在實時播報口型生成技術(shù)上,該系統(tǒng)達到了學術(shù)界的領(lǐng)先水平,支持中英文數(shù)字人口型驅(qū)動,實時性能達到了30毫秒每幀。其次,通過研發(fā)二階段學習框架,系統(tǒng)將數(shù)字人說話驅(qū)動過程拆解為從音頻到口型系數(shù)、從口型系數(shù)到生成人像兩部分,降低了學習難度,提升了生成效果。最后,該系統(tǒng)還引入了情緒引導學習模塊,支持正常、微笑、驚訝、憤怒、恐懼、悲傷等七種主流情緒控制生成能力,使生成的數(shù)字人具備更加豐富的情感表達能力。
在實際應用中,該系統(tǒng)已經(jīng)實現(xiàn)了端到端的二階段30幀每秒實時生成性能,并支持512×512人臉區(qū)域生成。同時,該系統(tǒng)還具備高興、悲傷等七種主流情緒控制生成能力,為用戶帶來了更加豐富的視覺體驗。在評測集VoxCeleb指標方面,該技術(shù)的口型準確性LMD達到了4.3,生成自然度FID達到了11.1,均表現(xiàn)出色。
據(jù)中國移動官方介紹,這一研發(fā)成果的應用前景廣闊。它不僅有效降低了創(chuàng)作門檻,提升了生成人物的視覺質(zhì)量,還為5G新通話、和留言小秘書等品牌業(yè)務的拓展提供了有力支持。未來,隨著技術(shù)的不斷成熟和應用場景的不斷拓展,這一系統(tǒng)有望為更多領(lǐng)域帶來創(chuàng)新和變革。