ITBear旗下自媒體矩陣:

網(wǎng)易云信亮相LiveVideoStackCon2020,分享RTC中AI音頻算法產(chǎn)品化經(jīng)驗(yàn)

   時(shí)間:2020-11-05 17:04:22 來(lái)源:上海之聲編輯:星輝 發(fā)表評(píng)論無(wú)障礙通道

10月31日-11月1日,LiveVideoStackCon2020音視頻技術(shù)大會(huì)在北京隆重舉辦。本次大會(huì)以“多媒體開(kāi)啟新視界”為主題,聚焦在音頻、視頻、圖像等技術(shù)的最新探索與應(yīng)用實(shí)踐,覆蓋教育、娛樂(lè)、醫(yī)療、安防、旅游、電商、社交、游戲、智能設(shè)備等行業(yè)領(lǐng)域,數(shù)十位業(yè)內(nèi)知名講師與來(lái)自全國(guó)各地的音視頻工程師、多媒體工程師、圖像算法工程師、運(yùn)維與物聯(lián)網(wǎng)工程師等分享了技術(shù)創(chuàng)新與最佳實(shí)踐。

本次大會(huì)中,人工智能相關(guān)話題十分火爆,AI已經(jīng)滲透到多媒體技術(shù)的各個(gè)環(huán)節(jié),無(wú)論內(nèi)容生產(chǎn)、編解碼、音視頻前后處理等,AI都有一席之地,甚至被寄予厚望。網(wǎng)易云信資深音頻算法工程師郝一亞博士受邀參會(huì),在“音頻技術(shù):逼近人耳極限”專題會(huì)場(chǎng)進(jìn)行了題為《RTC中AI音頻算法的產(chǎn)品化》的主題演講,并在“5G、AI,新技術(shù)與新變革”圓桌論壇中分享了AI在音視頻領(lǐng)域應(yīng)用的實(shí)踐經(jīng)驗(yàn)。

主題分享中,郝一亞博士首先介紹了AI在音頻處理中日漸強(qiáng)大的力量。隨著AI在計(jì)算機(jī)視覺(jué)等領(lǐng)域的成功應(yīng)用,CNN、RNN等深度學(xué)習(xí)網(wǎng)絡(luò)被迅速應(yīng)用到了音頻領(lǐng)域,AI在音頻降噪、場(chǎng)景分類、回聲控制、盲源分離等方向著發(fā)揮著越來(lái)越重要的作用。

雖然AI在音頻領(lǐng)域的價(jià)值日漸明顯,但在目前的算法中,特別是RTC音頻中,還沒(méi)有被大范圍的應(yīng)用起來(lái)。針對(duì)音頻處理中AI的挑戰(zhàn)與局限,郝一亞博士概括為三點(diǎn)。一是計(jì)算復(fù)雜度。AI模型通常需要巨大的計(jì)算量,就目前我們大部分終端設(shè)備的計(jì)算能力來(lái)說(shuō)壓力很大,對(duì)RTC中的實(shí)時(shí)性提出了考驗(yàn)。二是泛化能力。AI算法是基于有限的數(shù)據(jù)集訓(xùn)練出來(lái)的,泛化能力有限一直是問(wèn)題所在。而RTC中覆蓋的業(yè)務(wù)場(chǎng)景非常多,AI算法要覆蓋所有場(chǎng)景更是難上加難。三是魯棒性。RTC豐富的應(yīng)用場(chǎng)景中會(huì)有很多突發(fā)情況,對(duì)于AI算法魯棒性的要求也非常高。

由于算力、數(shù)據(jù)和AI模型本身的限制,現(xiàn)在AI還達(dá)不到替換傳統(tǒng)信號(hào)處理方法的階段,但音頻AI在效果上的優(yōu)勢(shì)已經(jīng)被證實(shí)。郝一亞博士提出,在RTC領(lǐng)域,要想更好地發(fā)揮出AI的優(yōu)勢(shì),有效規(guī)避不足,進(jìn)行“模塊化”處理是一個(gè)有效的途徑。把端到端、長(zhǎng)鏈路的處理拆分,分別找到合適的AI模塊,讓專業(yè)的“人”做專業(yè)的事。

以音頻降噪中的AI算法為例,傳統(tǒng)降噪算法中包含了很多模塊,其中“噪聲估計(jì)”模塊很適合做深度學(xué)習(xí)訓(xùn)練,特別是針對(duì)一些穩(wěn)態(tài)噪聲。在這里,不用端到端地去訓(xùn)練整個(gè)AI模型,而是把這一模塊訓(xùn)練成單獨(dú)的噪聲估計(jì)模型。通過(guò)模塊化的處理,實(shí)現(xiàn)了輕量級(jí)模型、簡(jiǎn)單的訓(xùn)練目標(biāo)以及更適合DNN模型,從而最大程度的發(fā)揮了AI的優(yōu)勢(shì)。

郝一亞博士認(rèn)為,未來(lái)越來(lái)越多的AI技術(shù)將融入到RTC中,一些新的爆發(fā)點(diǎn)可能是更先進(jìn)的神經(jīng)網(wǎng)絡(luò)模型,更高效的GPU等,但是,有一項(xiàng)關(guān)鍵點(diǎn)不會(huì)變,那就是大量的數(shù)據(jù)。目前,網(wǎng)易云信已配備了全套工具和環(huán)境采集多種來(lái)源的數(shù)據(jù)集用于訓(xùn)練AI算法,已經(jīng)在音頻降噪和視頻超分等場(chǎng)景中實(shí)踐應(yīng)用。

2015年10月至今,網(wǎng)易云信一直專注于即時(shí)通訊和音視頻技術(shù)領(lǐng)域的前沿探索和應(yīng)用實(shí)踐,已幫助100萬(wàn)企業(yè)開(kāi)發(fā)者成功發(fā)送10000億條消息,日活突破3億,在百家爭(zhēng)鳴的PaaS市場(chǎng)中實(shí)現(xiàn)穩(wěn)中增長(zhǎng)。近期,網(wǎng)易云信再度加碼技術(shù)能力,全面升級(jí)的音視頻通話2.0產(chǎn)品上線,AI等新興技術(shù)已融入產(chǎn)品開(kāi)始服務(wù)客戶。未來(lái),網(wǎng)易云信將堅(jiān)持不斷創(chuàng)新,探索融合通訊領(lǐng)域的新技術(shù)、新產(chǎn)品、新應(yīng)用,與行業(yè)共創(chuàng)美好新時(shí)代。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version