10月31日-11月1日,LiveVideoStackCon2020音視頻技術大會在北京隆重舉辦。本次大會以“多媒體開啟新視界”為主題,聚焦在音頻、視頻、圖像等技術的最新探索與應用實踐,覆蓋教育、娛樂、醫(yī)療、安防、旅游、電商、社交、游戲、智能設備等行業(yè)領域,數(shù)十位業(yè)內知名講師與來自全國各地的音視頻工程師、多媒體工程師、圖像算法工程師、運維與物聯(lián)網工程師等分享了技術創(chuàng)新與最佳實踐。
本次大會中,人工智能相關話題十分火爆,AI已經滲透到多媒體技術的各個環(huán)節(jié),無論內容生產、編解碼、音視頻前后處理等,AI都有一席之地,甚至被寄予厚望。網易云信資深音頻算法工程師郝一亞博士受邀參會,在“音頻技術:逼近人耳極限”專題會場進行了題為《RTC中AI音頻算法的產品化》的主題演講,并在“5G、AI,新技術與新變革”圓桌論壇中分享了AI在音視頻領域應用的實踐經驗。
主題分享中,郝一亞博士首先介紹了AI在音頻處理中日漸強大的力量。隨著AI在計算機視覺等領域的成功應用,CNN、RNN等深度學習網絡被迅速應用到了音頻領域,AI在音頻降噪、場景分類、回聲控制、盲源分離等方向著發(fā)揮著越來越重要的作用。
雖然AI在音頻領域的價值日漸明顯,但在目前的算法中,特別是RTC音頻中,還沒有被大范圍的應用起來。針對音頻處理中AI的挑戰(zhàn)與局限,郝一亞博士概括為三點。一是計算復雜度。AI模型通常需要巨大的計算量,就目前我們大部分終端設備的計算能力來說壓力很大,對RTC中的實時性提出了考驗。二是泛化能力。AI算法是基于有限的數(shù)據(jù)集訓練出來的,泛化能力有限一直是問題所在。而RTC中覆蓋的業(yè)務場景非常多,AI算法要覆蓋所有場景更是難上加難。三是魯棒性。RTC豐富的應用場景中會有很多突發(fā)情況,對于AI算法魯棒性的要求也非常高。
由于算力、數(shù)據(jù)和AI模型本身的限制,現(xiàn)在AI還達不到替換傳統(tǒng)信號處理方法的階段,但音頻AI在效果上的優(yōu)勢已經被證實。郝一亞博士提出,在RTC領域,要想更好地發(fā)揮出AI的優(yōu)勢,有效規(guī)避不足,進行“模塊化”處理是一個有效的途徑。把端到端、長鏈路的處理拆分,分別找到合適的AI模塊,讓專業(yè)的“人”做專業(yè)的事。
以音頻降噪中的AI算法為例,傳統(tǒng)降噪算法中包含了很多模塊,其中“噪聲估計”模塊很適合做深度學習訓練,特別是針對一些穩(wěn)態(tài)噪聲。在這里,不用端到端地去訓練整個AI模型,而是把這一模塊訓練成單獨的噪聲估計模型。通過模塊化的處理,實現(xiàn)了輕量級模型、簡單的訓練目標以及更適合DNN模型,從而最大程度的發(fā)揮了AI的優(yōu)勢。
郝一亞博士認為,未來越來越多的AI技術將融入到RTC中,一些新的爆發(fā)點可能是更先進的神經網絡模型,更高效的GPU等,但是,有一項關鍵點不會變,那就是大量的數(shù)據(jù)。目前,網易云信已配備了全套工具和環(huán)境采集多種來源的數(shù)據(jù)集用于訓練AI算法,已經在音頻降噪和視頻超分等場景中實踐應用。
2015年10月至今,網易云信一直專注于即時通訊和音視頻技術領域的前沿探索和應用實踐,已幫助100萬企業(yè)開發(fā)者成功發(fā)送10000億條消息,日活突破3億,在百家爭鳴的PaaS市場中實現(xiàn)穩(wěn)中增長。近期,網易云信再度加碼技術能力,全面升級的音視頻通話2.0產品上線,AI等新興技術已融入產品開始服務客戶。未來,網易云信將堅持不斷創(chuàng)新,探索融合通訊領域的新技術、新產品、新應用,與行業(yè)共創(chuàng)美好新時代。