ITBear旗下自媒體矩陣:

眺望全真互聯(lián)時代!TVP音視頻技術閉門會閃耀上海

   時間:2021-07-27 14:25:47 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

?引言

2020年7月17日,“全真互聯(lián)網(wǎng)中的聲與影” 騰訊云TVP音視頻技術閉門會完美收官。TVP技術閉門會,是為騰訊云TVP打造的專屬技術閉門研討會,旨在提供一個開放、平等、知無不言的交流環(huán)境,便于TVP針對熱門技術話題、前沿科技、技術管理等話題進行深入探討,促進TVP之間,TVP與騰訊內部團隊之間的相互交流與學習。

25位騰訊云TVP專家及騰訊專家齊聚上海騰云大廈,開啟騰云之旅,在精彩紛呈的技術分享與觀點交鋒的熱點話題探討中,共話音視頻領域前沿趨勢,描繪全真互聯(lián)網(wǎng)時代的發(fā)展藍圖。

1合照.jpg

參會TVP專家與騰訊專家合影

視頻生成與合成技術的新進展

線上會議、在線教育、電商直播等多個場景的興起,使得視頻實時生成技術從幕后走到臺前,受到了更多的關注。上海交通大學圖像所副所長、騰訊云TVP宋利,從學術界的視角,帶來了《視頻生成與合成技術的新進展》。

上海交通大學圖像所副所長、騰訊云TVP 宋利

在分享中,宋利首先對音視頻技術發(fā)展的整體趨勢做出了高屋建瓴的解讀——技術飛速發(fā)展,已從傳統(tǒng)的視頻編解碼處理,向合成、生成、創(chuàng)造進化。圖形學+計算視覺+深度學習的綜合開啟了新思路。

隨后,宋利分享了基于生成模型的視頻編解碼、圖像和諧化、自由視角、視頻的深度特征表達等四項前沿技術的最新研究成果。

基于生成模型的視頻編解碼:針對視頻會議等背景和姿態(tài)較為固定的場景,在編碼端只傳輸人臉關鍵點信息;在云端建立關鍵幀池,根據(jù)視覺敏感性將人臉分為敏感區(qū)域和非敏感區(qū)域,分別進行特征提取;在解碼端利用生成對抗網(wǎng)絡生成目標視頻幀,可實現(xiàn)高質量,低帶寬的編解碼方案。

圖像和諧化:其核心思想是從背景中深度學習特征,將它應用到前景特征上,同時也讓背景從前景中學習,從而生成在色調、亮度、飽和度等視覺特征上更和諧的組合圖像。

自由視角:是指在場景周圍架設多臺攝像機采集視頻流,使得用戶可以平滑無縫地選擇觀看視角,獲得仿佛在現(xiàn)場自由穿梭的新體驗。目前常用于體育賽事、綜藝表演等,比如在今年的東京奧運會轉播中就有應用。隨后,宋利詳盡地解析了自由視角的三種技術實現(xiàn)路線:DIBR、3D模型以及NeRF。

視頻的深度特征表達:最后,宋利還介紹了特征域處理如何為傳統(tǒng)視頻帶來無限表達自由,包括從壓縮圖像中學習的視頻生成、視頻下一步行動預測、基于關鍵幀的視頻風格化以及視頻任意倍率超分。

全真將至,5G先發(fā)

全真互聯(lián)的實現(xiàn),涉及到多層面的因素,云、終端、應用等等,網(wǎng)絡是其中重要的一層。那么5G時代的到來,將為全真互聯(lián)網(wǎng)帶來怎樣的機遇?騰訊云通信副總經(jīng)理王軍帶來了《全真將至,5G先發(fā)——從5G看全真互聯(lián)網(wǎng)時代》主題分享。

騰訊云通信副總經(jīng)理 王軍

在演講伊始,王軍首先分享了從5G視角對全真互聯(lián)網(wǎng)的深刻理解:

1.全真互動。以遠程操控為例,全真互動希望達到的目標是操作流暢,從視聽和觸覺上都能獲得如同現(xiàn)場操作般的真實體驗。

2.沉浸感知。以VR為代表的沉浸式體驗。

3.數(shù)字孿生。

要實現(xiàn)全真互聯(lián)網(wǎng)的極致體驗,在網(wǎng)絡層面有著兩大核心訴求——低時延、高帶寬。而5G浪潮的爆發(fā)正在為全真互聯(lián)創(chuàng)造廣闊可能。王軍指出,到2023年底,國內5G可基本覆蓋所有鄉(xiāng)鎮(zhèn)和重點鄉(xiāng)村;今年上半年,國內5G手機出貨量超億部,由此預估2023年在C端,國內5G手機普及量有望達到5-8億,B端的企業(yè)級服務也將不斷拓展。

那么,快速發(fā)展的5G技術與音視頻技術的結合將帶來哪些應用機遇?王軍提出了以下落地場景:

1.遠程實時操控?;隍v訊云音視頻多年積累的成熟技術TRTC及遠程實時操控產(chǎn)品TRRO,提供5G網(wǎng)絡下低時延的遠程實時操控能力,可廣泛應用于無人礦車、港口集卡、鋼鐵天車、乘用車無人駕駛等場景。

2.VR云游戲。將計算放到云端,個人邊緣云主機,按時計費。

3.全球端到端加速體系。在網(wǎng)絡負載重或網(wǎng)絡質量差的環(huán)境中,騰訊云加速產(chǎn)品可提供低時延與大帶寬的保障。

4.規(guī)?;?、多樣化的邊緣基礎設施。包括面向廣域的邊緣公有云與面向本地的邊緣私有云。

在QA環(huán)節(jié),王軍和現(xiàn)場的TVP專家還就5G在遠程醫(yī)療及自動駕駛領域的應用、移動網(wǎng)絡與WIFI的穩(wěn)定性、5G CPE等問題展開了熱烈的探討。

全真互聯(lián)時代下的多媒體技術

多媒體技術是全真互聯(lián)網(wǎng)最為大眾廣泛而深刻感知的技術。騰訊多媒體實驗室產(chǎn)品副總監(jiān)、專家工程師葉聰,以《全真互聯(lián)時代下的多媒體技術》主題分享,帶現(xiàn)場嘉賓深入走進全真互聯(lián)背后的多媒體技術。

騰訊多媒體實驗室產(chǎn)品副總監(jiān)、專家工程師 葉聰

在葉聰看來,全真互聯(lián)網(wǎng)的實現(xiàn)有兩個維度,一是在連接層面變得更全面,二是在呈現(xiàn)與交互層面變得更真實。

1.在連接層面,從消費互聯(lián)網(wǎng)時代的人與人,人與信息/服務連接,到產(chǎn)業(yè)互聯(lián)網(wǎng)時代的萬物互聯(lián),再進化為全真互聯(lián)網(wǎng)時代,虛擬世界出現(xiàn)。人、信息/服務、物在虛擬世界的副本與真實世界可以任意相連。

2.在呈現(xiàn)層面,視覺上發(fā)展到與沉浸式相關的體驗如AR、VR。聽覺上發(fā)展到全景音。在交互層面,目前行業(yè)努力推進的是語音、肢體動作的識別交互,下一代會往腦機接口探索。

而隨著全真互聯(lián)體驗要求的不斷提高,其背后的視頻編解碼、視頻處理與沉浸式技術也在快速發(fā)展。

編解碼技術上,葉聰將編解碼技術與標準的進化史娓娓道來,從早年的MPEG-2到如今最新的VVC,演進的過程也是中國企業(yè)技術話語權不斷增強的過程——目前騰訊有數(shù)百項提案得到VVC標準的采納,位列世界第三。目前騰訊云音視頻旗下轉碼及相關媒體處理應用已支持最新的編解碼標準H.266/VVC。

視頻處理技術上,展示設備會向著8K高清、10bit色彩、高幀率發(fā)展。相應的素材也需要進行去壓縮失真、色彩修正、去抖動等優(yōu)化處理。葉聰以一個效果視頻展示了騰訊云多媒體實驗室在視頻處理上的能力。

沉浸式技術上,目前有兩大方向:

1.3DoF,如VR360度視頻,難點主要在于高維采集數(shù)據(jù)的傳輸,可用切片的方案解決。實驗室打造的VR技術,在騰訊云臨境沉浸式媒體解決方案上也得到了出色的運用。

2.6DoF,如步入式VR360視頻,數(shù)字孿生方案等等。

在分享的最后,葉聰介紹了3D點云的概念,其優(yōu)點在于高度精細化地描述3D對象。騰訊的點云平臺結合SFM、深度學習等技術,可將現(xiàn)實場景虛擬化重建,應用于線上看房、文物原貌重現(xiàn)、自動駕駛等領域。

技術論道

在干貨滿滿的技術分享過后,迎來了思想火花迸發(fā)的技術論道環(huán)節(jié)。主持人,騰訊專家研發(fā)工程師劉連響提出了三個頗具深度的熱點話題,現(xiàn)場嘉賓以小組討論的形式,對各個話題展開了充分的討論,在熱烈的交流中碰撞出眾多精彩的觀點。

騰訊專家研發(fā)工程師 劉連響

開源與商業(yè)之間的關系?

開源與商業(yè)間的關系,是現(xiàn)場討論最為激烈的話題。專家們結合自身經(jīng)歷,從多個角度探討了開源的驅動力、價值、與商業(yè)間的平衡點等等,帶來了充滿啟發(fā)性的多元觀點。

熱烈的小組討論

1.從系統(tǒng)層次看開源:峰暢科技聯(lián)合創(chuàng)始人及CTO、騰訊云TVP段先德認為,在不同層次的系統(tǒng)中,開源與商業(yè)的關系有所不同。在基礎系統(tǒng)層次,如數(shù)據(jù)庫框架、基礎應用部件等,主要由開源的技術動機驅動;而在業(yè)務場景層次,商業(yè)力量則比開源的驅動力更強,業(yè)內不乏成功的商業(yè)變現(xiàn)案例。

2.從主導動力看開源:福強科技CTO、騰訊云TVP王福強提出了辯證性的新視角——當前,開源也成為了技術營銷的一種手段。騰訊云多媒體平臺公共技術負責人趙軍則進一步對這一觀點展開了探討,即可以根據(jù)主導動力,將開源劃分為社區(qū)/個人主導的開源,與商業(yè)公司主導的開源。對于商業(yè)公司主導的開源,趙軍認為,把握好開源初心與商業(yè)訴求之間的平衡點非常關鍵。

3.從動機與價值看開源:FFmpeg官方源代碼維護者、騰訊云TVP劉歧發(fā)表了獨到的見解,根據(jù)動機,他將從事開源的開發(fā)者劃分為三類:(1)出于愛好從事開源,將開源作為個人發(fā)揮社會價值的方式。(2)為了資本追趕開源風口,在投資的風潮過后,開源項目就無法持續(xù)。(3)通過開源提升個人影響力,以獲得更好的職業(yè)發(fā)展。其價值可總結為個人在社會的價值、在資本方的價值以及在公司的價值。

4.從商業(yè)和公益看開源:盛派網(wǎng)絡CEO兼首席架構師、騰訊云TVP蘇震巍指出,開源是在商業(yè)中成立的向善循環(huán)——通過將產(chǎn)品與技術開源,企業(yè)可以吸收社會的資源,讓其他企業(yè)用戶幫助發(fā)現(xiàn)問題,解決問題,從而推動自身商業(yè)模式的不斷完善。

全真互聯(lián)網(wǎng)的第一個落地應用會在哪里?

對于全真互聯(lián)網(wǎng)的未來落地應用,遠程教學是專家們普遍看好的場景,包括醫(yī)療領域的手術教學,以及開飛機的駕駛教學。其價值在于能夠避免操作失誤而造成的災難性后果,同時又能降低培養(yǎng)人才的成本。

技術的發(fā)展將為全真互聯(lián)網(wǎng)帶來哪些機會?

伴隨著超高清和XR等技術的發(fā)展,以及5G大帶寬、低時延和邊緣分流等能力的成熟,B端和C端的全真互聯(lián)網(wǎng)應用將涌現(xiàn)出哪些機會?專家們認為,無人化是蘊含著商業(yè)機遇的方向。低時延將進一步促進遠程操控的發(fā)展,如汽車、機器、廠房的遠程操控。

結語

本次“全真互聯(lián)網(wǎng)中的聲與影”騰訊云TVP技術閉門會在開源與商業(yè)的激辯中落下了帷幕,嘉賓們對于技術的探討卻一直延續(xù)到晚宴環(huán)節(jié)也未曾停歇。聲音需要碰撞方能激發(fā)嶄新的思考;視角需要交換才會拓寬認識的邊界,這是這場音視頻盛宴在前沿技術之外,給予我們的更深刻的啟迪。

TVP,即騰訊云最具價值專家(Tencent Cloud Valuable Professional),是騰訊云授予云計算領域技術專家的一個獎項。TVP計劃致力打造與行業(yè)技術專家的交流平臺,構建云計算技術生態(tài),實現(xiàn)“用科技影響世界”的美好愿景。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網(wǎng)站首頁  |  關于我們  |  聯(lián)系方式  |  版權聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉載  |  滾動資訊  |  English Version