ITBear旗下自媒體矩陣:

RTE大會十年:聲網(wǎng)如何從實時音視頻拓荒者走向AI融合前沿?

   時間:2025-01-08 19:45:54 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

2015年,聲網(wǎng)公司勇敢地邁出了第一步,將WebRTC大會引入中國,成功舉辦了首屆面向國內(nèi)開發(fā)者、業(yè)務人員及用戶的RTC(實時視音頻)大會。在那場大會前夕,時任聲網(wǎng)市場VP及RTC大會主策人的彭小歡,心中滿是對大會能否吸引足夠參與者的忐忑。然而,十年后的今天,這一擔憂早已煙消云散。RTE(實時互聯(lián)網(wǎng))大會已步入第十個年頭,10月25日,RTE 2024大會如期舉行,現(xiàn)場座無虛席,熱鬧非凡。

在RTE2024大會的現(xiàn)場,國內(nèi)大模型領域的佼佼者紛紛亮相,智譜、MiniMax、零一萬物團隊均現(xiàn)身其中。自ChatGPT發(fā)布以來,智譜和MiniMax分別在B端和C端市場深耕細作,積累了豐富的經(jīng)驗。通義千問團隊也帶著國內(nèi)最大的開發(fā)者生態(tài),加入了此次RTE大會的討論。AI領域的知名創(chuàng)業(yè)者如賈揚清,這位全球矚目的AI科學家,也在RTE大會的主論壇上分享了他在AI Infra領域創(chuàng)業(yè)18個月后的心得,以及對RTE+AI趨勢的獨到見解。

谷歌、螞蟻、面壁智能、生數(shù)科技、商湯、曠視、WPS、Soul等企業(yè)也在大會上分享了他們在ChatGPT時代下的AI探索成果。今年的RTE大會,大咖云集,AI內(nèi)容占據(jù)了主導地位。

從RTC大會到RTE大會,十年間,聲網(wǎng)始終堅守初心,從未間斷地舉辦這一盛會。如今,RTE大會已成為全球規(guī)模最大的音視頻行業(yè)峰會之一,規(guī)模從最初的一個主會場、一個分論壇和一個workshop,發(fā)展到如今的20多個論壇,觀眾人數(shù)上限一度達到六七千人。據(jù)聲網(wǎng)官方統(tǒng)計,這十年間,大會累計影響了200多萬開發(fā)者,覆蓋了300多個行業(yè)場景,吸引了2000多名專家講師參與分享。

聲網(wǎng)創(chuàng)始人趙斌在大會上表示,生成式AI正在推動IT行業(yè)發(fā)生深刻變革,主要體現(xiàn)在終端、軟件、云和人機界面四個層面,其中AI Native Cloud將成為主流。Lepton AI創(chuàng)始人兼CEO賈揚清也認為,AI是云的第三次浪潮,實時的交流和智能的結(jié)合在用戶體驗環(huán)節(jié)至關重要。

在大會的圓桌討論環(huán)節(jié),五位嘉賓圍繞AI的6000億美金難題,探討了從AI基礎設施到AI商業(yè)化落地的機會與挑戰(zhàn)。賈揚清認為基于開源架構(gòu)的應用會越來越普遍,而王鐵震則強調(diào)了開源模型的基礎設施和數(shù)據(jù)閉環(huán)的重要性。MiniMax合伙人魏偉分享了模型在藝術和影視等領域的創(chuàng)新應用,面壁智能聯(lián)合創(chuàng)始人及CTO曾國洋則預測未來算力成本將不斷優(yōu)化。

聲網(wǎng)在此次大會上發(fā)布了RTE+AI能力全景圖,從實時AI基礎設施、RTE+AI生態(tài)能力、聲網(wǎng)AI Agent、實時多模態(tài)對話式AI解決方案、RTE+AI應用場景五個維度,全面展示了RTE與AI相結(jié)合的技術能力與應用方案。趙斌指出,生成式AI與RTE結(jié)合帶來的場景創(chuàng)新,將成為下一個十年的主題。

今年5月,GPT-4o的發(fā)布再次引發(fā)了業(yè)內(nèi)的熱議,其展示的實時語音交互能力令人印象深刻。GPT-4o通過采用RTC方案,實現(xiàn)了自然、流暢的低延時語音交互體驗。這一成果再次證明了RTC技術在連接多模態(tài)大模型與實時互動場景中的關鍵作用。

聲網(wǎng)CEO趙斌表示,生成式AI的一個重要發(fā)展方向是向多模態(tài)深度進化。目前,文字訓練數(shù)據(jù)已得到充分利用,而聲音和視覺數(shù)據(jù)的獲取和運用將為大模型提供幾乎無限的數(shù)據(jù)空間。因此,多模態(tài)成為當下的重要發(fā)展方向。在推進多模態(tài)深度進化上,聲網(wǎng)通過與多個行業(yè)伙伴的深度合作,發(fā)現(xiàn)多模態(tài)對話體驗的關鍵在于聲音體驗和人與大模型支持的agent對話時的互動體驗。

趙斌認為,只有把RTE技術運用得足夠好,部署到全球各個云和邊緣節(jié)點,大模型的多模態(tài)能力才能普遍地、高質(zhì)量地走進各種實時互動場景。在這場多模態(tài)帶來的實時對話式AI的競爭中,擁有核心技術和具備行業(yè)解決方案能力的實時音視頻廠商將占據(jù)優(yōu)勢。

OpenAI在10月初發(fā)布了實時API公測版,并公布了三家語音API合作者的身份,其中就包括聲網(wǎng)的兄弟公司Agora。從底層的RTC等音視頻能力來看,Agora和聲網(wǎng)都擁有深厚的技術積累。相較于市面上大部分2-3秒的AI互動延遲實踐,聲網(wǎng)的對話式AI解決方案將對話響應延時優(yōu)化至500毫秒,實現(xiàn)了真實、自然的AI語音交互體驗。

聲網(wǎng)在AI領域的探索并非一時興起,早在四年前,當transformer在學術界嶄露頭角時,聲網(wǎng)就率先將AI技術引入RTE技術棧,用于改善音視頻傳輸保障。如今,聲網(wǎng)正與MiniMax合作,打磨國內(nèi)首個Realtime API,為人工智能體提供流暢、自然的實時語音對話能力。這一創(chuàng)新成果再次證明了聲網(wǎng)在實時音視頻領域的領先地位和深厚的技術實力。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version