在首都北京的智能科技界,一場備受矚目的盛會——MEET2025智能未來大會圓滿落下帷幕。此次大會不僅匯聚了眾多前沿科技與智慧火花,還揭曉了2024人工智能年度評選的璀璨榜單。聲網,作為實時互動云領域的領航者,憑借其在RTE+AI領域的卓越創(chuàng)新與貢獻,一舉奪得2024人工智能年度領航企業(yè)和2024人工智能年度杰出解決方案兩項殊榮。
這場評選自今年9月啟動以來,歷時三個月,吸引了數百家企業(yè)、機構及個人的積極參與。經過嚴格篩選與深入調研,結合量子位對數百家AI公司的全面考察以及多位行業(yè)權威專家的專業(yè)意見,最終評選出了這份極具分量的榜單。
在Gen AI的浪潮中,實時多模態(tài)技術正逐漸成為行業(yè)發(fā)展的主流趨勢。聲網,作為實時互動云行業(yè)的開創(chuàng)者與引領者,憑借其深厚的音視頻技術底蘊與豐富的場景實踐經驗,成功將RTE技術與生成式AI相融合,推出了Conversational AI Agents解決方案。該方案以語音為核心,支持視頻擴展,能夠實現文本、音頻、圖像、視頻等多種形式的輸入輸出,擁有500ms的超低延時、自然流暢的對話體驗以及靈活可擴展的框架,助力開發(fā)者與企業(yè)快速構建符合自身業(yè)務需求的AI實時語音對話服務。
聲網Conversational AI Agents的一大亮點在于其超低延時的語音對話能力。通過客戶端的低延遲音頻采集與播放,以及聲網自研的SD-RTN?實時傳輸網絡,實現了全球范圍內的低延時RTC傳輸,語音對話延遲低至500ms。同時,通過一系列技術手段,如更快速的LLM推理首字耗時、低延遲流式TTS、同機部署等,確保了對話的實時性與流暢性,讓AI與人的對話更加自然、無縫銜接。
在真實的語音對話場景中,打斷對方并提出新疑問是常有的事。而在Gen AI場景中,能否支持隨時打斷也成為了衡量大模型智能化的重要標準。聲網自研的AI VAD技術,能夠精準識別人類對話的停頓、語氣和節(jié)奏,支持在AI對話過程中隨時打斷,進一步提升了對話的靈活性和用戶體驗。
聲網的解決方案還具備業(yè)界領先的音頻3A能力,即使在嘈雜的環(huán)境中,也能通過AI噪聲抑制、背景人聲過濾、音樂檢測/過濾等算法,確保人與AI的對話不受環(huán)境干擾,始終保持清晰流暢。這一特性使得AI在對話中能夠更準確地理解人的話語,提升了對話的效率和準確性。
聲網的AI Agent架構同樣值得稱道。該架構靈活可擴展,兼容市場主流的ASR、LLM和TTS技術,并具備工作流編排能力。這使得開發(fā)者與企業(yè)能夠根據自身需求定制和擴展AI驅動的實時互動體驗。同時,該方案還支持API快速調用,提供開箱即用的場景化Demo,最快3小時內即可實現方案的快速驗證。還提供了端到端的SDK,適用于針對特定場景化業(yè)務開發(fā)的客戶。
目前,聲網已與國內外多家AI廠商展開合作,借助Conversational AI Agents幫助客戶在智能助手、虛擬陪伴、口語陪練、語音客服、同聲傳譯、智能硬件等多個場景中實現對話式AI的落地應用。例如,在虛擬陪伴場景中,通過AI虛擬伴侶提供7x24小時的在線服務,可自定義人設、聲音、形象等,模擬真人聲音及情感,為用戶提供情感支持、心理慰藉以及陪伴。在口語陪練場景中,通過擬人化的AI口語老師提供高性價比的外教陪練服務,借助定制化的分級語料訓練,為不同水平的學員提供個性化的多語言發(fā)音指導。