近日,豆包APP宣布了一項(xiàng)重大更新,正式推出了面向全體用戶的實(shí)時(shí)語音通話功能,這一創(chuàng)新舉措標(biāo)志著豆包在人工智能語音交互領(lǐng)域邁出了重要一步。
豆包此次推出的實(shí)時(shí)語音通話功能,是基于其自主研發(fā)的豆包實(shí)時(shí)語音大模型(Doubao Realtime Voice Model)實(shí)現(xiàn)的。這一模型在中文場(chǎng)景下的對(duì)話能力表現(xiàn)卓越,不僅在語音的真實(shí)感和情緒的細(xì)膩表達(dá)上達(dá)到了“人機(jī)難辨”的境界,還能靈活模仿多種聲線,并在邏輯思考和情緒感知方面實(shí)現(xiàn)了顯著提升。
在實(shí)際測(cè)試中,豆包APP的全新實(shí)時(shí)語音通話功能展現(xiàn)出了令人驚嘆的真人級(jí)交互效果。其語音表現(xiàn)自然流暢,智力水平也極具擬人性,相較于市面上大多數(shù)仍在語氣層面進(jìn)行簡(jiǎn)單變化的語音系統(tǒng),豆包能夠根據(jù)具體場(chǎng)景精準(zhǔn)把控節(jié)奏、兒化音、音量、氣音等細(xì)節(jié),甚至能夠與用戶進(jìn)行悄聲對(duì)話,營(yíng)造出更加私密和真實(shí)的交流氛圍。
除了出色的語音表現(xiàn)外,豆包在情緒表達(dá)方面也頗為亮眼。它能夠準(zhǔn)確捕捉并模仿用戶的喜怒哀樂,還掌握了部分方言與英語對(duì)話的能力,能夠進(jìn)行多角色模仿,甚至具備一定的歌曲演唱能力。在日常使用中,豆包既可以作為英語陪練老師,為用戶提供專業(yè)的語言指導(dǎo),也可以化身講故事高手,為用戶帶來豐富的娛樂體驗(yàn),更可以即興創(chuàng)作歌曲,展現(xiàn)其多才多藝的一面。
據(jù)了解,傳統(tǒng)語音對(duì)話任務(wù)系統(tǒng)通常采用ASR+LLM+TTS的級(jí)聯(lián)模式,但在真人級(jí)語音對(duì)話的理解完整度、生成自然度、交互低延時(shí)等方面存在諸多不足。而豆包則采用了創(chuàng)新的端到端框架,通過原生方法深度融合語音與文本模態(tài)進(jìn)行統(tǒng)一建模,實(shí)現(xiàn)了從多模態(tài)輸入到多模態(tài)輸出的無縫轉(zhuǎn)換,為AI語音對(duì)話賦予了“靈魂”。
在交付體驗(yàn)上,豆包語音對(duì)話在確保模型具備強(qiáng)大理解和邏輯能力的同時(shí),還實(shí)現(xiàn)了超低延時(shí)和流暢打斷的功能。這意味著用戶在與豆包進(jìn)行對(duì)話時(shí),可以享受到更加流暢和自然的交互體驗(yàn),無需擔(dān)心因延時(shí)或打斷而導(dǎo)致的溝通障礙。
豆包全新實(shí)時(shí)語音通話功能的推出,無疑使其在同類產(chǎn)品中脫穎而出。根據(jù)外部真實(shí)反饋數(shù)據(jù)顯示,用戶對(duì)豆包此次上線的全新語音通話功能整體滿意度高達(dá)4.36/5,遠(yuǎn)高于GPT-4o語音對(duì)話的3.18/5。尤其在語音語氣自然度和情緒飽滿度方面,豆包展現(xiàn)出了明顯的優(yōu)勢(shì)。