ITBear旗下自媒體矩陣:

訊飛發(fā)布新交互大模型:數(shù)字人語音視覺三合一,智能體驗再升級!

   時間:2024-11-14 19:17:27 來源:ITBEAR編輯:快訊團(tuán)隊 發(fā)表評論無障礙通道

【ITBEAR】訊飛開放平臺今日宣布重大進(jìn)展,其全新研發(fā)的訊飛星火多模態(tài)交互大模型已正式上線。這一技術(shù)突破實現(xiàn)了從單一的語音交互到音視頻流實時多模態(tài)交互的跨越,為用戶帶來更為豐富和自然的交互體驗。

訊飛星火多模態(tài)交互大模型首次引入了超擬人數(shù)字人技術(shù),該技術(shù)使得數(shù)字人的軀干和四肢動作能夠與語音內(nèi)容精準(zhǔn)匹配,快速生成相應(yīng)的表情和動作,從而讓AI形象更加栩栩如生。通過統(tǒng)一文本、語音和表情的表達(dá),該模型在跨模態(tài)的語義一致性上取得了顯著成效,使得大模型的情感表達(dá)更為真實和連貫。

在交互速度方面,該模型同樣表現(xiàn)出色。它采用了統(tǒng)一的神經(jīng)網(wǎng)絡(luò),直接實現(xiàn)了語音到語音的端到端建模,從而大大提升了響應(yīng)速度和流暢性。該模型還能夠敏銳地感知用戶的情緒變化,并根據(jù)指令自由調(diào)整聲音的節(jié)奏、大小和人設(shè),為用戶提供更加個性化的交互體驗。

訊飛星火多模態(tài)交互大模型還支持多模態(tài)視覺交互。它不僅能夠“聽懂世界”,更能“認(rèn)清萬物”,通過全面感知具體的背景場景、物流狀態(tài)等信息,對任務(wù)的理解更加精準(zhǔn)。同時,該模型還能夠綜合判斷語音、手勢、行為和情緒等多種信息,作出更為合適的響應(yīng)。

據(jù)此前報道,用戶已經(jīng)可以與數(shù)字人進(jìn)行自然的語音和視頻通話。在通話過程中,數(shù)字人不僅能夠?qū)崿F(xiàn)與用戶的自然語音對話,其人物表情等也能夠與說話語句相匹配。星火超擬人數(shù)字人還支持多模態(tài)交互功能,這使得數(shù)字人能夠識別攝像頭中的內(nèi)容,如識別孫悟空和奧特曼站在一起、識別面霜的品牌和作用以及花的品類等。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容