ITBear旗下自媒體矩陣:

趣丸科技與港中大(深圳)聯(lián)手,語音大模型效果領(lǐng)先入全球一梯隊(duì)!

   時(shí)間:2024-10-26 18:37:47 來源:ITBEAR作者:唐云澤編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】趣丸科技與香港中文大學(xué)(深圳)近日攜手宣布,其共同研發(fā)的語音大模型“MaskGCT”已在Amphion系統(tǒng)中開源,供全球用戶使用。這一創(chuàng)新模型融合了掩碼生成與語音表征解耦編碼技術(shù),展現(xiàn)了在聲音克隆、跨語種合成等領(lǐng)域的卓越性能。

MaskGCT在多個(gè)TTS基準(zhǔn)數(shù)據(jù)集上均達(dá)到了頂尖水平,超越了當(dāng)前最先進(jìn)的同類模型。其獨(dú)特之處體現(xiàn)在秒級超逼真的聲音克隆、精細(xì)可控的語音生成以及基于全球最大且多樣的高質(zhì)量多語種語音數(shù)據(jù)集Emilia的訓(xùn)練。

MaskGCT的研發(fā)團(tuán)隊(duì)在語音領(lǐng)域擁有深厚積累,依托趣丸科技的音頻技術(shù)服務(wù)和香港中文大學(xué)(深圳)的師資力量,實(shí)現(xiàn)了技術(shù)范式的創(chuàng)新。該模型采用非自回歸掩碼生成Transformer,無需文本與語音對齊,突破了傳統(tǒng)TTS模型的限制。

MaskGCT已在多個(gè)領(lǐng)域展現(xiàn)出廣闊的應(yīng)用前景,特別是在短劇出海、數(shù)字人、智能助手等方面。趣丸科技推出的多語種速譯智能視聽平臺(tái)“趣丸千音”,便是基于MaskGCT技術(shù)的實(shí)際應(yīng)用,旨在降低翻譯成本,加速內(nèi)容出海。

隨著MaskGCT技術(shù)的不斷成熟和應(yīng)用,中國AI企業(yè)在全球舞臺(tái)上的競爭力將進(jìn)一步提升,同時(shí)推動(dòng)中華文化在全球的傳播。

舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version