ITBear旗下自媒體矩陣:

語音大模型MaskGCT開源,賦能短劇游戲數(shù)字人新品

   時間:2024-10-25 09:29:25 來源:ITBEAR作者:沈瑾瑜編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】趣丸科技與香港中文大學(深圳)聯(lián)手打造的語音大模型MaskGCT,近日宣布在Amphion系統(tǒng)中開源,供全球用戶使用。該模型憑借其獨特的技術(shù),在聲音克隆、跨語種合成及語音控制等領(lǐng)域展現(xiàn)出顯著優(yōu)勢。

MaskGCT采用掩碼生成模型與語音表征解耦編碼技術(shù),實現(xiàn)了秒級超逼真的聲音克隆,僅需3秒音頻樣本即可復刻各種音色,包括人類、動漫等,同時完整保留語調(diào)、風格和情感。該模型還支持更精細可控的語音生成,可靈活調(diào)整語音的長度、語速和情緒。

MaskGCT的訓練基于香港中文大學(深圳)與趣丸科技等機構(gòu)聯(lián)合推出的10萬小時數(shù)據(jù)集Emilia,這是全球最大且最為多樣的高質(zhì)量多語種語音數(shù)據(jù)集之一,涵蓋了中英日韓法德6種語言。

在官方實驗中,MaskGCT在語音質(zhì)量、相似度和可理解性方面均表現(xiàn)出色,優(yōu)于當前大部分TTS模型。其兩階段模型設(shè)計,使得在推理過程中,模型能以并行方式生成指定長度的標記,大幅提高效率。

目前,MaskGCT已在多個領(lǐng)域展現(xiàn)出廣泛應(yīng)用前景,如短劇出海、數(shù)字人、智能助手等。趣丸科技基于MaskGCT開發(fā)了多語種速譯智能視聽平臺“趣丸千音”,旨在降低翻譯成本,縮短制作周期,助力國產(chǎn)內(nèi)容出海。

《2024年短劇出海白皮書》顯示,海外市場規(guī)模遠超國內(nèi)市場,短劇出海正成為新藍海。趣丸千音有望幫助國產(chǎn)短劇以更低成本、更快捷的方式走向世界,提升中國文化內(nèi)容的出海效率。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version