ITBear旗下自媒體矩陣:

云知聲-上海師范大學(xué)自然人機(jī)交互聯(lián)合實(shí)驗(yàn)室獲 Blizzard Challenge 2020 國(guó)際語音合成大賽第一名

   時(shí)間:2020-08-17 12:01:22 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評(píng)論無障礙通道

Blizzard Challenge 2020 國(guó)際語音合成大賽剛剛落下帷幕。由云知聲-上海師范大學(xué)自然人機(jī)交互聯(lián)合實(shí)驗(yàn)室申報(bào)的系統(tǒng)在強(qiáng)敵環(huán)伺的賽場(chǎng)中突出重圍,首次參賽即斬獲中文普通話、上海話多項(xiàng)關(guān)鍵指標(biāo)第一,再一次印證了云知聲語音合成技術(shù)在業(yè)界的領(lǐng)先水準(zhǔn)。

https://mmbiz.qpic.cn/mmbiz_png/VBzE1eua4pWfF0PmhTChurwtTF9eVzHmntJFGvQowAib4a1micdQv1uXD4yqKLmwNLcDuY1maOicWrqqiaGGlmzC9g/0?wx_fmt=png

Blizzard Challenge 國(guó)際語音合成大賽是由美國(guó)卡耐基-梅隆大學(xué)和日本名古屋工業(yè)大學(xué)聯(lián)合發(fā)起的公開的語音合成技術(shù)評(píng)測(cè)平臺(tái),是語音合成領(lǐng)域最具權(quán)威性的技術(shù)評(píng)測(cè)比賽。比賽旨在構(gòu)建一個(gè)公開、統(tǒng)一的語音合成技術(shù)評(píng)測(cè)平臺(tái),加強(qiáng)世界各地語音合成研究機(jī)構(gòu)之間的技術(shù)交流與溝通,共同推動(dòng)語音技術(shù)的快速發(fā)展。

其作為國(guó)際上規(guī)模最大、影響力最大的語音合成大賽,至今已成功舉辦過 15 屆,每年都吸引眾多國(guó)際一流的科研單位和企業(yè)參賽。以往參賽隊(duì)伍包括 CMU(美國(guó)卡耐基-梅隆大學(xué))、Cambridge University(英國(guó)劍橋大學(xué))、University of Edinburge(英國(guó)愛丁堡大學(xué))、Nitech (日本名古屋工業(yè)大學(xué))、科大訊飛、中科院自動(dòng)化所等國(guó)內(nèi)外語音合成領(lǐng)域的頂尖高手。

多指標(biāo)領(lǐng)跑,強(qiáng)勁的綜合實(shí)力

語音作為人工智能技術(shù)發(fā)展的三大方向之一,在應(yīng)用落地過程中,受外部環(huán)境影響極大,因此對(duì)語音系統(tǒng)模型、引擎等要求極為嚴(yán)苛。從語音合成需求的角度來看,自然度、相似度和可懂度是實(shí)際應(yīng)用中最為核心的三大核心指標(biāo)。

Blizzard Challenge 2020 分兩個(gè)任務(wù):

1)中文普通話合成(Hub task),以高表現(xiàn)力的聲音作為合成樣本,充分考察參賽者對(duì)復(fù)雜多變的韻律節(jié)奏的把控能力,旨在輸出高真實(shí)感的合成語音,另外這次比賽還考察參賽者對(duì)段落韻律的把控能力;

2)上海話合成(Spoke task),提供的聲音數(shù)據(jù)較少,充分考察參賽者在小樣本上的學(xué)習(xí)能力。

本次比賽中,聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)?wèi){借在合成領(lǐng)域的深厚積累,中文普通話合成自然度 MOS 達(dá)到 4.2,段落合成所有指標(biāo)(Overrall impression\pleasantness\speech pauses\stress\intonation\emotion\listening effort)位列第一,并且通過遷移學(xué)習(xí),從零開始快速構(gòu)建了上海話合成系統(tǒng),合成自然度 MOS 達(dá)到4.0,雙雙領(lǐng)跑;與此同時(shí),普通話相似度、上海話可懂度兩項(xiàng)指標(biāo)亦領(lǐng)跑榜單,充分體現(xiàn)了團(tuán)隊(duì)合成技術(shù)的綜合實(shí)力。

注:A 為真人聲,B-Q 為參賽隊(duì)伍,云知聲-上海師范大學(xué)聯(lián)合實(shí)驗(yàn)室隊(duì)伍代碼為 I

注:自然度主要評(píng)價(jià)合成語音是否像真人說話一樣自然流暢,相似度主要評(píng)價(jià)合成語音與目標(biāo)說話人在音色和韻律上的相似程度,自然度和相似度是合成系統(tǒng)的最重要的兩個(gè)評(píng)測(cè)指標(biāo),分?jǐn)?shù)越高,說明效果越好。一般大學(xué)生發(fā)音自然度為 4.0 分。由于上海話原始數(shù)據(jù)質(zhì)量較低,團(tuán)隊(duì)為了獲得更好的聽感,對(duì)原始語音進(jìn)行了升采樣率的處理,所以相似度方向會(huì)有損傷。

本次大賽上,團(tuán)隊(duì)采用業(yè)界主流的端到端合成技術(shù),并針對(duì)端到端合成系統(tǒng)普遍存在的穩(wěn)定性和效率問題進(jìn)行了較多優(yōu)化,在解決穩(wěn)定性的同時(shí),可以實(shí)現(xiàn)高效率的合成。目前,該項(xiàng)技術(shù)已經(jīng)在云知聲家居、金融、兒童機(jī)器人等業(yè)務(wù)領(lǐng)域合作伙伴的產(chǎn)品中廣泛使用,并取得良好反響。

另外,本次比賽涉及大規(guī)模高復(fù)雜度的模型訓(xùn)練,在這過程充分體現(xiàn)了云知聲計(jì)算資源優(yōu)勢(shì)。實(shí)際上,從 2012 年開始,云知聲便開始搭建自身的 DeepFlow 集群,該異構(gòu)化硬件服務(wù)器集群可向上提供密集的計(jì)算和存儲(chǔ)能力,保證云知聲研發(fā)團(tuán)隊(duì)充足算力的支持。目前該集群規(guī)模為 1000GPU 以上,計(jì)算能力達(dá) 1 億億次/秒,在以美國(guó)的 IBM Summit 超算平臺(tái)、我國(guó)的神威太湖之光超算平臺(tái)為代表的全球超算平臺(tái)算力排名中位列前 20 位。

在 DeepFlow 集群的支撐下,云知聲建設(shè)完成了 Atlas 分布式機(jī)器學(xué)習(xí)并行計(jì)算平臺(tái),可內(nèi)部協(xié)同共享 AI 底層研發(fā)技術(shù)成果,遷移復(fù)用至各領(lǐng)域應(yīng)用,最終完成 ASR、TTS、NLU 等頂層 AI 技術(shù)的輸出與應(yīng)用。

參賽只是一場(chǎng)自我測(cè)試,技術(shù)研究的終點(diǎn)一定是應(yīng)用。未來,云知聲將以此實(shí)驗(yàn)室研究成果為支撐,生成有溫度的聲音,幫助客戶打造完美的人際交互體驗(yàn)。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version