ITBear旗下自媒體矩陣:

搜狗訊飛分獲IWSLT2018評測第一,到底哪個冠軍更有份量

   時間:2018-11-02 18:55:53 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

10月31日上午,科大訊飛和搜狗兩家公司幾乎在同一時間,都表示自己獲得了IWSLT2018國際口語機(jī)器翻譯評測比賽的第一名??吹竭@個奪冠“撞車”的消息,讓網(wǎng)友們不禁產(chǎn)生了強(qiáng)烈的疑惑:又不是并列第一名(搜狗明確說明了擊敗訊飛),這一個比賽里為什么會有兩個世界冠軍呢?

隨后,我們通過IWSLT2018大賽官網(wǎng)并對比兩家的獲獎新聞,終于搞懂了這個“一個冠軍,各自表述”的緣由。

訊飛or搜狗,究竟誰是第一?

作為國際上最具影響力的口語機(jī)器翻譯評測比賽,每年舉辦一次的IWSLT確實是擁有足夠的地位分量,至今已經(jīng)舉辦了15屆。通過查閱名單可知,IWSLT 2018 有全球很多的機(jī)器翻譯領(lǐng)域的研究機(jī)構(gòu)參加。

地址鏈接如下,可自行查看:

https://workshop2018.iwslt.org/downloads/Proceedings_IWSLT_2018.pdf

從介紹來看,本屆IWSLT 2018的口語機(jī)器翻譯任務(wù),是將英語演講語音翻譯成對應(yīng)的德語文本。需要注意的是,這里所謂的翻譯是把語音信號翻譯成目標(biāo)語言文本,并非我們熟悉的文本到文本的翻譯。也就是說,這個比賽所要評測的是語音翻譯能力,正是之前科大訊飛曾經(jīng)鬧出過“人機(jī)耦合”笑話的機(jī)器翻譯技術(shù)。

本屆IWSLT2018評測比賽中,搜狗與訊飛是在兩個不同的賽道里分別奪冠,一個叫做baseline模型賽道,一個叫做端到端(end-to-end)模型賽道。

兩者雖然都是冠軍,含金量的差別卻很大。

對于普通用戶來說,基本可以這么理解:IWSLT這場國際口語機(jī)器翻譯評測大賽分為大師賽和新秀賽兩個賽道。搜狗獲得了baseline模型賽道的冠軍,這個賽道是目前最主流的賽道,代表著實用語音翻譯技術(shù)的最高水平,是本次評測的大師賽,目前市面上機(jī)器同傳、翻譯機(jī)等語音翻譯類產(chǎn)品幾乎都采用了類似的方法,訊飛本次也參與了這個賽道,從官方給出的成績看,訊飛以1.6個BLEU的劣勢落后搜狗位居第二位。

另一方面,科大訊飛獲得第一名的端到端(end-to-end)賽道屬于本次評測新設(shè)置的賽道,各方面的技術(shù)都處于初級階段,仍在沉淀和積累中,相當(dāng)于本次評測的新秀賽,新秀是否能成長為大師,仍有待長時間的檢驗,還無法代表行業(yè)主流水平,搜狗本次并未參加端到端賽道的評測,但其團(tuán)隊在之前多個技術(shù)交流中都曾透露過正在研發(fā)端到端語音翻譯技術(shù),并取得了階段性突破,由此可推斷,搜狗參與本次評測更多是檢驗自研的實用語音翻譯技術(shù)在行業(yè)的位置。

詳解兩種模型的技術(shù)差異

作為目前最主流的應(yīng)用技術(shù),baseline模型對應(yīng)的語音翻譯方案,包含語音識別、機(jī)器翻譯兩大模塊,采用的是多步走的流水線設(shè)計,即語音信號先輸入語音識別系統(tǒng)(automatic speech recognition, ASR)得到源語言的識別文本,然后再將識別文本送入機(jī)器翻譯系統(tǒng)(neural machine translation, NMT)輸出目標(biāo)語言的對應(yīng)譯文。

根據(jù)搜狗在知乎上的介紹(https://zhuanlan.zhihu.com/p/45176217),搜狗同傳系統(tǒng)就是baseline模型賽道對應(yīng)的典型方案,整個系統(tǒng)共分為5個技術(shù)模塊,除了語音識別、機(jī)器翻譯、語音合成三大技術(shù)模塊之外,還新增了語音預(yù)處理和文本預(yù)處理兩大模塊,確保三項技術(shù)能夠更好的聯(lián)合優(yōu)化,真正實現(xiàn)1 + 1 + 1 > 3的效果。

使用流水線方案的好處是,各大技術(shù)模塊可以獨立優(yōu)化,充分利用語音識別、機(jī)器翻譯技術(shù)領(lǐng)域內(nèi)的優(yōu)化技術(shù)以及海量數(shù)據(jù),大幅提升單點技術(shù)效果,為了更加有效的將ASR和NMT兩個系統(tǒng)連接起來,搜狗同傳系統(tǒng)主要進(jìn)行了兩方面的工作:

1) 增加了文本預(yù)處理模塊處理識別文本中的識別錯誤、口語化表達(dá)、語氣詞、文本不流利、斷句等問題,將處理后的文本送到文本翻譯模塊進(jìn)行翻譯,實現(xiàn)了語音識別和機(jī)器翻譯的有效結(jié)合;

2) 訓(xùn)練出語音識別、機(jī)器翻譯任務(wù)內(nèi)最優(yōu)的模型之后,引入聯(lián)合訓(xùn)練機(jī)制,進(jìn)一步提升語音翻譯效果。

羅馬不是一天建成的,搜狗在同傳、翻譯機(jī)等產(chǎn)品上對實用語音翻譯技術(shù)的深耕和積累,在本次評測的成績上得到了充分展現(xiàn),官方公布的成績上,我們看到搜狗以高達(dá)28的BLEU位居baseline賽道第一。

PS:BLEU是一種機(jī)器翻譯自動評價的方法,是衡量方案優(yōu)劣的重要指標(biāo),其數(shù)值越大意味著越準(zhǔn)確。

官方公布的結(jié)果中,訊飛在端到端(end-to-end)賽道獲得了冠軍。

端到端語音翻譯技術(shù),是指繞開語音識別、機(jī)器翻譯等各模塊單獨優(yōu)化的階段,輸入語音經(jīng)過神經(jīng)網(wǎng)絡(luò)變換直接輸出目標(biāo)語言的譯文序列,并不會產(chǎn)生源語言的識別中間結(jié)果。其目的是將語音翻譯系統(tǒng)簡化到一個深度神經(jīng)網(wǎng)絡(luò)中,減少識別錯誤等帶來的翻譯質(zhì)量下降。

要注意的是,端到端語音翻譯方案目前仍然處于早期學(xué)術(shù)研究階段,訓(xùn)練方法和神經(jīng)網(wǎng)絡(luò)具體結(jié)構(gòu)都不成熟,同時由于(語音-目標(biāo)語言譯文)的數(shù)據(jù)對難以大規(guī)模采集,因此數(shù)據(jù)和模型優(yōu)勢無法形成有效的協(xié)同,效果提升收到很大的阻力。

現(xiàn)階段,端到端(end-to-end)的方案基本沒有辦法進(jìn)行商業(yè)使用和普及推廣,但已經(jīng)成為未來可能優(yōu)化語音翻譯效果的方案之一。以科大訊飛這次奪冠的成績來看,僅僅得到了19.4的BLEU,與baseline模型中的效果相差甚遠(yuǎn),基本不具備實際的推廣意義和商用價值。更何況,在訊飛奪冠的端到端(end-to-end)賽道之中,一共只有四支隊伍而已,像是阿里巴巴和搜狗就壓根都沒有進(jìn)行報名參賽。這兩個賽道由于訓(xùn)練數(shù)據(jù)量的差異,各自BLEU值不具有直接的可比性。但是在baseline賽道,相同數(shù)據(jù)量的情況下,訊飛是實實在在的敗給了搜狗。

所以說,如果IWSLT國際口語機(jī)器翻譯評測大賽算是一場“全明星大賽”,那么baseline模型算是“東西對抗”級別的頂級交鋒。而新添加的端到端(end-to-end)項目,也只是一場非主流的新秀表演賽罷了。

由于科大訊飛在自家的獲獎宣傳中,有意無意的模糊了這一層技術(shù)差別。在這里,我們也并不想去論證科大訊飛的行為對錯,只是單純從技術(shù)分析的客觀角度,給各位讀者們分析IWSLT比賽里兩個冠軍的分量區(qū)別,并希望這些中國的AI企業(yè)能夠憑借自身的科研實力,取得更好的成績。

總之,從“同傳造假門”到“再獲世界第一”,希望科大訊飛未來的AI之路能走的踏實些吧。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version