男女做爰全过程免费现看,亚洲+欧美+日韩+综合aⅴ,97人人做人人添人人爱

10月31日上午，科大訊飛和搜狗兩家公司幾乎在同一時(shí)間，都表示自己獲得了IWSLT2018國(guó)際口語(yǔ)機(jī)器翻譯評(píng)測(cè)比賽的第一名?？吹竭@個(gè)奪冠“撞車”的消息，讓網(wǎng)友們不禁產(chǎn)生了強(qiáng)烈的疑惑：又不是并列第一名(搜狗明確說(shuō)明了擊敗訊飛)，這一個(gè)比賽里為什么會(huì)有兩個(gè)世界冠軍呢?

隨后，我們通過(guò)IWSLT2018大賽官網(wǎng)并對(duì)比兩家的獲獎(jiǎng)新聞，終于搞懂了這個(gè)“一個(gè)冠軍，各自表述”的緣由。

訊飛or搜狗，究竟誰(shuí)是第一?

作為國(guó)際上最具影響力的口語(yǔ)機(jī)器翻譯評(píng)測(cè)比賽，每年舉辦一次的IWSLT確實(shí)是擁有足夠的地位分量，至今已經(jīng)舉辦了15屆。通過(guò)查閱名單可知，IWSLT 2018 有全球很多的機(jī)器翻譯領(lǐng)域的研究機(jī)構(gòu)參加。

地址鏈接如下，可自行查看：

https://workshop2018.iwslt.org/downloads/Proceedings_IWSLT_2018.pdf

從介紹來(lái)看，本屆IWSLT 2018的口語(yǔ)機(jī)器翻譯任務(wù)，是將英語(yǔ)演講語(yǔ)音翻譯成對(duì)應(yīng)的德語(yǔ)文本。需要注意的是，這里所謂的翻譯是把語(yǔ)音信號(hào)翻譯成目標(biāo)語(yǔ)言文本，并非我們熟悉的文本到文本的翻譯。也就是說(shuō)，這個(gè)比賽所要評(píng)測(cè)的是語(yǔ)音翻譯能力，正是之前科大訊飛曾經(jīng)鬧出過(guò)“人機(jī)耦合”笑話的機(jī)器翻譯技術(shù)。

本屆IWSLT2018評(píng)測(cè)比賽中，搜狗與訊飛是在兩個(gè)不同的賽道里分別奪冠，一個(gè)叫做baseline模型賽道，一個(gè)叫做端到端(end-to-end)模型賽道。

兩者雖然都是冠軍，含金量的差別卻很大。

對(duì)于普通用戶來(lái)說(shuō)，基本可以這么理解：IWSLT這場(chǎng)國(guó)際口語(yǔ)機(jī)器翻譯評(píng)測(cè)大賽分為大師賽和新秀賽兩個(gè)賽道。搜狗獲得了baseline模型賽道的冠軍，這個(gè)賽道是目前最主流的賽道，代表著實(shí)用語(yǔ)音翻譯技術(shù)的最高水平，是本次評(píng)測(cè)的大師賽，目前市面上機(jī)器同傳、翻譯機(jī)等語(yǔ)音翻譯類產(chǎn)品幾乎都采用了類似的方法，訊飛本次也參與了這個(gè)賽道，從官方給出的成績(jī)看，訊飛以1.6個(gè)BLEU的劣勢(shì)落后搜狗位居第二位。

另一方面，科大訊飛獲得第一名的端到端(end-to-end)賽道屬于本次評(píng)測(cè)新設(shè)置的賽道，各方面的技術(shù)都處于初級(jí)階段，仍在沉淀和積累中，相當(dāng)于本次評(píng)測(cè)的新秀賽，新秀是否能成長(zhǎng)為大師，仍有待長(zhǎng)時(shí)間的檢驗(yàn)，還無(wú)法代表行業(yè)主流水平，搜狗本次并未參加端到端賽道的評(píng)測(cè)，但其團(tuán)隊(duì)在之前多個(gè)技術(shù)交流中都曾透露過(guò)正在研發(fā)端到端語(yǔ)音翻譯技術(shù)，并取得了階段性突破，由此可推斷，搜狗參與本次評(píng)測(cè)更多是檢驗(yàn)自研的實(shí)用語(yǔ)音翻譯技術(shù)在行業(yè)的位置。

詳解兩種模型的技術(shù)差異

作為目前最主流的應(yīng)用技術(shù)，baseline模型對(duì)應(yīng)的語(yǔ)音翻譯方案，包含語(yǔ)音識(shí)別、機(jī)器翻譯兩大模塊，采用的是多步走的流水線設(shè)計(jì)，即語(yǔ)音信號(hào)先輸入語(yǔ)音識(shí)別系統(tǒng)(automatic speech recognition, ASR)得到源語(yǔ)言的識(shí)別文本，然后再將識(shí)別文本送入機(jī)器翻譯系統(tǒng)(neural machine translation, NMT)輸出目標(biāo)語(yǔ)言的對(duì)應(yīng)譯文。

根據(jù)搜狗在知乎上的介紹(https://zhuanlan.zhihu.com/p/45176217)，搜狗同傳系統(tǒng)就是baseline模型賽道對(duì)應(yīng)的典型方案，整個(gè)系統(tǒng)共分為5個(gè)技術(shù)模塊，除了語(yǔ)音識(shí)別、機(jī)器翻譯、語(yǔ)音合成三大技術(shù)模塊之外，還新增了語(yǔ)音預(yù)處理和文本預(yù)處理兩大模塊，確保三項(xiàng)技術(shù)能夠更好的聯(lián)合優(yōu)化，真正實(shí)現(xiàn)1 + 1 + 1 > 3的效果。

使用流水線方案的好處是，各大技術(shù)模塊可以獨(dú)立優(yōu)化，充分利用語(yǔ)音識(shí)別、機(jī)器翻譯技術(shù)領(lǐng)域內(nèi)的優(yōu)化技術(shù)以及海量數(shù)據(jù)，大幅提升單點(diǎn)技術(shù)效果，為了更加有效的將ASR和NMT兩個(gè)系統(tǒng)連接起來(lái)，搜狗同傳系統(tǒng)主要進(jìn)行了兩方面的工作：

1) 增加了文本預(yù)處理模塊處理識(shí)別文本中的識(shí)別錯(cuò)誤、口語(yǔ)化表達(dá)、語(yǔ)氣詞、文本不流利、斷句等問題，將處理后的文本送到文本翻譯模塊進(jìn)行翻譯，實(shí)現(xiàn)了語(yǔ)音識(shí)別和機(jī)器翻譯的有效結(jié)合;

2) 訓(xùn)練出語(yǔ)音識(shí)別、機(jī)器翻譯任務(wù)內(nèi)最優(yōu)的模型之后，引入聯(lián)合訓(xùn)練機(jī)制，進(jìn)一步提升語(yǔ)音翻譯效果。

羅馬不是一天建成的，搜狗在同傳、翻譯機(jī)等產(chǎn)品上對(duì)實(shí)用語(yǔ)音翻譯技術(shù)的深耕和積累，在本次評(píng)測(cè)的成績(jī)上得到了充分展現(xiàn)，官方公布的成績(jī)上，我們看到搜狗以高達(dá)28的BLEU位居baseline賽道第一。

PS：BLEU是一種機(jī)器翻譯自動(dòng)評(píng)價(jià)的方法，是衡量方案優(yōu)劣的重要指標(biāo)，其數(shù)值越大意味著越準(zhǔn)確。

官方公布的結(jié)果中，訊飛在端到端(end-to-end)賽道獲得了冠軍。

端到端語(yǔ)音翻譯技術(shù)，是指繞開語(yǔ)音識(shí)別、機(jī)器翻譯等各模塊單獨(dú)優(yōu)化的階段，輸入語(yǔ)音經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)變換直接輸出目標(biāo)語(yǔ)言的譯文序列，并不會(huì)產(chǎn)生源語(yǔ)言的識(shí)別中間結(jié)果。其目的是將語(yǔ)音翻譯系統(tǒng)簡(jiǎn)化到一個(gè)深度神經(jīng)網(wǎng)絡(luò)中，減少識(shí)別錯(cuò)誤等帶來(lái)的翻譯質(zhì)量下降。

要注意的是，端到端語(yǔ)音翻譯方案目前仍然處于早期學(xué)術(shù)研究階段，訓(xùn)練方法和神經(jīng)網(wǎng)絡(luò)具體結(jié)構(gòu)都不成熟，同時(shí)由于(語(yǔ)音-目標(biāo)語(yǔ)言譯文)的數(shù)據(jù)對(duì)難以大規(guī)模采集，因此數(shù)據(jù)和模型優(yōu)勢(shì)無(wú)法形成有效的協(xié)同，效果提升收到很大的阻力。

現(xiàn)階段，端到端(end-to-end)的方案基本沒有辦法進(jìn)行商業(yè)使用和普及推廣，但已經(jīng)成為未來(lái)可能優(yōu)化語(yǔ)音翻譯效果的方案之一。以科大訊飛這次奪冠的成績(jī)來(lái)看，僅僅得到了19.4的BLEU，與baseline模型中的效果相差甚遠(yuǎn)，基本不具備實(shí)際的推廣意義和商用價(jià)值。更何況，在訊飛奪冠的端到端(end-to-end)賽道之中，一共只有四支隊(duì)伍而已，像是阿里巴巴和搜狗就壓根都沒有進(jìn)行報(bào)名參賽。這兩個(gè)賽道由于訓(xùn)練數(shù)據(jù)量的差異，各自BLEU值不具有直接的可比性。但是在baseline賽道，相同數(shù)據(jù)量的情況下，訊飛是實(shí)實(shí)在在的敗給了搜狗。

所以說(shuō)，如果IWSLT國(guó)際口語(yǔ)機(jī)器翻譯評(píng)測(cè)大賽算是一場(chǎng)“全明星大賽”，那么baseline模型算是“東西對(duì)抗”級(jí)別的頂級(jí)交鋒。而新添加的端到端(end-to-end)項(xiàng)目，也只是一場(chǎng)非主流的新秀表演賽罷了。

由于科大訊飛在自家的獲獎(jiǎng)宣傳中，有意無(wú)意的模糊了這一層技術(shù)差別。在這里，我們也并不想去論證科大訊飛的行為對(duì)錯(cuò)，只是單純從技術(shù)分析的客觀角度，給各位讀者們分析IWSLT比賽里兩個(gè)冠軍的分量區(qū)別，并希望這些中國(guó)的AI企業(yè)能夠憑借自身的科研實(shí)力，取得更好的成績(jī)。

總之，從“同傳造假門”到“再獲世界第一”，希望科大訊飛未來(lái)的AI之路能走的踏實(shí)些吧。

搜狗訊飛分獲IWSLT2018評(píng)測(cè)第一，到底哪個(gè)冠軍更有份量

搜狗訊飛分獲IWSLT2018評(píng)測(cè)第一，到底哪個(gè)冠軍更有份量