ITBear旗下自媒體矩陣:

網(wǎng)易有道上線神經(jīng)網(wǎng)絡(luò)翻譯翻譯質(zhì)量可媲美英語八級

   時(shí)間:2017-04-29 18:35:59 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

在機(jī)器翻譯領(lǐng)域深耕了近十年的網(wǎng)易有道,再次給人們帶來了驚喜。

近日,網(wǎng)易有道在GMIC(全球移動互聯(lián)網(wǎng)大會)未來創(chuàng)新峰會上公布:由網(wǎng)易公司自主研發(fā)的神經(jīng)網(wǎng)絡(luò)翻譯( Neural Machine Translation,以下簡稱NMT)技術(shù)正式上線。作為受到丁磊親自“過問”、網(wǎng)易最重要技術(shù)創(chuàng)新之一,此次在有道上線的NMT技術(shù),由網(wǎng)易有道與網(wǎng)易杭州研究院歷時(shí)兩年合力研發(fā),將服務(wù)于有道詞典、有道翻譯官、有道翻譯網(wǎng)頁版、有道e讀等產(chǎn)品;這不但意味著借力于NMT技術(shù),有道產(chǎn)品在語言翻譯質(zhì)量方面將有巨大的提升——超過7億用戶將享受到NMT帶來的高效與便利,更意味著低調(diào)務(wù)實(shí)的網(wǎng)易,早已在人工智能的領(lǐng)域未雨綢繆,并早于業(yè)界實(shí)現(xiàn)人工智能技術(shù)在更廣泛網(wǎng)民中的深度使用。

人工智能改變翻譯讓翻譯更“聰明”

深度學(xué)習(xí)是推動當(dāng)前人工智能熱潮最關(guān)鍵的技術(shù),它首先在圖像、音頻等感知領(lǐng)域獲得了巨大成功,目前在語言方面的應(yīng)用也獲得了長足的進(jìn)展。

而神經(jīng)網(wǎng)絡(luò)翻譯就是深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的具體應(yīng)用。

作為目前機(jī)器翻譯領(lǐng)域最前沿的技術(shù),神經(jīng)網(wǎng)絡(luò)翻譯采用獨(dú)到的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠?qū)Ψg的全過程整體建模;與統(tǒng)計(jì)翻譯模型(SMT)相比,神經(jīng)網(wǎng)絡(luò)翻譯模型更像一個(gè)有機(jī)體。

NMT對整個(gè)句子進(jìn)行編碼,能夠更充分地利用上下文信息,判定多義詞的詞義,生成更高質(zhì)量的譯文。最直觀的一點(diǎn)就是,NMT譯文的句子結(jié)構(gòu)完整,語序更接近人類語言使用習(xí)慣,翻譯結(jié)果更加通順;而SMT則像由多個(gè)組件構(gòu)成的機(jī)器,每個(gè)組件完成各自的目標(biāo),但“拼接”出來的翻譯結(jié)果,常常不盡人意。

NMT翻譯原理

如果從具體的例子來看,此次在有道上線的NMT的翻譯結(jié)果更準(zhǔn)確,斷句和語法比起傳統(tǒng)機(jī)器翻譯(SMT)有了直觀可感知的提升,更接近人們心中“會說話”的人工智能。

NMT與SMT 英譯中結(jié)果對比

據(jù)悉,與傳統(tǒng)的基于短語的統(tǒng)計(jì)翻譯模型相比,此次在有道上線的NMT翻譯質(zhì)量的提升是SMT過去十年累計(jì)提升的總和。

新聞和口語翻譯出色質(zhì)量可媲美英語八級

從翻譯界通用的BLEU值評價(jià)指標(biāo)來看,此次在有道上線的NMT在新聞文章、英語學(xué)習(xí)及口語等場景下的英文翻譯,做得比同類國際產(chǎn)品更加出色。而丁磊也曾在內(nèi)部表示,新聞和口語是中國人接觸英語最常見的兩個(gè)領(lǐng)域,應(yīng)在這兩方面加大研究。

事實(shí)上,詞典本就是有道的傳統(tǒng)優(yōu)勢,其詞條數(shù)據(jù)龐大、解釋準(zhǔn)確,已經(jīng)成為國內(nèi)用戶學(xué)習(xí)英語的首選。憑借這一優(yōu)勢,再加上有針對性的優(yōu)化,此次在有道上線的NMT對英語學(xué)習(xí)場景下的翻譯結(jié)果更加精準(zhǔn)。這類翻譯需求的特點(diǎn)是,原文規(guī)整、語法及句式較為規(guī)范,因此用戶對其準(zhǔn)確性要求更高。在該類數(shù)據(jù)上的盲測結(jié)果顯示,此次在有道上線的NMT,其英譯中和中譯英的BLEU值均領(lǐng)先同行7個(gè)多百分點(diǎn)。

英譯中對比

新聞文章翻譯是另外一個(gè)常見的需求,它的特點(diǎn)是,長句較多、句子結(jié)構(gòu)復(fù)雜且有大量人名地名。在這類數(shù)據(jù)上,此次在有道上線的NMT同樣表現(xiàn)不俗,英譯中BLEU值超同行6個(gè)百分點(diǎn),而中譯英也超其8個(gè)百分點(diǎn)。

中譯英對比

而從以上的例子可以看出,有道上線的神經(jīng)網(wǎng)絡(luò)翻譯的結(jié)果十分通順和準(zhǔn)確,幾乎沒有任何語法錯(cuò)誤。這樣的結(jié)果,即使是普通人中等英文水平都很難達(dá)到,而據(jù)翻譯專業(yè)人士表示,要達(dá)到這樣翻譯水平,至少英語水平在專業(yè)八級。

集網(wǎng)易公司之力攻堅(jiān)技術(shù)難題

此次在有道上線的NMT,其翻譯質(zhì)量的大幅提升,源于有道及網(wǎng)易杭州研究院的通力合作。

作為國內(nèi)最早開發(fā)統(tǒng)計(jì)機(jī)器翻譯(SMT)的公司,有道早在兩年前也開始涉足神經(jīng)網(wǎng)絡(luò)翻譯領(lǐng)域的探索,并為此投入了巨大的研發(fā)力量。為了加快項(xiàng)目進(jìn)度,網(wǎng)易杭州研究院于一年前也參與進(jìn)來。

網(wǎng)易有道首席科學(xué)家段亦濤表示,“有道在用戶翻譯場景上近十年的積累,使得我們擁有豐富的數(shù)據(jù)資源,同時(shí)我們研究深度學(xué)習(xí)和機(jī)器翻譯技術(shù)多年,攻克了數(shù)據(jù)處理、大規(guī)模框架、模型優(yōu)化、領(lǐng)域適配等技術(shù)難題,并開發(fā)出一些我們特有的技術(shù),比如領(lǐng)域適配技術(shù),使我們的模型能夠自動適應(yīng)不同的場景,目前有道的NMT已經(jīng)在新聞、學(xué)習(xí)、口語和一些科技領(lǐng)域等場景下做到了最優(yōu)。”

網(wǎng)易杭州研究院感知與智能中心總經(jīng)理李曉燕則表示,“此次在有道中上線NMT 技術(shù),可以說是機(jī)器翻譯領(lǐng)域的標(biāo)桿,作為擁有十余年技術(shù)沉淀的互聯(lián)網(wǎng)實(shí)力研發(fā)團(tuán)隊(duì),杭研院從深度學(xué)習(xí)理論出發(fā),解決了大規(guī)??蚣?、模型優(yōu)化等技術(shù)難題,高效完成了翻譯場景對接和NMT技術(shù)應(yīng)用工程化。”

機(jī)器翻譯的未來 讓語言不再是障礙

此次在有道上線的NMT把人工智能接入機(jī)器翻譯,并結(jié)合自身優(yōu)勢以及對技術(shù)的優(yōu)化從而大幅提升翻譯質(zhì)量,對有道乃至整個(gè)翻譯行業(yè)來說,都是一次重要突破。

過去由于技術(shù)的限制,機(jī)器翻譯僅能翻譯一些簡單詞組,對復(fù)雜內(nèi)容翻譯效果并不佳。而神經(jīng)網(wǎng)絡(luò)翻譯技術(shù)的發(fā)展,給翻譯質(zhì)量帶來了極大提升,高質(zhì)量的機(jī)器翻譯將更廣泛更便捷地被人們使用,那么語言對于人類來說,還將是一個(gè)障礙么?

段亦濤坦言,神經(jīng)網(wǎng)絡(luò)翻譯在全球范圍內(nèi)都屬于前沿技術(shù),雖然業(yè)內(nèi)已有一定成果,但可挖掘的空間還很大。目前我們的技術(shù)突破,的確讓業(yè)內(nèi)感到振奮,但機(jī)器翻譯作為人工智能領(lǐng)域的核心難題之一,未來還有很多的努力要做。

李曉燕也談到,今天我們在有道產(chǎn)品中上線的NMT,只是人工智能在機(jī)器翻譯領(lǐng)域探索的起點(diǎn)。得益于有道在翻譯數(shù)據(jù)的強(qiáng)大積累,我們的NMT技術(shù)將快速迭代更新,未來將不斷帶來更優(yōu)質(zhì)的翻譯體驗(yàn)。

據(jù)悉,此次推出的NMT技術(shù)未來兩周將陸續(xù)在有道詞典、有道翻譯官、有道翻譯網(wǎng)頁版、有道e讀等產(chǎn)品中正式應(yīng)用。

網(wǎng)易有道

有道翻譯官拍照翻譯中應(yīng)用

舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version