ITBear旗下自媒體矩陣:

騰訊DRT-o1 AI模型:讓文學翻譯更懂“言外之意”

   時間:2024-12-26 10:18:40 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

騰訊研究院近期揭曉了一項創(chuàng)新成果——DRT-o1系列模型,該模型憑借獨特的長思維鏈(CoT)技術,在文學作品翻譯領域取得了突破性進展,特別是針對比喻和隱喻等復雜修辭的處理,顯著提升了翻譯質量。

在神經機器翻譯(NMT)技術日益成熟的背景下,日常文本的翻譯效率與質量均已達到較高水準。然而,文學作品,特別是富含比喻和明喻修辭的文本,仍然是翻譯領域的一大難題。這些修辭往往承載著深厚的文化內涵和語境信息,簡單的直譯難以精準傳達其深層含義。騰訊的DRT-o1系統正是為解決這一挑戰(zhàn)而生。

為了訓練這一模型,研究人員精心挑選了古騰堡計劃中的400本公共領域英文書籍,并從中提取了577,600個句子。經過嚴格篩選,最終確定了63,000個包含比喻和隱喻的句子作為訓練素材。這些句子被用于引導模型進行深度思考,從而提升其理解和翻譯復雜修辭的能力。

DRT-o1模型采用了創(chuàng)新的多智能體框架,包括翻譯員、顧問和評估員三個角色。翻譯員負責初步翻譯,顧問則提供修改建議,評估員則根據預設的評分標準對翻譯質量進行客觀評價。這一流程通過反復迭代,不斷優(yōu)化翻譯結果,直至達到預設的評分閾值或迭代次數上限。

在具體的工作流程中,模型首先識別句子中的關鍵詞并進行翻譯,然后基于源句子和關鍵詞的雙語對應關系,生成初步的翻譯結果。接著,顧問對初步翻譯進行評估,并提供反饋意見。評估員則根據預定義的評分標準,對翻譯的整體質量進行打分。翻譯員根據反饋和評分,再次提供新的翻譯。這一過程循環(huán)往復,直至翻譯質量達到最佳。

最終,經過深度思考的翻譯結果會由GPT-4o進行進一步的潤色,以確保其流暢性和可讀性。這一流程產生的數據集包含了22,264個高質量的機器翻譯樣本。

在騰訊研究院提供的示例中,原文“The mother, with her feet propped up on a stool, seemed to be trying to get to the bottom of that answer, whose feminine profundity had struck her all of a heap.”中的“struck her all of a heap”是一個成語,表示某事產生了強烈的影響。DRT-o1模型通過長思維鏈過程,將其翻譯為“母親將雙腳搭在凳子上,似乎在努力探究那個答案,那答案中女性特有的深刻性令她猛然心生震撼?!边@一翻譯不僅準確傳達了原文的意思,還保留了原文的情感色彩。

相比之下,谷歌翻譯的版本為“母親雙腳撐在凳子上,似乎想弄清楚這個答案的真相,其女性的深刻性讓她大吃一驚?!倍鳧eepl的翻譯則是“母親把腳支在凳子上,似乎想弄清這個答案的來龍去脈,而這個答案的女性化深刻性讓她茅塞頓開?!彪m然這兩個版本也基本傳達了原文的意思,但在情感表達和細膩程度上,DRT-o1的翻譯顯然更勝一籌。

在性能表現方面,DRT-o1系列推出了DRT-o1-7B和DRT-o1-14B兩個規(guī)模版本。實驗結果顯示,與Qwen2.5-7B-Instruct相比,DRT-o1-7B在BLEU分數上提高了8.26分,CometScore提高了3.36分;與Qwen2.5-14B-Instruct相比,DRT-o1-14B的BLEU分數提高了7.33分,CometScore提高了1.66分。DRT-o1-7B的性能甚至超過了更大的模型QwQ-32B,BLEU分數高出7.82分,CometScore高出1.46分,充分展示了其在處理復雜語言結構方面的卓越能力。

騰訊研究院的這一創(chuàng)新成果,不僅為文學作品翻譯領域帶來了新的希望,也為人工智能技術在語言處理領域的應用開辟了新的方向。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  RSS訂閱  |  開放轉載  |  滾動資訊  |  爭議稿件處理  |  English Version