ITBear旗下自媒體矩陣:

中國電信TeleAI-t1-preview發(fā)布,邏輯推理能力超OpenAI標桿模型

   時間:2025-01-25 18:30:54 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

中國電信人工智能研究院近日宣布,其傾力打造的“復雜推理大模型”TeleAI-t1-preview已正式面世,并將很快在天翼AI開放平臺上與公眾見面。該模型采用先進的強化學習訓練技術(shù),通過引入探索與反思機制,顯著提升了在邏輯推理與數(shù)學推導等復雜問題上的解答精度。

據(jù)官方介紹,TeleAI-t1-preview在美國數(shù)學競賽AIME 2024與MATH500兩項權(quán)威基準測試中,分別以60分和93.8分的優(yōu)異成績,遠超OpenAI的o1-preview和GPT-4o等業(yè)界標桿模型。在研究生級別問答測試GPQA Diamond中,其表現(xiàn)同樣出色,得分超越GPT-4o,與Claude 3.5 Sonnet的性能不相上下。

評測顯示,TeleAI-t1-preview在處理《九章算術(shù)》中的題目時,能夠先對文言文進行精準理解和簡化,再轉(zhuǎn)換成現(xiàn)代漢語,并給出詳細的數(shù)學推導過程和答案。這一過程中,模型展現(xiàn)了將形象思維與抽象思維相結(jié)合的能力,對所涉及場景進行具象化思考,從而更好地理解題目。

尤為TeleAI-t1-preview還能嚴謹?shù)剡M行古今單位換算,確保了答案的準確性。這一成就得益于中國電信人工智能研究院在模型訓練策略上的創(chuàng)新。

在數(shù)據(jù)準備階段,研究院收集并構(gòu)建了一個以數(shù)學為核心、涵蓋多學科的高質(zhì)量推理數(shù)據(jù)集,為模型適應(yīng)不同類型推理任務(wù)打下了堅實基礎(chǔ)。還訓練了一個專門的Judge Model,用于分析和評估模型長思考鏈路的正確性,為模型的反思和錯誤修正提供精準指導。

在監(jiān)督微調(diào)(SFT)階段,研究院采用蒙特卡洛樹搜索(MCTS)構(gòu)造高質(zhì)量長推理數(shù)據(jù),結(jié)合每個步驟的準確率和解決方案長度,選擇最優(yōu)完整路徑。這不僅保證了推理答案的準確性,還有效拉長了思考鏈路,使推理過程更加細粒度。同時,利用Judge Model對推理過程中正確率較低的路徑進行分析,引導模型對錯誤推理步驟進行反思和修正,從而構(gòu)造出高質(zhì)量的思維鏈數(shù)據(jù)進行SFT訓練。

在強化學習階段,研究院額外構(gòu)造了基于規(guī)則的獎勵模型(Rule-based Reward Model),提供準確獎勵信號,通過在線強化學習算法進一步提升模型的邏輯推理能力。這一系列創(chuàng)新舉措,共同成就了TeleAI-t1-preview在復雜推理領(lǐng)域的卓越表現(xiàn)。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version