滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

通義千問開源數(shù)學模型Qwen2-Math，數(shù)學能力超越GPT-4o

時間：2024-08-09 11:58:14 來源：互聯(lián)網(wǎng)編輯：茹茹 發(fā)表評論無障礙通道

8月9日消息，阿里通義團隊開源新一代數(shù)學模型Qwen2-Math，包含1.5B、7B、72B三個參數(shù)的基礎(chǔ)模型和指令微調(diào)模型。Qwen2-Math基于通義千問開源大語言模型Qwen2研發(fā)，旗艦模型 Qwen2-Math-72B-Instruct在權(quán)威測評集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等，以84%的準確率處理了代數(shù)、幾何、計數(shù)與概率、數(shù)論等多種數(shù)學問題，成為最先進的數(shù)學專項模型。

注：在MATH基準測評中，通義千問數(shù)學模型的旗艦款Qwen2-Math-72B-Instruct取得了84%的準確率，超過GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等開閉源模型。

Qwen2-Math 基礎(chǔ)模型使用 Qwen2大語言模型進行初始化，并在精心設計的數(shù)學專用語料庫上進行預訓練，訓練數(shù)據(jù)包含大規(guī)模高質(zhì)量的數(shù)學網(wǎng)絡文本、書籍、代碼、考試題目，以及由 Qwen2 模型合成的數(shù)學預訓練數(shù)據(jù)。所有預訓練和微調(diào)數(shù)據(jù)集都進行了去污染處理。

隨后，研發(fā)團隊訓練了指令微調(diào)版本模型：基于Qwen2-Math-72B 訓練一個數(shù)學專用的獎勵模型;接著，將密集的獎勵信號與指示模型是否正確回答問題的二元信號結(jié)合，用作學習標簽，再通過拒絕采樣構(gòu)建監(jiān)督微調(diào)(SFT)數(shù)據(jù);最后在SFT模型基礎(chǔ)上使用 GRPO 方法優(yōu)化模型。

據(jù)悉，Qwen2-Math系列模型目前主要支持英文，通義團隊很快就將推出中英雙語版本，多語言版本也在開發(fā)中。

通義團隊在多個中英文數(shù)學基準測評集對指令微調(diào)模型作了性能評估，除了 GSM8K 和 MATH等常見的測評基準，還引入了更具挑戰(zhàn)性的考試競賽類測試，如奧林匹克級別的基準測評OlympiadBench、大學數(shù)學級別的基準測評CollegeMath、高考(GaoKao)、美國數(shù)學邀請賽(AIME)2024 賽題、美國數(shù)學競賽( AMC)2023賽題，中文測評則有CMATH測評集、2024年中國高考和中考數(shù)學題。最終，Qwen2-Math-72B-Instruct表現(xiàn)優(yōu)異，在十大測評中都獲得了遠超其他開源數(shù)學模型的成績。

注：研發(fā)團隊在greedy和RM@8 的條件下對模型作了測評，表中為每款Qwen2-Math-72B-Instruct模型列出了三個得分結(jié)果，分別是第1次回答得分(無下標數(shù)字)、8次回答中出現(xiàn)最多次數(shù)的答案的得分，8次回答中reward model所選答案的得分。

“大模型能不能做數(shù)學題”，不僅是社交平臺的熱門話題，也是業(yè)界非常關(guān)注的研究課題。處理高級數(shù)學問題，需要模型具備復雜多步邏輯推理能力。通義團隊在技術(shù)博客中表示，希望通過開源“為科學界解決高級數(shù)學問題做出貢獻”，未來將持續(xù)增強模型數(shù)學能力。

附：Qwen2-Math解題示例

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

2024年生成式AI服務備案大增，國家網(wǎng)信辦：共302款完成備案

三言科技1月8日消息，據(jù)“網(wǎng)信中國”消息，2024年，網(wǎng)信部門會同有關(guān)部門按照《生成式人工智能服務管理暫行辦法》要求，持續(xù)開展生成式人工智能服務備案工作。截至2024年12月31日，共302款生成式人工智…

01-08

OpenAI“連續(xù)劇”落幕，中國產(chǎn)業(yè)AI如何接棒創(chuàng)新未來？

在最近的直播中，OpenAI展示了其強化微調(diào)技術(shù)，與傳統(tǒng)微調(diào)不同，強化微調(diào)技術(shù)使得即使是數(shù)據(jù)量較少的垂直領(lǐng)域也能快速獲得高質(zhì)量的AI模型。與此同時，OpenAI還在其高級語音模式中集成了視頻聊天和屏幕共享…

01-08

追覓掃地機器人革新登場：仿生多關(guān)節(jié)機械手引領(lǐng)清潔新時代

01-08

字節(jié)AI版圖大擴張，張一鳴能否領(lǐng)航AI新時代？

靠今日頭條驗證了算法推薦“魔力”的字節(jié)跳動，對賽馬的機制進行了進一步的優(yōu)化，構(gòu)建了流水線生產(chǎn)APP的“工廠”：在組織架構(gòu)上形成了技術(shù)、User growth和商業(yè)化三個核心職能部門，分別負責留存、拉新和變現(xiàn)…

01-08

掃地機器人新突破！追覓機械手引領(lǐng)具身智能家庭服務新風尚

01-08

零次方科技雙足機器人Z1亮相：向人類學習，能否引領(lǐng)制造業(yè)升級？

01-08

CNCC見證：國產(chǎn)AI大模型智譜已能現(xiàn)場點咖啡，AGI之路還有多遠？

01-08

騰訊Robotics X：堅守前沿研究，人才流動背后的機器人未來

01-08

CNCC 2024圓桌論壇：AI+影視創(chuàng)作，是“詩”還是“坑”？

01-08

RTE大會十年：聲網(wǎng)如何從實時音視頻拓荒者走向AI融合前沿？

01-08

字節(jié)跳動加速全球化布局，歐洲AI研發(fā)中心即將落地？

01-08

外貿(mào)行業(yè)率先邁入全面AI化，系統(tǒng)升級引領(lǐng)商業(yè)變革新篇章

01-08

英偉達Blackwell服務器全面投產(chǎn)，適配全球數(shù)據(jù)中心超200種配置

01-08

2024，Agent賽道：混亂中探索，生死未卜

以前是無數(shù)個小模型疊加起來服務一個業(yè)務場景，現(xiàn)在是”大模型+小模型”，兩者是泛化能力和精準度的組合，Agent在其中起到了連接的作用，以低代碼項目形式快速搭建起一個應用供客戶使用。合作推進的方式有兩種，一種是…

01-08

手機廠商與APP爭搶用戶數(shù)據(jù)，AI手機發(fā)展面臨隱私與利益分配難題

針對該問題，抖音客服表示，對于涉及消費者的個人信息問題完全可以放心，抖音會保障個人隱私數(shù)據(jù)；美團客服針對各家廠商的示例都是用美團點外賣時表示，平臺對用戶都是有隱私保護的，可以放心使用。視覺的方法也有自己的弊端…

01-08

點擊查看更多 +

全站最新

比亞迪夏強勢登陸MPV市場，25萬內(nèi)能否成為新王者？

比亞迪夏：全能MPV新王者，三排舒適與科技性能并存！

“80后”航天員乘組分享太空之旅，寄語追夢青少年勇敢前行

神十八航天員歸來亮相，身心狀態(tài)佳，期待再飛太空

NASA火星取樣新方案：最早2035年回歸，中國2028年也將啟程

領(lǐng)克900全球亮相，杭州灣新寵兒，旗艦SUV引領(lǐng)美學與技術(shù)新高度

熱門內(nèi)容

本欄最新

OpenAI“連續(xù)劇”落幕，中國產(chǎn)業(yè)AI如何接棒創(chuàng)新未來？

追覓掃地機器人革新登場：仿生多關(guān)節(jié)機械手引領(lǐng)清潔新時代

零次方科技雙足機器人Z1亮相：向人類學習，能否引領(lǐng)制造業(yè)升級？

CNCC見證：國產(chǎn)AI大模型智譜已能現(xiàn)場點咖啡，AGI之路還有多遠？

騰訊Robotics X：堅守前沿研究，人才流動背后的機器人未來

RTE大會十年：聲網(wǎng)如何從實時音視頻拓荒者走向AI融合前沿？

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) · 齊魯軟件園魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

通義千問開源數(shù)學模型Qwen2-Math，數(shù)學能力超越GPT-4o

通義千問開源數(shù)學模型Qwen2-Math，數(shù)學能力超越GPT-4o