ITBear旗下自媒體矩陣:

360自研AI大模型gpt2-o1亮相,數(shù)學(xué)邏輯推理能力能否超越國(guó)際水平?

   時(shí)間:2024-12-14 11:11:35 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

近日,360智腦官方在其公眾號(hào)上發(fā)布了一則令人矚目的消息,正式推出了其自主研發(fā)的AI大模型——360gpt2-o1。這款新模型在推理能力上實(shí)現(xiàn)了顯著提升,尤其在數(shù)學(xué)與邏輯推理任務(wù)上的表現(xiàn)尤為突出。

360gpt2-o1之所以能夠在這些領(lǐng)域取得如此優(yōu)異的成績(jī),主要得益于其三大技術(shù)突破:合成數(shù)據(jù)優(yōu)化、模型后訓(xùn)練以及“慢思考”范式。這些技術(shù)使得該模型在多項(xiàng)權(quán)威評(píng)測(cè)中均表現(xiàn)出色,超越了前代模型360gpt2-pro,甚至在與GPT-4o模型的對(duì)比中也毫不遜色。

在數(shù)學(xué)領(lǐng)域的評(píng)測(cè)中,360gpt2-o1展現(xiàn)出了強(qiáng)大的實(shí)力。無(wú)論是基礎(chǔ)數(shù)學(xué)評(píng)測(cè),如MATH和高考數(shù)學(xué),還是權(quán)威的數(shù)學(xué)競(jìng)賽,包括AIME24和AMC23,該模型都取得了令人矚目的成績(jī)。特別是在數(shù)學(xué)競(jìng)賽評(píng)測(cè)中,360gpt2-o1還超越了阿里巴巴最新開(kāi)源的o1系列模型QWQ-32B-preview,進(jìn)一步證明了其卓越的數(shù)學(xué)推理能力。

為了提升模型的推理能力,360智腦團(tuán)隊(duì)在合成數(shù)據(jù)優(yōu)化方面下足了功夫。他們通過(guò)指令合成、質(zhì)量/多樣性篩選等方法,有效解決了高質(zhì)量數(shù)學(xué)與邏輯推理數(shù)據(jù)稀缺的問(wèn)題,為模型提供了豐富的訓(xùn)練數(shù)據(jù)集。

在模型后訓(xùn)練階段,360智腦團(tuán)隊(duì)采用了兩階段訓(xùn)練策略。他們首先利用小模型生成多樣化的推理路徑,然后利用大模型進(jìn)行RFT訓(xùn)練和強(qiáng)化學(xué)習(xí)訓(xùn)練,從而進(jìn)一步提升了模型的推理能力和反思糾錯(cuò)能力。

360gpt2-o1還引入了“慢思考”范式,這一創(chuàng)新性的技術(shù)使得模型能夠像人類一樣逐步推理和反思。該范式利用蒙特卡洛樹(shù)搜索探索多樣化的解決方案,并引入LLM進(jìn)行錯(cuò)誤驗(yàn)證和糾錯(cuò),最終形成包含反思、驗(yàn)證、糾錯(cuò)和回溯的長(zhǎng)思維鏈。

360智腦官方還公布了360gpt2-o1的整體架構(gòu)圖,展示了其復(fù)雜而精密的設(shè)計(jì)。這一架構(gòu)的公布,不僅讓人們更加了解了這款A(yù)I大模型的內(nèi)部構(gòu)造,也為其在未來(lái)的應(yīng)用和發(fā)展提供了更多的可能性。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version