近日,360智腦官方在其公眾號(hào)上發(fā)布了一則令人矚目的消息,正式推出了其自主研發(fā)的AI大模型——360gpt2-o1。這款新模型在推理能力上實(shí)現(xiàn)了顯著提升,尤其在數(shù)學(xué)與邏輯推理任務(wù)上的表現(xiàn)尤為突出。
360gpt2-o1之所以能夠在這些領(lǐng)域取得如此優(yōu)異的成績(jī),主要得益于其三大技術(shù)突破:合成數(shù)據(jù)優(yōu)化、模型后訓(xùn)練以及“慢思考”范式。這些技術(shù)使得該模型在多項(xiàng)權(quán)威評(píng)測(cè)中均表現(xiàn)出色,超越了前代模型360gpt2-pro,甚至在與GPT-4o模型的對(duì)比中也毫不遜色。
在數(shù)學(xué)領(lǐng)域的評(píng)測(cè)中,360gpt2-o1展現(xiàn)出了強(qiáng)大的實(shí)力。無(wú)論是基礎(chǔ)數(shù)學(xué)評(píng)測(cè),如MATH和高考數(shù)學(xué),還是權(quán)威的數(shù)學(xué)競(jìng)賽,包括AIME24和AMC23,該模型都取得了令人矚目的成績(jī)。特別是在數(shù)學(xué)競(jìng)賽評(píng)測(cè)中,360gpt2-o1還超越了阿里巴巴最新開(kāi)源的o1系列模型QWQ-32B-preview,進(jìn)一步證明了其卓越的數(shù)學(xué)推理能力。
為了提升模型的推理能力,360智腦團(tuán)隊(duì)在合成數(shù)據(jù)優(yōu)化方面下足了功夫。他們通過(guò)指令合成、質(zhì)量/多樣性篩選等方法,有效解決了高質(zhì)量數(shù)學(xué)與邏輯推理數(shù)據(jù)稀缺的問(wèn)題,為模型提供了豐富的訓(xùn)練數(shù)據(jù)集。
在模型后訓(xùn)練階段,360智腦團(tuán)隊(duì)采用了兩階段訓(xùn)練策略。他們首先利用小模型生成多樣化的推理路徑,然后利用大模型進(jìn)行RFT訓(xùn)練和強(qiáng)化學(xué)習(xí)訓(xùn)練,從而進(jìn)一步提升了模型的推理能力和反思糾錯(cuò)能力。
360gpt2-o1還引入了“慢思考”范式,這一創(chuàng)新性的技術(shù)使得模型能夠像人類一樣逐步推理和反思。該范式利用蒙特卡洛樹(shù)搜索探索多樣化的解決方案,并引入LLM進(jìn)行錯(cuò)誤驗(yàn)證和糾錯(cuò),最終形成包含反思、驗(yàn)證、糾錯(cuò)和回溯的長(zhǎng)思維鏈。
360智腦官方還公布了360gpt2-o1的整體架構(gòu)圖,展示了其復(fù)雜而精密的設(shè)計(jì)。這一架構(gòu)的公布,不僅讓人們更加了解了這款A(yù)I大模型的內(nèi)部構(gòu)造,也為其在未來(lái)的應(yīng)用和發(fā)展提供了更多的可能性。