在科技界萬眾矚目的線上新品發(fā)布活動尾聲,OpenAI于近日揭曉了其最新力作——o3模型,以及一個更為精簡的版本o3-mini。這一發(fā)布標志著OpenAI在人工智能領域的又一重大突破。
OpenAI的首席執(zhí)行官Sam Altman在直播中透露,此次發(fā)布活動首尾呼應,均聚焦于推理模型。活動首日推出了正式版o1,而壓軸登場的o3則展現(xiàn)了更為強大的能力。
關于新模型命名為o3而非o2的原因,Altman解釋稱,這是出于對英國電信服務商O2的尊重,以避免名稱沖突。這一決定體現(xiàn)了OpenAI的細心與周到。
Altman在直播中高度評價o3為“極其聰慧的模型”。OpenAI的評估數(shù)據(jù)顯示,o3在軟件工程、代碼編寫、競賽數(shù)學以及自然科學知識掌握方面,均顯著超越其前輩o1。更令人振奮的是,o3在OpenAI實現(xiàn)通用人工智能(AGI)的征途上取得了關鍵性進展,測試成績已達到類人水平。
回顧今年9月,OpenAI發(fā)布o1預覽版時,曾宣稱o1是首個具備真正通用推理能力的大模型。在測試化學、物理和生物學專業(yè)知識的基準GPQA-diamond上,o1的表現(xiàn)全面超越人類博士專家,準確率高達78.3%。而此次o3的推出,更是將這一標準推向了新的高度。
在軟件工程能力測評中,o3憑借71.7%的準確率遠超o1的48.9%和o1預覽版的41.3%。在競爭性編程網(wǎng)站Codeforces的測評中,o3的Elo評分高達2727,較o1正式版高出44%,是o1預覽版的兩倍多。在數(shù)學競賽AIME的題目測試中,o3的準確率高達96.7%,僅錯一道題,表現(xiàn)堪比頂級數(shù)學家。
在測試化學、物理和生物學專業(yè)知識的基準GPQA-diamond上,o3的準確率也達到了87.7%,較o1和o1預覽版均有顯著提升。這些數(shù)據(jù)無疑證明了o3在多個領域的卓越表現(xiàn)。
o3在AGI評估中也取得了顯著進步。以100%為最高分的ARC-AGI評估結果顯示,o3的最低成績?yōu)?5.7%,最高成績更是高達87.5%,超過了標志著達到人類水平的門檻85%。這一成績無疑為OpenAI實現(xiàn)AGI的目標注入了強大動力。
與此同時,o3-mini作為o3的精簡版,也在性能與成本之間找到了完美的平衡點。在編碼評估方面,o3-mini展現(xiàn)出了出色的性能提升,甚至在中位思考時間下,其性能優(yōu)于o1模型,且成本更低。這意味著開發(fā)人員可以在不增加過多成本的情況下,獲得更高效的編程輔助。
o3-mini還支持函數(shù)調用、結構化輸出、開發(fā)者消息等一系列功能,與o1模型相當。在實際應用中,o3-mini在大多數(shù)評估中實現(xiàn)了可比或更好的性能。在現(xiàn)場演示中,o3-mini的強大功能得到了直觀展示,其處理復雜任務的能力令人印象深刻。
盡管o3和o3-mini的測評表現(xiàn)驚艷,但OpenAI并未急于將其推向大眾市場。目前,OpenAI已允許安全研究人員注冊訪問o3和o3-mini的預覽版,并計劃于明年初正式發(fā)布這些新模型。這一決定無疑為科技界和廣大用戶留下了更多期待。