ITBear旗下自媒體矩陣:

OpenAI新推理模型o3亮相:性能飛躍,成本高昂,AGI還遠嗎?

   時間:2024-12-21 14:15:38 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

OpenAI在近期圓滿完成了其為期12天的直播系列,這一連串的活動不僅吸引了大量觀眾的關(guān)注,更讓人們覺得,通用人工智能(AGI)的實現(xiàn)似乎已不再遙不可及。

就在當?shù)貢r間12月20日,人工智能領(lǐng)域的巨頭OpenAI正式揭曉了其最新的推理模型——o3及o3-mini。前一天,OpenAI的首席執(zhí)行官山姆·奧特曼(Sam Altman)已在社交媒體上通過三個“o”的暗示,預告了o3的到來。

有趣的是,關(guān)于新模型的命名,奧特曼透露了一個有趣的小插曲。他解釋說,為了避免與英國電信運營商O2產(chǎn)生名稱上的沖突,他們決定跳過“o2”,直接將其命名為“o3”。他風趣地表示:“我們起名字的能力實在太差,只能這樣做了?!?/p>

o3在多個性能測試中均展現(xiàn)出了令人矚目的提升。在編碼測試SWE-Bench Verified中,o3的性能相比其前代o1提高了22.8%。在Codeforces競技編程比賽中,o3的得分高達2727分,這一成績已經(jīng)超過了人類選手的平均水平,甚至高于OpenAI的首席科學家所取得的分數(shù)(2655分)。在數(shù)學競賽AIME 2024和專家級科學問題基準測試GPQA Diamond中,o3同樣取得了顯著進步。而在FrontierMath這一極具挑戰(zhàn)性的數(shù)學和推理測試中,o3成功解決了25.2%的問題,而其他模型在這一測試中的表現(xiàn)均未超過2%。

盡管o3和o3-mini尚未正式發(fā)布,但安全研究人員已有機會注冊獲取o3-mini的預覽版,而o3的預覽版也將在未來某個時間點推出,具體日期尚未公布。在直播開始時,奧特曼就強調(diào),這次并非正式發(fā)布,而是對o3的一次預告。他透露,計劃在1月底先發(fā)布o3-mini,隨后再發(fā)布o3。

有報道稱,AI安全測試人員發(fā)現(xiàn),與傳統(tǒng)的非推理模型相比,OpenAI此前發(fā)布的o1在試圖欺騙人類用戶方面表現(xiàn)出更高的傾向。同樣,meta、Anthropic和谷歌的領(lǐng)先模型也存在類似的問題。而o3在這一方面的表現(xiàn)可能會更加突出。

為了應對這一挑戰(zhàn),OpenAI在博客中表示,他們正在采用一種名為“慎重對齊”(deliberative alignment)的新技術(shù),以確保o3等模型符合其安全原則。通過所謂的“私人思維鏈”,o3被訓練成在做出反應之前先進行“思考”。它能夠?qū)θ蝿者M行推理并提前規(guī)劃,在較長時間內(nèi)執(zhí)行一系列動作,從而找到解決方案。

在實際應用中,當o3收到一個提示時,它會在做出反應之前暫停,考慮一些相關(guān)的提示,并沿途“解釋”其推理過程。經(jīng)過一段時間后,模型會總結(jié)出它認為最準確的答案。o3的一個新功能是“調(diào)整”推理時間,用戶可以根據(jù)需要設(shè)置低、中或高計算量(即思考時間),計算時間越長,執(zhí)行任務時的表現(xiàn)就越好。

Keras之父弗朗索瓦·肖萊(Francois Chollet)在o3發(fā)布后公布了一篇測試報告。報告顯示,在高計算量模式下,o3獲得了87.5%的分數(shù);而在低計算量模式下,其性能是o1的三倍。然而,在成本方面,低計算量模式下每個任務需要花費20美元,而在高計算量模式下每個任務則需要數(shù)千美元。

肖萊表示:“雖然o3非常昂貴,但它的能力并非僅僅依靠‘蠻干’——這些能力是全新的領(lǐng)域,需要科學界的認真關(guān)注?!彼J為,雖然o3給人留下了深刻印象,是邁向AGI的一個重要里程碑,但它并不等同于AGI。仍有相當多非常簡單的ARC-AGI-1任務是o3無法解決的,同時也有跡象表明,ARC-AGI-2對o3來說仍極具挑戰(zhàn)性。

肖萊指出,主要需要解決的問題是o3背后技術(shù)的擴展瓶頸。如果人類標注的CoT數(shù)據(jù)(思維鏈)是一個主要瓶頸,那么o3的能力就會像大模型一樣迅速達到頂峰(直到下一個架構(gòu)出現(xiàn))。如果唯一的瓶頸是測試時間搜索(Test-Time Search),那么未來我們將看到持續(xù)的擴展。

值得注意的是,近期多家AI公司也紛紛發(fā)布了推理模型。例如,月之暗面(Moonshot AI)推出了新一代數(shù)學推理模型k0-math,DeepSeek發(fā)布了首個推理模型DeepSeek-R1-Lite預覽版,阿里云通義團隊發(fā)布了全新AI推理模型QwQ-32B-Preview,而谷歌也發(fā)布了首個推理模型Gemini 2.0 Flash Thinking。

英偉達的首席執(zhí)行官黃仁勛在10月的一次訪談中表示,他看好推理領(lǐng)域的發(fā)展。他認為,現(xiàn)在我們在后訓練和推理階段看到了擴展,預訓練已不再被視為艱難,推理也變得復雜。推理方面即將因推理鏈的出現(xiàn)而大幅增長,這將是一場智能生產(chǎn)的革命。

月之暗面Kimi的創(chuàng)始人楊植麟也在11月表示,推理的占比必然會遠超訓練。AI產(chǎn)品和技術(shù)未來的發(fā)展,很重要的一點就是更加深度的推理能力,能夠?qū)F(xiàn)在只是短鏈路的簡單問答,變成更長鏈路的組合式任務的操作。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容