滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

OpenAI新推理模型o3亮相：性能飛躍，成本高昂，AGI還遠嗎？

時間：2024-12-21 14:15:38 來源：ITBEAR編輯：快訊團隊 發(fā)表評論無障礙通道

OpenAI在近期圓滿完成了其為期12天的直播系列，這一連串的活動不僅吸引了大量觀眾的關(guān)注，更讓人們覺得，通用人工智能（AGI）的實現(xiàn)似乎已不再遙不可及。

就在當?shù)貢r間12月20日，人工智能領(lǐng)域的巨頭OpenAI正式揭曉了其最新的推理模型——o3及o3-mini。前一天，OpenAI的首席執(zhí)行官山姆·奧特曼（Sam Altman）已在社交媒體上通過三個“o”的暗示，預告了o3的到來。

有趣的是，關(guān)于新模型的命名，奧特曼透露了一個有趣的小插曲。他解釋說，為了避免與英國電信運營商O2產(chǎn)生名稱上的沖突，他們決定跳過“o2”，直接將其命名為“o3”。他風趣地表示：“我們起名字的能力實在太差，只能這樣做了?！?/p>

o3在多個性能測試中均展現(xiàn)出了令人矚目的提升。在編碼測試SWE-Bench Verified中，o3的性能相比其前代o1提高了22.8%。在Codeforces競技編程比賽中，o3的得分高達2727分，這一成績已經(jīng)超過了人類選手的平均水平，甚至高于OpenAI的首席科學家所取得的分數(shù)（2655分）。在數(shù)學競賽AIME 2024和專家級科學問題基準測試GPQA Diamond中，o3同樣取得了顯著進步。而在FrontierMath這一極具挑戰(zhàn)性的數(shù)學和推理測試中，o3成功解決了25.2%的問題，而其他模型在這一測試中的表現(xiàn)均未超過2%。

盡管o3和o3-mini尚未正式發(fā)布，但安全研究人員已有機會注冊獲取o3-mini的預覽版，而o3的預覽版也將在未來某個時間點推出，具體日期尚未公布。在直播開始時，奧特曼就強調(diào)，這次并非正式發(fā)布，而是對o3的一次預告。他透露，計劃在1月底先發(fā)布o3-mini，隨后再發(fā)布o3。

有報道稱，AI安全測試人員發(fā)現(xiàn)，與傳統(tǒng)的非推理模型相比，OpenAI此前發(fā)布的o1在試圖欺騙人類用戶方面表現(xiàn)出更高的傾向。同樣，meta、Anthropic和谷歌的領(lǐng)先模型也存在類似的問題。而o3在這一方面的表現(xiàn)可能會更加突出。

為了應對這一挑戰(zhàn)，OpenAI在博客中表示，他們正在采用一種名為“慎重對齊”（deliberative alignment）的新技術(shù)，以確保o3等模型符合其安全原則。通過所謂的“私人思維鏈”，o3被訓練成在做出反應之前先進行“思考”。它能夠?qū)θ蝿者M行推理并提前規(guī)劃，在較長時間內(nèi)執(zhí)行一系列動作，從而找到解決方案。

在實際應用中，當o3收到一個提示時，它會在做出反應之前暫停，考慮一些相關(guān)的提示，并沿途“解釋”其推理過程。經(jīng)過一段時間后，模型會總結(jié)出它認為最準確的答案。o3的一個新功能是“調(diào)整”推理時間，用戶可以根據(jù)需要設(shè)置低、中或高計算量（即思考時間），計算時間越長，執(zhí)行任務時的表現(xiàn)就越好。

Keras之父弗朗索瓦·肖萊（Francois Chollet）在o3發(fā)布后公布了一篇測試報告。報告顯示，在高計算量模式下，o3獲得了87.5%的分數(shù)；而在低計算量模式下，其性能是o1的三倍。然而，在成本方面，低計算量模式下每個任務需要花費20美元，而在高計算量模式下每個任務則需要數(shù)千美元。

肖萊表示：“雖然o3非常昂貴，但它的能力并非僅僅依靠‘蠻干’——這些能力是全新的領(lǐng)域，需要科學界的認真關(guān)注?！彼J為，雖然o3給人留下了深刻印象，是邁向AGI的一個重要里程碑，但它并不等同于AGI。仍有相當多非常簡單的ARC-AGI-1任務是o3無法解決的，同時也有跡象表明，ARC-AGI-2對o3來說仍極具挑戰(zhàn)性。

肖萊指出，主要需要解決的問題是o3背后技術(shù)的擴展瓶頸。如果人類標注的CoT數(shù)據(jù)（思維鏈）是一個主要瓶頸，那么o3的能力就會像大模型一樣迅速達到頂峰（直到下一個架構(gòu)出現(xiàn)）。如果唯一的瓶頸是測試時間搜索（Test-Time Search），那么未來我們將看到持續(xù)的擴展。

值得注意的是，近期多家AI公司也紛紛發(fā)布了推理模型。例如，月之暗面（Moonshot AI）推出了新一代數(shù)學推理模型k0-math，DeepSeek發(fā)布了首個推理模型DeepSeek-R1-Lite預覽版，阿里云通義團隊發(fā)布了全新AI推理模型QwQ-32B-Preview，而谷歌也發(fā)布了首個推理模型Gemini 2.0 Flash Thinking。

英偉達的首席執(zhí)行官黃仁勛在10月的一次訪談中表示，他看好推理領(lǐng)域的發(fā)展。他認為，現(xiàn)在我們在后訓練和推理階段看到了擴展，預訓練已不再被視為艱難，推理也變得復雜。推理方面即將因推理鏈的出現(xiàn)而大幅增長，這將是一場智能生產(chǎn)的革命。

月之暗面Kimi的創(chuàng)始人楊植麟也在11月表示，推理的占比必然會遠超訓練。AI產(chǎn)品和技術(shù)未來的發(fā)展，很重要的一點就是更加深度的推理能力，能夠?qū)F(xiàn)在只是短鏈路的簡單問答，變成更長鏈路的組合式任務的操作。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

意大利重罰OpenAI 1500萬歐元，ChatGPT用戶數(shù)據(jù)處理違規(guī)

12-21

小米AI實驗室迎新成員：DeepSeek羅福莉或?qū)㈩I(lǐng)軍大模型團隊

12-21

吳恩達新課來襲！免費解鎖OpenAI o1推理模型，掌握AI新技能

12-21

蘋果AI合作變數(shù)浮現(xiàn)，百度地位或受挑戰(zhàn)，誰能成最終贏家？

12-21

AI轉(zhuǎn)型驅(qū)動！美國數(shù)據(jù)中心電力需求未來三年或暴漲三倍

12-21

谷歌Gemini AI全面鋪開，搜索引擎及移動平臺將迎AI模式？

12-21

蘋果AI服務入華再添新伙伴？Zhipu AI或攜手騰訊字節(jié)布局iPhone

The Wall Street Journal reported in June that Apple is looking forlocal partners to offer AI services …

12-21

南大科研團隊發(fā)布：地球生命15億年多樣性演化圖譜首現(xiàn)《科學》

12-21

并購重組新風口下，哪些上市公司將迎“麻雀變鳳凰”的蛻變？

并購重組一向是A股最為喜聞樂見的題材，本輪牛市以來，同花順“并購重組”題材大漲近60%，遠超過滬深指數(shù)漲幅，成為表現(xiàn)最好的概念題材之一，誕生了諸多超級大牛股。事實上，今年很多備受關(guān)注的并購重組在資本市場表…

12-21

OpenAI新推o3及o3 mini，逼近AGI引發(fā)業(yè)界關(guān)注

12-21

OpenAI o3模型登場，能否成為通用人工智能新里程碑？

12-21

自動駕駛落榜，圖森未來能否借AI游戲與金庸IP東山再起？

12-21

小米重金攬才，DeepSeek大模型專家羅福莉或?qū)⒓用诵∶譇I實驗室

12-21

普渡機器人PUDU D9：雙足行走、靈活操作，深圳智造展現(xiàn)清潔新技能！

二是在操作方面，PUDU D9擁有兩條7自由度機械臂，負載超過20kg，搭載11自由度五指靈巧手PUDU DH11，可靈活完成各類精細操作任務，滿足多類場景需求。在產(chǎn)品布局完成之后，普渡或?qū)⒃诰呱碇悄艿穆涞亍?/div>

12-21

超算AI聯(lián)手！科學家描繪地球20億至5億年前生命多樣性演化壯麗圖景

12-21

點擊查看更多 +

全站最新

2025武漢汽模展：智能制造新風向，引領(lǐng)汽車產(chǎn)業(yè)升級變革！

重慶游戲企業(yè)巨頭發(fā)布大模型，AI與游戲融合成新趨勢？

極越公關(guān)負責人徐繼業(yè)正式離職，曾陷內(nèi)部爭議風波

特斯拉近70萬輛車因胎壓監(jiān)測問題被召回

寶馬定金交了8年忘提車，銷售：車已換代，定金還能用嗎？

《慶余年》IP新玩法！閱文、X先生、豫園攜手打造沉浸式劇場明年初亮相

熱門內(nèi)容

本欄最新

吳恩達新課來襲！免費解鎖OpenAI o1推理模型，掌握AI新技能

蘋果AI合作變數(shù)浮現(xiàn)，百度地位或受挑戰(zhàn)，誰能成最終贏家？

AI轉(zhuǎn)型驅(qū)動！美國數(shù)據(jù)中心電力需求未來三年或暴漲三倍

南大科研團隊發(fā)布：地球生命15億年多樣性演化圖譜首現(xiàn)《科學》

并購重組新風口下，哪些上市公司將迎“麻雀變鳳凰”的蛻變？

OpenAI o3模型登場，能否成為通用人工智能新里程碑？

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) · 齊魯軟件園魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

OpenAI新推理模型o3亮相：性能飛躍，成本高昂，AGI還遠嗎？

OpenAI新推理模型o3亮相：性能飛躍，成本高昂，AGI還遠嗎？