在科技界的一次重大宣布中,OpenAI選擇在12天Shipmas活動的尾聲揭曉了其年度最重要的消息。這一震撼性公告并非突如其來,而是經(jīng)過精心策劃,于上周五正式揭曉。
OpenAI隆重推出了o3,這款模型被視為今年早些時候發(fā)布的o1推理模型的升級版。值得注意的是,o3并非單一模型,而是一個系列,其中包括o3和o3-mini兩個版本。后者是一個經(jīng)過精簡和特定任務(wù)微調(diào)的更小型模型。
OpenAI發(fā)表了一項(xiàng)驚人的聲明:o3在某些特定條件下,已接近實(shí)現(xiàn)通用人工智能(AGI)的水平。然而,這一聲明伴隨著重要的警示。關(guān)于這一點(diǎn),后文將詳細(xì)展開。
關(guān)于模型編號的跳躍——從o1直接跳到o3——OpenAI首席執(zhí)行官Sam Altman在直播中透露,這是為了避免與英國電信巨頭O2發(fā)生潛在的商標(biāo)糾紛。這無疑展示了商業(yè)世界中知識產(chǎn)權(quán)問題的復(fù)雜性。
目前,o3和o3-mini尚未全面推向市場。不過,安全研究人員從今天開始可以注冊預(yù)覽o3-mini,而o3的預(yù)覽版將在稍后發(fā)布,具體時間尚未確定。Altman透露,o3-mini計(jì)劃于1月底推出,隨后是o3的全面發(fā)布。然而,這與他近期的言論存在些許不一致。在本周的一次訪談中,Altman曾表示,在發(fā)布新的推理模型之前,他更希望建立一個聯(lián)邦測試框架,以指導(dǎo)對此類模型的監(jiān)控和風(fēng)險(xiǎn)降低。
風(fēng)險(xiǎn)確實(shí)存在。人工智能安全測試人員發(fā)現(xiàn),o1的推理能力使其比傳統(tǒng)非推理模型更容易欺騙人類用戶。與meta、Anthropic和Google的領(lǐng)先人工智能模型相比,o3欺騙人類的概率可能更高。這一風(fēng)險(xiǎn)將在OpenAI的紅隊(duì)合作伙伴發(fā)布測試結(jié)果后得到驗(yàn)證。
為了應(yīng)對這些風(fēng)險(xiǎn),OpenAI表示正在采用一種新技術(shù)——審議性對齊,以確保o3等模型與其安全原則保持一致。這一技術(shù)同樣應(yīng)用于o1模型。OpenAI在一項(xiàng)新研究中詳細(xì)闡述了其工作原理。
與大多數(shù)人工智能不同,o3等推理模型能夠自我核實(shí)事實(shí),從而避免許多通常會困擾其他模型的陷阱。這一事實(shí)核查過程雖然會產(chǎn)生一定的延遲,但使得o3在物理、科學(xué)和數(shù)學(xué)等領(lǐng)域更加可靠。o3在做出反應(yīng)之前,會通過OpenAI所稱的“私人思維鏈”進(jìn)行思考。它能夠推理任務(wù)并提前規(guī)劃,執(zhí)行一系列操作以找到解決方案。
在實(shí)踐中,o3在接受提示后會暫停一下,考慮一系列相關(guān)提示,并解釋其推理過程。一段時間后,該模型會總結(jié)出它認(rèn)為最準(zhǔn)確的答案。與o1相比,o3的新特點(diǎn)是能夠“調(diào)整”推理時間,模型可以根據(jù)需要設(shè)置為低、中或高計(jì)算(即思考時間)模式。計(jì)算時間越高,o3在任務(wù)上的表現(xiàn)就越好。
關(guān)于AGI的問題,OpenAI是否正在接近這一目標(biāo)成為了人們關(guān)注的焦點(diǎn)。AGI,即通用人工智能,指的是能夠執(zhí)行人類所能完成的任何任務(wù)的人工智能。OpenAI對AGI的定義是:在最具經(jīng)濟(jì)價值的工作上表現(xiàn)優(yōu)于人類的高度自主系統(tǒng)。實(shí)現(xiàn)AGI將是一個大膽的聲明,對OpenAI而言也具有合同意義。根據(jù)與微軟之間的協(xié)議條款,一旦OpenAI達(dá)到AGI水平,它將不再有義務(wù)向微軟提供其最先進(jìn)的技術(shù)。
從一項(xiàng)基準(zhǔn)來看,OpenAI正在逐漸接近AGI。在ARC-AGI基準(zhǔn)測試中,o3在高計(jì)算設(shè)置下獲得了87.5%的分?jǐn)?shù)。在最差的情況下(低計(jì)算設(shè)置),該模型的性能是o1的三倍。然而,高計(jì)算設(shè)置的成本極其高昂,每個挑戰(zhàn)的成本可能高達(dá)數(shù)千美元。ARC-AGI的聯(lián)合創(chuàng)始人Fran?ois Chollet指出,o3在一些非常簡單的任務(wù)上失敗了,這表明該模型與人類智能存在根本差異。
盡管如此,OpenAI在其他基準(zhǔn)測試中表現(xiàn)優(yōu)異。在專注于編程任務(wù)的SWE-Bench Verified基準(zhǔn)上,o3的表現(xiàn)比o1高出22.8個百分點(diǎn),并在Codeforces評分中獲得了2727分(2400分以上的評分使工程師處于99.2百分位)。o3在2024年美國數(shù)學(xué)邀請賽上得分為96.7%,在GPQA Diamond基準(zhǔn)上得分為87.7%,并在EpochAI的Frontier Math基準(zhǔn)上創(chuàng)下了新紀(jì)錄,解決了25.2%的問題,而其他模型均未超過2%。
然而,這些說法需要謹(jǐn)慎對待,因?yàn)樗鼈儊碜設(shè)penAI的內(nèi)部評估。我們需要等待外部客戶和組織的基準(zhǔn)測試來驗(yàn)證該模型在未來的表現(xiàn)。
自O(shè)penAI發(fā)布首批推理模型以來,包括谷歌在內(nèi)的競爭對手紛紛推出了大量推理模型。例如,由量化交易員資助的AI研究公司DeepSeek發(fā)布了其首款推理模型DeepSeek-R1的預(yù)覽版,而阿里巴巴的Qwen團(tuán)隊(duì)也發(fā)布了據(jù)稱是o1的第一個“公開”挑戰(zhàn)者。
推理模型的興起,首先是出于對改進(jìn)生成式人工智能新方法的追求。然而,并非所有人都認(rèn)為推理模型是最佳的發(fā)展方向。這些模型往往價格昂貴,需要大量的計(jì)算能力來運(yùn)行。盡管它們在基準(zhǔn)測試中表現(xiàn)良好,但尚不清楚推理模型是否能保持這種進(jìn)步速度。
值得注意的是,o3的發(fā)布正值OpenAI最杰出的科學(xué)家之一Alec Radford離職之際。Radford是OpenAI生成式AI模型GPT系列學(xué)術(shù)論文的主要作者,他宣布將離職從事獨(dú)立研究。