在科技界的萬眾矚目下,OpenAI于近日震撼發(fā)布了其最新成果——o3模型,這一發(fā)布不僅標(biāo)志著人工智能領(lǐng)域的又一次飛躍,也再次鞏固了OpenAI在全球AI競賽中的領(lǐng)先地位。
發(fā)布活動選在了一個充滿節(jié)日氛圍的凌晨時分,OpenAI通過一場持續(xù)12天的直播活動,逐步揭開o3的神秘面紗。在這場直播的壓軸環(huán)節(jié),OpenAI的“奧特曼”團(tuán)隊帶著o3閃亮登場,向全球觀眾展示了這款模型的強(qiáng)大能力。
o3的能力無疑是對現(xiàn)有所有模型的降維打擊。在各種評測集中,o3的表現(xiàn)都令人咋舌。在軟件工程考試(SWE-Bench Verified)中,o3取得了71.7%的優(yōu)異成績,超越了其前身o1。而在全球著名的編碼競賽平臺Codeforces上,o3的得分高達(dá)2727分,相當(dāng)于榜單上的第175名,這一成績已經(jīng)超過了99.99%的人類選手。
不僅如此,o3在數(shù)學(xué)和科學(xué)領(lǐng)域也展現(xiàn)出了驚人的實力。在AIEM 2024數(shù)學(xué)競賽中,o3接近滿分,這是AI首次達(dá)到如此高的水平。在博士級科學(xué)考試GPQA Diamond中,o3同樣取得了顯著的進(jìn)步。在FrontierMath這一由60多位頂尖數(shù)學(xué)家開發(fā)的數(shù)學(xué)基準(zhǔn)測試中,o3的成功率達(dá)到了25.2%,遠(yuǎn)超此前GPT-4和Gemini 1.5 Pro等模型的表現(xiàn)。
最引人注目的,莫過于o3在ARC-AGI基準(zhǔn)測試中的表現(xiàn)。ARC-AGI旨在通過一系列抽象和推理任務(wù)來測試AI系統(tǒng)的能力,過去幾代模型的評分一直很低,但o3卻取得了87.5%的驚人成績,這一成績甚至超過了人類的閾值分?jǐn)?shù)85%。
o3的發(fā)布不僅讓科技界為之震驚,也讓廣大網(wǎng)友興奮不已。在各大社交媒體平臺上,關(guān)于o3的討論熱度持續(xù)攀升,網(wǎng)友們紛紛表示對OpenAI的創(chuàng)新能力表示贊嘆。
然而,盡管o3強(qiáng)大無比,但目前仍屬于“期貨”狀態(tài),OpenAI僅對紅隊開放。不過,OpenAI已經(jīng)基于o3訓(xùn)練了三個小尺寸的模型,其中o3-mimi預(yù)計將在1月底對外開放,但很可能是pro會員專屬。
回顧這12天的直播活動,雖然有些日子略顯平淡,但o3的發(fā)布無疑為整場活動畫上了圓滿的句號。這場馬拉松式的直播不僅讓觀眾見證了o3的誕生和成長,也再次證明了OpenAI在人工智能領(lǐng)域的領(lǐng)先地位。