近期,加州大學(xué)伯克利分校 Sky Computing 實驗室的研究團隊 NovaSky 推出了一個名為 Sky-T1-32B-Preview 的推理模型,這一創(chuàng)新成果在AI界引起了廣泛關(guān)注。據(jù)悉,該模型在多項關(guān)鍵基準(zhǔn)測試中的表現(xiàn)與 OpenAI 早期版本的 o1 模型不相上下,但其開源的特性使其更具吸引力。
引人注目的是,Sky-T1-32B-Preview 是首個真正意義上的開源推理模型,其訓(xùn)練數(shù)據(jù)集和代碼均向公眾開放。這意味著,任何有興趣的用戶都可以從零開始復(fù)現(xiàn)這一模型,無需依賴特定的商業(yè)平臺或昂貴的硬件資源。這一舉措無疑為AI領(lǐng)域的研究和發(fā)展注入了新的活力。
NovaSky 團隊在官方博客中透露,Sky-T1-32B-Preview 的訓(xùn)練成本僅為約450美元(當(dāng)前約合3306元人民幣),遠(yuǎn)低于同類模型的數(shù)百萬美元訓(xùn)練成本。這一突破性的降低得益于合成訓(xùn)練數(shù)據(jù)的廣泛應(yīng)用。合成數(shù)據(jù)是由其他模型生成的數(shù)據(jù),它不僅能夠顯著降低訓(xùn)練成本,還能提高模型的訓(xùn)練效率和性能。例如,AI 公司 Writer 最近發(fā)布的 Palmyra X 004 模型就幾乎完全依賴合成數(shù)據(jù)進行訓(xùn)練,其開發(fā)成本僅為70萬美元。
與傳統(tǒng)的AI模型相比,推理模型具備自我事實核查能力,這一特性使其能夠更有效地避免一些常見的錯誤。雖然推理模型在解決問題時可能需要花費更多的時間,通常在幾秒到幾分鐘之間,但在物理、科學(xué)和數(shù)學(xué)等領(lǐng)域,其更高的可靠性使其更具應(yīng)用價值。
據(jù) NovaSky 團隊介紹,Sky-T1 的訓(xùn)練數(shù)據(jù)由阿里巴巴的 QwQ-32B-Preview 推理模型生成,并經(jīng)過了精心的篩選和重構(gòu)。他們利用 OpenAI 的 GPT-4o-mini 對數(shù)據(jù)進行處理,使其更易于模型訓(xùn)練。在僅使用8臺 Nvidia H100 GPU的情況下,訓(xùn)練這款擁有320億參數(shù)的模型僅耗時約19小時。參數(shù)數(shù)量是衡量模型解決問題能力的一個重要指標(biāo),因此 Sky-T1 的高性能表現(xiàn)并不令人意外。
在性能方面,Sky-T1 在 MATH500(一組“競賽級”數(shù)學(xué)挑戰(zhàn))上的表現(xiàn)優(yōu)于 o1 的早期預(yù)覽版本,同時在 LiveCodeBench 的編程評估中也展現(xiàn)出了更佳的性能。然而,在 GPQA-Diamond 測試中(包含物理學(xué)、生物學(xué)和化學(xué)領(lǐng)域的研究生水平問題),Sky-T1 的表現(xiàn)略遜于 o1 預(yù)覽版。盡管如此,NovaSky 團隊表示,他們將繼續(xù)優(yōu)化 Sky-T1 的性能,并計劃推出更多版本的開源推理模型。