ITBear旗下自媒體矩陣:

低成本高效能!斯坦福團(tuán)隊(duì)打造媲美OpenAI推理模型s1

   時(shí)間:2025-02-06 10:03:33 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

近期,人工智能領(lǐng)域迎來(lái)了一項(xiàng)引人注目的新突破。據(jù)一份最新發(fā)布的研究報(bào)告顯示,斯坦福大學(xué)與華盛頓大學(xué)的科研團(tuán)隊(duì),僅憑不到50美元的云計(jì)算成本(當(dāng)前匯率下約364元人民幣),就成功打造了一款具備卓越“推理”能力的人工智能模型——s1。

這款s1模型在數(shù)學(xué)與編程能力測(cè)試中,展現(xiàn)出了與OpenAI的o1、DeepSeek的r1等業(yè)界頂尖推理模型相媲美的水平。更令人矚目的是,s1模型及其訓(xùn)練數(shù)據(jù)和代碼已在GitHub平臺(tái)上全面開(kāi)源,供全球開(kāi)發(fā)者研究和使用。

s1團(tuán)隊(duì)揭秘,他們采用了“蒸餾”技術(shù)來(lái)創(chuàng)建這款模型。該技術(shù)通過(guò)訓(xùn)練模型來(lái)學(xué)習(xí)另一個(gè)AI模型的答案,從而提煉出其核心推理能力。據(jù)悉,s1模型是從谷歌的Gemini 2.0 Flash Thinking Experimental模型中蒸餾而來(lái)。而就在上個(gè)月,加州大學(xué)伯克利分校的研究人員也運(yùn)用相同的蒸餾方法,以約450美元的成本開(kāi)發(fā)了一款A(yù)I推理模型。

隨著s1等類似模型的出現(xiàn),人工智能領(lǐng)域的商品化問(wèn)題日益凸顯。當(dāng)有人能夠以極低的成本復(fù)制出價(jià)值數(shù)百萬(wàn)美元的模型時(shí),大型科技公司的競(jìng)爭(zhēng)優(yōu)勢(shì)何在?這一問(wèn)題引發(fā)了業(yè)界的廣泛關(guān)注和討論。

面對(duì)這一挑戰(zhàn),大型AI實(shí)驗(yàn)室紛紛表達(dá)不滿。例如,OpenAI就曾指責(zé)DeepSeek不當(dāng)獲取其API數(shù)據(jù)用于模型蒸餾。而s1團(tuán)隊(duì)則致力于探索實(shí)現(xiàn)強(qiáng)大推理性能和“測(cè)試時(shí)擴(kuò)展”的最簡(jiǎn)潔途徑,這些正是OpenAI的o1模型所取得的突破。

s1的論文指出,通過(guò)監(jiān)督微調(diào)(SFT)方法,可以使用較小的數(shù)據(jù)集來(lái)蒸餾推理模型。在SFT過(guò)程中,AI模型被明確指示在數(shù)據(jù)集中模仿特定行為。相較于DeepSeek用于訓(xùn)練R1模型的大規(guī)模強(qiáng)化學(xué)習(xí)方法,SFT更具成本效益。

值得注意的是,谷歌通過(guò)其Google AI Studio平臺(tái)免費(fèi)提供Gemini 2.0 Flash Thinking Experimental模型的訪問(wèn)權(quán)限,但設(shè)有每日使用限制。然而,其使用條款明確禁止對(duì)模型進(jìn)行逆向工程,以開(kāi)發(fā)與谷歌自身AI產(chǎn)品競(jìng)爭(zhēng)的服務(wù)。盡管如此,s1團(tuán)隊(duì)還是巧妙地利用了這一資源。

s1模型基于阿里巴巴旗下中國(guó)人工智能實(shí)驗(yàn)室Qwen提供的一款小型、現(xiàn)成的免費(fèi)AI模型。為了訓(xùn)練s1,研究人員精心策劃了一個(gè)包含1000個(gè)問(wèn)題及其答案的數(shù)據(jù)集,并收集了谷歌Gemini 2.0 Flash Thinking Experimental對(duì)每個(gè)答案背后“思考”過(guò)程的輸出。

在訓(xùn)練過(guò)程中,研究人員使用了16個(gè)Nvidia H100 GPU,耗時(shí)不到30分鐘,便成功訓(xùn)練出了s1模型。據(jù)參與該項(xiàng)目的斯坦福大學(xué)研究員Niklas Muennighoff透露,目前租用這些計(jì)算資源的成本約為20美元。這一低廉的成本再次凸顯了s1模型的性價(jià)比優(yōu)勢(shì)。

為了進(jìn)一步提升s1的性能,研究人員還采用了一個(gè)巧妙的技巧:讓s1在推理過(guò)程中“等待”。論文顯示,在s1的推理步驟中添加“等待”一詞,有助于模型獲得更為準(zhǔn)確的答案。這一發(fā)現(xiàn)為AI模型的優(yōu)化提供了新的思路。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version