ITBear旗下自媒體矩陣:

李飛飛團隊50美元訓練AI模型真相:基于通義千問監(jiān)督微調(diào)

   時間:2025-02-07 18:08:47 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

近日,AI領(lǐng)域再次迎來了一場風波,這次的主角是一個名為s1的人工智能推理模型。據(jù)媒體報道,斯坦福大學和華盛頓大學的研究人員,包括知名學者李飛飛,以驚人的低成本——不到50美元的云計算費用,成功訓練出了這一模型。該模型在數(shù)學和編碼能力測試中,展現(xiàn)出了與OpenAI的O1和DeepSeek的R1等尖端推理模型相匹敵的實力。

然而,這一消息在AI圈內(nèi)引發(fā)了廣泛的討論和質(zhì)疑。有觀點認為,s1模型的成功并非完全從零開始,而是建立在其他強大模型的基礎(chǔ)之上。為了深入了解s1模型的真相,我們查閱了相關(guān)的研究論文。

論文摘要中明確提到,s1模型的訓練采用了測試時間縮放技術(shù),這是一種利用額外測試時計算資源來提高性能的新方法。研究人員通過精心整理了一個包含1000個問題的小數(shù)據(jù)集s1K,并對一個現(xiàn)成的預訓練模型進行了有監(jiān)督微調(diào)。這個預訓練模型就是阿里云的通義千問Qwen2.5-32B-Instruct。研究人員還開發(fā)了一種名為“預算強制”的方法,通過控制測試時的計算量來優(yōu)化模型性能。

具體來說,s1K數(shù)據(jù)集的1000個問題都配有從谷歌的Gemini Thinking Experimental提煉出的推理過程和答案。研究人員在這個小數(shù)據(jù)集上對Qwen2.5-32B-Instruct進行了有監(jiān)督微調(diào),并在16個H100 GPU上僅需訓練26分鐘。訓練完成后,他們使用“預算強制”方法來控制模型在測試時花費的計算量,從而提高了模型的推理性能。

論文還提到,s1模型在競賽數(shù)學問題上的表現(xiàn)甚至超過了OpenAI的o1-preview模型,準確率提高了27%。這一成果無疑展示了s1模型在推理能力上的強大實力。然而,值得注意的是,s1模型的成功并非完全依賴于其自身的創(chuàng)新,而是站在了其他強大模型的肩膀上。

關(guān)于“不到50美元”的成本,論文中并未直接提及。但據(jù)財聯(lián)社報道,這一費用僅為云計算服務(wù)費用,不包括服務(wù)器、顯卡等硬件投入費用。這或許解釋了為何能夠以如此低的成本訓練出如此強大的模型。

對于s1模型的這一成就,DeepSeek團隊也給出了自己的看法。他們認為,s1模型的成功可能由多種技術(shù)和管理因素驅(qū)動,包括模型架構(gòu)創(chuàng)新、訓練策略突破以及硬件利用革新等。同時,他們也提到了蒸餾監(jiān)督微調(diào)作為一種有效的模型訓練方法,在模型壓縮、遷移學習和提升模型性能方面具有顯著優(yōu)勢。

事實上,蒸餾監(jiān)督微調(diào)在AI領(lǐng)域并不罕見。許多主流大模型都采用了這種方法來優(yōu)化性能。例如,DeepSeek-R1模型就使用了強化學習和大規(guī)模數(shù)據(jù)蒸餾技術(shù)。這也證明了蒸餾在模型訓練中的重要性。

阿里云也證實了李飛飛團隊以阿里通義千問Qwen2.5-32B-Instruct開源模型為底座,訓練出了新模型s1-32B。這一成果不僅展示了s1模型在推理能力上的強大,也為未來的研究提供了一定的方向。

然而,盡管s1模型取得了顯著的成就,但我們也需要清醒地認識到,蒸餾畢竟是建立在強大開源模型的基礎(chǔ)之上,并非小模型自身能力的體現(xiàn)。因此,“50美元復刻DeepSeek”這樣的標題,或許有些過于夸張了。

盡管如此,s1模型的成功仍然為AI領(lǐng)域帶來了新的啟示。它告訴我們,通過合理利用現(xiàn)有資源和技術(shù),我們可以在低成本的情況下實現(xiàn)高性能的AI模型。這對于推動AI技術(shù)的普及和應(yīng)用具有重要意義。

同時,s1模型的成功也引發(fā)了人們對于AI未來發(fā)展的思考。隨著技術(shù)的不斷進步和創(chuàng)新,或許會有更多基于算法創(chuàng)新的低成本模型出現(xiàn)。這將為AI領(lǐng)域帶來更多的可能性和機遇。

最后,我們也期待未來能夠有更多關(guān)于s1模型和其他AI技術(shù)的深入研究和實踐應(yīng)用,為人類社會的發(fā)展貢獻更多的智慧和力量。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version