ITBear旗下自媒體矩陣:

Kimi視覺思考模型k1問世,數(shù)理化能力領(lǐng)先OpenAI等全球標(biāo)桿

   時間:2024-12-16 15:23:52 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

近日,國產(chǎn)大模型月之暗面推出了其最新的視覺思考模型k1,這一創(chuàng)新成果基于強化學(xué)習(xí)技術(shù),實現(xiàn)了端到端的圖像理解和思維鏈技術(shù)的原生支持,并將應(yīng)用范圍拓展至數(shù)學(xué)以外的多個基礎(chǔ)科學(xué)領(lǐng)域。

k1模型已全面上線于月之暗面智能助手的Android、iPhone應(yīng)用以及官方網(wǎng)站kimi.com。用戶只需在最新版本的手機應(yīng)用或網(wǎng)頁端Kimi+頁面中找到“Kimi視覺思考版”,即可通過拍照或上傳圖片的方式,體驗這一前沿技術(shù)。

據(jù)透露,在針對數(shù)學(xué)、物理、化學(xué)等基礎(chǔ)科學(xué)學(xué)科的基礎(chǔ)能力測試中,k1模型的表現(xiàn)超越了全球知名的OpenAI o1、GPT-4o以及Claude 3.5 Sonnet等模型,展現(xiàn)了其強大的實力。

月之暗面官方表示,k1模型真正實現(xiàn)了端到端的圖像理解和思考能力,用戶輸入的圖像信息可以直接被模型處理并思考得出答案,無需依賴外部的OCR技術(shù)或額外的視覺模型進行信息預(yù)處理。這一特性使得k1模型在圖像理解和處理方面更加高效和準(zhǔn)確。

從模型訓(xùn)練的角度來看,k1的訓(xùn)練過程經(jīng)歷了兩個階段:首先通過預(yù)訓(xùn)練獲得基礎(chǔ)模型,然后在基礎(chǔ)模型的基礎(chǔ)上進行強化學(xué)習(xí)后訓(xùn)練。在預(yù)訓(xùn)練階段,k1模型重點優(yōu)化了字符識別能力,在OCRBench上取得了903分的當(dāng)前最優(yōu)成績,并在多個基準(zhǔn)測試集上表現(xiàn)出色。

在強化學(xué)習(xí)后訓(xùn)練階段,k1模型在數(shù)據(jù)質(zhì)量和學(xué)習(xí)效率方面進行了進一步優(yōu)化,并在強化學(xué)習(xí)的規(guī)?;先〉昧诵碌耐黄啤_@是k1視覺推理模型在基準(zhǔn)測試中取得行業(yè)領(lǐng)先成績的最關(guān)鍵因素。然而,月之暗面也坦誠地表示,在內(nèi)部測試中,他們發(fā)現(xiàn)k1視覺思考模型在某些方面仍存在局限性,如分布外泛化能力、復(fù)雜問題處理成功率、噪聲場景準(zhǔn)確率以及多輪問答效果等,都有待進一步提升。

盡管k1模型在某些場景和泛化能力上與OpenAI的o1系列模型相比仍有差距,但其作為國產(chǎn)大模型的一次重要突破,無疑為圖像理解和思考技術(shù)的發(fā)展注入了新的活力。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version