近日,月之暗面科技公司正式推出了其最新研發(fā)的視覺(jué)思考模型k1,這一創(chuàng)新成果基于先進(jìn)的強(qiáng)化學(xué)習(xí)技術(shù),旨在實(shí)現(xiàn)端到端的圖像理解和思維鏈技術(shù)的原生支持,并將應(yīng)用范圍拓展至數(shù)學(xué)以外的多個(gè)基礎(chǔ)科學(xué)領(lǐng)域。
據(jù)月之暗面官方透露,k1模型在基礎(chǔ)科學(xué)學(xué)科的基準(zhǔn)測(cè)試中表現(xiàn)出色,其性能已經(jīng)超越了OpenAI的o1、GPT-4o以及Claude 3.5 Sonnet等業(yè)界知名模型。這一成就標(biāo)志著k1模型在理解和解答科學(xué)問(wèn)題上的能力邁上了一個(gè)新臺(tái)階。
k1視覺(jué)思考模型一經(jīng)發(fā)布即上線,用戶可以在最新版“Kimi智能助手”的Android和iPhone手機(jī)App以及網(wǎng)頁(yè)版kimi.com上體驗(yàn)到這一新功能。用戶只需在App或網(wǎng)頁(yè)版中找到“Kimi視覺(jué)思考版”,即可通過(guò)拍照或上傳圖片進(jìn)行體驗(yàn)。該模型不僅能夠給出答題結(jié)果,還能完整展示推理思維鏈CoT,讓用戶清晰看到模型思索答案的全過(guò)程。
從模型訓(xùn)練的角度來(lái)看,k1視覺(jué)思考模型的訓(xùn)練過(guò)程經(jīng)過(guò)了兩個(gè)階段的精心打磨。首先,通過(guò)預(yù)訓(xùn)練得到基礎(chǔ)模型,然后在基礎(chǔ)模型上進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練。在基礎(chǔ)模型階段,k1特別優(yōu)化了字符識(shí)別能力,在OCRBench上取得了903分的優(yōu)異成績(jī)。同時(shí),在MathVista-testmini、MMMU-val和DocVQA等基準(zhǔn)測(cè)試集上,k1也分別獲得了69.1、66.7和96.9的高分。
月之暗面在k1的強(qiáng)化學(xué)習(xí)后訓(xùn)練階段也進(jìn)行了諸多優(yōu)化,特別是在數(shù)據(jù)質(zhì)量和學(xué)習(xí)效率方面取得了顯著進(jìn)步。同時(shí),公司在強(qiáng)化學(xué)習(xí)的規(guī)?;蠈?shí)現(xiàn)了新的突破,為k1模型的高性能表現(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ)。
在科學(xué)模型能力基準(zhǔn)測(cè)試方案方面,月之暗面也面臨著行業(yè)內(nèi)的重要挑戰(zhàn)。由于市場(chǎng)上缺乏針對(duì)基礎(chǔ)科學(xué)學(xué)科的圖形測(cè)試集,Kimi模型研發(fā)團(tuán)隊(duì)自主構(gòu)建了一個(gè)標(biāo)準(zhǔn)化的測(cè)試集Science Vista。該測(cè)試集涵蓋了不同難度的數(shù)理化圖片題目,且與實(shí)際用戶需求較為匹配。月之暗面表示,該測(cè)試集將開(kāi)放給全行業(yè)使用,以推動(dòng)基礎(chǔ)科學(xué)領(lǐng)域大模型技術(shù)的發(fā)展。
然而,在內(nèi)部測(cè)試中,月之暗面也發(fā)現(xiàn)了k1視覺(jué)思考模型存在的一些局限性。例如,在分布外問(wèn)題的泛化能力、復(fù)雜問(wèn)題的成功率、噪聲場(chǎng)景的準(zhǔn)確率以及多輪問(wèn)答效果等方面,k1仍有較大的提升空間。與OpenAI的o1系列模型相比,k1在某些場(chǎng)景和泛化能力上仍存在一定差距。月之暗面表示,將繼續(xù)努力優(yōu)化模型性能,為用戶提供更加高效、準(zhǔn)確的視覺(jué)思考服務(wù)。