在2024年末的科技舞臺(tái)上,智源研究院再度引領(lǐng)了一場(chǎng)關(guān)于人工智能大模型的深度評(píng)測(cè)盛宴。此次評(píng)測(cè)不僅覆蓋了國(guó)內(nèi)外100多個(gè)開(kāi)源與商業(yè)閉源的語(yǔ)言、視覺(jué)語(yǔ)言、文生圖、文生視頻及語(yǔ)音語(yǔ)言大模型,還通過(guò)一系列綜合及專項(xiàng)評(píng)測(cè),全面揭示了當(dāng)前大模型技術(shù)的最新進(jìn)展與實(shí)際應(yīng)用潛力。
相較于今年早些時(shí)候的評(píng)測(cè),智源研究院此次在評(píng)測(cè)任務(wù)上進(jìn)行了顯著的擴(kuò)展與深化。新增的數(shù)據(jù)處理、高級(jí)編程及工具調(diào)用能力評(píng)估,首次將金融量化交易場(chǎng)景納入考量,并創(chuàng)新性地引入了基于模型辯論的對(duì)比評(píng)測(cè)方式,旨在更深入地剖析模型的邏輯推理、觀點(diǎn)理解及語(yǔ)言表達(dá)等核心能力。
評(píng)測(cè)結(jié)果顯示,2024年下半年,大模型的發(fā)展重心明顯轉(zhuǎn)向了綜合能力的提升與實(shí)際應(yīng)用。多模態(tài)模型異軍突起,涌現(xiàn)出眾多新廠商與新模型,而語(yǔ)言模型的發(fā)展則相對(duì)放緩。在開(kāi)源生態(tài)中,除了持續(xù)堅(jiān)定的開(kāi)源倡導(dǎo)者,還出現(xiàn)了新的開(kāi)源貢獻(xiàn)力量。
在語(yǔ)言模型方面,盡管針對(duì)一般中文場(chǎng)景的開(kāi)放式問(wèn)答或生成任務(wù)已趨于穩(wěn)定,但在復(fù)雜場(chǎng)景任務(wù)中,國(guó)內(nèi)頭部語(yǔ)言模型與國(guó)際一流水平仍存在明顯差距。主觀評(píng)測(cè)中,字節(jié)跳動(dòng)Doubao-pro-32k-preview與百度ERNIE 4.0 Turbo分列前兩位,而客觀評(píng)測(cè)則由OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest領(lǐng)跑。
視覺(jué)語(yǔ)言多模態(tài)模型方面,盡管開(kāi)源模型的架構(gòu)趨于一致,但性能表現(xiàn)卻大相徑庭。較好的開(kāi)源模型在圖文理解任務(wù)上正逐步縮小與頭部閉源模型的差距,但在長(zhǎng)尾視覺(jué)知識(shí)與文字識(shí)別以及復(fù)雜圖文數(shù)據(jù)分析方面仍有待提升。評(píng)測(cè)中,OpenAI GPT-4o-2024-11-20與字節(jié)跳動(dòng)Doubao-Pro-Vision-32k-241028表現(xiàn)突出。
文生圖多模態(tài)模型方面,頭部模型已具備中文文字生成能力,但復(fù)雜場(chǎng)景人物變形仍是普遍問(wèn)題。騰訊Hunyuan Image在評(píng)測(cè)中拔得頭籌,字節(jié)跳動(dòng)Doubao image v2.1與Ideogram 2.0緊隨其后。
文生視頻多模態(tài)模型則呈現(xiàn)出畫質(zhì)提升、動(dòng)態(tài)性增強(qiáng)、鏡頭語(yǔ)言豐富的特點(diǎn),但動(dòng)作變形、物理規(guī)律理解不足等問(wèn)題依舊存在??焓挚伸`1.5(高品質(zhì))、字節(jié)跳動(dòng)即夢(mèng) P2.0 pro等模型在評(píng)測(cè)中表現(xiàn)優(yōu)異。
語(yǔ)音語(yǔ)言模型得益于文本大模型的進(jìn)步,能力提升顯著,但開(kāi)源模型中性能好、通用能力強(qiáng)的仍較少。阿里巴巴Qwen2-Audio在專項(xiàng)評(píng)測(cè)中位居榜首,香港中文大學(xué)與微軟合作的WavLLM、清華大學(xué)與字節(jié)跳動(dòng)合作的Salmon同樣表現(xiàn)不俗。
智源研究院還聯(lián)合海淀區(qū)教師進(jìn)修學(xué)校新編了K12全學(xué)段、多學(xué)科試卷,以考察大模型與人類學(xué)生的能力差異。結(jié)果顯示,盡管模型在多模態(tài)能力的帶動(dòng)下綜合得分有所提升,但仍與海淀學(xué)生平均水平存在差距,且普遍存在“文強(qiáng)理弱”的現(xiàn)象。
智源研究院此次評(píng)測(cè)還探索了基于實(shí)際應(yīng)用場(chǎng)景的全新方法,通過(guò)評(píng)測(cè)模型的量化代碼實(shí)現(xiàn)能力,探索其在金融量化交易領(lǐng)域的潛在應(yīng)用。評(píng)測(cè)發(fā)現(xiàn),頭部模型已接近初級(jí)量化交易員的水平,深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06等模型在評(píng)測(cè)中表現(xiàn)突出。
作為評(píng)測(cè)體系的重要組成部分,智源研究院的Flageval平臺(tái)經(jīng)過(guò)數(shù)次迭代,已覆蓋全球800多個(gè)開(kāi)閉源模型,包含20多種任務(wù)、90多個(gè)評(píng)測(cè)數(shù)據(jù)集及超200萬(wàn)條評(píng)測(cè)題目。在評(píng)測(cè)方法與工具上,智源研究院聯(lián)合多所高校和機(jī)構(gòu),探索了基于AI的輔助評(píng)測(cè)模型FlagJudge及靈活全面的多模態(tài)評(píng)測(cè)框架FlagevalMM,為評(píng)測(cè)提供了有力支持。