滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

智源評(píng)測(cè)百模生態(tài)，透視大模型能力新高度與變局

時(shí)間：2024-12-19 18:28:33 來(lái)源：ITBEAR編輯：快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

在2024年末的科技舞臺(tái)上，智源研究院再度引領(lǐng)了一場(chǎng)關(guān)于人工智能大模型的深度評(píng)測(cè)盛宴。此次評(píng)測(cè)不僅覆蓋了國(guó)內(nèi)外100多個(gè)開(kāi)源與商業(yè)閉源的語(yǔ)言、視覺(jué)語(yǔ)言、文生圖、文生視頻及語(yǔ)音語(yǔ)言大模型，還通過(guò)一系列綜合及專項(xiàng)評(píng)測(cè)，全面揭示了當(dāng)前大模型技術(shù)的最新進(jìn)展與實(shí)際應(yīng)用潛力。

相較于今年早些時(shí)候的評(píng)測(cè)，智源研究院此次在評(píng)測(cè)任務(wù)上進(jìn)行了顯著的擴(kuò)展與深化。新增的數(shù)據(jù)處理、高級(jí)編程及工具調(diào)用能力評(píng)估，首次將金融量化交易場(chǎng)景納入考量，并創(chuàng)新性地引入了基于模型辯論的對(duì)比評(píng)測(cè)方式，旨在更深入地剖析模型的邏輯推理、觀點(diǎn)理解及語(yǔ)言表達(dá)等核心能力。

評(píng)測(cè)結(jié)果顯示，2024年下半年，大模型的發(fā)展重心明顯轉(zhuǎn)向了綜合能力的提升與實(shí)際應(yīng)用。多模態(tài)模型異軍突起，涌現(xiàn)出眾多新廠商與新模型，而語(yǔ)言模型的發(fā)展則相對(duì)放緩。在開(kāi)源生態(tài)中，除了持續(xù)堅(jiān)定的開(kāi)源倡導(dǎo)者，還出現(xiàn)了新的開(kāi)源貢獻(xiàn)力量。

在語(yǔ)言模型方面，盡管針對(duì)一般中文場(chǎng)景的開(kāi)放式問(wèn)答或生成任務(wù)已趨于穩(wěn)定，但在復(fù)雜場(chǎng)景任務(wù)中，國(guó)內(nèi)頭部語(yǔ)言模型與國(guó)際一流水平仍存在明顯差距。主觀評(píng)測(cè)中，字節(jié)跳動(dòng)Doubao-pro-32k-preview與百度ERNIE 4.0 Turbo分列前兩位，而客觀評(píng)測(cè)則由OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest領(lǐng)跑。

視覺(jué)語(yǔ)言多模態(tài)模型方面，盡管開(kāi)源模型的架構(gòu)趨于一致，但性能表現(xiàn)卻大相徑庭。較好的開(kāi)源模型在圖文理解任務(wù)上正逐步縮小與頭部閉源模型的差距，但在長(zhǎng)尾視覺(jué)知識(shí)與文字識(shí)別以及復(fù)雜圖文數(shù)據(jù)分析方面仍有待提升。評(píng)測(cè)中，OpenAI GPT-4o-2024-11-20與字節(jié)跳動(dòng)Doubao-Pro-Vision-32k-241028表現(xiàn)突出。

文生圖多模態(tài)模型方面，頭部模型已具備中文文字生成能力，但復(fù)雜場(chǎng)景人物變形仍是普遍問(wèn)題。騰訊Hunyuan Image在評(píng)測(cè)中拔得頭籌，字節(jié)跳動(dòng)Doubao image v2.1與Ideogram 2.0緊隨其后。

文生視頻多模態(tài)模型則呈現(xiàn)出畫質(zhì)提升、動(dòng)態(tài)性增強(qiáng)、鏡頭語(yǔ)言豐富的特點(diǎn)，但動(dòng)作變形、物理規(guī)律理解不足等問(wèn)題依舊存在?？焓挚伸`1.5（高品質(zhì)）、字節(jié)跳動(dòng)即夢(mèng) P2.0 pro等模型在評(píng)測(cè)中表現(xiàn)優(yōu)異。

語(yǔ)音語(yǔ)言模型得益于文本大模型的進(jìn)步，能力提升顯著，但開(kāi)源模型中性能好、通用能力強(qiáng)的仍較少。阿里巴巴Qwen2-Audio在專項(xiàng)評(píng)測(cè)中位居榜首，香港中文大學(xué)與微軟合作的WavLLM、清華大學(xué)與字節(jié)跳動(dòng)合作的Salmon同樣表現(xiàn)不俗。

智源研究院還聯(lián)合海淀區(qū)教師進(jìn)修學(xué)校新編了K12全學(xué)段、多學(xué)科試卷，以考察大模型與人類學(xué)生的能力差異。結(jié)果顯示，盡管模型在多模態(tài)能力的帶動(dòng)下綜合得分有所提升，但仍與海淀學(xué)生平均水平存在差距，且普遍存在“文強(qiáng)理弱”的現(xiàn)象。

智源研究院此次評(píng)測(cè)還探索了基于實(shí)際應(yīng)用場(chǎng)景的全新方法，通過(guò)評(píng)測(cè)模型的量化代碼實(shí)現(xiàn)能力，探索其在金融量化交易領(lǐng)域的潛在應(yīng)用。評(píng)測(cè)發(fā)現(xiàn)，頭部模型已接近初級(jí)量化交易員的水平，深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06等模型在評(píng)測(cè)中表現(xiàn)突出。

作為評(píng)測(cè)體系的重要組成部分，智源研究院的Flageval平臺(tái)經(jīng)過(guò)數(shù)次迭代，已覆蓋全球800多個(gè)開(kāi)閉源模型，包含20多種任務(wù)、90多個(gè)評(píng)測(cè)數(shù)據(jù)集及超200萬(wàn)條評(píng)測(cè)題目。在評(píng)測(cè)方法與工具上，智源研究院聯(lián)合多所高校和機(jī)構(gòu)，探索了基于AI的輔助評(píng)測(cè)模型FlagJudge及靈活全面的多模態(tài)評(píng)測(cè)框架FlagevalMM，為評(píng)測(cè)提供了有力支持。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

更多>同類資訊

高德地圖紅綠燈AI領(lǐng)航：從讀秒到智能引導(dǎo)，駕車出行新體驗(yàn)！

01-12

谷歌加速AI布局，AI Studio團(tuán)隊(duì)并入DeepMind力促項(xiàng)目提效

01-11

京東健康發(fā)布“AI京醫(yī)”大模型，分診準(zhǔn)確率高達(dá)99.5%引領(lǐng)醫(yī)療智能化

01-11

微軟DirectX新動(dòng)向：協(xié)作向量助力神經(jīng)渲染技術(shù)跨平臺(tái)發(fā)展

01-11

京東健康首推“AI京醫(yī)”體系，數(shù)字醫(yī)生24小時(shí)在線輔助診療

01-11

ChatGPT被用于開(kāi)發(fā)自動(dòng)射擊炮塔，OpenAI緊急叫停并封號(hào)

01-11

抖音重拳出擊！西藏地震后已清理2萬(wàn)余條AI虛假災(zāi)害視頻

01-11

谷歌、OpenAI等巨頭搶購(gòu)創(chuàng)作者未公開(kāi)視頻，高價(jià)訓(xùn)練AI模型？

01-11

Meta陷版權(quán)風(fēng)波，扎克伯格被曝批AI團(tuán)隊(duì)用盜版數(shù)據(jù)訓(xùn)練模型？

01-11

好大夫在線官宣：正式邁入螞蟻集團(tuán)新時(shí)代！

三言科技1月11日消息，今日，在“2025好大夫峰會(huì)”上，好大夫在線創(chuàng)始人王航宣布好大夫正式加入螞蟻集團(tuán)。 “我要正式向大家報(bào)告一個(gè)消息，好大夫在線已經(jīng)迎來(lái)全新的發(fā)展期，正式加入螞蟻集團(tuán)，這是一場(chǎng)雙向奔赴，我…

01-11

螞蟻集團(tuán)與好大夫在線攜手，醫(yī)療服務(wù)AI化新篇章開(kāi)啟！

01-11

扎克伯格炮轟蘋果：靠舊發(fā)明吃老本，創(chuàng)新乏力？

01-11

微軟rStar-Math技術(shù)助力，小語(yǔ)言模型數(shù)學(xué)推理能力大飛躍！

01-11

抖音重拳出擊！AI生成災(zāi)害場(chǎng)景，23652條不實(shí)信息被嚴(yán)處

01-11

周鴻祎：放棄大模型執(zhí)念，專注應(yīng)用之路同樣偉大

01-11

點(diǎn)擊查看更多 +

全站最新

手機(jī)截圖小技巧：多種方法任你選，隱私安全需注意！

手機(jī)卡頓不用愁，這些妙招讓你手機(jī)流暢如新！

輕松掌握！手機(jī)電量顯示設(shè)置全攻略

比亞迪e7純電新車上演實(shí)力秀，簡(jiǎn)約設(shè)計(jì)與強(qiáng)勁動(dòng)力能否征服市場(chǎng)？

手機(jī)電量一目了然，設(shè)置教程來(lái)啦！輕松掌握電量情況

手機(jī)卡頓不用愁，這些妙招讓你手機(jī)重獲新生！

熱門內(nèi)容

本欄最新

高德地圖紅綠燈AI領(lǐng)航：從讀秒到智能引導(dǎo)，駕車出行新體驗(yàn)！

京東健康發(fā)布“AI京醫(yī)”大模型，分診準(zhǔn)確率高達(dá)99.5%引領(lǐng)醫(yī)療智能化

ChatGPT被用于開(kāi)發(fā)自動(dòng)射擊炮塔，OpenAI緊急叫停并封號(hào)

抖音重拳出擊！西藏地震后已清理2萬(wàn)余條AI虛假災(zāi)害視頻

螞蟻集團(tuán)與好大夫在線攜手，醫(yī)療服務(wù)AI化新篇章開(kāi)啟！

微軟rStar-Math技術(shù)助力，小語(yǔ)言模型數(shù)學(xué)推理能力大飛躍！

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) · 齊魯軟件園魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.