滾動資訊

當(dāng)前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

阿里通義千問Qwen CodeElo測試：o1-mini編程力超九成人類程序員

時間：2025-01-04 14:04:57 來源：ITBEAR編輯：快訊團(tuán)隊 發(fā)表評論無障礙通道

近日，阿里巴巴旗下的通義千問Qwen團(tuán)隊推出了一個名為CodeElo的基準(zhǔn)測試，該測試旨在通過Elo評級系統(tǒng)，對比大語言模型（LLM）與人類程序員的編程能力。

在AI應(yīng)用場景中，大語言模型的一個關(guān)鍵應(yīng)用是代碼生成與補(bǔ)全。然而，在評估LLM編程能力的真實性方面，業(yè)界面臨著諸多挑戰(zhàn)。現(xiàn)有的基準(zhǔn)測試，如LiveCodeBench和USACO，都存在明顯的局限性，如缺乏健壯的私有測試用例、不支持專門的判斷系統(tǒng)，以及執(zhí)行環(huán)境不一致等問題。

CodeElo基準(zhǔn)測試的核心優(yōu)勢在于其全面性、穩(wěn)健性和標(biāo)準(zhǔn)化。在題目選擇上，CodeElo涵蓋了廣泛的比賽分區(qū)、難度級別和算法標(biāo)簽，為LLM提供了全面的評估。在評估方法上，CodeElo利用CodeForces平臺的特殊評估機(jī)制，確保了對代碼準(zhǔn)確性的判斷，避免了誤報等問題，并支持需要特殊評判機(jī)制的題目。在評級計算上，CodeElo采用Elo評級系統(tǒng)，根據(jù)問題的難度和解決方案的正確性對LLM進(jìn)行評分，并對錯誤進(jìn)行懲罰，從而激勵高質(zhì)量的解決方案。

在對30個開源LLM和3個專有LLM進(jìn)行測試后，結(jié)果顯示OpenAI的o1-mini模型表現(xiàn)最為出色，其Elo評分達(dá)到了1578，超過了90%的人類參與者。在開源模型中，QwQ-32B-Preview以1261分的成績位居榜首。然而，這些模型在解決簡單問題時仍然表現(xiàn)出一定的困難，通常排名在人類參與者的后20%左右。分析發(fā)現(xiàn)，這些模型在數(shù)學(xué)和實現(xiàn)等類別上表現(xiàn)出色，但在動態(tài)規(guī)劃和樹形算法方面存在明顯的不足。

測試還發(fā)現(xiàn)，當(dāng)使用C++進(jìn)行編碼時，LLM的表現(xiàn)更為出色，這與競技程序員的偏好一致。這些結(jié)果不僅揭示了LLM在編程能力方面的優(yōu)勢，也指出了其需要改進(jìn)的領(lǐng)域。通過CodeElo基準(zhǔn)測試，我們可以更加清晰地了解LLM在編程競賽中的表現(xiàn)，并為未來的研究和開發(fā)提供有益的參考。

隨著技術(shù)的不斷發(fā)展，LLM在編程領(lǐng)域的應(yīng)用將會越來越廣泛。CodeElo基準(zhǔn)測試的推出，為評估LLM的編程能力提供了一個新的視角和工具。未來，我們可以期待更多類似的基準(zhǔn)測試出現(xiàn)，以推動LLM在編程領(lǐng)域的不斷進(jìn)步和發(fā)展。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

硅芯片專家Rehan Sheikh跳槽谷歌，將為Google Cloud帶來何種變革？

01-06

雄安新區(qū)將迎來國內(nèi)首個商業(yè)空間飛行器總裝生產(chǎn)線

01-06

羅博特科資產(chǎn)重組遇阻，深交所暫緩審議其并購計劃

01-06

新年買iPhone 16系列就來京東 1月6日晚8點多重補(bǔ)貼至高2500元

臨近過年，Apple產(chǎn)品也開啟了年末促銷優(yōu)惠，吸引了不少消費者前來選購。京東年貨節(jié)也再次加碼優(yōu)惠力度，帶來至高1000元的驚喜券、限量可搶的1100元以舊換新券，還可再疊加至高400元的杭州消費券，補(bǔ)上加補(bǔ)至高優(yōu)惠2500元還送12期免息。感興趣的朋友只需打開京東APP，搜

01-06

萬物云新年首筆收并購，2.27億拿下中洲物業(yè)，劍指蝶城戰(zhàn)略

01-06

滬深交易所齊發(fā)聲：深化A股對外開放，外資機(jī)構(gòu)有何高見？

01-06

江蘇捷科云：可視化平臺助力制造企業(yè)智能化管理

江蘇捷科云信息科技有限公司(以下簡稱“捷科”)是一家專注于云平臺、云儲存、云管理等產(chǎn)品領(lǐng)域的創(chuàng)新型企業(yè)，集研發(fā)、生產(chǎn)和銷售于一體，致力于在網(wǎng)絡(luò)技術(shù)領(lǐng)域打造尖端品牌。在推動制造業(yè)企業(yè)數(shù)字化轉(zhuǎn)型的進(jìn)程中，捷科通過其云架構(gòu)不斷開發(fā)各類服務(wù)解決方案，秉承“硬+

01-06

我國最大直徑雙護(hù)盾硬巖掘進(jìn)機(jī)“江漢平安號”湖北始發(fā)！

01-06

Meta Quest Pro高端頭顯全球停售，曾降價至7336元仍難挽銷量

01-06

2025款皓瀚正式上市，1.5T插電混動，升級外觀內(nèi)飾僅售10.99萬起！

01-06

霸王茶姬詳解“冰勃朗”爭議：產(chǎn)品安全健康，牛奶含量明確回應(yīng)

三言科技1月6日消息，昨日，霸王茶姬官微發(fā)布長文回應(yīng)“冰勃朗”一事。霸王茶姬表示，其產(chǎn)品沒有“科技狠活”，可以放心喝，將繼續(xù)保持健康化、透明化。霸王茶姬表示，作為一種已經(jīng)廣泛應(yīng)用于行業(yè)的基底乳，冰勃朗是安全的…

01-06

泡水車購買需謹(jǐn)慎，學(xué)會這幾招，輕松辨別泡水車真相！

01-06

特斯拉Cybertruck交付量慘淡，年目標(biāo)不及零頭引關(guān)注

01-06

石頭科技CES2025新品：Saros Z70智能掃地機(jī)器人，能識物移障更懂你

01-06

羅永浩AI新項目J1 Assistant海外亮相，支持多平臺語音交互

三言科技1月6日消息，據(jù)報道，羅永浩旗下AI初創(chuàng)項目Jarvis已經(jīng)在海外上線。目前該項目官網(wǎng)展示了一款名為J1Assistant的AI助力軟件。該軟件支持用戶將語音信息發(fā)送給谷歌搜索引擎、自家AI模型、…

01-06

點擊查看更多 +

全站最新

紅旗天工08純電SUV來襲，軸距3米續(xù)航520km，能否撼動比亞迪唐地位？

藍(lán)色起源"新格倫"火箭即將首飛，能否撼動SpaceX霸主地位？

知名車評人陳震致歉：領(lǐng)克900新車信息泄露，面臨500萬賠償

比亞迪夏展廳實拍：30萬級MPV豪華內(nèi)飾搶先看，上市倒計時！

木衛(wèi)二快船探秘木星：換火箭、克難關(guān)，終啟航！

領(lǐng)克900旗艦SUV強(qiáng)勢登場，能否撼動問界M9、理想L9市場地位？

熱門內(nèi)容

本欄最新

羅博特科資產(chǎn)重組遇阻，深交所暫緩審議其并購計劃

萬物云新年首筆收并購，2.27億拿下中洲物業(yè)，劍指蝶城戰(zhàn)略

滬深交易所齊發(fā)聲：深化A股對外開放，外資機(jī)構(gòu)有何高見？

我國最大直徑雙護(hù)盾硬巖掘進(jìn)機(jī)“江漢平安號”湖北始發(fā)！

Meta Quest Pro高端頭顯全球停售，曾降價至7336元仍難挽銷量

2025款皓瀚正式上市，1.5T插電混動，升級外觀內(nèi)飾僅售10.99萬起！

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) · 齊魯軟件園魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.