在近日的大模型競(jìng)技場(chǎng)中,一款來(lái)自中國(guó)的AI模型引起了廣泛關(guān)注。這款名為Qwen2.5-Max的模型,由阿里巴巴公司推出,成功超越了多個(gè)國(guó)際知名模型,包括DeepSeek-V3、Claude 3.5 Sonnet以及Llama 3.1 405B等,以總分1332的優(yōu)異成績(jī),在總榜上占據(jù)了第七名的位置。
Qwen2.5-Max的出色表現(xiàn),尤其是在編程和數(shù)學(xué)領(lǐng)域,更是讓人眼前一亮。在這些方面,它不僅與滿(mǎn)血o1、DeepSeek-R1并列第一,還獲得了用戶(hù)的高度評(píng)價(jià)。據(jù)親身使用過(guò)的網(wǎng)友反饋,Qwen的表現(xiàn)相較于其他模型更為穩(wěn)定,甚至有人預(yù)測(cè),它很快將取代硅谷的普通模型。
Chatbot Arena作為由LMSYS Org推出的大模型性能測(cè)試平臺(tái),目前集成了190多種模型,通過(guò)用戶(hù)盲測(cè)和真實(shí)對(duì)話體驗(yàn)對(duì)模型能力進(jìn)行投票。這一平臺(tái)被認(rèn)為是全球頂級(jí)大模型的最權(quán)威競(jìng)技場(chǎng)。Qwen2.5-Max不僅在綜合榜單上取得了優(yōu)異成績(jī),還在新開(kāi)的網(wǎng)頁(yè)應(yīng)用開(kāi)發(fā)WebDev榜單上沖進(jìn)了前十,展示了其在多個(gè)領(lǐng)域的全面實(shí)力。
LMSYS官方對(duì)Qwen2.5-Max的表現(xiàn)給予了高度評(píng)價(jià),認(rèn)為中國(guó)AI正在快速縮小與國(guó)際領(lǐng)先水平的差距。在具體的能力測(cè)試中,Qwen2.5-Max在邏輯性較強(qiáng)的數(shù)學(xué)和代碼任務(wù)中,成績(jī)超過(guò)了o1-mini,與滿(mǎn)血o1和DeepSeek-R1并列第一。值得注意的是,在數(shù)學(xué)榜單上并列第一的模型中,Qwen2.5-Max是唯一一個(gè)非推理模型。
Qwen2.5-Max在復(fù)雜提示詞任務(wù)中的表現(xiàn)也十分出色,與o1-preview并列第二。在英文環(huán)境下,甚至可以排到第一,與o1-preview、DeepSeek-R1等模型平起平坐。同時(shí),它在多輪對(duì)話能力上與DeepSeek-R1并列第一,長(zhǎng)文本處理能力排行第三,超過(guò)了o1-preview。
阿里巴巴還在技術(shù)報(bào)告中展示了Qwen2.5-Max在一些經(jīng)典榜單上的表現(xiàn)。在指令模型的對(duì)比中,Qwen2.5-Max在Arena-Hard、MMLU-Pro等基準(zhǔn)測(cè)試中,與GPT-4o和Claude 3.5-Sonnet處于近似或更高的水準(zhǔn)。在開(kāi)源的基座模型對(duì)比中,Qwen2.5-Max的成績(jī)?nèi)娉^(guò)了DeepSeek-V3,并遙遙領(lǐng)先于Llama 3.1-405B。在base model的對(duì)比中,Qwen2.5-Max也在大多數(shù)基準(zhǔn)測(cè)試中展現(xiàn)出了顯著優(yōu)勢(shì)。
Qwen2.5-Max上線后,大量網(wǎng)友進(jìn)行了實(shí)測(cè),發(fā)現(xiàn)其在代碼、推理等方面的表現(xiàn)尤為突出。例如,讓Qwen2.5-Max用Java寫(xiě)一個(gè)象棋游戲,它不僅能快速生成代碼,還具備Artifacts功能,可以立刻開(kāi)玩。在復(fù)雜提示詞的推理問(wèn)題上,Qwen2.5-Max也展現(xiàn)出了快速準(zhǔn)確的特點(diǎn),能夠在短時(shí)間內(nèi)完成全部推理過(guò)程,并給出清晰的結(jié)論。
目前,Qwen2.5-Max已在Qwen Chat平臺(tái)上線,用戶(hù)可免費(fèi)體驗(yàn)。企業(yè)用戶(hù)則可以在阿里云百煉調(diào)用Qwen2.5-Max模型的API,享受這一先進(jìn)AI技術(shù)帶來(lái)的便利。