ITBear旗下自媒體矩陣:

阿里巴巴開源Qwen1.5-110B:1100億參數(shù)挑戰(zhàn)Meta Llama3-70B性能

   時間:2024-04-28 08:38:14 來源:ITBEAR編輯:茹茹 發(fā)表評論無障礙通道

【ITBEAR科技資訊】4月28日消息,阿里巴巴最近公開宣布,他們已成功開源了Qwen1.5系列中的首個千億參數(shù)模型——Qwen1.5-110B。據(jù)稱,在基礎(chǔ)能力的評估測試中,該模型的表現(xiàn)足以媲美m(xù)eta旗下的Llama3-70B模型,并且在Chat評估中也大放異彩,這包括了MT-Bench和Alpacaeval 2.0兩項基準測試。

這款Qwen1.5-110B模型沿用了Qwen1.5系列一貫的Transformer解碼器架構(gòu),并引入了分組查詢注意力(GQA)機制,使得模型在推理時更為高效。這款模型支持長達32K tokens的上下文長度,同時兼容多種語言,包括但不限于英語、中文、法語、西班牙語、德語、俄語、日語、韓語、越南語以及阿拉伯語。

阿里巴巴將Qwen1.5-110B與當(dāng)前頂尖的語言模型meta-Llama3-70B和Mixtral-8x22B進行了詳盡的對比測試。測試結(jié)果顯示,新的110B模型在基礎(chǔ)能力上至少達到了Llama-3-70B模型的水平。阿里巴巴團隊指出,他們在這一模型中并未對預(yù)訓(xùn)練方法進行大幅調(diào)整,因此性能的提升主要歸功于模型規(guī)模的擴大。

此外,阿里巴巴還在MT-Bench和Alpacaeval 2.0上對其進行了Chat評估。結(jié)果顯示,與之前發(fā)布的72B模型相比,110B模型在這兩個Chat模型基準評估中的表現(xiàn)顯著更佳。這一持續(xù)改善的評估結(jié)果表明,即便沒有大幅改變訓(xùn)練方法,更強大、規(guī)模更大的基礎(chǔ)語言模型也能催生出更優(yōu)秀的Chat模型。

據(jù)ITBEAR科技資訊了解,Qwen1.5-110B不僅是Qwen1.5系列中規(guī)模最大的模型,更是該系列首個參數(shù)超過1000億的模型。與最近發(fā)布的頂尖模型Llama-3-70B相比,其性能表現(xiàn)同樣出色,并且明顯優(yōu)于先前的72B模型。這一突破性的進展無疑將為自然語言處理領(lǐng)域帶來新的可能性。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version