【ITBEAR】8月19日消息,摩爾線程“夸娥智算集群 KUAE”1.2 版本正式發(fā)布,此次更新在軟硬件層面進(jìn)行了全面優(yōu)化,并增加了對多種大模型的支持。新版本在多個方面都帶來了顯著的提升和新增功能。
具體來說,新版本在使用千卡集群訓(xùn)練千億模型時,MFU 提升了 10%,而在稠密模型集群訓(xùn)練中,MFU 最高可達(dá) 55%。此外,通過集成最新的 MUSA SDK 平臺與優(yōu)化后的 Flash Attention2 技術(shù),結(jié)合新版 Torch MUSA 和算子融合,新版本在提升大模型訓(xùn)練效率與資源利用率的同時,也縮短了訓(xùn)練周期并降低了整體成本。
據(jù)ITBEAR了解,新版本還增強了對長文本大模型訓(xùn)練的支持,優(yōu)化了處理長文本理解和生成任務(wù)的能力,能夠更好地應(yīng)對文檔摘要、文章寫作等復(fù)雜語言處理任務(wù)。同時,MCCL 通信庫完成了 All2All 優(yōu)化,并針對 muDNN 算子在不同形狀下的矩陣運算進(jìn)行了優(yōu)化,以更好地支持 MoE(Mixture of Experts)大模型的訓(xùn)練。
在訓(xùn)練效率方面,新版本進(jìn)一步提升了大模型訓(xùn)練的 Checkpoint 讀寫性能,寫入時間小于 2 秒。同時,實現(xiàn)了基于摩爾線程 GPU 集群的 DeepSpeed 與 Ulysses 的適配和性能優(yōu)化,強化了長文本訓(xùn)練支持,并適配了國內(nèi)外多款大模型,支持在 Hugging Face 上訓(xùn)練和微調(diào)主要開源大模型。
在穩(wěn)定性方面,千卡集群軟硬件進(jìn)一步成熟,實現(xiàn)了連續(xù)無故障訓(xùn)練 15 天。新版本還引入了 KUAE Aegis 可靠性功能,加強對 GPU、顯存、集合通信等方面的監(jiān)控、自動診斷與故障恢復(fù)能力。同時,引入了 PerfSight 性能監(jiān)控系統(tǒng),可實時顯示模型訓(xùn)練過程中的資源消耗與性能分析數(shù)據(jù)。
此外,KUAE 內(nèi)置模型庫 Model Zoo 也新增了 LLaMA2 全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型,為用戶提供更豐富的選擇。此前,摩爾線程 AI 旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案已從當(dāng)前的千卡級別擴展至萬卡規(guī)模,具備萬 P 級浮點運算能力。摩爾線程計劃開展三個萬卡集群項目,分別為青海零碳產(chǎn)業(yè)園萬卡集群項目、青海高原夸娥萬卡集群項目、廣西東盟萬卡集群項目。