ITBear旗下自媒體矩陣:

摩爾線程新動(dòng)向!"夸娥智算集群1.2版"有何驚喜?

   時(shí)間:2024-08-19 21:28:13 來(lái)源:ITBEAR作者:鄭浩編輯:瑞雪 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR】8月19日消息,摩爾線程“夸娥智算集群 KUAE”1.2 版本正式發(fā)布,此次更新在軟硬件層面進(jìn)行了全面優(yōu)化,并增加了對(duì)多種大模型的支持。新版本在多個(gè)方面都帶來(lái)了顯著的提升和新增功能。

具體來(lái)說(shuō),新版本在使用千卡集群訓(xùn)練千億模型時(shí),MFU 提升了 10%,而在稠密模型集群訓(xùn)練中,MFU 最高可達(dá) 55%。此外,通過(guò)集成最新的 MUSA SDK 平臺(tái)與優(yōu)化后的 Flash Attention2 技術(shù),結(jié)合新版 Torch MUSA 和算子融合,新版本在提升大模型訓(xùn)練效率與資源利用率的同時(shí),也縮短了訓(xùn)練周期并降低了整體成本。

據(jù)ITBEAR了解,新版本還增強(qiáng)了對(duì)長(zhǎng)文本大模型訓(xùn)練的支持,優(yōu)化了處理長(zhǎng)文本理解和生成任務(wù)的能力,能夠更好地應(yīng)對(duì)文檔摘要、文章寫作等復(fù)雜語(yǔ)言處理任務(wù)。同時(shí),MCCL 通信庫(kù)完成了 All2All 優(yōu)化,并針對(duì) muDNN 算子在不同形狀下的矩陣運(yùn)算進(jìn)行了優(yōu)化,以更好地支持 MoE(Mixture of Experts)大模型的訓(xùn)練。

在訓(xùn)練效率方面,新版本進(jìn)一步提升了大模型訓(xùn)練的 Checkpoint 讀寫性能,寫入時(shí)間小于 2 秒。同時(shí),實(shí)現(xiàn)了基于摩爾線程 GPU 集群的 DeepSpeed 與 Ulysses 的適配和性能優(yōu)化,強(qiáng)化了長(zhǎng)文本訓(xùn)練支持,并適配了國(guó)內(nèi)外多款大模型,支持在 Hugging Face 上訓(xùn)練和微調(diào)主要開源大模型。

在穩(wěn)定性方面,千卡集群軟硬件進(jìn)一步成熟,實(shí)現(xiàn)了連續(xù)無(wú)故障訓(xùn)練 15 天。新版本還引入了 KUAE Aegis 可靠性功能,加強(qiáng)對(duì) GPU、顯存、集合通信等方面的監(jiān)控、自動(dòng)診斷與故障恢復(fù)能力。同時(shí),引入了 PerfSight 性能監(jiān)控系統(tǒng),可實(shí)時(shí)顯示模型訓(xùn)練過(guò)程中的資源消耗與性能分析數(shù)據(jù)。

此外,KUAE 內(nèi)置模型庫(kù) Model Zoo 也新增了 LLaMA2 全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型,為用戶提供更豐富的選擇。此前,摩爾線程 AI 旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案已從當(dāng)前的千卡級(jí)別擴(kuò)展至萬(wàn)卡規(guī)模,具備萬(wàn) P 級(jí)浮點(diǎn)運(yùn)算能力。摩爾線程計(jì)劃開展三個(gè)萬(wàn)卡集群項(xiàng)目,分別為青海零碳產(chǎn)業(yè)園萬(wàn)卡集群項(xiàng)目、青海高原夸娥萬(wàn)卡集群項(xiàng)目、廣西東盟萬(wàn)卡集群項(xiàng)目。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容