AMD近期宣布了一項重大進展,成功將經(jīng)過優(yōu)化的DeepSeek-V3模型集成到其Instinct MI300X GPU上。這一模型通過SGLang進行了強化,專為AI推理設(shè)計,旨在提升性能。
事實上,早在去年12月26日,AMD已在Github上發(fā)布了支持DeepSeek-V3模型的SGLang v0.4.1版本,為這一集成奠定了基礎(chǔ)。
據(jù)AMD透露,DeepSeek V3是目前性能最強的開源大型語言模型(LLM),其表現(xiàn)甚至超越了GPT-4。這一成就得益于SGLang與DeepSeek團隊的緊密合作,使得DeepSeek V3在發(fā)布首日便能在英偉達和AMD的GPU上順利運行。AMD還特別感謝了美團搜索與推薦算法平臺團隊以及DataCrunch提供的GPU資源支持。
DeepSeek-V3模型采用了混合專家(MoE)架構(gòu),總參數(shù)量高達6710億,每個token激活370億參數(shù),展現(xiàn)出強大的處理能力。為了實現(xiàn)高效推理和高經(jīng)濟效益的訓練,該模型引入了多頭潛在注意力(MLA)和DeepSeekMoE架構(gòu)。
DeepSeek-V3開創(chuàng)性地采用了一種無輔助損失的負載平衡策略,并設(shè)置了多標記預測訓練目標,進一步提升了模型的性能。這使得開發(fā)人員能夠利用高級模型,同時處理文本和視覺數(shù)據(jù),從而廣泛獲取先進功能,并享受更多功能帶來的便利。
AMD Instinct GPU加速器與DeepSeek-V3的結(jié)合,為AI模型的運行帶來了顯著改善,特別是在推理方面。AMD表示,ROCm中廣泛的FP8支持有助于解決內(nèi)存瓶頸和高延遲等關(guān)鍵問題。這使得平臺能夠在相同的硬件限制下處理更大的模型或批處理,從而提高了訓練和推理過程的效率。
FP8降低精度計算減少了數(shù)據(jù)傳輸和計算中的延遲。AMD ROCm擴展了其對FP8的支持,從框架到庫,全面提升了性能和效率。這一技術(shù)革新為AI模型的高效運行提供了有力保障。