【ITBEAR】摩爾線程近日宣布,已成功將大語言模型高速推理框架vLLM的MUSA移植版本上線,為開發(fā)者在使用摩爾線程全功能GPU進行開源項目MUSA移植時,提供了實用的參考范例。
該公司正致力于依托其自主研發(fā)的統(tǒng)一系統(tǒng)架構(gòu)GPU以及MUSA軟件平臺,構(gòu)建一個完善且用戶友好的MUSA應(yīng)用生態(tài)。
據(jù)悉,vLLM是一款高效且便捷的大模型推理和服務(wù)框架,它支持包括PagedAttention內(nèi)存管理、連續(xù)批處理請求、CUDA/HIP圖的快速模型執(zhí)行在內(nèi)的多項創(chuàng)新技術(shù),并能顯著提升大語言模型(LLM)的推理性能。目前,該框架已被廣泛應(yīng)用于各類大語言模型,并成為行業(yè)內(nèi)備受推崇的開源大模型推理框架。
摩爾線程基于vLLM v0.4.2版本進行了細致的移植適配工作,使得該框架能夠支持摩爾線程GPU后端Device。更重要的是,這一移植版本已完全開源,為開發(fā)者提供了二次開發(fā)、升級vLLM至社區(qū)更新版本等靈活性。
摩爾線程的MUSA架構(gòu)憑借其先進性,以及軟件棧對CUDA的出色兼容性,通過MUSIFY代碼自動轉(zhuǎn)換工具,用戶可以輕松將原有的CUDA代碼遷移至MUSA平臺,實現(xiàn)無縫替代。
同時,摩爾線程還提供了包括算子庫muDNN、集合通信庫MCCL、線性代數(shù)庫muBLAS等一系列MUSA加速庫,以便快速替換CUDA相關(guān)庫的調(diào)用。
通過MUSA軟件棧對CUDA軟件棧接口的兼容,摩爾線程不僅大幅提高了應(yīng)用移植的效率,還縮短了開發(fā)周期。該公司還提供了一系列實用的工具和腳本,其中包括MUSIFY自動代碼移植工具,以進一步簡化開發(fā)過程。
對于那些對摩爾線程vLLM-MUSA開源項目感興趣的開發(fā)者,可以通過以下鏈接獲取更多信息:
https://github.com/MooreThreads/vLLM_musa