近日,浪潮信息公司正式揭曉了其最新的元腦R1推理服務(wù)器,這一創(chuàng)新產(chǎn)品的推出,標(biāo)志著在AI推理領(lǐng)域的一次重大突破。通過(guò)深度的系統(tǒng)創(chuàng)新以及軟硬件的緊密協(xié)同,元腦R1推理服務(wù)器能夠在單機(jī)上順利部署并運(yùn)行DeepSeek R1 671B這一重量級(jí)模型,從而大幅度降低了全參數(shù)模型的部署門(mén)檻與成本,同時(shí)顯著提升了推理服務(wù)的整體效能,為各行各業(yè)智能化轉(zhuǎn)型注入了強(qiáng)勁動(dòng)力。
DeepSeek開(kāi)源項(xiàng)目提供了多個(gè)版本的模型,旨在推動(dòng)各行業(yè)快速采納大模型技術(shù),加速業(yè)務(wù)革新。特別是DeepSeek R1 671B模型,以其強(qiáng)大的泛化能力、高精度及卓越的上下文理解能力,成為了全參數(shù)基礎(chǔ)大模型的佼佼者。然而,這一模型的運(yùn)行也對(duì)硬件提出了極為嚴(yán)苛的要求,包括巨大的顯存容量、高帶寬需求以及低延遲的互連通信。具體而言,在FP8精度下,至少需要800GB的顯存支持,而在FP16/BF16精度下,則需超過(guò)1.4TB的顯存空間。DeepSeek R1作為長(zhǎng)思維鏈模型的代表,其短輸入、長(zhǎng)輸出的特性,使得推理解碼階段對(duì)顯存帶寬和通信延遲有著極高的依賴(lài)。
為了應(yīng)對(duì)DeepSeek R1 671B模型的這些挑戰(zhàn),元腦R1推理服務(wù)器推出了兩款旗艦產(chǎn)品——NF5688G7與NF5868G8。NF5688G7作為高算效AI計(jì)算平臺(tái)的佼佼者,原生集成了FP8計(jì)算引擎,專(zhuān)為DeepSeek R1 678B模型設(shè)計(jì),部署迅速且精度無(wú)損。其配備的1128GB HBM3e高速顯存,輕松滿足了FP8精度下對(duì)顯存容量的嚴(yán)苛要求,即便在單機(jī)支持全量模型推理的情況下,仍能保留充足的KV緩存空間。高達(dá)4.8TB/s的顯存帶寬,完美匹配了DeepSeek R1模型的技術(shù)特性,使得推理解碼階段得以極致加速。GPU P2P帶寬高達(dá)900GB/s,確保了單機(jī)部署下的最佳通訊性能,單機(jī)可支持20-30用戶的并發(fā)操作。同時(shí),3200Gbps的無(wú)損擴(kuò)展網(wǎng)絡(luò),提供了靈活的擴(kuò)展能力,為用戶提供了成熟的R1服務(wù)器集群解決方案。
另一款旗艦產(chǎn)品NF5868G8,則是專(zhuān)為大型推理模型設(shè)計(jì)的高吞吐推理服務(wù)器。它開(kāi)創(chuàng)了業(yè)界先河,實(shí)現(xiàn)了單機(jī)支持16張標(biāo)準(zhǔn)PCIe雙寬卡,提供了高達(dá)1536GB的顯存容量,使得在FP16/BF16精度下單機(jī)部署DeepSeek 671B模型成為可能。通過(guò)創(chuàng)新的PCIe Fabric全互連拓?fù)湓O(shè)計(jì),任意兩張卡之間的P2P通信帶寬可達(dá)128GB/s,通信延遲降低了超過(guò)60%。軟硬件的協(xié)同優(yōu)化,使得NF5868G8相比傳統(tǒng)2機(jī)8卡PCIe機(jī)型,在DeepSeek 671B模型的推理性能上提升了近40%,并支持多元AI加速卡的靈活選配。
浪潮信息作為全球領(lǐng)先的IT基礎(chǔ)設(shè)施提供商,一直致力于新一代以系統(tǒng)為核心的計(jì)算架構(gòu)的發(fā)展,旨在打造開(kāi)放、多元且環(huán)保的元腦智算解決方案。公司在AI計(jì)算平臺(tái)、資源平臺(tái)及算法平臺(tái)方面不斷推陳出新,并通過(guò)元腦生態(tài)體系,攜手眾多行業(yè)伙伴,共同加速人工智能的創(chuàng)新與應(yīng)用落地。此次元腦R1推理服務(wù)器的推出,無(wú)疑是浪潮信息在推動(dòng)AI技術(shù)普及與行業(yè)智能化轉(zhuǎn)型道路上的又一重要里程碑。