ITBear旗下自媒體矩陣:

AI算力需求飆升功耗也猛增,數(shù)據(jù)中心該如何降溫——戴爾科技攜手英特爾共建綠色數(shù)據(jù)中心破解能效難題

   時間:2024-04-16 15:28:19 來源:互聯(lián)網(wǎng)編輯:瑞雪 發(fā)表評論無障礙通道

“AI的盡頭是光伏和儲能”,相信很多人對這句話并不陌生。這句話非常形象地說明了AI對電力的高依賴和高消耗,言簡意賅,在業(yè)界廣為流傳。

近兩年以大模型為代表的人工智能非?;?,引發(fā)了大模型投資熱,企業(yè)紛紛投入巨資開始訓(xùn)練大模型和部署各種人工智能應(yīng)用。然而,不少企業(yè)突然發(fā)現(xiàn)電出問題了,要么數(shù)據(jù)中心的電力不夠,要么機房溫度降不下來,或者用電成本太高賬單嚇人,嚴重的甚至直接影響數(shù)據(jù)中心正常運營,波及企業(yè)的數(shù)字化化轉(zhuǎn)型戰(zhàn)略的落實。為了破解這些難題,不少企業(yè)走上綠色數(shù)據(jù)中心的構(gòu)建之路。

大模型的背后是對電力的高消耗

2022年年底,ChatGPT一炮走紅。ChatGPT表現(xiàn)出來的強大的內(nèi)容生成能力讓人驚訝,但很多人不了解的是,這些能力是建立在大量數(shù)據(jù)的訓(xùn)練之上,需要消耗大量的電力。

斯坦福人工智能研究所發(fā)布的《2023年人工智能指數(shù)報告》顯示,1750億參數(shù)的GPT-3在訓(xùn)練階段的耗電量高達1287兆瓦時。隨著模型參數(shù)的不斷增加以及模型從單模態(tài)向多模態(tài)發(fā)展,耗電量還將進一步提升。

大模型不只是在訓(xùn)練階段費電,推理階段同樣也相當費電。根據(jù)專家對ChatGPT的研究,每當ChatGPT試圖響應(yīng)一次提問,它需要消耗2.9瓦時的電量。ChatGPT平均每天需要處理約2億個來自用戶的對話請求,這意味著它單日消耗的電量就要超過564兆瓦時,相當于1.7萬個美國家庭一天的用電量。

ChatGPT是通用大模型的一個代表,其他大模型的耗電情況大體類似。隨著大模型的流行,AI工作負載功耗占比正在快速提升。根據(jù)施耐德電氣的一份關(guān)于2024數(shù)據(jù)中心行業(yè)的研究報告,AI類工作負載功耗2023 年只占到8%,而到 2028 年會占15%-20%,總能耗預(yù)計會到 15GW,相當于十三峽水電站的總裝機容量 22.5GW的70%。

通用大模型之所以費電,一個重要原因是它的訓(xùn)練和推理都需要大量GPU,今天GPU集群越來越大,萬卡甚至10萬卡也不稀奇,而GPU隨著性能的不斷提升功耗會不斷上升,正在從目前的350瓦向1000瓦邁進,英偉達新發(fā)布的最新GPU GB200已經(jīng)突破了1000瓦。當然,不只是GPU,CPU的功耗也在上升,正在突破500瓦。

CPU、GPU功耗的不斷上升迫使企業(yè)越來越關(guān)注AI架構(gòu)的優(yōu)化,要把數(shù)千甚至上萬張CPU、GPU卡互聯(lián),讓它們高效訪問所需要的數(shù)據(jù),完成工作,對系統(tǒng)架構(gòu)設(shè)計提出了很高的要求。

“一個設(shè)計良好的AI架構(gòu)的確能大大提高整個設(shè)備的能效,這些年戴爾科技一直在做的事情?!贝鳡柨萍技瘓F大中華區(qū)網(wǎng)絡(luò)和第三方產(chǎn)品事業(yè)部虞頌峰介紹,戴爾科技的能力也得到了市場研究機構(gòu)的認可,F(xiàn)orrester在 2024 年Q1 的《AI 基礎(chǔ)設(shè)施解決方案》報告中將戴爾科技列入 AI 基礎(chǔ)架構(gòu)解決方案領(lǐng)導(dǎo)者。

傳統(tǒng)風(fēng)冷不行,液冷勢在必行

AI負載的高電耗可能讓原來數(shù)據(jù)中心設(shè)計的電力不夠用,甚至外圍供電不足,迫使人們需要尋找更多能源,比如引入清潔能源、核能等。而另一個后果就是不得不關(guān)注綠色數(shù)據(jù)中心的建設(shè),關(guān)注機房內(nèi)部致冷問題。

通常數(shù)據(jù)中心中部署有大量IT設(shè)備,如服務(wù)器、存儲和交換機等,以及空調(diào)等附加設(shè)備,這些設(shè)備運行需要散發(fā)大量的熱,必須及時帶走,否則會因過高的溫度會導(dǎo)致設(shè)備損壞,系統(tǒng)宕機。傳統(tǒng)數(shù)據(jù)中心致冷方式是以風(fēng)冷為主,老舊機架設(shè)計功率不超過10kw左右。然而,今天一臺配置多GPU卡的AI服務(wù)器單臺功率就可能突破10kw,傳統(tǒng)風(fēng)冷技術(shù)很難解決其散熱問題,不得已人們開始選擇液冷技術(shù)。

“為了滿足 AI 的應(yīng)用,實現(xiàn)可持續(xù)、低碳、節(jié)能和環(huán)保的綠色數(shù)據(jù)中心,從目前的技術(shù)手段來看,液冷是最佳的選擇?!庇蓓灧灞硎?。

液冷解決方案的普及除了要解決機房溫度過高或者局部熱點問題這些內(nèi)因之外,還有非常重要的一個驅(qū)動因素是國家政策。近幾年國家在大力推動節(jié)能環(huán)保,一直在限制高能耗數(shù)據(jù)中心。比如,北京要求新建數(shù)據(jù)中心PUE值低于1.4,上海、深圳要求低于1.3。高PUE值意味著高能耗,特別是對于一些大型和超大型數(shù)據(jù)中心,其用電量大,降低運營成本和符合國產(chǎn)政策的要求雙重因素驅(qū)動下,對液冷技術(shù)積極性很高。

各種利好之下,液冷市場增長很快。根據(jù)IDC發(fā)布的《中國半年度液冷服務(wù)器市場(2023上半年)跟蹤》報告,2023上半年中國液冷服務(wù)器市場規(guī)模達到6.6億美元,同比增長283.3%,預(yù)計2023年全年將達到15.1億美元。IDC預(yù)計,2022-2027年,中國液冷服務(wù)器市場年復(fù)合增長率將達到54.7%,2027年市場規(guī)模將達到89億美元。

目前市場上主要有兩類主流液冷技術(shù)。一類是冷板式液冷,液體不直接接觸IT部件,通過液體在密閉的導(dǎo)管流經(jīng)服務(wù)器內(nèi)部的散熱冷盤將熱量帶走。另一個是浸沒式液冷,就是直接把整臺服務(wù)器泡在特殊液體中,通過與液體進行熱交換來帶走熱量。

一些領(lǐng)先的服務(wù)器廠商已經(jīng)推出了自己的液冷服務(wù)器產(chǎn)品。虞頌峰介紹,戴爾科技通過與合作伙伴合作提供三種液冷解決方案,既有冷板式液冷也有浸沒式液冷,可以滿足不同客戶的需求。

DIY 冷板式液冷方案:方案采用戴爾科技的標準液冷服務(wù)器,配置 CoolIT 冷盤,加上第三方(綠色云圖和維諦)的CDU 和液冷機柜,在客戶現(xiàn)場組裝完成整套液冷方案交付。

標準的整機柜交付冷板液冷方案:戴爾在工廠預(yù)安裝液冷服務(wù)器和CoolIT的機柜、分水器,直接交付給客戶。

浸沒式液冷方案:采用的是經(jīng)過戴爾科技驗證的綠色云圖的浸沒式液冷解決方案,由綠色云圖提供整合服務(wù),適用于邊緣應(yīng)用、靜音要求極高或者是極致PUE等應(yīng)用場景。

高效節(jié)能需要整體優(yōu)化設(shè)計

當然,要建成一個綠色數(shù)據(jù)中心光有液冷技術(shù)遠遠不夠。綠色數(shù)據(jù)中心的建設(shè)應(yīng)該從最開始的設(shè)計、規(guī)劃就開始,一直到機房設(shè)備部署、冷卻系統(tǒng)的部署,還要選擇高效節(jié)能IT組件以及精細化的管理和運維等。

以系統(tǒng)的管理和監(jiān)控為例,可以通過電源管理器實時監(jiān)控并控制服務(wù)器的整體功耗和服務(wù)器的 CPU 負載情況實現(xiàn)風(fēng)扇的動態(tài)調(diào)節(jié),來有效降低數(shù)據(jù)中心的能耗。

F5公司解決方案顧問王志博透露,F(xiàn)5公司的產(chǎn)品落地場景中就有不少用來匯集各種IT設(shè)備運行狀況,借助F5的產(chǎn)品采集數(shù)據(jù),然后進行大數(shù)據(jù)分析和呈現(xiàn),從而幫助管理者更好地管理這些設(shè)備,提高設(shè)備運營能效。

并非只有新建數(shù)據(jù)中心才能談綠色節(jié)能,對于現(xiàn)有的數(shù)據(jù)中心也可以通過改造來提高能效。比如,通過模塊化的數(shù)據(jù)中心實現(xiàn)冷熱通道的隔離,通過后門熱交換提高熱交換效率,通過優(yōu)化傳統(tǒng)數(shù)據(jù)中心最多可以實現(xiàn)PUE1.2 左右。

采用高能效的新一代產(chǎn)品也是一種有效的節(jié)能方法。英特爾中國可持續(xù)發(fā)展項目組負責人彭振飛介紹,采用英特爾最新的第五代至強可擴展處理器,通過選擇電源優(yōu)化模式就可以在30-40%工作負載時輕松實現(xiàn)110瓦的能耗降低。英特爾即將正式發(fā)布的至強6在能效上表現(xiàn)更為優(yōu)秀,至強6 Sierra Forest首次采用純能效核(E核)設(shè)計,可以帶來2.4倍的能效提升,機架密度則可以提高2.7倍。這意味著在相同的空間里能提供更高的算力,并且是更高能效的算力。

為了幫助企業(yè)構(gòu)建綠色數(shù)據(jù)中心,英特爾還推出了綠色數(shù)據(jù)中心技術(shù)框架2.0,這是一個參考設(shè)計,它從XPU層、服務(wù)器層、機架層和數(shù)據(jù)中心層分別提出了合理實現(xiàn)節(jié)能減碳的技術(shù)路徑,一共提出了13種讓數(shù)據(jù)中心更綠色的技術(shù)能力和方案。

“這是一個框架,目的是希望通過高能效產(chǎn)品和技術(shù)的使用,通過液冷,通過更高能效的處理器等IT組件結(jié)合,實現(xiàn)高能效的計算,構(gòu)建更綠色的數(shù)據(jù)中心。”彭振飛說。

結(jié)束語

當下在AI應(yīng)用熱潮的推動下,算力需求井噴。數(shù)據(jù)中心作為承載AI應(yīng)用的關(guān)鍵,在滿足算力需求的同時面臨能效問題的挑戰(zhàn),這使得數(shù)據(jù)中心的綠色低碳和可持續(xù)發(fā)展成為剛需。

液冷技術(shù)在政策、技術(shù)與經(jīng)濟性三大因素的共同推動下成為綠色數(shù)據(jù)中心建設(shè)的重要技術(shù)之一,正在快速替代風(fēng)冷技術(shù)發(fā)展成為市場主流。面對這個新興市場,有著豐富的技術(shù)積淀和對產(chǎn)業(yè)了解的戴爾、英特爾等巨頭的加入無疑會大大推動液冷技術(shù)的進步,加速綠色數(shù)據(jù)中心在中國市場的落地步伐,最終為我國數(shù)字經(jīng)濟的高質(zhì)量發(fā)展提供更為強大的核心驅(qū)動力。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version