ITBear旗下自媒體矩陣:

ChatGPT正在榨干算力,如何打贏這場算力攻堅戰(zhàn)?

   時間:2023-03-10 11:00:39 來源:互聯(lián)網(wǎng)編輯:茹茹 發(fā)表評論無障礙通道

如何用更少的電,輸出更高的算力?

史上用戶增速最快消費級應(yīng)用ChatGPT,自去年11月底發(fā)布以來,讓全球為其狂歡,各方勢力仍持續(xù)為此“上火”:用戶急著試探ChatGPT是否真的有那么聰明,每天有超過2億的人都在瘋狂拋出各式各樣的問題“刁難”ChatGPT,并展現(xiàn)自己的“調(diào)教”成果;

(ChatGPT每日點擊訪問量統(tǒng)計 圖源:國盛證券研究所)

 國內(nèi)互聯(lián)網(wǎng)大廠們基于要“活下去”的心愿和講更動聽的AI故事,急著與ChatGPT扯上關(guān)系:一時間百度、騰訊、阿里等紛紛拿出相關(guān)技術(shù)布局以及底層設(shè)施儲備,為中國的ChatGPT奮力一戰(zhàn);

近3個月過去,ChatGPT熱度絲毫未減,有關(guān)部門也在努力

2月24日,東數(shù)西算一體化算力服務(wù)平臺在寧夏銀川正式上線發(fā)布。據(jù)悉,東數(shù)西算一體化算力服務(wù)平臺將瞄準目前最稀缺、剛需迫切的ChatGPT運算能力,以支撐中國人工智能運算平臺急需的大算力服務(wù)。

目前,該平臺已吸引曙光、中國電子云、天翼云、阿里云、華為、中興等大算力頭部企業(yè),以及國家信息中心、北京大數(shù)據(jù)研究院等中國主要大數(shù)據(jù)機構(gòu)入駐。

各方勢力蜂擁而至,足以見得,目前的算力填補不了ChatGPT們的需求,眾志成城,才能打贏ChatGPT算力攻堅戰(zhàn)。

本文試圖探究,ChatGPT到底需要多大的算力?升級算力的路子是什么?

ChatGPT,企圖榨干算力

通用AI時代來臨,人類對于算力的需求正逐漸失控。

伴隨著摩爾定律失效,大模型時代來臨,算力不再“淡定”,每5-6個月就要翻倍,以困獸沖破牢籠之勢飛速增長:

(模型發(fā)布時間及算力變化 圖源:浙商證券) 

2018年,谷歌帶著3億參數(shù)BERT模型,闖進大眾視野,開啟大規(guī)模預(yù)訓練模型時代;在這之后,OpenAI、英偉達、微軟先后推出15億參數(shù)的GPT-2、83億參數(shù)的Megatron-LM、170億參數(shù)的圖靈Turing-NLG,各個大廠暗自較勁,參數(shù)規(guī)模從十億級別競爭到了百億級別。

2020年6月,OpenAI又將算力“戰(zhàn)場”拔高了一個層級:推出1750億參數(shù)的GPT-3,把參數(shù)規(guī)模提高到千億級別。隨后一山更比一山高:微軟和英偉達在2020年10月聯(lián)手發(fā)布了5300億參數(shù)的Megatron-Turing自然語言生成模型(MT-NLG)。

2021年,國內(nèi)迎來預(yù)訓練大模型元年。在這一年里,華為、百度、阿里等中國企業(yè)開始發(fā)力:

華為云聯(lián)合北京大學發(fā)布盤古α超大規(guī)模預(yù)訓練模型,參數(shù)規(guī)模達2000億;

百度推出ERNIE 3.0 Titan模型,參數(shù)規(guī)模達2600億;

阿里達摩院的M6模型參數(shù)達到10萬億,又將大模型參數(shù)帶到新的高度 ……

在這之中表現(xiàn)最為亮眼的,莫過于從GPT-3迭代而來的ChatGPT,2022年底一出世就博得全球目光,無論是在模型預(yù)訓練階段,還是模型被訪問階段,ChatGPT都對算力提出“史無前例”的要求。

在模型預(yù)訓練階段,從GPT-1到GPT-3,從GPT-3 Small到GPT-3 175B,對算力的需求呈指數(shù)型增長。

在大模型的框架下,每一代 GPT 模型的參數(shù)量均高速擴張,參數(shù)量從GPT-1的1.17億個,翻了1029倍至GPT-3 的1750 億個;

具體來看,在GPT-3歷代模型中,短短2年,參數(shù)量便從GPT-3 Small的1.25億個,翻了1399倍至GPT-3的1750億個,未來GPT-4還要翻倍:根據(jù) Altman 的介紹,預(yù)計GPT-4的參數(shù)將會達到2800億個。

與此同時,在模型被訪問階段,ChatGPT對算力同樣有著“狂熱”需求:

據(jù)Similarweb數(shù)據(jù),ChatGPT官網(wǎng)在2023年1月27日-2月3日一周內(nèi)吸引的每日訪客數(shù)量高達2500萬。假設(shè)以目前的穩(wěn)定狀態(tài),每日每用戶提問約10個問題,則每日約有2.5億次咨詢量。

如果想要“消化”掉這2.5億次咨詢量,根據(jù)國盛證券測算,需要大量的A100 GPU芯片“連夜趕工”:

假設(shè)每個問題平均30字,單個字在A100 GPU上約消耗350ms,則一天共需消耗729,167個A100 GPU運行小時,對應(yīng)每天需要729,167/24=30,382片英偉達A100 GPU。

也就是說,目前每天2.5億次咨詢量,需要30,382片英偉達A100 GPU同時計算,才能把ChatGPT“喂飽”,以下是ChatGPT部分耗費(電費以0.08美元/kwh計算):

而以上圖表所顯示的,僅僅是2.5億咨詢量需求下,使用英偉達A100 GPU相關(guān)設(shè)備,ChatGPT所需要的算力成本。

其背后對能源的消耗,更是“觸目驚心”。

環(huán)球零碳研究中心曾粗略合計了ChatGPT全生命周期的碳足跡:自2022年11月30日運行以來,其制造設(shè)備的碳排放量超過了33.41噸,模型訓練碳排放超過552噸,運行60天碳排放約為229.2噸。

也就是說上線兩個月的ChatGPT,全過程碳排放超過了814.61噸,而這,相當于186個丹麥家庭每年消耗的能量。

現(xiàn)階段ChatGPT背后的大模型仍在迭代,每日訪問量仍在遞增,未來還會有更多的ChatGPT們涌現(xiàn)。彼時,算力以及其背后的功耗還能顧得過來嗎?

對此,蘇媽表示了擔憂:在ISSCC 2023上,蘇媽表示根據(jù)目前計算效率每兩年提升2.2倍的規(guī)律,預(yù)計到2035年,如果想要算力達到十萬億億級,則需要的功率可達500MW,相當于半個核電站能產(chǎn)生的功率,“這是極為離譜、不切合實際的”。

(2010-2040功率發(fā)展情況 圖源:2023 IEEE international Solid-State Circuits Conference)

為了達到這樣的效果,我們的計算效率起碼要每兩年提升2.2倍,才能匹配上2035年的算力需求。蘇媽坦言,盡管用上目前最先進的計算技術(shù)、最先進的芯片,也滿足不了ChatGPT們。

而當ChatGPT吞噬完大量算力、能源,“吃飽喝足”之后,各國打的不再是算力之爭,而是“國運之爭”:一旦搭載ChatGPT的人形機器人能夠大批量地上崗時,吃人口紅利的國家不再有顯著的優(yōu)勢。

ChatGPT們,包括未來的人形機器人們,正對算力、能源“虎視眈眈”,同時對人類的威脅也不容小覷:往小了看,影響到個人職業(yè)發(fā)展,往大了看,牽扯到國家競爭力。

存算一體承載和釋放ChatGPT

而一切的一切,都得從打好算力之爭開始。

傳統(tǒng)的AI1.0時代的代表企業(yè),例如AMD已經(jīng)開始探尋新的出路:依靠系統(tǒng)級創(chuàng)新實現(xiàn)更大的突破。系統(tǒng)級創(chuàng)新,即從整體設(shè)計的上下游多個環(huán)節(jié)協(xié)同設(shè)計來完成性能的提升。

一個經(jīng)典案例是,在對模型算法層面使用創(chuàng)新數(shù)制(例如8位浮點數(shù)FP8)的同時,在電路層對算法層面進行優(yōu)化支持,最終實現(xiàn)計算層面數(shù)量級的效率提升:相比傳統(tǒng)的32位浮點數(shù)(FP32),進行系統(tǒng)級創(chuàng)新的FP8則可以將計算效率提升30倍之多。而如果僅僅是優(yōu)化FP32計算單元的效率,無論如何也難以實現(xiàn)數(shù)量級的效率提升。

于是,為解決“如何用更少的電,輸出更高的算力”這一終極命題,業(yè)內(nèi)給出不少技術(shù)及方案:量子計算(量子芯片)、光機芯片、芯粒(Chiplet)、3D封裝、存算一體……。同時也有團隊將這些技術(shù)進行結(jié)合,以期達到系統(tǒng)級創(chuàng)新。

在這之中,現(xiàn)在能夠兼容CMOS工藝又能盡快量產(chǎn)的有芯粒、3D封裝、存算一體。而芯粒、存算一體是目前業(yè)內(nèi)普遍認為,能夠突破 AI 算力困境,進行架構(gòu)創(chuàng)新的兩條清晰路線。

浙商證券指出,面對未來潛在的算力指數(shù)增長,短期使用芯粒異構(gòu)技術(shù)加速各類應(yīng)用算法落地,長期來看,打造存算一體芯片,或?qū)⒊蔀槲磥硭懔ι壍臐撛诜绞健?/p>

(架構(gòu)創(chuàng)新路線 圖源:浙商證券)

芯粒異構(gòu)技術(shù)成為“種子”選手的原因是,該技術(shù)能夠突破先進制程的封鎖,且大幅提升大型芯片的良率、降低設(shè)計成本、芯片制造成本。

而之所以說是短期,是因為該技術(shù)路徑需要犧牲一定的體積和功耗,導致其目前只能在基站、服務(wù)器、智能電車等領(lǐng)域廣泛使用。

為解決這一“小缺陷”,目前在學術(shù)界,已有團隊選擇將芯粒異構(gòu)技術(shù)與存算一體架構(gòu)相融合,以期達到1+1>2的效果:

在ISSCC 2022上,復旦大學芯片與系統(tǒng)前沿技術(shù)研究院劉明院士團隊提出多芯粒的存算一體集成芯片——COMB-MCM。

據(jù)團隊表示,電路上COMB-MCM采用存算一體設(shè)計,能夠降低功耗、提高系統(tǒng)算力。在存算一體的加持下,該芯片具有精度無損且支持非結(jié)構(gòu)化稀疏的自適應(yīng)能效調(diào)節(jié)特點,也就補足了芯粒異構(gòu)技術(shù)的短板。

既是芯粒異構(gòu)技術(shù)的最佳拍檔之一,同時也是未來架構(gòu)創(chuàng)新路徑之一,存算一體為何能博得多方“歡心”?

這是因為存算一體成功打破了“三堵墻”:

在傳統(tǒng)馮·諾伊曼架構(gòu)之下,芯片的存儲、計算區(qū)域是分離的。計算時,數(shù)據(jù)需要在兩個區(qū)域之間來回搬運,而隨著神經(jīng)網(wǎng)絡(luò)模型層數(shù)、規(guī)模以及數(shù)據(jù)處理量的不斷增長,數(shù)據(jù)已經(jīng)面臨“跑不過來”的境況,成為高效能計算性能和功耗的瓶頸,也就是業(yè)內(nèi)俗稱的“存儲墻”。

(存儲墻限制具體表現(xiàn) 圖源:浙商證券)

存儲墻相應(yīng)地也帶來了能耗墻、編譯墻(生態(tài)墻)的問題。例如編譯墻問題,是由于大量的數(shù)據(jù)搬運容易發(fā)生擁塞,編譯器無法在靜態(tài)可預(yù)測的情況下對算子、函數(shù)、程序或者網(wǎng)絡(luò)做整體的優(yōu)化,只能手動、一個個或者一層層對程序進行優(yōu)化,耗費了大量時間。

這“三堵墻”會導致算力無謂浪費:據(jù)統(tǒng)計,在大算力的AI應(yīng)用中,數(shù)據(jù)搬運操作消耗90%的時間和功耗,數(shù)據(jù)搬運的功耗是運算的650倍。

而存算一體能夠?qū)⒋鎯陀嬎闳诤希瑥氐紫嗽L存延遲,并極大降低了功耗?;诖?,浙商證券報告指出,存算一體的優(yōu)勢包括但不限于:具有更大算力(1000TOPS以上)、具有更高能效(超過10-100TOPS/W)、降本增效(可超過一個數(shù)量級)······

存算一體,正在沖破三堵墻“解救”ChatGPT,加速算力升級。

大算力芯片需扎好馬步

除了架構(gòu)創(chuàng)新,芯片本身的升級迭代也非常重要。作為基石的底層芯片,需要足夠“大”,AI大算力應(yīng)用才能高樓平地起。

(ChatGPT研究框架 圖源:浙商證券)

那么AI大算力說的“大”到底是多大?

以2020年發(fā)布的GPT3預(yù)訓練語言模型為例,采用的是2020年最先進的英偉達A100 GPU,算力達到624 TOPS。2023年,隨著模型預(yù)訓練階段模型迭代,又新增訪問階段井噴的需求,未來模型對于芯片算力的需求起碼要破千。

再例如自動駕駛領(lǐng)域,根據(jù)財通證券研究所表明,自動駕駛所需單個芯片的算力未來起碼1000+TOPS。

目前巨頭已開始卷上1000+TOPS的SoC,主要用于自動駕駛領(lǐng)域:在2021年4月,英偉達就已經(jīng)發(fā)布了算力為1000TOPS的DRIVE Atlan芯片。到了今年,英偉達直接推出芯片Thor達到2000TOPS。 

故,大算力背景下,大算力芯片起碼得是1000+TOPS選手。

而在符合大算力條件下,也需要考慮到“用料”的功耗、造價問題。

目前,在存算一體架構(gòu)優(yōu)勢下,億鑄科技為當前的算力、能耗困局,給出一條解題思路:選擇有著面積更小、微縮性好等特性的RRAM實現(xiàn)“同等能耗,更大算力;同等算力,更低能耗”,為各大數(shù)據(jù)中心、自動駕駛等應(yīng)用領(lǐng)域“排憂解難”,在數(shù)字經(jīng)濟時代,實現(xiàn)綠色算力。

而在存算一體架構(gòu)下,傳統(tǒng)SRAM、閃存(Flash ) 均有著致命的缺陷,無法實現(xiàn)在大算力賽道的降本增效:

SRAM面積較大,占據(jù)了英偉達數(shù)據(jù)中心級GPU總邏輯面積的約50%。而一個A100 GPU的成本就在1萬美元以上,根據(jù)測算,成熟產(chǎn)品每GB SRAM內(nèi)存的成本將在100美元左右,最貴的存儲器當屬SRAM。

除了成本難壓之外,SRAM也存在著不穩(wěn)定的問題。SRAM 的問題在于它的靜態(tài)電流大,當大量的 SRAM 堆積在芯片上時,會產(chǎn)生一種被稱為 DI/DT 的工程性問題(也就是電流在短時間內(nèi)大量變化),應(yīng)用落地極具挑戰(zhàn)性。

基于這兩點考慮,SRAM 并不適合做大算力場景。據(jù)了解,目前采用 SRAM 的這些公司大都在基于邊緣端做小算力的場景,比如語音識別、智能家居的喚醒、關(guān)鍵命令詞的識別等。

同時,F(xiàn)lash也面臨著因微縮性差導致不穩(wěn)定的問題。傳統(tǒng)存儲器的局限性讓行業(yè)逐漸將目光逐漸轉(zhuǎn)向了新型存儲器:

比如近期英飛凌宣布其下一代 AURIX ?微控制器 ( MCU ) 將采用新型非易失性存儲器 ( NVM ) RRAM ( ReRAM ) ;

億鑄科技自2020成立以來,就專注于研發(fā)基于RRAM的全數(shù)字存算一體大算力AI芯片。

ChatGPT,需要存算一體的“解救”,也需要該架構(gòu)下,更物美價廉(微縮性好、單位面積小、成本低)的新型存儲器RRAM的大力支持。

億歐獲悉,億鑄科技今年將誕生首顆基于RRAM的存算一體AI大算力芯片。屆時,或許“ChatGPT們”以及其下游的應(yīng)用能夠基于該芯片,更輕松地吸取算力,更快實現(xiàn)“智力”升維。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version