ITBear旗下自媒體矩陣:

ChatGPT正在榨干算力,如何打贏這場算力攻堅(jiān)戰(zhàn)?

   時(shí)間:2023-03-10 11:00:39 來源:互聯(lián)網(wǎng)編輯:茹茹 發(fā)表評論無障礙通道

如何用更少的電,輸出更高的算力?

史上用戶增速最快消費(fèi)級應(yīng)用ChatGPT,自去年11月底發(fā)布以來,讓全球?yàn)槠淇駳g,各方勢力仍持續(xù)為此“上火”:用戶急著試探ChatGPT是否真的有那么聰明,每天有超過2億的人都在瘋狂拋出各式各樣的問題“刁難”ChatGPT,并展現(xiàn)自己的“調(diào)教”成果;

(ChatGPT每日點(diǎn)擊訪問量統(tǒng)計(jì) 圖源:國盛證券研究所)

 國內(nèi)互聯(lián)網(wǎng)大廠們基于要“活下去”的心愿和講更動(dòng)聽的AI故事,急著與ChatGPT扯上關(guān)系:一時(shí)間百度、騰訊、阿里等紛紛拿出相關(guān)技術(shù)布局以及底層設(shè)施儲(chǔ)備,為中國的ChatGPT奮力一戰(zhàn);

近3個(gè)月過去,ChatGPT熱度絲毫未減,有關(guān)部門也在努力

2月24日,東數(shù)西算一體化算力服務(wù)平臺(tái)在寧夏銀川正式上線發(fā)布。據(jù)悉,東數(shù)西算一體化算力服務(wù)平臺(tái)將瞄準(zhǔn)目前最稀缺、剛需迫切的ChatGPT運(yùn)算能力,以支撐中國人工智能運(yùn)算平臺(tái)急需的大算力服務(wù)。

目前,該平臺(tái)已吸引曙光、中國電子云、天翼云、阿里云、華為、中興等大算力頭部企業(yè),以及國家信息中心、北京大數(shù)據(jù)研究院等中國主要大數(shù)據(jù)機(jī)構(gòu)入駐。

各方勢力蜂擁而至,足以見得,目前的算力填補(bǔ)不了ChatGPT們的需求,眾志成城,才能打贏ChatGPT算力攻堅(jiān)戰(zhàn)。

本文試圖探究,ChatGPT到底需要多大的算力?升級算力的路子是什么?

ChatGPT,企圖榨干算力

通用AI時(shí)代來臨,人類對于算力的需求正逐漸失控。

伴隨著摩爾定律失效,大模型時(shí)代來臨,算力不再“淡定”,每5-6個(gè)月就要翻倍,以困獸沖破牢籠之勢飛速增長:

(模型發(fā)布時(shí)間及算力變化 圖源:浙商證券) 

2018年,谷歌帶著3億參數(shù)BERT模型,闖進(jìn)大眾視野,開啟大規(guī)模預(yù)訓(xùn)練模型時(shí)代;在這之后,OpenAI、英偉達(dá)、微軟先后推出15億參數(shù)的GPT-2、83億參數(shù)的Megatron-LM、170億參數(shù)的圖靈Turing-NLG,各個(gè)大廠暗自較勁,參數(shù)規(guī)模從十億級別競爭到了百億級別。

2020年6月,OpenAI又將算力“戰(zhàn)場”拔高了一個(gè)層級:推出1750億參數(shù)的GPT-3,把參數(shù)規(guī)模提高到千億級別。隨后一山更比一山高:微軟和英偉達(dá)在2020年10月聯(lián)手發(fā)布了5300億參數(shù)的Megatron-Turing自然語言生成模型(MT-NLG)。

2021年,國內(nèi)迎來預(yù)訓(xùn)練大模型元年。在這一年里,華為、百度、阿里等中國企業(yè)開始發(fā)力:

華為云聯(lián)合北京大學(xué)發(fā)布盤古α超大規(guī)模預(yù)訓(xùn)練模型,參數(shù)規(guī)模達(dá)2000億;

百度推出ERNIE 3.0 Titan模型,參數(shù)規(guī)模達(dá)2600億;

阿里達(dá)摩院的M6模型參數(shù)達(dá)到10萬億,又將大模型參數(shù)帶到新的高度 ……

在這之中表現(xiàn)最為亮眼的,莫過于從GPT-3迭代而來的ChatGPT,2022年底一出世就博得全球目光,無論是在模型預(yù)訓(xùn)練階段,還是模型被訪問階段,ChatGPT都對算力提出“史無前例”的要求。

在模型預(yù)訓(xùn)練階段,從GPT-1到GPT-3,從GPT-3 Small到GPT-3 175B,對算力的需求呈指數(shù)型增長。

在大模型的框架下,每一代 GPT 模型的參數(shù)量均高速擴(kuò)張,參數(shù)量從GPT-1的1.17億個(gè),翻了1029倍至GPT-3 的1750 億個(gè);

具體來看,在GPT-3歷代模型中,短短2年,參數(shù)量便從GPT-3 Small的1.25億個(gè),翻了1399倍至GPT-3的1750億個(gè),未來GPT-4還要翻倍:根據(jù) Altman 的介紹,預(yù)計(jì)GPT-4的參數(shù)將會(huì)達(dá)到2800億個(gè)。

與此同時(shí),在模型被訪問階段,ChatGPT對算力同樣有著“狂熱”需求:

據(jù)Similarweb數(shù)據(jù),ChatGPT官網(wǎng)在2023年1月27日-2月3日一周內(nèi)吸引的每日訪客數(shù)量高達(dá)2500萬。假設(shè)以目前的穩(wěn)定狀態(tài),每日每用戶提問約10個(gè)問題,則每日約有2.5億次咨詢量。

如果想要“消化”掉這2.5億次咨詢量,根據(jù)國盛證券測算,需要大量的A100 GPU芯片“連夜趕工”:

假設(shè)每個(gè)問題平均30字,單個(gè)字在A100 GPU上約消耗350ms,則一天共需消耗729,167個(gè)A100 GPU運(yùn)行小時(shí),對應(yīng)每天需要729,167/24=30,382片英偉達(dá)A100 GPU。

也就是說,目前每天2.5億次咨詢量,需要30,382片英偉達(dá)A100 GPU同時(shí)計(jì)算,才能把ChatGPT“喂飽”,以下是ChatGPT部分耗費(fèi)(電費(fèi)以0.08美元/kwh計(jì)算):

而以上圖表所顯示的,僅僅是2.5億咨詢量需求下,使用英偉達(dá)A100 GPU相關(guān)設(shè)備,ChatGPT所需要的算力成本。

其背后對能源的消耗,更是“觸目驚心”。

環(huán)球零碳研究中心曾粗略合計(jì)了ChatGPT全生命周期的碳足跡:自2022年11月30日運(yùn)行以來,其制造設(shè)備的碳排放量超過了33.41噸,模型訓(xùn)練碳排放超過552噸,運(yùn)行60天碳排放約為229.2噸。

也就是說上線兩個(gè)月的ChatGPT,全過程碳排放超過了814.61噸,而這,相當(dāng)于186個(gè)丹麥家庭每年消耗的能量。

現(xiàn)階段ChatGPT背后的大模型仍在迭代,每日訪問量仍在遞增,未來還會(huì)有更多的ChatGPT們涌現(xiàn)。彼時(shí),算力以及其背后的功耗還能顧得過來嗎?

對此,蘇媽表示了擔(dān)憂:在ISSCC 2023上,蘇媽表示根據(jù)目前計(jì)算效率每兩年提升2.2倍的規(guī)律,預(yù)計(jì)到2035年,如果想要算力達(dá)到十萬億億級,則需要的功率可達(dá)500MW,相當(dāng)于半個(gè)核電站能產(chǎn)生的功率,“這是極為離譜、不切合實(shí)際的”。

(2010-2040功率發(fā)展情況 圖源:2023 IEEE international Solid-State Circuits Conference)

為了達(dá)到這樣的效果,我們的計(jì)算效率起碼要每兩年提升2.2倍,才能匹配上2035年的算力需求。蘇媽坦言,盡管用上目前最先進(jìn)的計(jì)算技術(shù)、最先進(jìn)的芯片,也滿足不了ChatGPT們。

而當(dāng)ChatGPT吞噬完大量算力、能源,“吃飽喝足”之后,各國打的不再是算力之爭,而是“國運(yùn)之爭”:一旦搭載ChatGPT的人形機(jī)器人能夠大批量地上崗時(shí),吃人口紅利的國家不再有顯著的優(yōu)勢。

ChatGPT們,包括未來的人形機(jī)器人們,正對算力、能源“虎視眈眈”,同時(shí)對人類的威脅也不容小覷:往小了看,影響到個(gè)人職業(yè)發(fā)展,往大了看,牽扯到國家競爭力。

存算一體承載和釋放ChatGPT

而一切的一切,都得從打好算力之爭開始。

傳統(tǒng)的AI1.0時(shí)代的代表企業(yè),例如AMD已經(jīng)開始探尋新的出路:依靠系統(tǒng)級創(chuàng)新實(shí)現(xiàn)更大的突破。系統(tǒng)級創(chuàng)新,即從整體設(shè)計(jì)的上下游多個(gè)環(huán)節(jié)協(xié)同設(shè)計(jì)來完成性能的提升。

一個(gè)經(jīng)典案例是,在對模型算法層面使用創(chuàng)新數(shù)制(例如8位浮點(diǎn)數(shù)FP8)的同時(shí),在電路層對算法層面進(jìn)行優(yōu)化支持,最終實(shí)現(xiàn)計(jì)算層面數(shù)量級的效率提升:相比傳統(tǒng)的32位浮點(diǎn)數(shù)(FP32),進(jìn)行系統(tǒng)級創(chuàng)新的FP8則可以將計(jì)算效率提升30倍之多。而如果僅僅是優(yōu)化FP32計(jì)算單元的效率,無論如何也難以實(shí)現(xiàn)數(shù)量級的效率提升。

于是,為解決“如何用更少的電,輸出更高的算力”這一終極命題,業(yè)內(nèi)給出不少技術(shù)及方案:量子計(jì)算(量子芯片)、光機(jī)芯片、芯粒(Chiplet)、3D封裝、存算一體……。同時(shí)也有團(tuán)隊(duì)將這些技術(shù)進(jìn)行結(jié)合,以期達(dá)到系統(tǒng)級創(chuàng)新。

在這之中,現(xiàn)在能夠兼容CMOS工藝又能盡快量產(chǎn)的有芯粒、3D封裝、存算一體。而芯粒、存算一體是目前業(yè)內(nèi)普遍認(rèn)為,能夠突破 AI 算力困境,進(jìn)行架構(gòu)創(chuàng)新的兩條清晰路線。

浙商證券指出,面對未來潛在的算力指數(shù)增長,短期使用芯粒異構(gòu)技術(shù)加速各類應(yīng)用算法落地,長期來看,打造存算一體芯片,或?qū)⒊蔀槲磥硭懔ι壍臐撛诜绞健?/p>

(架構(gòu)創(chuàng)新路線 圖源:浙商證券)

芯粒異構(gòu)技術(shù)成為“種子”選手的原因是,該技術(shù)能夠突破先進(jìn)制程的封鎖,且大幅提升大型芯片的良率、降低設(shè)計(jì)成本、芯片制造成本。

而之所以說是短期,是因?yàn)樵摷夹g(shù)路徑需要犧牲一定的體積和功耗,導(dǎo)致其目前只能在基站、服務(wù)器、智能電車等領(lǐng)域廣泛使用。

為解決這一“小缺陷”,目前在學(xué)術(shù)界,已有團(tuán)隊(duì)選擇將芯粒異構(gòu)技術(shù)與存算一體架構(gòu)相融合,以期達(dá)到1+1>2的效果:

在ISSCC 2022上,復(fù)旦大學(xué)芯片與系統(tǒng)前沿技術(shù)研究院劉明院士團(tuán)隊(duì)提出多芯粒的存算一體集成芯片——COMB-MCM。

據(jù)團(tuán)隊(duì)表示,電路上COMB-MCM采用存算一體設(shè)計(jì),能夠降低功耗、提高系統(tǒng)算力。在存算一體的加持下,該芯片具有精度無損且支持非結(jié)構(gòu)化稀疏的自適應(yīng)能效調(diào)節(jié)特點(diǎn),也就補(bǔ)足了芯粒異構(gòu)技術(shù)的短板。

既是芯粒異構(gòu)技術(shù)的最佳拍檔之一,同時(shí)也是未來架構(gòu)創(chuàng)新路徑之一,存算一體為何能博得多方“歡心”?

這是因?yàn)榇嫠阋惑w成功打破了“三堵墻”:

在傳統(tǒng)馮·諾伊曼架構(gòu)之下,芯片的存儲(chǔ)、計(jì)算區(qū)域是分離的。計(jì)算時(shí),數(shù)據(jù)需要在兩個(gè)區(qū)域之間來回搬運(yùn),而隨著神經(jīng)網(wǎng)絡(luò)模型層數(shù)、規(guī)模以及數(shù)據(jù)處理量的不斷增長,數(shù)據(jù)已經(jīng)面臨“跑不過來”的境況,成為高效能計(jì)算性能和功耗的瓶頸,也就是業(yè)內(nèi)俗稱的“存儲(chǔ)墻”。

(存儲(chǔ)墻限制具體表現(xiàn) 圖源:浙商證券)

存儲(chǔ)墻相應(yīng)地也帶來了能耗墻、編譯墻(生態(tài)墻)的問題。例如編譯墻問題,是由于大量的數(shù)據(jù)搬運(yùn)容易發(fā)生擁塞,編譯器無法在靜態(tài)可預(yù)測的情況下對算子、函數(shù)、程序或者網(wǎng)絡(luò)做整體的優(yōu)化,只能手動(dòng)、一個(gè)個(gè)或者一層層對程序進(jìn)行優(yōu)化,耗費(fèi)了大量時(shí)間。

這“三堵墻”會(huì)導(dǎo)致算力無謂浪費(fèi):據(jù)統(tǒng)計(jì),在大算力的AI應(yīng)用中,數(shù)據(jù)搬運(yùn)操作消耗90%的時(shí)間和功耗,數(shù)據(jù)搬運(yùn)的功耗是運(yùn)算的650倍。

而存算一體能夠?qū)⒋鎯?chǔ)和計(jì)算融合,徹底消除了訪存延遲,并極大降低了功耗?;诖?,浙商證券報(bào)告指出,存算一體的優(yōu)勢包括但不限于:具有更大算力(1000TOPS以上)、具有更高能效(超過10-100TOPS/W)、降本增效(可超過一個(gè)數(shù)量級)······

存算一體,正在沖破三堵墻“解救”ChatGPT,加速算力升級。

大算力芯片需扎好馬步

除了架構(gòu)創(chuàng)新,芯片本身的升級迭代也非常重要。作為基石的底層芯片,需要足夠“大”,AI大算力應(yīng)用才能高樓平地起。

(ChatGPT研究框架 圖源:浙商證券)

那么AI大算力說的“大”到底是多大?

以2020年發(fā)布的GPT3預(yù)訓(xùn)練語言模型為例,采用的是2020年最先進(jìn)的英偉達(dá)A100 GPU,算力達(dá)到624 TOPS。2023年,隨著模型預(yù)訓(xùn)練階段模型迭代,又新增訪問階段井噴的需求,未來模型對于芯片算力的需求起碼要破千。

再例如自動(dòng)駕駛領(lǐng)域,根據(jù)財(cái)通證券研究所表明,自動(dòng)駕駛所需單個(gè)芯片的算力未來起碼1000+TOPS。

目前巨頭已開始卷上1000+TOPS的SoC,主要用于自動(dòng)駕駛領(lǐng)域:在2021年4月,英偉達(dá)就已經(jīng)發(fā)布了算力為1000TOPS的DRIVE Atlan芯片。到了今年,英偉達(dá)直接推出芯片Thor達(dá)到2000TOPS。 

故,大算力背景下,大算力芯片起碼得是1000+TOPS選手。

而在符合大算力條件下,也需要考慮到“用料”的功耗、造價(jià)問題。

目前,在存算一體架構(gòu)優(yōu)勢下,億鑄科技為當(dāng)前的算力、能耗困局,給出一條解題思路:選擇有著面積更小、微縮性好等特性的RRAM實(shí)現(xiàn)“同等能耗,更大算力;同等算力,更低能耗”,為各大數(shù)據(jù)中心、自動(dòng)駕駛等應(yīng)用領(lǐng)域“排憂解難”,在數(shù)字經(jīng)濟(jì)時(shí)代,實(shí)現(xiàn)綠色算力。

而在存算一體架構(gòu)下,傳統(tǒng)SRAM、閃存(Flash ) 均有著致命的缺陷,無法實(shí)現(xiàn)在大算力賽道的降本增效:

SRAM面積較大,占據(jù)了英偉達(dá)數(shù)據(jù)中心級GPU總邏輯面積的約50%。而一個(gè)A100 GPU的成本就在1萬美元以上,根據(jù)測算,成熟產(chǎn)品每GB SRAM內(nèi)存的成本將在100美元左右,最貴的存儲(chǔ)器當(dāng)屬SRAM。

除了成本難壓之外,SRAM也存在著不穩(wěn)定的問題。SRAM 的問題在于它的靜態(tài)電流大,當(dāng)大量的 SRAM 堆積在芯片上時(shí),會(huì)產(chǎn)生一種被稱為 DI/DT 的工程性問題(也就是電流在短時(shí)間內(nèi)大量變化),應(yīng)用落地極具挑戰(zhàn)性。

基于這兩點(diǎn)考慮,SRAM 并不適合做大算力場景。據(jù)了解,目前采用 SRAM 的這些公司大都在基于邊緣端做小算力的場景,比如語音識(shí)別、智能家居的喚醒、關(guān)鍵命令詞的識(shí)別等。

同時(shí),F(xiàn)lash也面臨著因微縮性差導(dǎo)致不穩(wěn)定的問題。傳統(tǒng)存儲(chǔ)器的局限性讓行業(yè)逐漸將目光逐漸轉(zhuǎn)向了新型存儲(chǔ)器:

比如近期英飛凌宣布其下一代 AURIX ?微控制器 ( MCU ) 將采用新型非易失性存儲(chǔ)器 ( NVM ) RRAM ( ReRAM ) ;

億鑄科技自2020成立以來,就專注于研發(fā)基于RRAM的全數(shù)字存算一體大算力AI芯片。

ChatGPT,需要存算一體的“解救”,也需要該架構(gòu)下,更物美價(jià)廉(微縮性好、單位面積小、成本低)的新型存儲(chǔ)器RRAM的大力支持。

億歐獲悉,億鑄科技今年將誕生首顆基于RRAM的存算一體AI大算力芯片。屆時(shí),或許“ChatGPT們”以及其下游的應(yīng)用能夠基于該芯片,更輕松地吸取算力,更快實(shí)現(xiàn)“智力”升維。

舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version