摘要:國產(chǎn)自主意識爆發(fā),3.14,億鑄率先提出存算一體超異構,引領新一代技術潮流。
AI 3.0時代,國產(chǎn)自主意識爆發(fā)
ChatGPT自出世以來,在國內(nèi)AI界卷起千層浪:
先是百度、科大訊飛等AI大廠紛紛表示自己有著類ChatGPT能力;再是國家發(fā)布東數(shù)西算一體化算力服務平臺,支撐中國人工智能運算平臺急需的大算力服務。
而大算力的實現(xiàn),都需仰仗“大腦”AI芯片。
縱觀AI芯片在國內(nèi)的發(fā)展史,我們大致可以將AI芯片國產(chǎn)化分為幾個時代。
在AI芯片國產(chǎn)化1.0時代,繼Google推出ASIC芯片后,國內(nèi)寒武紀、靈汐、華為等國內(nèi)廠商陸續(xù)跟上腳步,針對云端AI應用推出ASIC架構芯片。
接著AI芯片國產(chǎn)化進入2.0時代。在看到以英偉達為代表的GPGPU架構在AI算力芯片上有著不錯的性能表現(xiàn)后,國內(nèi)多個廠商例如天數(shù)智芯、珠海芯動力、壁仞等紛紛布局GPGPU芯片,主打CUDA兼容,試探著AI算力芯片的極限。
在前兩個時代中,國產(chǎn)AI芯片廠商都在竭力順應時代潮流,前赴后繼地跟隨國際大廠的步伐,通過研發(fā)最新芯片解決AI算力芯片的挑戰(zhàn)。
現(xiàn)如今,隨著ChatGPT等大模型掀起熱潮,我們站在AI芯片國產(chǎn)化3.0時代的門口,面對越發(fā)嚴峻的地緣政治處境,國產(chǎn)芯片廠商自主意識更為強烈,希望能夠自發(fā)提出芯片解決方案。
例如,國內(nèi)AI大算力芯片企業(yè)億鑄科技,已為中國的AI大算力芯片一次又一次提出先進的解決方案:
先是在2020年,億鑄科技一成立就嘗試通過架構創(chuàng)新突破馮·諾伊曼瓶頸,成為首個研發(fā)基于ReRAM(RRAM)全數(shù)字存算一體AI大算力芯片的企業(yè),為解決國內(nèi)AI算力尤其是大算力的困局提供了新的方向。
再是今年3.14日,在《電子創(chuàng)新網(wǎng)》“從ChatGPT的角度聊聊存算一體AI大算力芯片”直播中,億鑄科技創(chuàng)始人熊大鵬博士首次提出“用存算一體超異構做AI大算力芯片”的技術思路。
億鑄科技多次提出新解法是因為,種種跡象表明,AI算力難題愈發(fā)嚴重,國產(chǎn)化AI芯片的處境越來越難。
先是算力本身就因摩爾定律失效在加速狂飆,每5-10個月就要翻倍:
(不同機器學習時代的算力增長趨勢 圖源:浙商證券研究所)
到2021年,全球計算設備算力總規(guī)模達到615EFlops,增速44%。浙商證券預測,2030年,算力有望增至56ZFlops,CAGR達到65%。而這還是ChatGPT還未降臨之時,正常的算力需求預測值。
(全球算力規(guī)模及增速 圖源:浙商證券研究所)
2022年底,ChatGPT來臨之后,無疑又將拔高算力的增長曲線:
根據(jù)通信世界數(shù)據(jù),ChatGPT的總算力消耗約為 3640PF-days (即假如每秒計算一千萬億次,需要計算3640天) ,需要 7-8個投資規(guī)模30億、算力500P的數(shù)據(jù)中心才能支撐運行。
而這才是參數(shù)規(guī)模1750億的GPT-3,除此之外還有參數(shù)5620億的PaLM-E……彼時,算力以及其背后的功耗還能顧得過來嗎?
AI算力需求如脫韁的野馬,但FPGA、ASIC、GPGPU等芯片本身,已苦于先進制程久矣。據(jù)芯粒說表示,目前芯片先進制程升級面臨著性能極限、技術極限、成本極限。成本極限具體來說就是,到了5nm以下,建造一座先進制程的晶圓廠動輒需要上百億美元的投入。
錢是花了,工藝是卷到頭了,但能效比提升有限:
傳統(tǒng)架構下,由于數(shù)據(jù)需要頻繁地在存儲、計算單元間來回跑,隨著數(shù)據(jù)越增越多,“存儲墻”、 “能耗墻”、“編譯墻”等問題也愈發(fā)嚴重。
現(xiàn)如今,這“三堵墻”已導致大量算力無謂浪費:據(jù)統(tǒng)計,在大算力的AI應用中,數(shù)據(jù)搬運操作消耗90%的時間和功耗,數(shù)據(jù)搬運的功耗是運算的650倍。
ChatGPT們正提出“極為離譜、不切實際”的算力需求,而芯片們又陷入先進制程升級瀕臨極限、能效比提升受阻等困境,時代正呼吁著新鮮的血液注入AI大算力芯片。
突破天花板的底氣
億鑄科技自發(fā)提出的存算一體架構、存算一體超異構計算皆能為AI大算力困局“排憂解難”:
存算一體架構,將存儲和計算的融合,能夠打破傳統(tǒng)架構下的三堵墻,徹底消除訪存延遲,并極大降低功耗。同時,由于計算完全耦合于存儲,因此可以開發(fā)更細粒度的并行性,獲得更高的性能和能效。
超異構計算,能夠把更多的異構計算整合重構,從而各類型處理器間充分地、靈活地進行數(shù)據(jù)交互而形成的計算。
簡單來說,就是結合DSA、GPU、CPU、CIM等多個類型引擎的優(yōu)勢,實現(xiàn)性能的飛躍:
? DSA負責相對確定的大計算量的工作;
? GPU負責應用層有一些性能敏感的并且有一定彈性的工作;
? CPU啥都能干,負責兜底;
? CIM就是存內(nèi)計算,超異構和普通異構的主要區(qū)別就是加入了CIM,由此可以實現(xiàn)同等算力,更低能耗;同等能耗,更高算力。另外,CIM由于器件的優(yōu)勢,能負擔比DSA更大的算力。
億鑄科技創(chuàng)始人、存算一體 AI 大算力芯片的開拓者熊大鵬博士表示,其好處在兩個方面:一是在系統(tǒng)層,能夠把整體的效率做到最優(yōu);二是在軟件層,能夠實現(xiàn)跨平臺架構統(tǒng)一。
億鑄選擇將兩大技術結合,即“存算一體超異構”的想法,與蘇媽的“系統(tǒng)級創(chuàng)新”不謀而合:在ISSCC 2023,蘇媽提出系統(tǒng)級創(chuàng)新概念,即從整體設計的上下游多個環(huán)節(jié)協(xié)同設計來完成芯片性能的提升,并給出使用該概念實現(xiàn)數(shù)量級的效率提升案例。
也就是說,若是將存算一體、Chiplet(芯粒)、3D封裝等技術同步使用,很有可能帶來數(shù)量級的效率提升,從而突破性能瓶頸。
億鑄提出這一極具創(chuàng)新度的構想,也是因為其底氣十足。億鑄科技擁有實力雄厚的研發(fā)、工程及顧問團隊:
其核心研發(fā)團隊成員均為來自國內(nèi)芯片大廠的資深專家,畢業(yè)于斯坦福大學、哈佛大學、上海交通大學、復旦大學和中國科學技術大學等。研發(fā)能力覆蓋工藝器件、架構設計、電路設計和軟件生態(tài)等全鏈條;
其工程團隊核心成員平均擁有25年以上的高端集成電路設計和量產(chǎn)經(jīng)驗,有著豐富的應用和產(chǎn)品化實戰(zhàn)經(jīng)歷。
基于此,作為首發(fā)存算一體超異構概念的億鑄科技,提出了自己的技術暢想:
若能把新型憶阻器技術(RRAM)、存算一體架構、芯粒技術(Chiplet)、3D封裝等技術結合,將會實現(xiàn)更大的有效算力、放置更多的參數(shù)、實現(xiàn)更高的能效比、更好的軟件兼容性、從而抬高AI大算力芯片的發(fā)展天花板。
(關于存算一體+超異構 做AI大算力芯片的技術暢想 圖源:億鑄科技)
一方面,ChatGPT等大模型的發(fā)展對算力提出了史無前例的要求,吞噬著算力與能源;
另一方面,ChatGPT也為存算一體架構、超異構等技術帶來核級推動力。無論是大廠和初創(chuàng)公司,都在為突破算力瓶頸“奮力一搏”?;趦|鑄科技有最適合大算力的器件(RRAM),再加上3D封裝和Chiplet等技術,熊大鵬博士表示,億鑄科技能夠為解決存儲墻、能耗墻問題帶來殺手級的硬件解決方案。
在摩爾定律幾近終結、ASIC、FPGA以及GPGPU架構能效比難以提升的當下,億鑄科技率先提出“存算一體超異構架構” 這一全新的技術發(fā)展路徑,為我國AI大算力芯片進一步發(fā)展,增添了新的動能。