ITBear旗下自媒體矩陣:

英特爾Sapphire Rapids架構(gòu)重磅創(chuàng)新,樹立下一代數(shù)據(jù)中心處理器標準

   時間:2021-08-20 14:04:34 來源:互聯(lián)網(wǎng)編輯:星輝 發(fā)表評論無障礙通道

回望過去一年,科技處于所有人如何溝通、工作、娛樂和應(yīng)對新冠肺炎疫情的核心。事實證明,強大的計算能力至關(guān)重要。展望未來,我們面臨龐大的算力需求。

在2021年英特爾架構(gòu)日活動上,英特爾重磅介紹其全新引領(lǐng)行業(yè)標準的數(shù)據(jù)中心架構(gòu)Sapphire Rapids,搭載了全新的性能核以及多種加速器引擎。同時詳細介紹了英特爾全新的基礎(chǔ)設(shè)施處理器(IPU)以及超凡的數(shù)據(jù)中心GPU架構(gòu)Ponte Vecchio,其具備英特爾迄今為止最高的計算密度。這些新架構(gòu)將為即將推出的高性能產(chǎn)品注入動力,并為英特爾的下一個創(chuàng)新時代奠定基礎(chǔ),以滿足世界對高計算能力日益增長的需求。

下一代英特爾至強可擴展處理器(代號為“ Sapphire Rapids ”)

Sapphire Rapids代表了業(yè)界在數(shù)據(jù)中心平臺上的一大進步。該處理器可在不斷變化且要求日益增高的數(shù)據(jù)中心使用中提供可觀的計算性能,并對工作負載進行優(yōu)化,以在云、微服務(wù)和AI等彈性計算模型上提供高性能。

Sapphire Rapids的核心是一個分區(qū)塊、模塊化的SoC架構(gòu),采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術(shù),在保持單晶片CPU接口優(yōu)勢的同時,具有顯著的可擴展性。Sapphire Rapids提供了一個單一、平衡的統(tǒng)一內(nèi)存訪問架構(gòu),每個線程均可完全訪問緩存、內(nèi)存和I/O等所有單元上的全部資源,由此實現(xiàn)整個SoC具有一致的低時延和高橫向帶寬。

Sapphire Rapids基于Intel 7制程工藝技術(shù),采用英特爾全新的性能核微架構(gòu),該架構(gòu)旨在提高速度,突破低時延和單線程應(yīng)用性能的極限。

Sapphire Rapids提供業(yè)界廣泛的數(shù)據(jù)中心相關(guān)加速器,包括新的指令集架構(gòu)和集成IP,以在各種客戶工作負載和使用中提升性能。新的內(nèi)置加速器引擎包括:

· 英特爾 ® 加速器接口架構(gòu)指令集( AIA ——支持對加速器和設(shè)備的有效調(diào)度、同步和信號傳遞

· 英特爾 ®高級矩陣擴展 AMX ——Sapphire Rapids中引入的新加速引擎,可為深度學(xué)習(xí)算法核心的Tensor處理提供大幅加速。其可以在每個周期內(nèi)進行2000次 INT8運算和1000次 BFP16運算,實現(xiàn)計算能力的大幅提升。使用早期的Sapphire Rapids 芯片,與使用英特爾 AVX-512 VNNI 指令的相同微基準測試版本相比,使用新的英特爾AMX 指令集擴展優(yōu)化的內(nèi)部矩陣乘法微基準測試的運行速度提高了 7 倍以上,為 AI 工作負載中的訓(xùn)練和推理上提供了顯著的性能提升

· 英特爾 ® 數(shù)據(jù)流加速器 DSA ——旨在卸載最常見的數(shù)據(jù)移動任務(wù),這些任務(wù)會導(dǎo)致數(shù)據(jù)中心規(guī)模部署中的開銷。英特爾DSA改進了對這些開銷任務(wù)的處理,以提供更高的整體工作負載性能,并可以在CPU、內(nèi)存和緩存以及所有附加的內(nèi)存、存儲和網(wǎng)絡(luò)設(shè)備之間移動數(shù)據(jù)

這些架構(gòu)上的改進使Sapphire Rapids能夠為云、數(shù)據(jù)中心、網(wǎng)絡(luò)和智能邊緣中廣泛的工作負載和部署模式提供開箱即用的性能。該處理器旨在通過先進的內(nèi)存和下一代I/O,包括PCIe 5.0、CXL 1.1、DDR5和HBM技術(shù),來推動行業(yè)技術(shù)轉(zhuǎn)型。

基礎(chǔ)設(shè)施處理器( IPU

IPU是一種可編程的網(wǎng)絡(luò)設(shè)備,旨在使云和通信服務(wù)提供商減少在中央處理器(CPU)方面的開銷,并充分釋放性能價值。

英特爾基于IPU的架構(gòu)有以下主要優(yōu)勢:

· 基礎(chǔ)設(shè)施功能和客戶工作負載的強分離使客戶能夠完全控制CPU

· 云運營商可以將基礎(chǔ)設(shè)施任務(wù)卸載到IPU上,更大化實現(xiàn)CPU利用率和收益

· IPU可以管理存儲流量,減少時延,同時通過無磁盤服務(wù)器架構(gòu)有效利用存儲容量。借助IPU,客戶可以通過一個安全、可編程、穩(wěn)定的解決方案更好地利用資源,使其能夠平衡處理與存儲

英特爾認識到“單一產(chǎn)品無法滿足所有需求”,因此對其IPU架構(gòu)進行了更深入的研究,并推出了以下IPU家族的新成員——均為應(yīng)對多樣化數(shù)據(jù)中心的復(fù)雜性而設(shè)計。

Mount Evans 是英特爾的首個ASIC IPU。Mount Evans是與一家一流的云服務(wù)提供商共同設(shè)計和開發(fā)的,它融合了多代FPGA SmartNIC的經(jīng)驗。

· 超大規(guī)模就緒,提供高性能網(wǎng)絡(luò)和存儲虛擬化卸載,同時保持高度控制

· 提供業(yè)界一流的可編程數(shù)據(jù)包處理引擎,支持防火墻和虛擬路由等用例

· 使用硬件加速的NVMe存儲接口,該接口擴展自英特爾傲騰技術(shù),以模擬NVMe設(shè)備

· 采用英特爾®高性能Quick Assist技術(shù),部署高級加密和壓縮加速

· 可使用現(xiàn)有普遍部署的DPDK、SPDK等軟件環(huán)境進行編程,并且可以采用英特爾Barefoot Switch部門開創(chuàng)的P4編程語言來配置管線

Oak Springs Canyon 是一個IPU參考平臺,基于英特爾®至強 D 處理器(Intel® Xeon-D)和擁有業(yè)界領(lǐng)先的功率、效率、性能的英特爾® Agilex™ FPGA構(gòu)建:

· 卸載Open Virtual Switch(OVS)等網(wǎng)絡(luò)虛擬化功能以及NVMe over Fabric和 RoCE v2等存儲功能,并提供硬化的加密模塊,提供更安全、高速的2x 100Gb以太網(wǎng)網(wǎng)絡(luò)接口

· 讓英特爾的合作伙伴和客戶能夠使用英特爾®開放式FPGA開發(fā)堆棧(英特爾®OFS)定制其解決方案,這是一款可擴展、開源軟件和硬件基礎(chǔ)設(shè)施

· 使用現(xiàn)有普遍部署的軟件環(huán)境進行編程,包括已在x86上優(yōu)化的DPDK和SPDK

英特爾 N6000 加速開發(fā)平臺 ,代號為“Arrow Creek”,是專為搭載至強服務(wù)器設(shè)計的SmartNIC。其特性包括:

· 在功耗、效率和性能方面處于行業(yè)領(lǐng)先地位的英特爾Agilex FPGA。用于高性能的100GB網(wǎng)絡(luò)加速的英特爾以太網(wǎng)800系列控制器

· 支持多種基礎(chǔ)設(shè)施工作負載,使通信服務(wù)提供商(CoSP)能夠提供靈活的加速工作負載,如Juniper Contrail、OVS和SRv6,它以英特爾PAC-N3000的成功為基礎(chǔ),該產(chǎn)品已在部分業(yè)界一流的CoSP中部署。

Xe  HPC Ponte Vecchio

Ponte Vecchio基于Xe HPC微架構(gòu),提供業(yè)界領(lǐng)先的每秒浮點運算次數(shù)(FLOPs)和計算密度,以加速AI、HPC和高級分析工作負載。英特爾公布了Xe HPC微架構(gòu)的IP模塊信息;包括每個Xe核的8個矢量和矩陣引擎(稱為XMX Xe Matrix eXtensions);切片和堆棧信息;以及包括計算、基礎(chǔ)和Xe Link單元的處理節(jié)點的單元信息。在架構(gòu)日上,英特爾表示,早期的 Ponte Vecchio 芯片展示了領(lǐng)先的性能,在流行的 AI 基準測試中創(chuàng)造了推理和訓(xùn)練吞吐量的行業(yè)記錄。1英特爾A0芯片性能提供了高于45 TFLOPS的FP32吞吐量,高于5 TBps的內(nèi)存結(jié)構(gòu)帶寬,以及高于2 TBps的連接帶寬。同時,英特爾分享了一段演示視頻,展示了ResNet推理性能超過43,000張圖像/秒和超過每秒3400張圖像/秒的ResNet訓(xùn)練,并且這兩項性能都有望實現(xiàn)行業(yè)領(lǐng)先。1

Ponte Vecchio由多個復(fù)雜的設(shè)計組成,這些設(shè)計以單元形式呈現(xiàn),然后通過嵌入式多芯片互連橋接(EMIB)單元進行組裝,實現(xiàn)單元之間的低功耗、高速連接。這些設(shè)計均被集成于Foveros封裝中,為提高功率和互連密度形成有源芯片的3D堆疊。高速MDFI互連允許1到2個堆棧的擴展。

計算單元是一個密集的多個Xe內(nèi)核,是Ponte Vecchio的核心。

· 一塊單元有8個Xe內(nèi)核,總共有4MB一級緩存,是提供高效計算的關(guān)鍵

· 基于臺積電先進的N5制程工藝技術(shù)

· 英特爾已通過設(shè)計基礎(chǔ)設(shè)施設(shè)置和工具流程以及方法,為測試和驗證該節(jié)點的單元鋪平了道路

· 該單元具有極其緊湊的36微米凸點間距,可與Foveros進行3D堆疊

基礎(chǔ)單元 是Ponte Vecchio的連接組織。它是基于Intel 7制程工藝的大型芯片,針對Foveros技術(shù)進行了優(yōu)化。

· 基礎(chǔ)單元是所有復(fù)雜的 I/O 和高帶寬組件與 SoC 基礎(chǔ)設(shè)施——PCIe Gen5、HBM2e 內(nèi)存、連接不同單元MDFI鏈路和 EMIB橋接

· 采用高2D互連的超高帶寬3D連接時延很低,使其成為一臺無限連接的機器

· 英特爾技術(shù)開發(fā)團隊致力于滿足帶寬、凸點間距和信號完整性方面的要求

X e   鏈路單元 提供了GPU之間的連接,支持每單元8個鏈路。

· 對HPC和AI計算的擴展至關(guān)重要

· 旨在實現(xiàn)支持高達90G的更高速SerDes

· 該單元已被添加到“極光”(Aurora)百億億次級超級計算機的擴展解決方案中

Ponte Vecchio已走下生產(chǎn)線進行上電驗證,并已開始向客戶提供限量樣品。Ponte Vecchio預(yù)計將于2022年面向HPC和AI市場發(fā)布。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version