ITBear旗下自媒體矩陣:

NVIDIA利用AI來設(shè)計(jì)和開發(fā)GPU 最新Hopper已擁有1.3萬個(gè)電路實(shí)例

   時(shí)間:2022-07-11 11:23:30 來源:cnBeta編輯:星輝 發(fā)表評(píng)論無障礙通道

在過去幾年時(shí)間里,NVIDIA 深耕 AI 領(lǐng)域,他們的 GPU 不僅成為 HPC 的首選,也成為包括 AI 和深度學(xué)習(xí)生態(tài)系統(tǒng)在內(nèi)的數(shù)據(jù)中心的首選。在最新公布的開發(fā)者博文中,NVIDIA 宣布正利用 AI 來設(shè)計(jì)和開發(fā) GPU,其最新的 Hopper GPU 擁有將近 13000 個(gè)電路實(shí)例,而這些實(shí)例完全由 AI 創(chuàng)建。

在 NVIDIA Develope 上發(fā)布的新博客中,該公司重申了其優(yōu)勢以及它自己如何利用其 AI 功能來設(shè)計(jì)其迄今為止最強(qiáng)大的 GPU--Hopper H100。 NVIDIA GPU 主要是使用最先進(jìn)的 EDA(電子設(shè)計(jì)自動(dòng)化)工具設(shè)計(jì)的,但在利用 PrefixRL 方法的 AI 的幫助下,使用深度強(qiáng)化學(xué)習(xí)優(yōu)化并行前綴電路,公司可以設(shè)計(jì)更小、更快、更節(jié)能的芯片,同時(shí)提供更好的性能。

計(jì)算機(jī)芯片中的算術(shù)電路是使用邏輯門網(wǎng)絡(luò)(如 NAND、NOR 和 XOR)和電線構(gòu)成的。理想的電路應(yīng)具有以下特點(diǎn):

● 小:較小的區(qū)域,以便更多電路可以安裝在芯片上。

● 快速:降低延遲以提高芯片的性能。

● 消耗更少的功率:芯片的功耗更低。

NVIDIA 使用這種方法設(shè)計(jì)了近 13000 個(gè) AI 輔助電路,與同樣快速且功能相同的 EDA 工具相比,它們的面積減少了 25%。但是 PrefixRL 被提到是一項(xiàng)計(jì)算要求非常高的任務(wù),并且對(duì)于每個(gè) GPU 的物理模擬,它需要 256 個(gè) CPU 和超過 32,000 個(gè) GPU 小時(shí)。為了消除這個(gè)瓶頸,NVIDIA 開發(fā)了 Raptor,這是一個(gè)內(nèi)部分布式強(qiáng)化學(xué)習(xí)平臺(tái),它特別利用 NVIDIA 硬件進(jìn)行這種工業(yè)強(qiáng)化學(xué)習(xí)。

Raptor 具有多項(xiàng)可提高可擴(kuò)展性和訓(xùn)練速度的功能,例如作業(yè)調(diào)度、自定義網(wǎng)絡(luò)和 GPU 感知數(shù)據(jù)結(jié)構(gòu)。在 PrefixRL 的上下文中,Raptor 使得跨 CPU、GPU 和 Spot 實(shí)例的混合分配工作成為可能。

這個(gè)強(qiáng)化學(xué)習(xí)應(yīng)用程序中的網(wǎng)絡(luò)是多種多樣的,并且受益于以下幾點(diǎn)。

● Raptor 在 NCCL 之間切換以進(jìn)行點(diǎn)對(duì)點(diǎn)傳輸以將模型參數(shù)直接從學(xué)習(xí)器 GPU 傳輸?shù)酵评?GPU 的能力。

● Redis 用于異步和較小的消息,例如獎(jiǎng)勵(lì)或統(tǒng)計(jì)信息。

● 一種 JIT 編譯的 RPC,用于處理大容量和低延遲的請求,例如上傳體驗(yàn)數(shù)據(jù)。

NVIDIA 得出結(jié)論,將 AI 應(yīng)用于現(xiàn)實(shí)世界的電路設(shè)計(jì)問題可以在未來帶來更好的 GPU 設(shè)計(jì)。完整的論文在此處,您也可以在此處訪問開發(fā)人員博客以獲取更多信息。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭議稿件處理  |  English Version