ITBear旗下自媒體矩陣:

基于GPT-3的大語言模型訓(xùn)練任務(wù)刷新記錄:NVIDIA H100加速卡僅用11分鐘

   時(shí)間:2023-06-28 12:11:23 來源:ITBEAR編輯:茹茹 發(fā)表評(píng)論無障礙通道

【ITBEAR科技資訊】6月28日消息,AI技術(shù)的蓬勃發(fā)展使得NVIDIA的顯卡成為市場(chǎng)上備受矚目的熱門產(chǎn)品。尤其是高端的H100加速卡,其售價(jià)超過25萬元,然而市場(chǎng)供不應(yīng)求。該加速卡的性能也非常驚人,最新的AI測(cè)試結(jié)果顯示,基于GPT-3的大語言模型訓(xùn)練任務(wù)刷新了記錄,完成時(shí)間僅為11分鐘。

據(jù)ITBEAR科技資訊了解,機(jī)器學(xué)習(xí)及人工智能領(lǐng)域的開放產(chǎn)業(yè)聯(lián)盟MLCommons發(fā)布了最新的MLPerf基準(zhǔn)評(píng)測(cè)。其中包括8個(gè)負(fù)載測(cè)試,其中就包含基于GPT-3開源模型的LLM大語言模型測(cè)試,這對(duì)于評(píng)估平臺(tái)的AI性能提出了很高的要求。

參與測(cè)試的NVIDIA平臺(tái)由896個(gè)Intel至強(qiáng)8462Y+處理器和3584個(gè)H100加速卡組成,是所有參與平臺(tái)中唯一能夠完成所有測(cè)試的。并且,NVIDIA平臺(tái)刷新了記錄。在關(guān)鍵的基于GPT-3的大語言模型訓(xùn)練任務(wù)中,H100平臺(tái)僅用了10.94分鐘,與之相比,采用96個(gè)至強(qiáng)8380處理器和96個(gè)Habana Gaudi2 AI芯片構(gòu)建的Intel平臺(tái)完成同樣測(cè)試所需的時(shí)間為311.94分鐘。

H100平臺(tái)的性能幾乎是Intel平臺(tái)的30倍,當(dāng)然,兩套平臺(tái)的規(guī)模存在很大差異。但即便只使用768個(gè)H100加速卡進(jìn)行訓(xùn)練,所需時(shí)間仍然只有45.6分鐘,遠(yuǎn)遠(yuǎn)超過采用Intel平臺(tái)的AI芯片。

H100加速卡采用GH100 GPU核心,定制版臺(tái)積電4nm工藝制造,擁有800億個(gè)晶體管。它集成了18432個(gè)CUDA核心、576個(gè)張量核心和60MB的二級(jí)緩存,支持6144-bit HBM高帶寬內(nèi)存以及PCIe 5.0接口。

H100計(jì)算卡提供SXM和PCIe 5.0兩種樣式。SXM版本擁有15872個(gè)CUDA核心和528個(gè)Tensor核心,而PCIe 5.0版本則擁有14952個(gè)CUDA核心和456個(gè)Tensor核心。該卡的功耗最高可達(dá)700W。

就性能而言,H100加速卡在FP64/FP32計(jì)算方面能夠達(dá)到每秒60萬億次的計(jì)算能力,而在FP16計(jì)算方面達(dá)到每秒2000萬億次的計(jì)算能力。此外,它還支持TF32計(jì)算,每秒可達(dá)到1000萬億次,是A100的三倍。而在FP8計(jì)算方面,H100加速卡的性能可達(dá)每秒4000萬億次,是A100的六倍。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭議稿件處理  |  English Version