ITBear旗下自媒體矩陣:

大模型時代:算力浪費竟超50%!百度AI計算部負(fù)責(zé)人揭秘算力成本之謎

   時間:2024-09-15 13:35:32 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

【ITBEAR】9月15日消息,在AI大模型時代,算力成本已成為業(yè)界關(guān)注的焦點。百度系統(tǒng)架構(gòu)師、百度智能云AI計算部負(fù)責(zé)人王雁鵬近日分享了關(guān)于如何有效降低萬卡集群算力開支的見解,提出了五大解決方案。

王雁鵬指出,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,GPU集群規(guī)模已達(dá)萬卡級別,這使得大模型時代的算力成本遠(yuǎn)超人力成本。為了應(yīng)對這一挑戰(zhàn),他提出了包括搭載RDMA網(wǎng)絡(luò)、采用自動并行策略、確保訓(xùn)練穩(wěn)定性、動態(tài)分配算力以及實現(xiàn)多芯異構(gòu)混訓(xùn)在內(nèi)的五大策略。

據(jù)ITBEAR了解,RDMA網(wǎng)絡(luò)的應(yīng)用在AI集群中顯得尤為重要。與傳統(tǒng)的IB網(wǎng)絡(luò)相比,RDMA網(wǎng)絡(luò)更適合AI集群的需求,它優(yōu)先考慮吞吐量而非延遲,從而有效提升了AI集群的帶寬有效率和模型性能。

此外,王雁鵬還強調(diào)了自動并行策略在AI集群演進(jìn)中的重要性。通過采用“邊計算邊通信”的方式和顯存優(yōu)化的切分策略,百度成功提高了模型性能,甚至超越了開源模型和人工調(diào)優(yōu)模型的效果。

在談到訓(xùn)練穩(wěn)定性時,王雁鵬表示,穩(wěn)定不間斷的任務(wù)運行對于AI訓(xùn)練至關(guān)重要。百度通過一系列技術(shù)手段,如Hang檢測、慢節(jié)點檢測等,確保了文心一言大模型的有效訓(xùn)練時長比例超過99%。

針對資源利用率問題,王雁鵬提出了訓(xùn)練一體的解決方案。通過動態(tài)分配算力流量和資源,百度百舸異構(gòu)計算平臺成功將資源利用率從50%提升至90%,從而有效應(yīng)對了主流模型訓(xùn)練中的劣勢。

最后,王雁鵬探討了多芯異構(gòu)混訓(xùn)在解決算力卡脖子問題中的關(guān)鍵作用。他提出,通過搭建跨芯溝通庫和采用Accelerator抽象設(shè)計方法,百度實現(xiàn)了在千卡和萬卡規(guī)模下性能損失的最小化。

展望未來,王雁鵬透露百度將繼續(xù)在三個核心技術(shù)上尋求突破:實現(xiàn)更高效的拓?fù)浜蛽砣刂?、擴大跨地域RDMA網(wǎng)絡(luò)范圍以及進(jìn)一步提升訓(xùn)練故障恢復(fù)速度。這些技術(shù)突破將為百度在未來十萬卡級別的AI集群競爭中占據(jù)有利地位提供有力支持。

關(guān)鍵詞:#百度# #AI大模型# #算力成本# #RDMA網(wǎng)絡(luò)# #多芯異構(gòu)混訓(xùn)#

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version