【ITBEAR】9月15日消息,在AI大模型時代,算力成本已成為業(yè)界關(guān)注的焦點。百度系統(tǒng)架構(gòu)師、百度智能云AI計算部負(fù)責(zé)人王雁鵬近日分享了關(guān)于如何有效降低萬卡集群算力開支的見解,提出了五大解決方案。
王雁鵬指出,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,GPU集群規(guī)模已達(dá)萬卡級別,這使得大模型時代的算力成本遠(yuǎn)超人力成本。為了應(yīng)對這一挑戰(zhàn),他提出了包括搭載RDMA網(wǎng)絡(luò)、采用自動并行策略、確保訓(xùn)練穩(wěn)定性、動態(tài)分配算力以及實現(xiàn)多芯異構(gòu)混訓(xùn)在內(nèi)的五大策略。
據(jù)ITBEAR了解,RDMA網(wǎng)絡(luò)的應(yīng)用在AI集群中顯得尤為重要。與傳統(tǒng)的IB網(wǎng)絡(luò)相比,RDMA網(wǎng)絡(luò)更適合AI集群的需求,它優(yōu)先考慮吞吐量而非延遲,從而有效提升了AI集群的帶寬有效率和模型性能。
此外,王雁鵬還強調(diào)了自動并行策略在AI集群演進(jìn)中的重要性。通過采用“邊計算邊通信”的方式和顯存優(yōu)化的切分策略,百度成功提高了模型性能,甚至超越了開源模型和人工調(diào)優(yōu)模型的效果。
在談到訓(xùn)練穩(wěn)定性時,王雁鵬表示,穩(wěn)定不間斷的任務(wù)運行對于AI訓(xùn)練至關(guān)重要。百度通過一系列技術(shù)手段,如Hang檢測、慢節(jié)點檢測等,確保了文心一言大模型的有效訓(xùn)練時長比例超過99%。
針對資源利用率問題,王雁鵬提出了訓(xùn)練一體的解決方案。通過動態(tài)分配算力流量和資源,百度百舸異構(gòu)計算平臺成功將資源利用率從50%提升至90%,從而有效應(yīng)對了主流模型訓(xùn)練中的劣勢。
最后,王雁鵬探討了多芯異構(gòu)混訓(xùn)在解決算力卡脖子問題中的關(guān)鍵作用。他提出,通過搭建跨芯溝通庫和采用Accelerator抽象設(shè)計方法,百度實現(xiàn)了在千卡和萬卡規(guī)模下性能損失的最小化。
展望未來,王雁鵬透露百度將繼續(xù)在三個核心技術(shù)上尋求突破:實現(xiàn)更高效的拓?fù)浜蛽砣刂?、擴大跨地域RDMA網(wǎng)絡(luò)范圍以及進(jìn)一步提升訓(xùn)練故障恢復(fù)速度。這些技術(shù)突破將為百度在未來十萬卡級別的AI集群競爭中占據(jù)有利地位提供有力支持。
關(guān)鍵詞:#百度# #AI大模型# #算力成本# #RDMA網(wǎng)絡(luò)# #多芯異構(gòu)混訓(xùn)#