滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

大模型時代：算力浪費竟超50%！百度AI計算部負(fù)責(zé)人揭秘算力成本之謎

時間：2024-09-15 13:35:32 來源：ITBEAR編輯：快訊團隊 發(fā)表評論無障礙通道

【ITBEAR】9月15日消息，在AI大模型時代，算力成本已成為業(yè)界關(guān)注的焦點。百度系統(tǒng)架構(gòu)師、百度智能云AI計算部負(fù)責(zé)人王雁鵬近日分享了關(guān)于如何有效降低萬卡集群算力開支的見解，提出了五大解決方案。

王雁鵬指出，隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，GPU集群規(guī)模已達(dá)萬卡級別，這使得大模型時代的算力成本遠(yuǎn)超人力成本。為了應(yīng)對這一挑戰(zhàn)，他提出了包括搭載RDMA網(wǎng)絡(luò)、采用自動并行策略、確保訓(xùn)練穩(wěn)定性、動態(tài)分配算力以及實現(xiàn)多芯異構(gòu)混訓(xùn)在內(nèi)的五大策略。

據(jù)ITBEAR了解，RDMA網(wǎng)絡(luò)的應(yīng)用在AI集群中顯得尤為重要。與傳統(tǒng)的IB網(wǎng)絡(luò)相比，RDMA網(wǎng)絡(luò)更適合AI集群的需求，它優(yōu)先考慮吞吐量而非延遲，從而有效提升了AI集群的帶寬有效率和模型性能。

此外，王雁鵬還強調(diào)了自動并行策略在AI集群演進(jìn)中的重要性。通過采用“邊計算邊通信”的方式和顯存優(yōu)化的切分策略，百度成功提高了模型性能，甚至超越了開源模型和人工調(diào)優(yōu)模型的效果。

在談到訓(xùn)練穩(wěn)定性時，王雁鵬表示，穩(wěn)定不間斷的任務(wù)運行對于AI訓(xùn)練至關(guān)重要。百度通過一系列技術(shù)手段，如Hang檢測、慢節(jié)點檢測等，確保了文心一言大模型的有效訓(xùn)練時長比例超過99%。

針對資源利用率問題，王雁鵬提出了訓(xùn)練一體的解決方案。通過動態(tài)分配算力流量和資源，百度百舸異構(gòu)計算平臺成功將資源利用率從50%提升至90%，從而有效應(yīng)對了主流模型訓(xùn)練中的劣勢。

最后，王雁鵬探討了多芯異構(gòu)混訓(xùn)在解決算力卡脖子問題中的關(guān)鍵作用。他提出，通過搭建跨芯溝通庫和采用Accelerator抽象設(shè)計方法，百度實現(xiàn)了在千卡和萬卡規(guī)模下性能損失的最小化。

展望未來，王雁鵬透露百度將繼續(xù)在三個核心技術(shù)上尋求突破：實現(xiàn)更高效的拓?fù)浜蛽砣刂?、擴大跨地域RDMA網(wǎng)絡(luò)范圍以及進(jìn)一步提升訓(xùn)練故障恢復(fù)速度。這些技術(shù)突破將為百度在未來十萬卡級別的AI集群競爭中占據(jù)有利地位提供有力支持。

關(guān)鍵詞：#百度# #AI大模型# #算力成本# #RDMA網(wǎng)絡(luò)# #多芯異構(gòu)混訓(xùn)#

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

vivo X100 Ultra OriginOS 5新系統(tǒng)更新：相機、桌面功能全面升級！

01-07

零一萬物聯(lián)手阿里云辟謠收購傳聞，聚焦大模型應(yīng)用落地

01-07

零一萬物官方否認(rèn)阿里收購傳聞，2025年聚焦大模型應(yīng)用落地

01-07

零一萬物否認(rèn)阿里收購傳言，強調(diào)深度合作與戰(zhàn)略調(diào)整進(jìn)行中

三言科技 1月7日消息，今日凌晨，零一萬物就阿里收購傳聞發(fā)文辟謠。零一萬物發(fā)文稱1月2日，零一萬物與阿里云聯(lián)合宣布啟動“產(chǎn)業(yè)大模型實驗室”，強強聯(lián)合的新型合作模式包含雙方在技術(shù)、算力、業(yè)務(wù)、人才等板塊技術(shù)共…

01-07

英偉達(dá)與臺積電聯(lián)手，硅光子學(xué)能否為AI芯片帶來新飛躍？

01-07

端邊云協(xié)同新突破：AI設(shè)備如何隨時接入云端大模型能力？

火山引擎邊緣智能技術(shù)負(fù)責(zé)人謝皓解釋道，端側(cè)主要提供了OneSDK一站式解決方案，使得端側(cè)的嵌入式設(shè)備也能用上大模型；邊緣側(cè)上線了大模型網(wǎng)關(guān)，提升了大模型調(diào)用過程的效率和穩(wěn)定性；中心側(cè)會編排一些智能體，降低大…

01-07

字節(jié)跳動AI算力采購謠言大起底，真相究竟如何？

我跟算力產(chǎn)業(yè)的一些朋友，經(jīng)常在微信上就這些小作文吐槽，大家都很想寫個辟謠文。事實：字節(jié)跳動的任何管理層從未在任何場合（包括內(nèi)部會議和郵件當(dāng)中）提到"all-inAI"；只有百度的李彥宏提過all-in A…

01-07

零一萬物預(yù)訓(xùn)練團隊賣阿里？李開復(fù)：完全是謠言！

對于上述報道，零一萬物向三言回應(yīng)：無語了，很多事實錯誤。此外，也有網(wǎng)友在X發(fā)文稱“第一個大模型公司倒了，01萬物散伙了，卡和與訓(xùn)練團隊賣給阿里了” 去年11月份有報道稱，零一萬物正在計劃將其AI應(yīng)用公司進(jìn)…

01-07

愛奇藝狀告MiniMax，AI視頻大模型訓(xùn)練素材侵權(quán)案引關(guān)注

三言科技1月6日消息，今日，據(jù)“娛樂資本論”報道，愛奇藝起訴希宇科技（MiniMax）旗下海螺AI侵犯著作權(quán)，目前正在走司法程序。MiniMax尚未回應(yīng)此事。此前，有報道稱愛奇藝已向上海市徐匯區(qū)人民法院提起…

01-07

吉視傳媒攜手東北虎豹國家公園，共繪生態(tài)新篇，樹立保護新標(biāo)桿！

01-06

A500ETF集體跌破凈值，成交放量機構(gòu)抄底熱情高漲？

01-06

vivo X100 Ultra升級OriginOS 5，相機功能大增，新增動態(tài)水印等亮點

01-06

阿里云或?qū)⑹召徚阋蝗f物預(yù)訓(xùn)練團隊，60人精英團隊成焦點？

01-06

健康品牌融資、零售巨頭動作頻頻，時尚芭莎迎來新主編

01-06

蘋果AI通知功能頻出錯，BBC呼吁緊急解決信任危機

01-06

點擊查看更多 +

全站最新

BOE(京東方)聯(lián)手故宮再度打造沉浸式數(shù)字展引領(lǐng)數(shù)字藝術(shù)文化新篇章

抖音1月6日帶貨日榜揭曉：誰領(lǐng)跑？與輝同行以8421萬銷售額奪冠

歐加系手機超聲波指紋應(yīng)用進(jìn)展：目前僅規(guī)劃高配機型

特斯拉Model S充電站突發(fā)火災(zāi)，調(diào)查進(jìn)行中車輛已毀

深圳首家市內(nèi)免稅店定了！深業(yè)上城將迎來免稅購物新體驗

安卓平板新體驗：三指輕點手勢自定義功能亮相

熱門內(nèi)容

本欄最新

vivo X100 Ultra OriginOS 5新系統(tǒng)更新：相機、桌面功能全面升級！

零一萬物聯(lián)手阿里云辟謠收購傳聞，聚焦大模型應(yīng)用落地

零一萬物官方否認(rèn)阿里收購傳聞，2025年聚焦大模型應(yīng)用落地

零一萬物否認(rèn)阿里收購傳言，強調(diào)深度合作與戰(zhàn)略調(diào)整進(jìn)行中

英偉達(dá)與臺積電聯(lián)手，硅光子學(xué)能否為AI芯片帶來新飛躍？

端邊云協(xié)同新突破：AI設(shè)備如何隨時接入云端大模型能力？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) · 齊魯軟件園魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

大模型時代：算力浪費竟超50%！百度AI計算部負(fù)責(zé)人揭秘算力成本之謎

大模型時代：算力浪費竟超50%！百度AI計算部負(fù)責(zé)人揭秘算力成本之謎