ITBear旗下自媒體矩陣:

馬斯克先行一步,國(guó)產(chǎn)大模型集體沖刺十萬(wàn)卡集群?

   時(shí)間:2024-09-25 21:15:15 來(lái)源:ITBEAR作者:楊凌霄編輯:瑞雪 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR】9月25日消息,國(guó)內(nèi)大模型企業(yè)是否即將邁入十萬(wàn)卡時(shí)代?這一話題近期備受關(guān)注。隨著百度發(fā)布全面升級(jí)的百舸AI異構(gòu)計(jì)算平臺(tái)4.0,以及阿里云和騰訊相繼宣布其集群已拓展或支持至十萬(wàn)卡級(jí)別,這一設(shè)想似乎正逐步成為現(xiàn)實(shí)。

百度智能云事業(yè)群總裁沈抖直言,百舸4.0專為部署十萬(wàn)卡大規(guī)模集群而設(shè)計(jì)。與此同時(shí),阿里云也宣布其靈駿單網(wǎng)絡(luò)集群已達(dá)到十萬(wàn)卡級(jí)別,而騰訊此前也發(fā)布了支持十萬(wàn)卡集群的星脈網(wǎng)絡(luò)2.0。這一系列的動(dòng)態(tài),使得十萬(wàn)卡集群突然成為輿論的焦點(diǎn)。尤其是在9月初,馬斯克宣布在短短122天內(nèi)建成了10萬(wàn)張英偉達(dá)H100顯卡的Colossus集群,其算力可能已超過(guò)OpenAI,這一消息更是引發(fā)了廣泛關(guān)注。

由顯卡規(guī)模撐起的算力水平,是衡量大模型性能的重要指標(biāo)之一。一般認(rèn)為,擁有1萬(wàn)枚英偉達(dá)A100芯片,是做好AI大模型的算力門檻。然而,建一個(gè)萬(wàn)卡集群,單是GPU的采購(gòu)成本就高達(dá)幾十億,因此國(guó)內(nèi)能夠部署萬(wàn)卡規(guī)模集群的,原本就只有阿里、百度等寥寥幾家大廠。想要部署十萬(wàn)卡集群,其資金和技術(shù)挑戰(zhàn)可想而知。

除了資金成本,十萬(wàn)卡集群同樣面臨巨大的技術(shù)挑戰(zhàn)。沈抖指出,GPU是一種非常敏感的硬件,連一天之內(nèi)氣溫的波動(dòng),都會(huì)影響到GPU的故障率,而且規(guī)模越大,出故障的概率就越高。此外,大模型訓(xùn)練過(guò)程需要全部顯卡同時(shí)參與并行計(jì)算,這對(duì)網(wǎng)絡(luò)傳輸能力也提出了更大的挑戰(zhàn)。

據(jù)ITBEAR了解,相比于美國(guó)同行,中國(guó)大模型企業(yè)還面臨一重特殊的困難,即無(wú)法像馬斯克那樣全部采用英偉達(dá)方案,而是需要使用包括國(guó)產(chǎn)GPU在內(nèi)的異構(gòu)芯片。這也意味著,即使同樣擁有十萬(wàn)張顯卡,國(guó)內(nèi)企業(yè)在算力規(guī)模上也很難與美國(guó)企業(yè)匹敵。

然而,在上述三重挑戰(zhàn)之下,國(guó)內(nèi)大模型企業(yè)的進(jìn)步速度也有目共睹。沈抖介紹,百舸4.0在萬(wàn)卡集群上實(shí)現(xiàn)了有效訓(xùn)練時(shí)長(zhǎng)占比99.5%以上,業(yè)界領(lǐng)先,并通過(guò)一系列創(chuàng)新大幅提升了集群的模型訓(xùn)練效率。而阿里云CTO周靖人也透露,目前阿里云的萬(wàn)卡算力集群可以實(shí)現(xiàn)大于99%以上連續(xù)訓(xùn)練有效時(shí)長(zhǎng)。

但隨著性能提升,大模型成本問(wèn)題也越來(lái)越引人注目。沈抖透露,十萬(wàn)卡集群每天就要消耗大約300萬(wàn)千瓦時(shí)的電力,相當(dāng)于北京市東城區(qū)一天的居民用電量。盡管在過(guò)去一年中大模型廠商的降價(jià)幅度確實(shí)可觀,但這更多是平臺(tái)補(bǔ)貼開發(fā)者的結(jié)果,并非根本解決之道。對(duì)此,阿里云方面強(qiáng)調(diào),AI發(fā)展仍然處在一個(gè)非常早期的階段,必須要靠降價(jià)帶動(dòng)應(yīng)用爆發(fā)。

關(guān)鍵詞:#國(guó)內(nèi)大模型企業(yè)#、#十萬(wàn)卡集群#、#算力挑戰(zhàn)#、#技術(shù)進(jìn)步#、#成本問(wèn)題#

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version