【ITBEAR】在加州圣何塞,2024年度的開放計(jì)算全球峰會(huì)(OCP Global Summit)成功舉行,匯聚了超7000名基礎(chǔ)設(shè)施軟硬件領(lǐng)域的專家。峰會(huì)圍繞“創(chuàng)新的力量”主題,深入探討AI基礎(chǔ)設(shè)施技術(shù)生態(tài),特別是OCP基金會(huì)的人工智能開放系統(tǒng)戰(zhàn)略計(jì)劃,為AI領(lǐng)域注入了全新活力。
阿里云服務(wù)器研發(fā)資深總監(jiān)文芳志與UALink聯(lián)盟主席Kurtis Bowman共同發(fā)表了《UALink:加速AI的未來(lái)》演講,分享了AI服務(wù)器Scale UP互連技術(shù)的最新進(jìn)展和UALink標(biāo)準(zhǔn)的未來(lái)路徑。
UALink協(xié)議,由行業(yè)領(lǐng)導(dǎo)者共同發(fā)起,旨在成為AI服務(wù)器Scale UP互連新標(biāo)準(zhǔn),具備高性能、高帶寬和低時(shí)延特性。10月底,UALink聯(lián)盟將正式成立,并發(fā)布第一版UALink規(guī)范。
針對(duì)全球及中國(guó)市場(chǎng)的挑戰(zhàn),ALink System(ALS)產(chǎn)業(yè)生態(tài)應(yīng)運(yùn)而生,推動(dòng)UALink標(biāo)準(zhǔn)實(shí)施。ALS提供統(tǒng)一標(biāo)準(zhǔn)的互連系統(tǒng),包括ALS-D數(shù)據(jù)面和ALS-M管控面,為AI訓(xùn)練和推理提供全面解決方案。
ALS-D支持UALink國(guó)際標(biāo)準(zhǔn),形成競(jìng)爭(zhēng)力強(qiáng)的數(shù)據(jù)面方案,同時(shí)增加網(wǎng)內(nèi)計(jì)算等特性。ALS-M則為不同芯片方案提供標(biāo)準(zhǔn)化接入,支持開放生態(tài)和廠商專有互連協(xié)議的統(tǒng)一軟件接口。
遵循ALink System規(guī)范,阿里云推出磐久AI Infra 2.0服務(wù)器,支持下一代超大規(guī)模AI集群。該服務(wù)器體現(xiàn)開放生態(tài)、高能效、高性能和高可用理念,定義AI計(jì)算節(jié)點(diǎn)和Scale Up/Scale Out互連系統(tǒng)。
互連系統(tǒng)ALink System全面兼容UALink生態(tài),構(gòu)建超高性能、超大規(guī)模Scale UP集群互連能力。一級(jí)互連支持64-80個(gè)節(jié)點(diǎn),二級(jí)互連可達(dá)2000個(gè)以上節(jié)點(diǎn),提供強(qiáng)大支持。
AI Infra 2.0服務(wù)器集成阿里自研CIPU 3.0芯片,支持高帶寬大規(guī)模AI服務(wù)器Scale Out網(wǎng)絡(luò)擴(kuò)展。在硬件工程方面,該服務(wù)器單機(jī)柜支持最大80個(gè)AI計(jì)算節(jié)點(diǎn),采用400V PSU,單體供電效率可達(dá)98%。
在運(yùn)維管理上,AI Infra 2.0服務(wù)器采用全新CableCartridge后維護(hù)設(shè)計(jì),支持全盲插,零理線易運(yùn)維、零誤操作。在可靠性方面,該服務(wù)器支持彈性節(jié)點(diǎn)、智能路由等技術(shù),實(shí)時(shí)監(jiān)控并自愈硬件故障。
阿里云積極推動(dòng)ALink System產(chǎn)業(yè)生態(tài)建設(shè),已有20多家廠商加入。阿里云不僅是UALink的積極支持者和ALink System產(chǎn)業(yè)生態(tài)的牽頭者,還是多個(gè)互連技術(shù)行業(yè)組織的成員。
阿里云磐久AI Infra 2.0服務(wù)器與UALink聯(lián)盟的攜手,展示了阿里云在AI基礎(chǔ)設(shè)施領(lǐng)域的技術(shù)實(shí)力和創(chuàng)新能力,體現(xiàn)了其在推動(dòng)開放計(jì)算和AI技術(shù)發(fā)展中的領(lǐng)導(dǎo)地位。