在近期舉辦的一場聚焦人工智能產(chǎn)業(yè)應(yīng)用的重要大會上,北京正陽恒卓科技有限公司的首席科學(xué)家高凱,分享了公司在智算中心建設(shè)領(lǐng)域的實戰(zhàn)經(jīng)驗,并針對AI基礎(chǔ)設(shè)施建設(shè)運營中面臨的高效性和可靠性挑戰(zhàn),提出了獨到的見解。
高凱強調(diào),盡管客戶普遍期望AI任務(wù)能夠高效利用智算中心提供的硬件資源,實現(xiàn)集群規(guī)模增大和硬件升級帶來的性能提升,但現(xiàn)實卻往往不盡如人意。對于大規(guī)模分布式AI任務(wù)來說,單純增加機器數(shù)量和升級計算芯片,并不能輕松實現(xiàn)性能的線性增長。
他指出,大規(guī)模分布式AI任務(wù)對資源的需求巨大,容易導(dǎo)致碎片化資源閑置,并對調(diào)度系統(tǒng)性能提出更高要求。同時,并行方法和通信順序也是影響分布式AI任務(wù)效率的關(guān)鍵因素。為了解決這些問題,高凱提出,大規(guī)模分布式AI基礎(chǔ)設(shè)施必須擁有強大的系統(tǒng)容錯能力和豐富的并行策略。
高凱還指出,在智算中心建設(shè)過程中,客戶對AI大模型運行的可靠性有著很高的期望。然而,現(xiàn)實情況是,AI系統(tǒng)中的各個組件都可能出現(xiàn)故障,導(dǎo)致AI任務(wù)中斷或失敗。這主要是因為AI任務(wù)依賴專用硬件,與傳統(tǒng)計算集群在能源、產(chǎn)熱、工作條件等方面存在差異。同時,主流AI并行框架采用同步方式運行,存在單點故障問題,傳統(tǒng)云平臺的容錯能力并不適用。
高凱認為,大規(guī)模分布式AI系統(tǒng)的容錯能力是AI系統(tǒng)穩(wěn)定運行的基礎(chǔ),已經(jīng)成為全球AI大廠競相關(guān)注的問題。結(jié)合正陽恒卓為國家超算、大模型公司等企業(yè)建設(shè)大規(guī)模智算中心的經(jīng)驗,他提出,建設(shè)高效可靠的AI基礎(chǔ)設(shè)施是一個系統(tǒng)工程,可靠性和高效性都必須遵循從硬件到軟件系統(tǒng)性開發(fā)的原則。
他將AI基礎(chǔ)設(shè)施的構(gòu)建分為智算中心建設(shè)、基礎(chǔ)設(shè)施服務(wù)運營、AI開發(fā)部署框架以及AI應(yīng)用開發(fā)四個層級,并指出,相比于大型廠商能夠?qū)崿F(xiàn)從底層硬件到上層AI應(yīng)用的全棧自主研發(fā),絕大部分小型企業(yè)往往不具備這樣的經(jīng)濟能力和人才儲備。因此,為了助推人工智能產(chǎn)業(yè)應(yīng)用的發(fā)展,提供高效可靠的AI基礎(chǔ)設(shè)施是智算中心未來需要具備的基本能力和發(fā)展趨勢。
據(jù)高凱介紹,為了讓AI基礎(chǔ)設(shè)施能夠惠及更多的人工智能產(chǎn)業(yè)應(yīng)用企業(yè),正陽恒卓正致力于領(lǐng)導(dǎo)并構(gòu)建一個開放的、面向高效可靠智算中心的AI基礎(chǔ)設(shè)施基礎(chǔ)框架。這個開放基礎(chǔ)框架中的功能模塊基于開放的標準進行設(shè)計,旨在吸引更多相關(guān)行業(yè)的企業(yè)和開發(fā)者共同組建技術(shù)生態(tài)。這樣,用戶的模型開發(fā)、部署、應(yīng)用就能夠在不同的算力環(huán)境中實現(xiàn)無感的遷移,而AI基礎(chǔ)設(shè)施企業(yè)則可以通過技術(shù)創(chuàng)新提供高效性和可靠性的增值服務(wù)。
作為一家成立于2015年4月的公司,正陽恒卓目前已服務(wù)超300家企業(yè)客戶,是英偉達認證的精英級合作伙伴,并連續(xù)兩年成為NVIDIA Networking NPN業(yè)績第一名。在人工智能產(chǎn)業(yè)應(yīng)用領(lǐng)域,正陽恒卓正以其豐富的經(jīng)驗和創(chuàng)新的技術(shù),為推動AI基礎(chǔ)設(shè)施的高效性和可靠性發(fā)展貢獻力量。