ITBear旗下自媒體矩陣:

夯實(shí)算力根基 共筑產(chǎn)業(yè)生態(tài):Arm讓AI惠及每一個(gè)人

   時(shí)間:2024-06-18 14:41:50 來源:互聯(lián)網(wǎng)編輯:茹茹 發(fā)表評論無障礙通道

近兩年,AI技術(shù)的熱潮不僅惠及了千行百業(yè),也顛覆了人們的生活。從云端百億、千億參數(shù)的大模型,到邊緣、終端的“小模型”,像vivo的藍(lán)心大模型BlueLM,可以在設(shè)備端提供寫作、繪畫等AIGC的能力,極大改善了用戶的使用體驗(yàn)。這種潮流正在形成一種趨勢,生成式AI為手機(jī)、電腦、智能穿戴、家電等終端帶來了真正的智能進(jìn)化,Arm則是這一切的基石。

“Arm為最大的計(jì)算生態(tài)系統(tǒng)提供了普適應(yīng)用,以及對開發(fā)者友好的指令集,不斷滿足下一波的計(jì)算性能需求?!盇rm終端事業(yè)部產(chǎn)品管理副總裁James McNiven表示,“這意味著在設(shè)備端和云端都會有更高的性能,同時(shí)在某些情況下會需要更高的能耗驅(qū)動(dòng)AI技術(shù),而能效正是Arm的DNA。Arm架構(gòu)的強(qiáng)大實(shí)力可以為計(jì)算平臺帶來最高效的性能?!?/p>

Arm終端事業(yè)部產(chǎn)品管理副總裁James McNiven前不久,Arm推出了Arm終端計(jì)算子系統(tǒng)(CSS),為旗艦系統(tǒng)級芯片提供基礎(chǔ)計(jì)算要素,包括全新的Armv9.2 CPU、Arm Immortalis GPU、基于3納米工藝生產(chǎn)就緒的CPU和GPU物理實(shí)現(xiàn),以及最新的CoreLink系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元(SMMU)。此外,Arm還通過新推出的Arm Kleidi軟件庫幫助軟件開發(fā)者無縫獲得Arm CPU的最佳性能。通常,Arm的大多數(shù)IP會通過RTL的形式交付,要使RTL變?yōu)樾酒€要借助EDA工具流,通過一系列的優(yōu)化和工具完成工具流后提供物理實(shí)現(xiàn)。此次Arm除了提供RTL形式的IP交付,還會額外為合作伙伴提供CPU和GPU的物理實(shí)現(xiàn)選項(xiàng)。

過去幾年中,專為性能和AI設(shè)計(jì)的Armv9架構(gòu)在矢量加速、機(jī)器學(xué)習(xí)、安全性、穩(wěn)定性等方面有著顯著提升,在Armv9.2的基礎(chǔ)上,Arm通過新一代Arm Cortex-X CPU和Immortalis GPU帶來了更高的性能,并以效率為核心,融入了Arm終端CSS的全新能力,加速產(chǎn)品上市進(jìn)程。Arm終端CSS可讓IPC性能同比提高36%,AI推理速度提高59%,ArmImmortalis GPU圖形性能提高37%。Arm深知,CPU、GPU、NPU等異構(gòu)計(jì)算的重要性,不同加速器之間的協(xié)同可以滿足各類應(yīng)用場景,為客戶帶來更多的選擇。例如,Immortalis GPU在持續(xù)推進(jìn)智能手機(jī)中的光線追蹤技術(shù)普及。在可擴(kuò)展性方面,三種不同的 CPU 微架構(gòu)讓Arm的合作伙伴能夠在包括筆記本電腦、智能手機(jī)、數(shù)字電視和可穿戴設(shè)備等一系列設(shè)備上提供對應(yīng)的性能、效率,以及CPU和GPU解決方案。

Arm Cortex-X925實(shí)現(xiàn)了Cortex-X系列推出以來最高的同比性能提升,在3.8GHz的時(shí)鐘速率和最大緩存大小的條件下,與2023年旗艦智能手機(jī)的4納米SoC相比,其單線程性能大幅提高36%,AI性能相較去年的Cortex-XCPU在Token首次響應(yīng)時(shí)間上提高41%,顯著增強(qiáng)了LLM等在設(shè)備端的響應(yīng)能力。微架構(gòu)的演進(jìn)帶來了最寬的解碼和矢量設(shè)計(jì)大幅提升,TOPS數(shù)增長50%。通過更好的可配置性和更大的私有L2緩存,可以保留進(jìn)出過CPU的指令和數(shù)據(jù)。Arm Immortalis-G925 GPU在多個(gè)AI和ML網(wǎng)絡(luò)上提升了34%的性能,并把光線追蹤技術(shù)在面對復(fù)雜物體時(shí)的表現(xiàn),在性能上提升了52%。

效率方面,Arm會選擇不同的CPU微架構(gòu)實(shí)現(xiàn)最大性能和最長使用天數(shù),通過Immortalis和Arm Mali提供GPU可擴(kuò)展性,實(shí)現(xiàn)性能和效率的靈活性。與Cortex-A720相比,Cortex-A725的能效提高了35%。Cortex-A520 CPU也隨著工藝和物理實(shí)現(xiàn)的提升得到了改進(jìn)。圖形效率方面,在與去年的終端平臺相同水平的游戲性能下,《堡壘之夜》等手游的功耗降低了30%。在為Cortex-X925帶來的30%性能提升的基礎(chǔ)上,Arm對網(wǎng)頁瀏覽器也進(jìn)行了改進(jìn),使其性能提高23%。

Arm繼續(xù)攜手Google,推動(dòng)了安卓動(dòng)態(tài)性能框架(Android Dynamic Performance framework)的發(fā)展。在最新版本的框架中,高端內(nèi)容的每幀能耗降低25%,幀速率提高35%。此外,Arm還調(diào)整了安卓工作負(fù)載在不同CPU核心之間的平衡方式,為YouTube節(jié)省了10%的功耗。針對Google的AV1視頻編解碼器,Arm進(jìn)行了軟件優(yōu)化,使當(dāng)下安卓設(shè)備的視頻性能最多可提高40%。

除此之外,Arm的內(nèi)存標(biāo)記擴(kuò)展(Memory Tagging Extension, MTE)可以幫助開發(fā)者在無需侵入式檢測的情況下查找和修復(fù)代碼中的錯(cuò)誤,還可以在實(shí)際操作環(huán)境下,用來減少安全漏洞被利用。目前,vivo X100、vivo X100 Pro、Google Pixel 8等旗艦設(shè)備均允許用戶啟用MTE。

James McNiven稱:“對于Arm終端CSS的完整解決方案來說,我們會針對不同用例,或是某些測試基準(zhǔn)設(shè)定目標(biāo),將其分解到單個(gè)IP中。以游戲《原神》為例,我們先從系統(tǒng)層面進(jìn)行分析,然后針對GPU、CPU等設(shè)定提升的目標(biāo),將各類游戲機(jī)制和計(jì)算能力推向極限,每個(gè)單一IP的性能提升都會為終端CSS的整體性能添磚加瓦?!?/p>

為了幫助開發(fā)者更好地發(fā)揮Arm終端CSS的性能優(yōu)勢,Arm還推出了Arm Kleidi,包括面向AI工作負(fù)載的KleidiAI和面向計(jì)算機(jī)視覺應(yīng)用的KleidiCV。KleidiAI是一套面向AI框架開發(fā)者的計(jì)算內(nèi)核,使他們能夠在各種設(shè)備上輕松獲得Arm CPU上的最佳性能,并支持Neon、SVE2和SME2等關(guān)鍵Arm架構(gòu)功能,顯著提升計(jì)算應(yīng)用的性能。KleidiAI與PyTorch、Tensorflow、MediaPipe等熱門AI框架集成,旨在加速meta Llama 3、Phi-3等關(guān)鍵模型的性能,并且可以前后兼容,確保Arm在引入更多技術(shù)時(shí)依然能適用未來市場的需求。Kleidi一詞源于希臘語,意為“鑰匙”,即為開發(fā)者釋放更多性能的“鑰匙”。

KleidiAI支持可伸縮矢量擴(kuò)展(Scalable Vector Extensions, SVE)、可伸縮矩陣擴(kuò)展(Scalable Matrix Extensions, SME)等能力,部署在Cortex-X925上時(shí),Kleidi技術(shù)運(yùn)行Llama 3和Phi-3LLM的速度要比參考實(shí)現(xiàn)快2.9倍,24小時(shí)內(nèi)即可實(shí)現(xiàn)。KleidiCV則可以融入神經(jīng)網(wǎng)絡(luò)、傳統(tǒng)計(jì)算機(jī)視覺算法等技術(shù),確保社交媒體、攝像頭等應(yīng)用流暢運(yùn)行。Arm會與OpenCV.ai合作,幫助安卓開發(fā)者更便捷地將OpenCV納入他們的項(xiàng)目中,并從KleidiCV的改進(jìn)中受益。

Arm在指令預(yù)取、分支預(yù)測、大緩存等前端訪存能力的持續(xù)投入,使得應(yīng)用程序的性能大幅提升,vivo就是很大的受益者,Arm微架構(gòu)的升級讓vivo手機(jī)的流暢度達(dá)到非常高的水準(zhǔn)。Arm終端CSS將為vivo的生成式AI應(yīng)用提供了強(qiáng)勁的處理能力,也為開發(fā)者帶來了廣闊的發(fā)揮空間。vivo首席芯片規(guī)劃專家夏曉菲談到:“Arm作為整個(gè)產(chǎn)業(yè)鏈的最上游,我們希望把vivo產(chǎn)品的痛點(diǎn)和需求,對工作負(fù)載的分析以及產(chǎn)品性能功耗瓶頸的分析,反饋給Arm,使我們整個(gè)產(chǎn)業(yè)鏈能夠良性循環(huán)起來,從而使我們手機(jī)產(chǎn)品最終受益,給消費(fèi)者帶來越來越好的體驗(yàn)?!?/p>

Arm終端事業(yè)部產(chǎn)品管理副總裁James McNiven(左)&vivo首席芯片規(guī)劃專家夏曉菲(右)

從AI手機(jī)到AI PC,Arm發(fā)展勢頭強(qiáng)勁。Windows on Arm(WoA)的生態(tài)愈發(fā)成熟,越來越多的Arm架構(gòu)機(jī)型和Arm原生應(yīng)用持續(xù)涌現(xiàn),除了Microsoft Office、Dropbox、Zoom、Adobe套件等,還有百度、嗶哩嗶哩、Chrome瀏覽器、愛奇藝、搜狗、騰訊QQ音樂等帶來了豐富的體驗(yàn),Audacity、Blender和OBS Studio(用于流媒體)等開源工具的增多讓開發(fā)者有了更大的熱情,這些應(yīng)用還整合了大量的開源庫和開發(fā)工具,面向Windows的Arm Performance Libraries(Arm性能庫)推動(dòng)著WoA生態(tài)不斷發(fā)展。

可以說,通過與合作伙伴的深度協(xié)作,Arm的產(chǎn)品和技術(shù)正在全球的每一個(gè)角落推進(jìn)著計(jì)算能力挑戰(zhàn)極限,讓AI技術(shù)惠及每一個(gè)人?!白鳛橛?jì)算的基石,Arm致力于通過新技術(shù)的推出,幫助我們的合作伙伴取得成功,我們希望能賦能合作伙伴打造出面向AI應(yīng)用最卓越的設(shè)備、芯片組和SoC,為消費(fèi)者的下一代AI體驗(yàn)夯實(shí)根基?!盝ames McNiven說。

舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version