在現(xiàn)代計(jì)算領(lǐng)域,人工智能(AI)的廣泛應(yīng)用已經(jīng)滲透到從云端到邊緣側(cè)的每一個(gè)角落。然而,面對(duì)多樣化的AI用例和需求,單一的計(jì)算組件已無(wú)法滿足所有挑戰(zhàn),異構(gòu)計(jì)算平臺(tái)應(yīng)運(yùn)而生。這種平臺(tái)能夠靈活利用CPU、GPU和NPU等多種計(jì)算引擎,共同應(yīng)對(duì)AI帶來(lái)的復(fù)雜計(jì)算任務(wù)。
在眾多計(jì)算組件中,Arm CPU憑借其卓越的性能、能效、普及性、編程便捷性和靈活性,在AI加速方面發(fā)揮著關(guān)鍵作用。從微小的嵌入式設(shè)備到龐大的數(shù)據(jù)中心,Arm CPU都已成為各種平臺(tái)上AI加速的堅(jiān)實(shí)基石。這種靈活性不僅為AI推理提供了廣泛的支持,還使得CPU能夠勝任技術(shù)棧中的數(shù)據(jù)預(yù)處理和編排等其他任務(wù)。
Arm CPU的靈活性為生態(tài)系統(tǒng)帶來(lái)了顯著的益處。首先,它能夠處理數(shù)十億臺(tái)設(shè)備上的各種AI推理用例,如智能手機(jī)、云和數(shù)據(jù)中心中的常見(jiàn)應(yīng)用。其次,開(kāi)發(fā)者無(wú)需為不同的數(shù)據(jù)格式構(gòu)建多個(gè)版本的代碼,便能在更多種類的數(shù)據(jù)格式中運(yùn)行更廣泛的軟件。最后,CPU的靈活性使其成為加速AI工作負(fù)載的理想選擇,為行業(yè)提供了多樣性和選擇的余地。
Arm計(jì)算平臺(tái)不僅包含CPU,還涵蓋了GPU和NPU等AI加速器技術(shù)。這些技術(shù)在多個(gè)市場(chǎng)中與CPU進(jìn)行集成,共同推動(dòng)AI的發(fā)展。在移動(dòng)端領(lǐng)域,Arm終端計(jì)算子系統(tǒng)(CSS)集成了Armv9.2 CPU集群和Arm Immortalis-G925 GPU,為圖像分割、對(duì)象檢測(cè)、自然語(yǔ)言處理和語(yǔ)音轉(zhuǎn)文本等AI用例提供加速。而在物聯(lián)網(wǎng)(IoT)方面,Arm Ethos-U85 NPU與基于Arm Cortex-A的系統(tǒng)相結(jié)合,為工廠自動(dòng)化等場(chǎng)景提供AI性能加速。
除了Arm自己的加速器技術(shù)外,其合作伙伴也利用Arm CPU的靈活性定制出具有差異化的芯片解決方案。例如,NVIDIA的Grace Blackwell和Grace Hopper超級(jí)芯片均采用了Arm CPU和NVIDIA的AI加速器技術(shù),顯著提升了AI性能。其中,Grace Blackwell超級(jí)芯片將NVIDIA的Blackwell GPU架構(gòu)與基于Arm Neoverse的Grace CPU相結(jié)合,通過(guò)系統(tǒng)級(jí)設(shè)計(jì)優(yōu)化,實(shí)現(xiàn)了能耗的大幅降低和單個(gè)GPU性能的大幅提升。
Arm的領(lǐng)先架構(gòu)是其CPU設(shè)計(jì)靈活性的關(guān)鍵所在。這一架構(gòu)提供了一個(gè)與AI加速器技術(shù)緊密集成的基礎(chǔ)平臺(tái),并支持多種向量長(zhǎng)度,使得多個(gè)神經(jīng)網(wǎng)絡(luò)能夠在不同數(shù)據(jù)點(diǎn)上輕松執(zhí)行。這種靈活性為整個(gè)芯片生態(tài)系統(tǒng)提供了豐富的定制機(jī)會(huì),并推動(dòng)了架構(gòu)創(chuàng)新的不斷發(fā)展。
從Armv7架構(gòu)首次涉足機(jī)器學(xué)習(xí)(ML)工作負(fù)載開(kāi)始,Arm架構(gòu)不斷增強(qiáng)。Armv8中增加了向量點(diǎn)積和矩陣乘法特性,而Armv9則引入了Arm SVE2和新的Arm SME技術(shù),為廣泛的生成式AI工作負(fù)載和用例提供了更高的計(jì)算性能和更低的功耗。
作為AI時(shí)代的計(jì)算平臺(tái),Arm推動(dòng)了持續(xù)的架構(gòu)創(chuàng)新,以滿足速度更快、互動(dòng)性更好和沉浸感更強(qiáng)的AI應(yīng)用的發(fā)展。Arm CPU作為異構(gòu)計(jì)算方法中的一部分,能夠無(wú)縫增強(qiáng)和集成GPU和NPU等AI加速器技術(shù),共同打造更強(qiáng)大、更高性能的AI功能。
對(duì)于Arm的技術(shù)合作伙伴而言,Arm CPU的靈活性意味著豐富的定制選擇。他們可以利用這一優(yōu)勢(shì)為AI工作負(fù)載構(gòu)建完整的芯片解決方案,滿足特定用例和計(jì)算需求。這種合作不僅推動(dòng)了AI技術(shù)的發(fā)展,還為整個(gè)生態(tài)系統(tǒng)帶來(lái)了更多的機(jī)遇和可能性。
在數(shù)據(jù)中心領(lǐng)域,Arm CPU的靈活性和能效優(yōu)勢(shì)尤為突出。它們能夠處理大量的AI推理任務(wù),同時(shí)保持較低的能耗水平。這使得Arm CPU成為數(shù)據(jù)中心中AI加速的理想選擇之一。
與此同時(shí),Arm GPU在AI加速方面也發(fā)揮著重要作用。它們能夠提供強(qiáng)大的并行計(jì)算能力,加速深度學(xué)習(xí)模型的訓(xùn)練和推理過(guò)程。這種加速能力使得Arm GPU成為許多AI應(yīng)用中的關(guān)鍵組件。
在物聯(lián)網(wǎng)領(lǐng)域,Arm NPU的出現(xiàn)為AI性能的提升帶來(lái)了新的機(jī)遇。它們能夠針對(duì)特定的AI任務(wù)進(jìn)行優(yōu)化,提供更高的計(jì)算效率和更低的功耗。這使得Arm NPU成為物聯(lián)網(wǎng)設(shè)備中AI加速的理想選擇之一。