成人免费视频高潮潮喷无码,91青草久久久久久清纯

★深度學習、機器學習、生成式AI、人工智能、大數(shù)據(jù)、高性能計算、ASIC、大模型訓練、盤古大模型、CPU、GPU、L40S服務(wù)器、華為、英偉達、A100、H100、A800、H800、穩(wěn)態(tài)微聚束、SSMB、清華 SSMB-EUV 光源、非線性動力學、AI芯片、ChatGPT、Transformer、自監(jiān)督訓練、高算力芯片、高粘性 CUDA、Graphcore、Habana、Cerebras、SambaNov、寒武紀、FPGA、Grace CPU、Hopper GPU、GH200、 SIGGRAPH 、HBM3e、MI300A、MI300X、Infinity Fabric、TPU、AWS、Inferentia、Trainium、Alexa、meta、MTIA

隨著人工智能、大數(shù)據(jù)、高性能計算、生成式AI和大語言模型的快速發(fā)展，芯片技術(shù)和服務(wù)器市場變得越來越重要。大模型需要高性能芯片支持，而芯片技術(shù)的發(fā)展又為大模型應(yīng)用和推廣提供可能。在這篇文章中，我們將探討推進芯片快速發(fā)展的技術(shù)(穩(wěn)態(tài)微聚束加速器光源)、華為和英偉達顯卡的對比以及賦能生成式AI和LLM大模型負載L40S服務(wù)器。

在大模型下的芯片技術(shù)領(lǐng)域，GPU、CPU和ASIC等技術(shù)得到了廣泛應(yīng)用。GPU作為圖形處理器，最初是為了處理圖像和游戲等任務(wù)而設(shè)計的。然而，隨著人工智能和深度學習的發(fā)展，GPU逐漸成為大模型訓練和推理的首選芯片。

華為和英偉達顯卡在大模型服務(wù)市場中具有重要地位。華為依托其強大的技術(shù)實力和品牌影響力，在顯卡市場中占據(jù)一席之地。英偉達則憑借其領(lǐng)先的GPU技術(shù)和廣泛的應(yīng)用領(lǐng)域，成為了大模型服務(wù)市場的領(lǐng)導者。在銷售量和市場份額方面，英偉達略勝一籌，但是華為和其它競爭對手也在不斷追趕。

GPU L40S采用先進的芯片技術(shù)，可以快速、準確地處理大規(guī)模的數(shù)據(jù)。具有高度的可擴展性，根據(jù)需要增加或減少計算資源。此外，還采用先進的算法和模型優(yōu)化技術(shù)，大大提高模型訓練的效率和精度。

穩(wěn)態(tài)微聚束加速器光源

在芯片制造領(lǐng)域，光刻技術(shù)一直扮演著至關(guān)重要的角色。然而，傳統(tǒng)的光刻技術(shù)也存在一些明顯的局限性，這些局限性在新一代芯片制造中變得尤為明顯。傳統(tǒng)的光刻技術(shù)需要使用大型、昂貴的設(shè)備，如荷蘭ASML公司生產(chǎn)的光刻機。這些設(shè)備的高成本使得芯片制造過程變得昂貴，不利于成本的降低。而且，傳統(tǒng)的光刻技術(shù)在追求更小的制程和更高的性能時遇到了困境，因為它們受到了光源功率上限的限制。這導致了制程的瓶頸，制約了芯片技術(shù)的發(fā)展。

清華大學的唐教授提出的“穩(wěn)態(tài)微聚束加速器光源”為芯片制造帶來了一種全新的思路。這一方法的核心在于通過高能加速器對電子進行加速，然后讓這些電子穿過交替變化的磁場，從而產(chǎn)生高頻率和短波長的電磁波，包括可見光和X射線。簡單來說就是將電子加速到接近光速，從而獲得更短波長的光，為芯片制造提供了全新的工具。

一、加速器光源簡介

同步輻射是帶電粒子在高速運動時產(chǎn)生的電磁輻射，其特點包括高亮度、寬譜帶、高準直性和偏振性等。自20世紀70年代起，人們開始專門建設(shè)電子儲存環(huán)來產(chǎn)生同步輻射。一個同步輻射光源由電子注入器、電子儲存環(huán)和光束線站組成，追求高亮度和更好相干性，經(jīng)歷四代的發(fā)展。中國大陸的北京同步輻射裝置屬于第一代，合肥光源屬于第二代，上海光源屬于第三代，正在建設(shè)的高能同步輻射光源屬于第四代。同步輻射的亮度定義為單位時間、單位面積、單位發(fā)散角、0.1%帶寬內(nèi)的光子數(shù)。

同步輻射光源的相干性包括橫向和縱向兩方面。橫向相干性與光源尺寸有關(guān)，縱向相干性與光源譜寬有關(guān)。為獲得更高亮度和相干性，需要提高輻射強度、縮小譜寬、減小電子束的發(fā)散角。同步輻射光源的發(fā)展已經(jīng)降低電子束的橫向發(fā)散角，從而獲得良好的橫向相干性，但縱向相干性仍然較弱，導致束長遠超過相干長度，輻射功率較低。

自由電子激光克服這一缺點，利用電子束在波蕩器中自放大發(fā)射的原理，通過電子束和輻射波在波蕩器中相互作用形成微聚束，產(chǎn)生強相干輻射。這種正反饋過程導致輻射指數(shù)增長，與同步輻射相比，自由電子激光的峰值亮度提高8-10數(shù)量級，相干性更好，脈沖長度更短。其使用自由電子而不是束縛電子，輻射波長可以靈活調(diào)節(jié)。

自由電子激光的輻射波長由電子束能量、波蕩器參數(shù)和相對論因子γ決定，而在X射線波段，自由電子激光是唯一的相干光源?？煞譃榈驮鲆婺Ｊ胶透咴鲆婺Ｊ?，早期主要是低增益模式，輻射在共振腔內(nèi)被多次放大，而當前主要發(fā)展的是高增益短波長自由電子激光，即電子束單次通過波蕩器就完成從發(fā)射到飽和的過程，特別是X射線自由電子激光。

高增益短波長自由電子激光對電子束質(zhì)量的要求很高，需要電子束橫向發(fā)散度足夠小、能量散度足夠小、電流足夠大，以保證增益大于損耗。

自由電子激光裝置示意圖

高增益自由電子激光對電子束質(zhì)量要求非常高，需要高峰值電流、低發(fā)散度和低能量散度。為滿足這些要求，主要依靠直線加速器產(chǎn)生電子束。與儲存環(huán)不同，自由電子激光的重復頻率較低，為獲取高重復頻率，正在研發(fā)采用超導射頻直線加速器的自由電子激光。

加速器光源已成為人類探索物質(zhì)世界的最前沿工具之一，基于電子儲存環(huán)的同步輻射光源提供高重復頻率的輻射，基于直線加速器的自由電子激光提供高峰值亮度的輻射，是兩種主要類型的加速器光源。這兩類大科學裝置孕育眾多突破性基礎(chǔ)研究成果，在先進制造與產(chǎn)業(yè)發(fā)展中的作用難以估量。

全球有超過50個同步輻射光源和7個X射線自由電子激光裝置建成或在建，最先進的加速器光源因其光束質(zhì)量、科研支撐作用、建設(shè)投入和技術(shù)復雜程度，已成為國家綜合實力和競爭力的重要體現(xiàn)。

二、穩(wěn)態(tài)微聚束加速器光源原理

隨著加速器光源的發(fā)展，用戶需求也在不斷增長，除同步輻射和自由電子激光，人們也期待出現(xiàn)一種同時實現(xiàn)高峰值功率和高重復頻率的光源。2010年，Ratner和Chao首次提出一種新型儲存環(huán)光源——穩(wěn)態(tài)微聚束(SSMB)。

SSMB使用激光而不是射頻腔來調(diào)制儲存環(huán)中的電子束。由于激光與電子束的傳播方向垂直，因此不能有效地交換能量。為縱向聚焦調(diào)制電子束，扭擺磁鐵被采用，實現(xiàn)激光調(diào)制，類似于射頻腔調(diào)制。

與傳統(tǒng)儲存環(huán)相比，SSMB儲存環(huán)的標志是使用激光調(diào)制器代替射頻腔。

SSMB 儲存環(huán) (b) 與傳統(tǒng)儲存環(huán) (a) 對比

微聚束的原理示意圖

在SSMB儲存環(huán)中，由于激光波長比微波波長短了約6個數(shù)量級，通過精心設(shè)計的磁系統(tǒng)，電子束團長度可以達到亞微米至納米量級，形成微聚束。同時，束團間隔從微波波長縮短到激光波長，使得單位長度內(nèi)的束團數(shù)目提高了6個數(shù)量級。與傳統(tǒng)束團相比，微聚束的特點是束團內(nèi)電子縱向分布長度比輻射波長短，不同電子的輻射場保持相干并相干疊加，使得輻射強度與束長內(nèi)電子數(shù)平方成正比，遠高于非相干輻射的線性關(guān)系。

(a) 普通束團非相干輻射及 (b) 微聚束相干輻射示意圖

微聚束產(chǎn)生強相干輻射的原因是含有N個電子的束團輻射功率包括與N線性相關(guān)的非相干輻射和與N的平方相關(guān)的相干輻射。相干輻射顯著高于非相干輻射需要束長小于輻射波長，因此納米級束長的微聚束可產(chǎn)生短波長相干輻射。

高增益自由電子激光中的微聚束源自束內(nèi)不穩(wěn)定性，難以長期維持，而SSMB中的微聚束來自激光主動調(diào)制，是穩(wěn)定的相干輻射，可在環(huán)中重復利用。SSMB結(jié)合微聚束的強相干性和儲存環(huán)的高重復頻率，可提供高平均功率、窄帶寬的相干輻射，具有巨大的潛力。SSMB輻射的多項特性可為加速器光子科學研究和應(yīng)用帶來新機遇，如EUV光刻的光源等。

三、SSMB 原理的實驗驗證

穩(wěn)態(tài)微聚束(SSMB)從概念到應(yīng)用必須進行原理驗證實驗。清華大學等自2017年開始進行SSMB原理驗證研究，利用德國的MLS準等時儲存環(huán)完成了SSMB的原理驗證。

SSMB 原理驗證實驗示意圖

在SSMB原理驗證實驗中，利用德國的MLS準等時儲存環(huán)，電子束被激光調(diào)制能量后，形成微米量級的調(diào)制周期密度調(diào)制，即微聚束。微聚束在波蕩器中發(fā)出強相干輻射，通過檢測該輻射驗證微聚束形成。

實驗結(jié)果顯示，被激光調(diào)制的電子束輻射信號得到放大，同時窄帶濾波后的信號比寬譜輻射更大，證明了微聚束的窄帶相干輻射。此外，還研究了輻射強度與束流強度的關(guān)系。通過這一原理驗證實驗，首次展示了激光調(diào)制可在環(huán)中產(chǎn)生微聚束并發(fā)出相干輻射的效應(yīng)，完成SSMB核心概念的實驗驗證。

SSMB 原理驗證實驗結(jié)果

在實驗中，還測量了輻射功率與電荷量的依賴關(guān)系，結(jié)果顯示了與電荷量平方成正比的特點，這正是相干輻射最重要的特征。此外，輻射呈現(xiàn)窄帶特性。這兩點有力地證明了微聚束的形成。最近，我們還進一步實現(xiàn)了微聚束在儲存環(huán)中多圈穩(wěn)定存在，電子束實現(xiàn)了多圈相干發(fā)射。通過檢測輻射功率關(guān)系和頻譜特性，驗證了微聚束形成并相干發(fā)射。進而展示微聚束可在環(huán)中多圈穩(wěn)定，完成SSMB核心概念的多圈相干發(fā)射驗證。

SSMB 原理驗證實驗結(jié)果

實驗成功實現(xiàn)微聚束的形成和多圈穩(wěn)定存在，這證明了電子縱向位置能以精確于激光波長的精度在環(huán)中關(guān)聯(lián)，使電子穩(wěn)定受困于激光形成的勢場。這一實驗與直線段上的微聚束實驗不同，重點在于展示了：

1)微聚束是經(jīng)過一整圈形成的，驗證粒子動力學的one-turn map概念;

2)微聚束基于預先儲存的電子束形成，電子束參數(shù)由儲存環(huán)決定。

該實驗僅展示one-turn map的一次迭代形成微聚束，而SSMB需要多次迭代實現(xiàn)穩(wěn)態(tài)微聚束。這是從0到1的驗證，標志著SSMB發(fā)展的第一個里程碑。即使在非優(yōu)化環(huán)中，SSMB機理也展現(xiàn)出強大的魯棒性，這激勵我們構(gòu)建專用環(huán)進一步完美實現(xiàn)SSMB。

四、SSMB 儲存環(huán)的核心物理問題及關(guān)鍵技術(shù)挑戰(zhàn)

SSMB原理驗證實驗的成功證明SSMB光源的可行性。為進一步推進SSMB光源的實際建設(shè)，需要深入研究其核心物理并解決關(guān)鍵技術(shù)挑戰(zhàn)。相比傳統(tǒng)儲存環(huán)，SSMB中的束長縮短6個數(shù)量級，為加速器物理和技術(shù)的發(fā)展帶來了新的機遇。下一步需要關(guān)注SSMB在環(huán)中的產(chǎn)生機理、SSMB的輻射特性以及技術(shù)實現(xiàn)方面的關(guān)鍵挑戰(zhàn)。

1、SSMB 在儲存環(huán)中的產(chǎn)生

1）SSMB是一個多次通過的裝置，與電子束團單次通過的高增益FEL不同

要求超短束團在輻射段能夠一圈接一圈地重復出現(xiàn)，即超短束團在輻射段中呈現(xiàn)的是該儲存在環(huán)中的本征態(tài)。為了實現(xiàn)在較低調(diào)制激光功率下的束團壓縮，對于儲環(huán)的lattice設(shè)計而言，探索橫縱向耦合在每一圈中的利用方式是一個新穎且有趣的課題。

2）非線性動力學效應(yīng)在SSMB儲存環(huán)中起著重要作用

由于對束團的操控要求精微，非線性滑相因子、非線性橫縱向耦合等都可能影響束團動力學，如六維動力學孔徑以及束流在六維相空間的分布。在傳統(tǒng)儲存環(huán)中，主要關(guān)注橫向動力學孔徑的優(yōu)化，而SSMB則需要同時關(guān)注橫向和縱向，即六維相空間的優(yōu)化。

因此，需要發(fā)展相關(guān)的理論并結(jié)合先進的數(shù)值方法(如機器學習、遺傳算法)進行SSMB的非線性動力學優(yōu)化。此外，集體效應(yīng)也是SSMB儲存環(huán)中需要關(guān)注的問題。由于SSMB儲存環(huán)中束團極短，束流的峰值流強和平均流強相對較高，相干同步輻射、束內(nèi)散射以及阻抗壁尾場等都可能會對微束團結(jié)構(gòu)的穩(wěn)態(tài)參數(shù)以及穩(wěn)定存儲產(chǎn)生影響從而限制束流能量和強度。此外，SSMB儲存環(huán)內(nèi)的束流分布模式不同于傳統(tǒng)儲存環(huán)，微束團的輻射可以追上其前方的一個或多個微束團，使得通常被認為是短程的相干同步輻射在SSMB的語境下變?yōu)殚L程。這些因素要求對相干同步輻射、橫縱向耦合導致的束團長度變化、三維任意耦合以及縱向強聚焦lattice中的IBS等進行仔細的評估和研究。

3）誤差容忍度和噪聲分析在非線性效應(yīng)顯著的SSMB中也變得非常重要

噪聲對電子束團的影響按頻率可分為兩部分：高頻噪聲導致束團在相空間的擴散從而引起發(fā)射度的增長，而低頻噪聲會導致束團的質(zhì)心運動。對于高頻噪聲，需要保證其對束流穩(wěn)態(tài)發(fā)射度的貢獻處于可接受的范圍內(nèi)以實現(xiàn)超短電子束團的形成;對于低頻噪聲，需要保證其對束流的影響滿足絕熱條件，從而使電子束團在質(zhì)心受噪聲影響發(fā)生移動時保證發(fā)射度不變。如果噪聲對電子束的影響超出了可接受范圍，需要采用相應(yīng)的反饋系統(tǒng)或其他阻尼機制來降低噪聲的影響。需要注意的是，由于SSMB的工作模式(如縱向強聚焦、強縱橫耦合)不同于一般儲存環(huán)，其噪聲和誤差容忍度的解析分析也將相對復雜。如傳統(tǒng)射頻腔相噪分析中采用的正則微擾論在縱向強聚焦儲存環(huán)中就無法直接應(yīng)用因為該動力系統(tǒng)是不可積的(混沌的)。另一方面借助于現(xiàn)有計算機的強大計算能力可以對噪聲的影響進行直接的數(shù)值模擬研究。

2、SSMB 的輻射特性

在形成穩(wěn)態(tài)微聚束后，需要研究SSMB的輻射特性。SSMB的微聚束縱向發(fā)散極小，輻射在縱向上高度相干，其束流分布模式獨特。為指導設(shè)計與優(yōu)化，需要研究束流在六維相空間的分布對SSMB輻射參數(shù)的影響。研究實驗者已經(jīng)進行相關(guān)的理論推導和程序開發(fā)。計算結(jié)果顯示，在適當?shù)膮?shù)下，SSMB可以直接實現(xiàn)平均功率1kW以上的EUV輸出，這為SSMB的光源設(shè)計提供了指導。

SSMB-EUV 光源輻射能譜樣例

3、SSMB關(guān)鍵技術(shù)挑戰(zhàn)

要實現(xiàn)SSMB光源的真正技術(shù)可行性，需要掌握幾項核心技術(shù)。

1）激光調(diào)制器是SSMB與傳統(tǒng)儲存環(huán)之間最重要的區(qū)別

為實現(xiàn)SSMB，需要高激光功率、相位鎖定，并采用連續(xù)波或高占空比的調(diào)制激光以提高束流占空比和輻射光的平均功率。因此，SSMB的激光調(diào)制系統(tǒng)采用了光學增益腔。

2）長脈沖注入系統(tǒng)是實現(xiàn)高輻射功率所必需

由于SSMB的平均流強較高，約為1A，因此需要專門設(shè)計大電荷量、長脈沖(百納秒量級)注入束流。為了減少SSMB出光過程中的功率變化，希望其工作在流強基本恒定不變的top-up模式，同時也可降低對單次注入束流強度的要求。

3）直線感應(yīng)加速器是實現(xiàn)SSMB束流能量補充的可行選擇之一

為了提高SSMB儲存環(huán)的束流占空比，需要采用連續(xù)激光，并對長脈沖電子束的能量補充提出不同于傳統(tǒng)儲存環(huán)的要求。此外，高精度磁鐵、高精度控制系統(tǒng)等也需要在現(xiàn)有的同步輻射光源的基礎(chǔ)上進一步發(fā)展。

五、清華 SSMB-EUV 光源

自2017年以來，清華團隊開始研究面向EUV光刻的大功率SSMB-EUV光源。在原理驗證、束流動力學、物理設(shè)計和關(guān)鍵技術(shù)方面取得了重要進展。在束流動力學研究中，團隊解決了實現(xiàn)超短束所需關(guān)注的核心物理問題，完成了能夠穩(wěn)定儲存納米級束的儲存環(huán)設(shè)計，并開展了集體效應(yīng)等方面的研究。輻射理論和數(shù)值計算表明，SSMB可以實現(xiàn)千瓦級的EUV輸出。在關(guān)鍵技術(shù)方面，團隊搭建了光學腔平臺，研制出樣機，并合作研發(fā)了MHz感應(yīng)加速單元等。

基于這些研究成果，團隊提出了SSMB-EUV光源方案。該方案采用微波電子槍和直線加速器產(chǎn)生束流，經(jīng)展束環(huán)調(diào)整分布后注入主環(huán)，在主環(huán)中激光調(diào)制形成穩(wěn)態(tài)微聚束。微聚束在輻射段被進一步壓縮，實現(xiàn)13.5nm EUV強相干發(fā)射，輸出功率達到千瓦量級。這一創(chuàng)新為EUV光源技術(shù)的發(fā)展提供了新的途徑。

清華 SSMB-EUV 光源示意圖

下面簡要介紹各分系統(tǒng)的功能和實現(xiàn)方式：

1）直線注入器

直線注入器產(chǎn)生的能量約400MeV，它能在約10厘米間隔內(nèi)提供數(shù)百個等電荷量的微脈沖束團，微脈沖束團的脈沖長度在百納秒量級，總電荷量也是百納庫量級，平均流強為1A。

2）展束環(huán)

多脈沖束團被注入到展束環(huán)中，通過優(yōu)化微脈沖束團的能散和展束環(huán)的滑相因子，使微束團長度在展束環(huán)中被拉長，相鄰的束團流強分布首尾相連相互重疊，形成近似均勻流強的長度百納秒量級的準直流電子束，然后注入到SSMB儲存環(huán)中。

3）SSMB主環(huán)

被注入的束流被調(diào)制激光的勢阱俘獲(光學 micro-bucket)，經(jīng)過輻射阻尼及量子激發(fā)到達平衡，形成間隔為激光波長(約 )的微束團。SSMB主環(huán)的設(shè)計極小化了全局及局部滑相因子，從而控制全環(huán)縱向函數(shù)，使電子束實現(xiàn)極低的穩(wěn)態(tài)縱向發(fā)射度和束團長度(十納米到數(shù)十納米)。儲存環(huán)的非線性動力學經(jīng)過仔細優(yōu)化，能實現(xiàn)足夠大的六維動力學孔徑，以保證束團能穩(wěn)定且具有足夠壽命地儲存在光學 micro-bucket 中。

4）束團壓縮及輻射單元

對SSMB主環(huán)中的束團進行進一步壓縮，在輻射段實現(xiàn)長度約為3nm的微束團，從而產(chǎn)生波長為13.5nm的強相干EUV光。具體的壓縮方案包括縱向強聚焦、橫縱向耦合(廣義縱向強聚焦)等。輻射元件采用優(yōu)化設(shè)計的波蕩器，能產(chǎn)生大功率窄帶寬的EUV光。

5）調(diào)制激光系統(tǒng)

采用窄線寬種子激光和高精細度光學增益腔，實現(xiàn)約1MW的平均存儲功率，滿足SSMB-EUV光源需求。

6）能量補充系統(tǒng)

采用MHz重頻的直線感應(yīng)加速器，補償平均流強約為1A的束流平均功率數(shù)千瓦到十千瓦的輻射損失。

六、SSMB-EUV 光源對科學研究及芯片光刻潛在的變革性影響

目前全球唯一的 EUV 光刻機供應(yīng)商是荷蘭的 ASML 公司，其采用激光等離子體(LPP)的 EUV 光源。具體來說，ASML 通過一臺功率大于 20 kW 的 CO 氣體激光器轟擊液態(tài)錫形成等離子體，從而產(chǎn)生 13.5 nm 的 EUV 光。

通過不斷優(yōu)化驅(qū)動激光功率、EUV 光轉(zhuǎn)化效率、收集效率以及控制系統(tǒng)，LPP-EUV 光源目前能夠在中間焦點處實現(xiàn) 350 W 左右的 EUV 光功率，該功率水平剛達到工業(yè)量產(chǎn)的門檻指標。產(chǎn)業(yè)界認為 LPP 光源未來可以達到的 EUV 功率最高為 500 W 左右，如果想要繼續(xù)將 EUV 光刻向 3 nm 以下工藝節(jié)點推進，LPP-EUV 光源的功率將遇到瓶頸。

由于基于等離子體輻射的 EUV 光源功率進一步突破困難，因此基于相對論電子束的各類加速器光源逐漸進入產(chǎn)業(yè)界的視野，如基于超導直線加速器技術(shù)的高重頻 FEL 以及 SSMB 等。

SSMB-EUV 光源用于 EUV 光刻具有以下特點和潛在優(yōu)勢：

1、高平均功率

SSMB儲存環(huán)支持安裝多條EUV光束線，可同時作為光刻大功率照明光源及掩模、光學器件的檢測光源，還可以為EUV光刻膠的研究提供支撐

2、窄帶寬與高準直性

SSMB光源容易實現(xiàn)EUV光刻所需的小于2%的窄帶寬要求，并且波蕩器輻射集中于mrad的角度范圍內(nèi)。窄帶寬以及高準直的特性可為基于SSMB的EUV光刻光學系統(tǒng)帶來創(chuàng)新性的設(shè)計，同時可以降低EUV光學反射鏡的工藝難度

3、高穩(wěn)定性的連續(xù)波輸出

SSMB輸出的是連續(xù)波或準連續(xù)波輻射，可以避免輻射功率大幅漲落而引起的對芯片的損傷。儲存環(huán)光源的穩(wěn)定性好，采用top-up運行模式的SSMB儲存環(huán)可使光源的長時間可用性得到進一步提升

4、輻射清潔

與LPP-EUV光源相比，波蕩器輻射的高真空環(huán)境對光刻的光學系統(tǒng)反射鏡不會產(chǎn)生污染，鏡子的使用壽命可以大大延長

5、可拓展性

SSMB原理上容易往更短波長拓展，為下一代采用波長6.x nm的Blue-X光刻技術(shù)留有可能

各類 EUV 光源特點

SSMB-EUV光源的成功研制將有望推動我國EUV光刻技術(shù)的跨越式進步。與此同時，SSMB加速器光源能夠產(chǎn)生高平均功率、窄線寬的從太赫茲到軟X射線的相干輻射，并且其時間結(jié)構(gòu)可調(diào)范圍廣泛，這將對物理、化學、能源、環(huán)境等學科的基礎(chǔ)研究與應(yīng)用研究帶來全新的研究工具和手段。

計算機視覺的目標是設(shè)計能識別和處理視覺信號的程序,使計算機"看"得更好。典型任務(wù)有圖像分類、物體檢測、分割、追蹤和姿態(tài)估計。ImageNet數(shù)據(jù)集包含超過2萬個物體類別，用于圖像分類。MS-COCO數(shù)據(jù)集包含檢測、分割等任務(wù)。

在計算機中，視覺信號以像素密集采樣的方式來存儲光強度。然而，像素并不代表語義信息，因此這種存儲形式與人類理解之間存在巨大的差距

華為盤古大模型介紹

AI正在逐漸深入到企業(yè)的核心生產(chǎn)系統(tǒng)中，并發(fā)揮出更大的價值。預計到2025年，企業(yè)采用AI的比例將達到86%，而當前這一數(shù)字僅為4%。在眾多的AI項目中，有600+已經(jīng)得到實踐，其中30%已經(jīng)進入了生產(chǎn)系統(tǒng)。然而，AI在各行各業(yè)的應(yīng)用仍然面臨諸多挑戰(zhàn)，如場景碎片化、作坊式開發(fā)方式導致規(guī)模化復制困難、行業(yè)知識與AI技術(shù)結(jié)合難度大、以及人們對AI模型安全性、隱私和潛在攻擊的擔憂。

近年來，云計算市場迅速發(fā)展，客戶需求從資源需求向智能和業(yè)務(wù)方案需求轉(zhuǎn)變。市場前景廣闊，但業(yè)務(wù)數(shù)量眾多、場景復雜也帶來挑戰(zhàn)。隨著市場的成熟，定制化解決方案相較于統(tǒng)一方案更具優(yōu)勢，中小型供應(yīng)商也具有了競爭力。然而，在保證業(yè)務(wù)規(guī)模的同時，如何控制成本、提高效率和質(zhì)量成為核心難題。

另一方面，傳統(tǒng)行業(yè)也在積極利用AI技術(shù)解決問題，這需要算法具備通用性。然而，目前AI開發(fā)主要采取的是針對每個場景獨立開發(fā)的模式，缺乏通用知識的積累。這也導致低水平開發(fā)者難以掌握規(guī)范流程和優(yōu)化技巧，進而影響模型的效果。

為解決AI算法落地面臨的碎片化問題，預訓練大模型應(yīng)運而生。這種模型通過無監(jiān)督學習從大規(guī)模數(shù)據(jù)中提取通用知識，并將其儲存在參數(shù)量巨大的模型中。在遇到具體任務(wù)時，只需要調(diào)用統(tǒng)一的流程來應(yīng)用這些知識，并結(jié)合領(lǐng)域經(jīng)驗來解決具體問題。近年來，預訓練模型的研究和應(yīng)用持續(xù)爆發(fā)，有望在AI領(lǐng)域發(fā)揮統(tǒng)領(lǐng)作用。然而，要實現(xiàn)預訓練模型的商業(yè)規(guī)模應(yīng)用，還有一段路要走，這需要技術(shù)和商業(yè)模式雙輪驅(qū)動。我們設(shè)想大模型可以成為AI的操作系統(tǒng)，管理硬件資源，支撐算法應(yīng)用，從而使AI開發(fā)更加規(guī)范和普及。

一、大模型是 AI 發(fā)展的必然趨勢

1、人工智能發(fā)展趨勢的總體研判

人工智能存在著邏輯演繹、歸納統(tǒng)計和類腦計算三大流派，各具優(yōu)勢并持續(xù)爭議。類腦計算目標遠大，但缺乏生命科學支撐。歸納演繹方式與人類相似，可解釋性強，是前兩次繁榮的主角。隨著對人工智能困難性的理解，邏輯方法的局限性被放大，統(tǒng)計學習在第三次繁榮期占據(jù)主導地位。深度學習進一步推崇“拋棄先驗，擁抱數(shù)據(jù)”的思想。

深度學習是當代產(chǎn)物，得益于大數(shù)據(jù)和大算力的支持，其核心是深度神經(jīng)網(wǎng)絡(luò)，通過通用骨干網(wǎng)絡(luò)與特定目的頭部網(wǎng)絡(luò)的配合，實現(xiàn)了對各個子領(lǐng)域的統(tǒng)一解決問題。然而，其本質(zhì)仍是統(tǒng)計學習的框架，缺乏人類基于知識的推斷方式，導致通用性受限，且開發(fā)成本高昂，難以惠及細分行業(yè)。

預訓練大模型是深度學習時代的集大成者，分為上游(模型預訓練)和下游(模型微調(diào))兩個階段，旨在解決上述問題。雖然預訓練大模型不直接導向人工智能，但兩個重要判斷對其未來發(fā)展有著深遠影響。

1）在下一個劃時代的計算模型出現(xiàn)以前，大模型將是人工智能領(lǐng)域最有效的通用范式，并將產(chǎn)生巨大的商業(yè)價值

根據(jù)實際操作經(jīng)驗，預訓練大模型加持下的人工智能算法(包括計算機視覺和自然語言處理等領(lǐng)域)相比于普通開發(fā)者從頭搭建的算法，精度顯著提高、數(shù)據(jù)和計算成本明顯降低，并且開發(fā)難度大大降低。以計算機視覺為例：在以前，要在100張圖像上訓練基礎(chǔ)物體檢測算法，需要8塊GPU運行5個小時，一名開發(fā)者需要工作1個星期才能完成。然而，有了預訓練模型的支持，現(xiàn)在只需要1塊GPU運行2個小時，而且?guī)缀醪恍枰肆Ω深A。綜合人力和算力開銷的考慮，上述案例的開發(fā)成本降低90%甚至99%。

2）對大模型的研究，將有可能啟發(fā)下一個通用計算模型

在2011年之前，統(tǒng)計學習方法盛行，詞袋模型的參數(shù)達到了10億量級。然而，2012年只有6000萬參數(shù)的深度網(wǎng)絡(luò)打敗了詞袋模型，推動了計算機視覺領(lǐng)域的發(fā)展。深度網(wǎng)絡(luò)相比詞袋模型，在特征提取效率上取得了突破性進展。我們預測，隨著大模型不斷發(fā)展，結(jié)合知識后可能會出現(xiàn)新的突破，推動統(tǒng)計學習的進化。

目前看來，預訓練大模型代表了統(tǒng)計學習的最高成就，也是當前人工智能的最強武器。在新技術(shù)出現(xiàn)之前，預訓練大模型將繼續(xù)引領(lǐng)人工智能研發(fā)。中美兩國已經(jīng)在大模型的研發(fā)和應(yīng)用方面展開了競爭。

二、盤古大模型家族介紹

華為云團隊在2020年啟動大模型研發(fā)項目，并于2021年4月首次公開了名為“盤古預訓練大模型”的成果。盤古大模型集合了華為在AI領(lǐng)域的多項研究成果，并深度結(jié)合昇騰芯片、MindSpore語言和ModelArts平臺。下面將簡要介紹盤古大模型的組成部分，并剖析構(gòu)建大模型的關(guān)鍵技術(shù)。

1、視覺大模型

計算機視覺的目標是設(shè)計能夠識別和處理視覺信號的程序，從而使計算機能夠更好地“看”。其典型任務(wù)包括圖像分類、物體檢測、分割、追蹤和姿態(tài)估計。ImageNet數(shù)據(jù)集包含超過2萬個物體類別，用于圖像分類任務(wù)，而MS-COCO數(shù)據(jù)集則包含檢測和分割等任務(wù)。

在計算機中，視覺信號以像素密集采樣的方式來存儲光強度。然而，像素并不代表語義信息，因此這種存儲形式與人類理解之間存在巨大的差距，這被稱為語義鴻溝，是計算機視覺的核心問題。進一步分析圖像信號的特點，發(fā)現(xiàn)以下幾點：

內(nèi)容較復雜

圖像的基本組成單元是像素，但單個像素通常不足以傳達語義。

信息密度低

圖像信號雖然能客觀地反映出事物的特征，但其中相當一部分數(shù)據(jù)用于表達圖像中的低頻區(qū)域(如天空)或無明確語義的高頻區(qū)域(如隨機噪聲)。

域豐富多變

圖像信號受到各種域的影響，這種影響通常具有全局性質(zhì)，難以與語義區(qū)分開來。例如，同樣的語義內(nèi)容在不同的光照條件下會呈現(xiàn)出完全不同的表征。同時，相同的物體以不同的尺寸、視角和姿態(tài)出現(xiàn)時，會在像素層面產(chǎn)生巨大差異，給視覺識別算法帶來困難。

基于此使用了卷積網(wǎng)絡(luò)和Transformer等主流視覺模型架構(gòu)。自動機器學習算法支持不同規(guī)模模型，最大規(guī)模近30億參數(shù)，最小僅數(shù)十萬，可適配不同任務(wù)。

訓練數(shù)據(jù)主要來自互聯(lián)網(wǎng)，不含準確語義標簽。采用自監(jiān)督學習方法，通過設(shè)計代理任務(wù)讓模型在無標簽數(shù)據(jù)上擬合分布。在對比學習基礎(chǔ)上改進了自監(jiān)督算法，引入等級化語義相似度挑選更優(yōu)質(zhì)的正樣本,并使用混合數(shù)據(jù)增強技術(shù)減少噪聲影響。還擴大了正樣本數(shù)目，避免負樣本對訓練的影響。

基于等級化語義聚集的對比度自監(jiān)督學習

2、語音語義大模型

自然語言是人類存儲和交換信息的重要方式，通過文字和語音兩種形式實現(xiàn)。因此，語音語義處理分為自然語言處理和語音處理兩個領(lǐng)域，目標都是讓機器像人類一樣理解和使用語言。自然語言處理和語音處理都包含理解和生成兩個方面，但處理的信號類型不同，一個是文本，一個是音頻。雖然文本和音頻大多數(shù)情況下高度相關(guān)，但也有一些獨特的表達情況。

語音語義處理的核心是將文字和聲音轉(zhuǎn)化為機器可處理的格式。在深度學習之前，主要通過特征工程實現(xiàn)，但這種方法依賴于專家知識且難以擴展。隨著深度學習的發(fā)展，自動學習語言的向量表示逐漸成為主流。編碼器-解碼器框架被用于處理文字和音頻信號，其中編碼器將語言映射到低維向量，解碼器將低維向量映射回語言。設(shè)計合適的網(wǎng)絡(luò)結(jié)構(gòu)和學會參數(shù)是深度學習中的關(guān)鍵技術(shù)問題。在小型模型時代，CNN和RNN技術(shù)占主導地位，而LSTM模型因處理遠距離依賴的能力而備受關(guān)注。然而，RNN的優(yōu)化不穩(wěn)定且難以并行計算，因此限制了構(gòu)建大型語言模型的規(guī)模。

2017年，自注意力Transformer模塊被提出，結(jié)合已有方法優(yōu)點，在速度和表達能力上具有巨大優(yōu)勢，迅速在自然語言處理和語音識別領(lǐng)域得到應(yīng)用。隨著大規(guī)模語料庫的出現(xiàn)和自監(jiān)督學習方法的成熟，2018年出現(xiàn)了預訓練模型BERT并進入大模型時代?，F(xiàn)在，預訓練大模型憑借出色的泛化能力和基于提示的微調(diào)技術(shù)，簡化各種下游任務(wù)的實現(xiàn)方式，推動自然語言處理和語音識別領(lǐng)域的巨大發(fā)展，成為語音語義處理領(lǐng)域的最佳方案。

1）數(shù)據(jù)收集

自然語言處理和語音識別類似于計算機視覺，也需要大規(guī)模數(shù)據(jù)集作為基礎(chǔ)。爬取40TB原始網(wǎng)頁數(shù)據(jù)，通過解析和清洗，使用正則表達式等方法過濾噪聲、去重和規(guī)范長度，最終得到約647GB文本數(shù)據(jù)。語音部分，爬取超過7萬小時普通話音頻數(shù)據(jù)，轉(zhuǎn)換為音頻文件，共計約11TB，視頻來源多樣。

2）預訓練方法

對于語義部分，使用基于Transformer的編碼-解碼器神經(jīng)網(wǎng)絡(luò)模型。編碼器采用雙向自注意力機制來理解文本，解碼器則通過單向自注意力逐詞生成文本。提出多任務(wù)融合策略來讓模型從海量文本數(shù)據(jù)中獲取語言知識。遮罩語言模型用于訓練理解能力，即對原文進行挖空并預測缺失的部分。回歸語言模型用于訓練生成能力，給定上文，預測下文。為提高零樣本推理能力，收集了100+下游任務(wù)數(shù)據(jù)并加入預訓練中。

對于語音部分，解碼器與文本解碼器相似，但音頻編碼器采用了卷積與Transformer結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)。底層卷積神經(jīng)網(wǎng)絡(luò)提取局部信息，上層Transfomer提取全局信息。使用對比學習策略，將音頻中的片段挖空并與隨機負例進行比較，以找出正確的被挖掉的片段。

3、多模態(tài)大模型

多模態(tài)任務(wù)不同于計算機視覺或自然語言處理等單一模態(tài)任務(wù)，需要在海量多模態(tài)數(shù)據(jù)上進行預訓練，并將預訓練知識遷移到下游各項任務(wù)中，以提升下游任務(wù)的精度。典型的多模態(tài)任務(wù)包括跨模態(tài)檢索(如以文搜圖或以圖搜文)、視覺問答(通過圖像內(nèi)部信息回答問題)和視覺定位(在圖像中定位描述的對應(yīng)區(qū)域)。

1）數(shù)據(jù)收集

與視覺和語音語義大模型一樣，多模態(tài)大模型的訓練也需要在大量高質(zhì)量數(shù)據(jù)上進行。采用了業(yè)界常用的做法，從互聯(lián)網(wǎng)上爬取大量圖文數(shù)據(jù)，通過過濾算法消除不符合要求的數(shù)據(jù)，最終得到高質(zhì)量的圖文配對數(shù)據(jù)，用于多模態(tài)大模型的預訓練。具體來說，設(shè)定了大量文本關(guān)鍵字，在搜索引擎上獲取與之匹配的圖像，并將圖像對應(yīng)的文本存儲下來，形成圖文配對數(shù)據(jù)池。在去掉重復數(shù)據(jù)后，進一步篩選出分辨率高、文本長度適中的數(shù)據(jù)。接著，使用已有的多模態(tài)預訓練模型對配對數(shù)據(jù)的相似度進行判斷，如果相似度太低，就丟棄文本描述并使用圖像自動描述算法來生成文本數(shù)據(jù)。經(jīng)過上述預處理過程，最終得到了約3.5億高質(zhì)量的圖文配對數(shù)據(jù)，占據(jù)約60TB存儲空間。

2）預訓練方法

多模態(tài)大模型預訓練的關(guān)鍵在于不同模態(tài)數(shù)據(jù)的高效交互和融合。當前主流的多模態(tài)大模型架構(gòu)分為單塔架構(gòu)和雙塔架構(gòu)。單塔架構(gòu)使用一個深度神經(jīng)網(wǎng)絡(luò)(一般是 Transformer)實現(xiàn)圖像和文本之間的交互融合，屬于信息前融合方案;而雙塔架構(gòu)使用不同的神經(jīng)網(wǎng)絡(luò)來完成不同模態(tài)的信息抽取，并在最后一層進行信息交互和融合，屬于信息后融合方案。

盤古大模型采用雙塔架構(gòu)，具有模型獨立性強、訓練效率高等優(yōu)勢。實現(xiàn)方式簡單，使用相應(yīng)網(wǎng)絡(luò)抽取圖像和文本特征，然后將一個批次的圖像和文本特征送入判別器，在對比損失函數(shù)的作用下，使得配對的跨模態(tài)特征聚集在一起，而不配對跨模態(tài)特征被拉遠。在大數(shù)據(jù)集上充分迭代后，模型就能學會將圖像和文本對齊到同一空間。此時，圖像和文本的編碼器可以獨立用于各自下游任務(wù)，或協(xié)同用于跨模態(tài)理解類下游任務(wù)。

、

4、科學計算大模型

視覺大模型、自然語言大模型和多模態(tài)大模型主要用于解決通用的人工智能問題，如音頻分析、圖像識別和語義理解等。人類能夠標注大規(guī)模數(shù)據(jù)集供深度神經(jīng)網(wǎng)絡(luò)學習這些問題。然而，在自然科學領(lǐng)域中，還存在許多人類無法解決的問題，比如湍流模擬、天氣預報和大形變應(yīng)力建模等。這些問題具有廣泛的應(yīng)用前景，如下所示：

近年來，隨著人工智能技術(shù)的迅速發(fā)展，業(yè)界出現(xiàn)了AI+科學計算方法，即使用嵌入科學方程的深度神經(jīng)網(wǎng)絡(luò)，直接從觀測和仿真數(shù)據(jù)中學習問題蘊含的規(guī)律，以分析復雜的科學數(shù)據(jù)并了解科學過程的內(nèi)部機理。

從預訓練大模型的角度看，科學計算大模型與其他大模型有許多相似之處。都依賴于大規(guī)模數(shù)據(jù)集、需要設(shè)計具有大量參數(shù)的神經(jīng)網(wǎng)絡(luò)、經(jīng)歷復雜的優(yōu)化過程，并將知識存儲在網(wǎng)絡(luò)參數(shù)中。接下來，將簡單描述科學計算的獨特之處。

1）數(shù)據(jù)收集

在AI+科學計算場景中，數(shù)據(jù)分為觀測和仿真兩類。觀測數(shù)據(jù)由工具產(chǎn)生，如游標卡尺等，仿真數(shù)據(jù)由算法產(chǎn)生。這些數(shù)據(jù)、融合數(shù)據(jù)和機理知識都可以作為AI模型的學習對象。不同場景的觀測數(shù)據(jù)差異大，需使用專業(yè)儀器與實驗系統(tǒng)收集，如蛋白質(zhì)結(jié)構(gòu)預測中的X射線衍射和核磁共振等。仿真數(shù)據(jù)來自算法輸出，蘊含豐富的數(shù)學物理信息。同一個問題使用不同算法可產(chǎn)生不同仿真數(shù)據(jù)，精度受限。相對于觀測數(shù)據(jù)，仿真數(shù)據(jù)通常更大，可有效擴充數(shù)據(jù)。在某些場景中，觀測和仿真數(shù)據(jù)結(jié)合機理知識生成融合數(shù)據(jù)，如氣象再分析數(shù)據(jù)。

2）模型構(gòu)建

根據(jù)輸入數(shù)據(jù)的性質(zhì)，算法會選擇合適的基礎(chǔ)模型進行海浪預測等科學計算任務(wù)。對于二維球面數(shù)據(jù)，適合使用二維網(wǎng)絡(luò)模型;而三維數(shù)據(jù)則需使用三維網(wǎng)絡(luò)模型。這兩種模型可借鑒計算機視覺領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò)和視覺 Transformer 模型進行預訓練。同時，科學計算的特點在于利用人類經(jīng)驗形成約束性質(zhì)的偏微分方程組，將其嵌入神經(jīng)網(wǎng)絡(luò)中可增強模型的魯棒性并降低擬合難度和不穩(wěn)定。

左圖為嵌入偏微分方程的神經(jīng)網(wǎng)絡(luò)示意圖，右圖為海浪預報問題使用的偏微分方程

3）案例和效果展示

下面我們來探討一個典型的科學計算案例，即全球海浪高度預測系統(tǒng)。海浪預測的輸入和輸出都是經(jīng)緯度網(wǎng)格點上的氣象要素數(shù)據(jù)，數(shù)據(jù)形式與視頻數(shù)據(jù)相似。但海浪數(shù)據(jù)是浮點數(shù)，不同于視頻數(shù)據(jù)的像素值。此外，海浪數(shù)據(jù)還滿足球坐標條件下的一系列不變性，因此需要選定滿足特定不變性的CNN或者Transformer架構(gòu)。

盤古海浪預測模型的主體是考慮了旋轉(zhuǎn)不變性的視覺Transformer架構(gòu)，參數(shù)量約為五億。模型的損失函數(shù)由兩部分組成：實際數(shù)據(jù)上的預測誤差和海浪預測本身需要滿足的偏微分方程。通過使用全球近10年的實時海浪高度數(shù)據(jù)進行訓練，模型在驗證集上預測的平均誤差小于5cm，與傳統(tǒng)預測方法相當，完全可以滿足實際應(yīng)用需求。更重要的是，AI算法的預測時間較傳統(tǒng)方法大幅減少：在單張華為昇騰芯片上，1s之內(nèi)即可得到全球海浪高度預測，1分鐘內(nèi)能夠完成超過100次海浪預測任務(wù)，推理效率較傳統(tǒng)方法提升了4-5個數(shù)量級。

使用AI算法可以迅速得到不同可能的風速條件下的海浪高度，進行實時預測和未來情況模擬，對漁業(yè)養(yǎng)殖、災害防控等場景具有極大的價值。

使用昇騰 AI 芯片，AI 模型可以在一秒內(nèi)給出成百上千組“隨機”風速分布下的海浪分布

AI芯片：群賢畢至，花落誰家？

最近，由ChatGPT引領(lǐng)的AI熱潮再次興起，國內(nèi)外科技公司紛紛投入到大語言模型和生成式AI的研發(fā)中，展開一場對計算能力的競賽。GPT背后的核心算法是谷歌在2017年提出的Transformer，這種算法通過采用自我監(jiān)督預訓練的方式，近乎無需人工干預，因此需要大量訓練數(shù)據(jù)，再加上少量的有監(jiān)督微調(diào)和強化學習相結(jié)合。隨著更為復雜和多元化模型的涌現(xiàn)，高算力的AI芯片將充分受益于這種發(fā)展趨勢。然而，如果這些技術(shù)在消費端的應(yīng)用僅僅停留在表面，那么其意義并不大。

一、英偉達的兩大護城河：高算力芯片和高粘性 CUDA 軟件生態(tài)

根據(jù)AI論文中不同芯片的引用數(shù)據(jù)，英偉達的芯片在AI研究領(lǐng)域廣受歡迎。其產(chǎn)品的使用率是ASIC的131倍，高出Graphcore、Habana、Cerebras、SambaNova和寒武紀五家公司總和的90倍，是谷歌TPU的78倍，是FPGA的23倍。通常，在人工智能領(lǐng)域，新模型的推出都會在相關(guān)論文中進行發(fā)表，以便于信息交流與學術(shù)合作。英偉達在人工智能相關(guān)論文中的引用數(shù)量遙遙領(lǐng)先，這反映新算法需要采用英偉達GPU的必要性，以及其在學術(shù)界長期以來的重要地位和影響力。

英偉達芯片在 AI 論文中的引用數(shù)量遙遙領(lǐng)先

英偉達一直致力于開發(fā)高性能計算芯片的迭代，不斷在產(chǎn)品工藝、計算能力和存儲帶寬等方面進行創(chuàng)新。針對高性能計算和深度學習應(yīng)用場景，英偉達基于其芯片架構(gòu)，推出一系列GPU產(chǎn)品，以提升張量核心和稀疏矩陣計算等功能。2023年，英偉達不滿足于單GPU的更新?lián)Q代，推出結(jié)合Grace CPU與Hopper GPU的GH200超級芯片，實現(xiàn)高達900GB/s的總帶寬，加速大規(guī)模AI和HPC應(yīng)用計算。在SIGGRAPH上，英偉達的AI芯片再次迎來升級，推出全球首次采用HBM3e內(nèi)存的GH200超級芯片。該芯片的帶寬高達每秒5TB，并提供141GB的內(nèi)存容量，適用于復雜的生成式人工智能工作負載，如大型語言模型、推薦系統(tǒng)和矢量數(shù)據(jù)庫等。

英偉達 H100 與部分同業(yè)產(chǎn)品在運行不同 AI 負載時表現(xiàn)

二、MI300A 和 GH200：CPU+GPU AI 芯片架構(gòu)仿生人腦結(jié)構(gòu)

MI300系列是AMD旗下的GPU產(chǎn)品，包括兩款產(chǎn)品：MI300X和MI300A。MI300X是一款純GPU產(chǎn)品，由12個chiplets(8個GPU+4個IO+Cache)組成，與英偉達的GPU H100相媲美。而MI300A是一款CPU+GPU產(chǎn)品，由13個chiplets(6個GPU+3個CPU+4個IO+Cache)組成，采用APU架構(gòu)(Zen 4 CPU + CNDA 3 GPU)，與英偉達的異構(gòu)CPU+GPU芯片GH200競爭。

在參數(shù)上，MI300系列有許多值得關(guān)注的亮點。MI300X的192GB HBM3內(nèi)存領(lǐng)先于英偉達H100雙卡NVL的188GB HBM3，更遠超過H100 PCIe和SMX的80GB HBM3，而MI300A的128GB HBM3內(nèi)存也具有競爭力。其次，MI300X的晶體管數(shù)量為1530億，MI300A的晶體管數(shù)量為1460億，與H100的800億相比具有明顯優(yōu)勢。此外，內(nèi)存帶寬5.2TB/s與英偉達H100的2-7.2TB/s相近，Infinity Fabric互聯(lián)帶寬的896GB/s與NVlink的900GB/s相差無幾，但比H100高2.4X的HBM密度以及1.6X HBM帶寬則展示了AMD在GPU技術(shù)方面的優(yōu)勢。

AMD在2023 CES大會上首次推出CPU+GPU的MI300，后改稱MI300A。作為MI系列的第一款CPU+GPU異構(gòu)產(chǎn)品，CPU+GPU架構(gòu)已成為AI芯片的趨勢。

在AI應(yīng)用中，GPU算力較高，適用于并行計算，在視頻處理、圖像渲染等方面具有優(yōu)勢，但并不是所有工作負載都只需要單純的GPU處理，還需要由CPU進行控制調(diào)用，發(fā)布指令。因此，在CPU+GPU架構(gòu)中，CPU可以負責控制和發(fā)出指令，指示GPU處理數(shù)據(jù)和完成運算(如矩陣運算)。MI300A中的CPU采用的是x86架構(gòu)，而GH200中的CPU采用的是ARM架構(gòu)。兩種架構(gòu)各有優(yōu)勢，一般來說，ARM架構(gòu)主要應(yīng)用于移動端，因此相比x86能耗較低，這一點在AI和數(shù)據(jù)中心的應(yīng)用中都會受到青睞。

AMD Instinct MI 系列 GPU 發(fā)展歷程

三、谷歌 TPU：少數(shù)能與英偉達高算力 GPU 匹敵的 AI 芯片

谷歌的TPU(Tensor Processing Unit)是云廠商自研AI芯片的典型例子之一，從2017年開始已具備訓練和推理能力。谷歌TPU是少數(shù)能夠與英偉達高算力GPU相匹敵的AI芯片。在架構(gòu)與性能參數(shù)上不斷迭代，第一代TPU從2015年開始被使用于谷歌云計算數(shù)據(jù)中心的機器學習應(yīng)用中，當時僅面向推理端，但從2017年推出第二代開始，TPU已同時擁有訓練和推理能力。第三代TPU于2018年發(fā)布，旨在提高性能和能效以滿足不斷增長的機器學習任務(wù)需求。第四代TPU于2021年發(fā)布，而專為中大規(guī)模訓練和推理而構(gòu)建的TPUv5e于2023年發(fā)布。與TPUv4相比，TPUv5e可為大語言模型提供高達2倍的訓練性能和2.5倍的推理性能，并能節(jié)約一半以上的成本。谷歌目前僅通過谷歌云服務(wù)平臺向外部客戶提供TPU的算力租賃服務(wù)，而未有將其作為硬件產(chǎn)品出售。

2016 年至今谷歌云計算、AI 芯片、機器學習及 AI 應(yīng)用賦能進程梳理

四、亞馬遜 AWS：Trainium & Inferentia，訓練推理雙管齊下

AWS于2018年和2020年分別發(fā)布AI推理芯片Inferentia和訓練芯片Trainium，隨后在2023年推出第二代Inferentia，并在AWS云上提供給客戶使用。亞馬遜在2015年收購以色列芯片設(shè)計公司AnnapumaLabs，從而開始自研AI芯片的旅程，而第一代Inferentia正是源自該公司的技術(shù)。AWS的AI芯片搭配AWSNeuron開發(fā)軟件包，其中包含可用于兼容TensorFlow和PyTorch的編譯器。2023年5月，亞馬遜表示計劃將其自研的大語言模型“AlexaTeacherModel”(AlexaTM)接入智能語音助手Alexa。Alexa此前已經(jīng)接入亞馬遜Echo智能音箱等智能硬件設(shè)備，并使用Inferentia進行推理。

AWS Inferentia2 芯片架構(gòu)

Trainium是一款在云端進行訓練的AI芯片，其表現(xiàn)相較于A100更為優(yōu)秀，同時也具有更高的性價比。Trainium是AWS專為超過1000億參數(shù)規(guī)模的大模型打造的AI芯片，于2020年發(fā)布，目前仍處于第一代。每個Trainium配備了容量為32GB、帶寬為820GB/s的HBM2e，提供了FP16算力190TFLOPS(英偉達A100的FP16算力為624TFLOPS)和FP32算力47.5TFLOPS，并支持包括可配置的FP8在內(nèi)的多種數(shù)據(jù)精度。Trainium使用的互聯(lián)技術(shù)是AWS的Neuronlink(超高速非阻塞互連技術(shù)，v2代)，互聯(lián)速度達到了768GB/s，相比之下，NVlink4.0的互聯(lián)速度為900GB/s。根據(jù)AWS官網(wǎng)的信息，Trainium實例的內(nèi)存容量比英偉達A100實例高出60%，互聯(lián)帶寬高出2倍。使用130個Trainium實例訓練GPT-3只需要2周，而根據(jù)英偉達與微軟的論文《Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM》，使用1024顆A100進行訓練需要34天。2022年，AWS推出的Trn1AI平臺可以部署最多16個Trainium，在AWS云上進行AI模型訓練。相較于同類型的AmazonEC2實例，以Trainium為支撐的Trn1實例可以節(jié)約50%的訓練成本，而在亞馬遜廣告模型訓練中，這一成本節(jié)約甚至高達70%。

AWS 的 in-house 大語言模型 Alexa Teacher Model

Inferentia 推理卡已經(jīng)迭代兩代，并被用于亞馬遜硬件終端的 AI 服務(wù)。2018 年推出的第一代 Inferentia 配備了 8 GB 帶寬為 50GB/s 的 DDR4 內(nèi)存，而 2023 年 4 月正式推出的第二代 Inferentia 2 則配備了 32 GB 帶寬為 820GB/s 的 HBM2e 內(nèi)存，F(xiàn)P16 算力達到 190 TFLOPS，相比一代 Inferentia(64 TFLOPS)提高2 倍，主要針對高性能深度學習推理應(yīng)用程序進行設(shè)計。

根據(jù)亞馬遜官網(wǎng)的信息，相比第一代 Inferentia，第二代的延遲降低十分之一，吞吐量提高四倍。由于大規(guī)模終端設(shè)備 AI 模型對云端推理能力要求較高，而自研 AI 芯片等信息基礎(chǔ)設(shè)施和自身應(yīng)用可以進行針對性的相互適配與優(yōu)化，Amazon 人工智能助手 Alexa 使用以 Inferentia 為支撐的 Inf 實例進行推理負載。

除與 AWS 生態(tài)捆綁外，客戶還可以通過開發(fā)工具包 AWS Neuron，以及使用 Amazon Sagemaker(AWS 機器學習平臺)、Amazon Elastic Container Service(ECS，AWS 容器托管方案)、Amazon Elastic Kubernetes Service(EKS)等服務(wù)來快速開始使用 Inf 和 Trn 實例，并分別使用底層 Inferentia 和 Trainium 芯片能力。目前 AWS 上使用 Inferentia 承擔推理工作負載的客戶包括 Airbnb(愛彼迎，房屋租賃平臺)、Snap(圖片類社交媒體平臺)、Sprinklr(SCRM 社交媒體營銷公司)、Money Forward(金融科技公司)和 Finch Computing(AI 初創(chuàng)公司)等;而使用 Inferentia2 的客戶則包括 Hugging Face(機器學習公司)、Qualtrics(自動化管理軟件公司)和 Finch Computing(亦為 Inf1 客戶)等。

使用 inf1 實例將推理服務(wù)部署到 AWS ECS 容器托管集群

五、meta：首個自研推理端芯片 MTIA 將于 2025 年問世

meta 在 2023 年 5 月發(fā)布自主研發(fā)的 AI 芯片 MTIA，該芯片主要針對推理工作，從 2020 年開始設(shè)計，預計于 2025 年正式推出，采用臺積電 7nm 制程。MTIAv1 是針對推理端的產(chǎn)品，使用最高 128GB 的 LPDDR5 內(nèi)存，采用 RISC-V 架構(gòu)，并配合基于 PyTorch 的軟件包。與其他云廠商自主研發(fā)的 AI 芯片類似，MTIA 是針對公司內(nèi)部應(yīng)用和模型量身定制的 ASIC，尤其是針對 meta 旗下產(chǎn)品所需的 feed(例如 Instagram 的用戶瀏覽界面)貼文推薦算法進行了優(yōu)化。與通用芯片相比，MTIA 可以實現(xiàn)降本增效。

MTIA 產(chǎn)品實物圖

meta 的超級計算機由約 16,000 片英偉達 A100 GPU 構(gòu)成，已被用于訓練 LLaMA 模型。目前，meta 沒有推出專用于訓練階段的芯片，而是使用基于英偉達 A100 GPU 的內(nèi)部生產(chǎn)集群進行訓練。meta 的 AI 超級計算機 RSC(Research Super Cluster)由約 16,000 片英偉達 A100 GPU 構(gòu)成(2000 臺英偉達 DGX A100)，通過 NVIDIA Quantum InfiniBand 16 Tb/s 網(wǎng)絡(luò)結(jié)構(gòu)進行連接。meta 表示，其使用 RSC(除此外還包括由 A100 GPU 組成的內(nèi)部生產(chǎn)集群)來訓練其在 2023 年 2 月發(fā)布的 70-650 億參數(shù)的開源大模型 LLaMA。其中，650 億參數(shù)的 LLaMA 模型在 2048 片英偉達 A100 GPU 上花費 21 天完成預訓練。2023 年 7 月，meta 發(fā)布了免費可商用的 LLaMA2 版本，與第一代相比，LLaMA2 作為升級版本包括 70 億、130 億和 700 億三個參數(shù)版本，使用了 1.4 倍容量的數(shù)據(jù)集，并采用了分組查詢注意力機制，同樣使用 RSC 工作負載進行預訓練。據(jù) meta 評估，多項測評結(jié)果顯示 LLaMA 2 在推理、精通性、編碼和知識測試等諸多外部基準測試中均優(yōu)于其他開源語言模型。

SAM 模型總覽示意圖

英偉達顯卡與華為對比

當談到千卡集群GPT3模型訓練性能時，華為當代Atlas集群以其卓越的表現(xiàn)領(lǐng)先于NV DGXA800集群1.2倍。華為當代Atlas集群作為一種先進的計算平臺，以其出色的計算能力和高效的數(shù)據(jù)處理能力而聞名，為大規(guī)模深度學習模型的訓練任務(wù)提供了有力的支持。

華為當代Atlas集群的卓越性能源于其先進的硬件設(shè)計和優(yōu)化的軟件架構(gòu)。該集群采用了高性能的GPU加速器和高速互聯(lián)網(wǎng)絡(luò)，這使得數(shù)據(jù)傳輸和計算速度得以顯著提升。這種卓越的硬件設(shè)計與華為自主研發(fā)的優(yōu)化算法和分布式訓練框架相結(jié)合，進一步提升了模型訓練的效率。

與NV DGXA800集群相比，華為當代Atlas集群在千卡集群GPT3模型訓練性能上具有明顯的優(yōu)勢。使用華為當代Atlas集群進行訓練任務(wù)，能夠以更快的速度完成模型訓練，從而提高工作效率。這種領(lǐng)先性能的差距不僅體現(xiàn)在訓練時間上，還可以在模型的收斂速度和訓練結(jié)果的質(zhì)量上得到體現(xiàn)。

華為當代Atlas集群的領(lǐng)先性能使其成為深度學習研究人員和工程師的首選。無論是進行大規(guī)模數(shù)據(jù)訓練還是進行復雜模型的訓練任務(wù)，華為當代Atlas集群都能夠提供卓越的性能和可靠的支持，幫助用戶更快地實現(xiàn)預期的訓練目標。

藍海大腦大模型訓練平臺

藍海大腦大模型訓練平臺提供強大的算力支持，包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓撲，滿足大模型訓練中張量并行的通信需求。支持高性能I/O擴展，同時可以擴展至萬卡AI集群，滿足大模型流水線和數(shù)據(jù)并行的通信需求。強大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù)，當BMC收到PSU故障或錯誤警告(如斷電、電涌，過熱)，自動強制系統(tǒng)的CPU進入ULFM(超低頻模式，以實現(xiàn)最低功耗)。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計算解決方案。主要應(yīng)用于深度學習、學術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

一、為什么需要大模型？

1、模型效果更優(yōu)

大模型在各場景上的效果均優(yōu)于普通模型

2、創(chuàng)造能力更強

大模型能夠進行內(nèi)容生成(AIGC)，助力內(nèi)容規(guī)模化生產(chǎn)

3、靈活定制場景

通過舉例子的方式，定制大模型海量的應(yīng)用場景

4、標注數(shù)據(jù)更少

通過學習少量行業(yè)數(shù)據(jù)，大模型就能夠應(yīng)對特定業(yè)務(wù)場景的需求

二、平臺特點

1、異構(gòu)計算資源調(diào)度

一種基于通用服務(wù)器和專用硬件的綜合解決方案，用于調(diào)度和管理多種異構(gòu)計算資源，包括CPU、GPU等。通過強大的虛擬化管理功能，能夠輕松部署底層計算資源，并高效運行各種模型。同時充分發(fā)揮不同異構(gòu)資源的硬件加速能力，以加快模型的運行速度和生成速度。

2、穩(wěn)定可靠的數(shù)據(jù)存儲

支持多存儲類型協(xié)議，包括塊、文件和對象存儲服務(wù)。將存儲資源池化實現(xiàn)模型和生成數(shù)據(jù)的自由流通，提高數(shù)據(jù)的利用率。同時采用多副本、多級故障域和故障自恢復等數(shù)據(jù)保護機制，確保模型和數(shù)據(jù)的安全穩(wěn)定運行。

3、高性能分布式網(wǎng)絡(luò)

提供算力資源的網(wǎng)絡(luò)和存儲，并通過分布式網(wǎng)絡(luò)機制進行轉(zhuǎn)發(fā)，透傳物理網(wǎng)絡(luò)性能，顯著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面，采用嚴格的權(quán)限管理機制，確保模型倉庫的安全性。在數(shù)據(jù)存儲方面，提供私有化部署和數(shù)據(jù)磁盤加密等措施，保證數(shù)據(jù)的安全可控性。同時，在模型分發(fā)和運行過程中，提供全面的賬號認證和日志審計功能，全方位保障模型和數(shù)據(jù)的安全性。

三、常用配置

1、處理器CPU:

Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W

Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W

AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W

AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W

2、顯卡GPU：

NVIDIA L40S GPU 48GB

NVIDIA NVlink-A100-SXM640GB

NVIDIA HGX A800 80GB