在人工智能領(lǐng)域的激烈競爭中,英偉達(dá)這一巨頭似乎依然穩(wěn)坐釣魚臺,然而2025年的AI算力市場正醞釀著重大轉(zhuǎn)變。行業(yè)的焦點正逐漸從模型訓(xùn)練轉(zhuǎn)向模型推理,這一趨勢為眾多專注于推理的“小”芯片公司提供了嶄露頭角的機(jī)會。
模型推理,作為AI技術(shù)商業(yè)化的關(guān)鍵階段,其重要性日益凸顯。無論是OpenAI的o1和o3模型,還是Google的Gemini 2.0 Flash Thinking,都在通過增強(qiáng)推理策略來提升訓(xùn)練后的結(jié)果質(zhì)量。這意味著,AI工作負(fù)載的格局正在發(fā)生深刻變化,推理計算需求將快速增長,并有望超過訓(xùn)練計算需求。
據(jù)巴克萊研報顯示,AI推理計算需求將迅速提升,預(yù)計其將占據(jù)通用人工智能總計算需求的70%以上,甚至可能達(dá)到訓(xùn)練計算需求的4.5倍。這一轉(zhuǎn)變,為那些擁有強(qiáng)大推理能力的芯片公司提供了廣闊的發(fā)展空間。
在這場競爭中,Groq、SambaNova和Positron AI等初創(chuàng)公司紛紛向英偉達(dá)亮出了挑戰(zhàn)的姿態(tài)。Groq,這家由前谷歌TPU核心團(tuán)隊創(chuàng)辦的公司,以其號稱“世界最快推理”的AI推理引擎LPU,吸引了眾多目光。Groq的LPU不僅在大模型速度上表現(xiàn)出色,還擁有遠(yuǎn)低于GPU的token成本。2024年,Groq更是推出了一款名為“猛獸”(Beast)的高性能計算芯片,據(jù)稱在AI推理任務(wù)中的性能超越了英偉達(dá)的某些主流GPU。
然而,Groq也面臨著一些質(zhì)疑。雖然其創(chuàng)始人宣稱LPU的速度和能效遠(yuǎn)超英偉達(dá)GPU,但一些專家指出,Groq的架構(gòu)建立在小內(nèi)存、大算力上,對于大模型的推理部署可能需要大量芯片并聯(lián),從而增加了硬件成本和能耗成本。盡管如此,Groq依然堅持其技術(shù)優(yōu)勢,并期待市場能夠更快地接受這種優(yōu)先考慮效率和可持續(xù)性的技術(shù)。
與Groq相比,SambaNova則顯得更為野心勃勃。這家公司不僅提供定制的技術(shù)堆棧,從芯片到服務(wù)器系統(tǒng),甚至包括部署大模型,還以其RDU架構(gòu)的高性能和可持續(xù)性吸引了眾多大客戶。SambaNova的RDU架構(gòu)擁有GPU 10倍以上的片上分布SRAM,以及適用于大規(guī)模計算任務(wù)的HBM,使得其在性能上相較于GPU有了2-4倍的優(yōu)勢。目前,SambaNova已經(jīng)贏得了包括世界排名前列的超算實驗室在內(nèi)的大客戶。
而Positron AI,雖然成立時間較晚,但同樣展現(xiàn)出了強(qiáng)大的競爭力。其推出的推理芯片聲稱可以執(zhí)行與英偉達(dá)H100相同的計算,但成本僅為五分之一。Positron AI的愿景是讓人人負(fù)擔(dān)得起AI推理,其CEO Thomas Sohmers表示,通過提供更多專用于推理的計算資源,將能夠推動AI技術(shù)的廣泛采用。
面對這些挑戰(zhàn)者,英偉達(dá)似乎并未感到太大的壓力。近日,英偉達(dá)推出了專為推理大模型打造的B300系列芯片,相較于B200在算力上提高了50%,顯存也從192GB提升到288GB。這款芯片將有效提升大模型的推理性能,降低推理成本,提高模型能力。
然而,英偉達(dá)也并非高枕無憂。隨著AI技術(shù)的不斷發(fā)展和應(yīng)用領(lǐng)域的不斷拓展,市場對AI芯片的需求也在不斷變化。英偉達(dá)需要不斷創(chuàng)新和升級其產(chǎn)品,以滿足市場的多樣化需求。同時,也需要警惕來自其他芯片公司的競爭和挑戰(zhàn)。