近期,科技分析媒體SemiAnalysis發(fā)表了一篇深度報(bào)告,該報(bào)告基于對(duì)AMD新款MI300X AI芯片的長(zhǎng)達(dá)五個(gè)月的細(xì)致研究。報(bào)告指出,盡管AMD的MI300X芯片在硬件配置上具備顯著優(yōu)勢(shì),但其在軟件層面的表現(xiàn)卻令人失望,這嚴(yán)重阻礙了其在市場(chǎng)上與英偉達(dá)競(jìng)爭(zhēng)的步伐。
從硬件規(guī)格上看,MI300X無疑是一款強(qiáng)勁的AI芯片。它擁有高達(dá)1307 TFLOPS(FP16)的算力,并配備了192GB的HBM3內(nèi)存,相比之下,英偉達(dá)的H100芯片算力為989 TFLOPS,內(nèi)存為80GB,即便是更高級(jí)的H200,其內(nèi)存也只有141GB。AMD的系統(tǒng)還憑借更低的價(jià)格和更經(jīng)濟(jì)的以太網(wǎng)絡(luò)配置,在總體擁有成本上占據(jù)優(yōu)勢(shì)。
然而,SemiAnalysis的調(diào)研發(fā)現(xiàn),MI300X在實(shí)際應(yīng)用中的表現(xiàn)卻大相徑庭。該芯片的軟件存在大量漏洞,導(dǎo)致在實(shí)際運(yùn)行過程中需要進(jìn)行大量的調(diào)試工作。這不僅影響了芯片的性能發(fā)揮,還使得AI模型訓(xùn)練工作幾乎無法進(jìn)行。相比之下,英偉達(dá)則持續(xù)推出新功能、庫和性能更新,進(jìn)一步鞏固了其在市場(chǎng)上的領(lǐng)先地位。
為了驗(yàn)證這一結(jié)論,SemiAnalysis的分析師進(jìn)行了大量的測(cè)試,包括GEMM基準(zhǔn)測(cè)試和單節(jié)點(diǎn)訓(xùn)練等。這些測(cè)試結(jié)果顯示,AMD在跨越英偉達(dá)的“CUDA護(hù)城河”方面面臨著巨大的挑戰(zhàn)。
報(bào)告還指出,MI300X的開箱即用體驗(yàn)非常糟糕。用戶需要投入大量的時(shí)間和精力,才能使芯片達(dá)到可用狀態(tài)。甚至AMD最大的GPU云提供商Tensorwave,也不得不向AMD團(tuán)隊(duì)提供免費(fèi)的GPU訪問權(quán)限,以幫助其修復(fù)軟件問題。這一現(xiàn)狀不僅影響了用戶的使用體驗(yàn),也限制了MI300X在市場(chǎng)上的推廣和應(yīng)用。
面對(duì)這些問題,SemiAnalysis建議AMD加大在軟件開發(fā)和測(cè)試方面的投入。他們指出,AMD可以學(xué)習(xí)英偉達(dá)的做法,分配數(shù)千個(gè)MI300X芯片用于自動(dòng)化測(cè)試,以簡(jiǎn)化復(fù)雜的環(huán)境變量,并優(yōu)化默認(rèn)設(shè)置,從而提升開箱即用體驗(yàn)。
對(duì)于AMD來說,要想在AI芯片市場(chǎng)上取得更大的突破,就必須解決當(dāng)前面臨的軟件問題。只有提升了用戶體驗(yàn)和性能穩(wěn)定性,MI300X才有可能在市場(chǎng)上與英偉達(dá)展開更加激烈的競(jìng)爭(zhēng)。