【ITBEAR】9月25日消息,英偉達(dá)近日宣布,他們成功推出了Llama-3.1-Nemotron-51B AI模型,這一模型是基于meta公司的Llama-3.1-70B進(jìn)行優(yōu)化的。通過(guò)創(chuàng)新的神經(jīng)架構(gòu)搜索(NAS)方法,英偉達(dá)建立了一個(gè)既高度準(zhǔn)確又高效的模型。
Llama-3.1-Nemotron-51B AI模型擁有510億參數(shù),相較于meta公司計(jì)劃在2024年7月發(fā)布的Llama-3.1-70B模型,該模型在性能和效率上取得了顯著的提升。通過(guò)NAS技術(shù)的微調(diào),該模型在高工作負(fù)荷下只需一片H100 GPU即可運(yùn)行,大大降低了內(nèi)存消耗、計(jì)算復(fù)雜性以及與運(yùn)行此類(lèi)大型模型相關(guān)的成本。
據(jù)ITBEAR了解,英偉達(dá)在保持模型精度的前提下,顯著降低了內(nèi)存占用、內(nèi)存帶寬和FLOPs,證明了創(chuàng)建更小、更快變體的可能性。與meta的Llama-3.1-70B模型相比,Llama-3.1-Nemotron-51B在推理速度上提高了2.2倍,同時(shí)保持了幾乎相同的精度。
在開(kāi)發(fā)大型語(yǔ)言模型(LLM)的過(guò)程中,平衡精度與計(jì)算效率一直是一個(gè)重大挑戰(zhàn)。許多大規(guī)模模型雖然能提供最先進(jìn)的結(jié)果,但卻需要耗費(fèi)大量的硬件和能源資源,限制了它們的適用性。而英偉達(dá)的新模型則在這兩個(gè)相互競(jìng)爭(zhēng)的因素之間取得了微妙的平衡。
Llama-3.1-Nemotron-51B實(shí)現(xiàn)了精度與效率的出色權(quán)衡,減少了內(nèi)存帶寬,降低了每秒浮點(diǎn)運(yùn)算次數(shù)(FLOP),并減少了總體內(nèi)存占用,同時(shí)不影響模型執(zhí)行推理、總結(jié)和語(yǔ)言生成等復(fù)雜任務(wù)的能力。該模型的一個(gè)突出特點(diǎn)是能夠在單個(gè)GPU上管理更大的工作負(fù)載,允許開(kāi)發(fā)人員在更具成本效益的環(huán)境中部署高性能LLMs。
Llama-3.1-Nemotron-51B模型的成功主要?dú)w功于其新穎的結(jié)構(gòu)優(yōu)化方法。傳統(tǒng)上,LLMs是使用相同的塊構(gòu)建的,這些塊在整個(gè)模型中重復(fù)出現(xiàn),雖然簡(jiǎn)化了構(gòu)建過(guò)程,但也帶來(lái)了效率低下的問(wèn)題。英偉達(dá)通過(guò)采用NAS技術(shù)來(lái)優(yōu)化推理模型,解決了這些問(wèn)題。他們采用了分塊蒸餾過(guò)程,即訓(xùn)練更小、更高效的學(xué)生模型,以模仿更大的教師模型的功能。
此外,Llama-3.1-Nemotron-51B還采用了Puzzle算法,該算法對(duì)模型中的每個(gè)潛在區(qū)塊進(jìn)行評(píng)分,并確定哪些配置能在速度和精度之間取得最佳平衡。通過(guò)使用知識(shí)蒸餾技術(shù),Nvidia縮小了參考模型(Llama-3.1-70B)與Nemotron-51B之間的精度差距,同時(shí)顯著降低了訓(xùn)練成本。
總的來(lái)說(shuō),Llama-3.1-Nemotron-51B AI模型在精度、效率和成本效益方面均取得了顯著突破,為AI領(lǐng)域的進(jìn)一步發(fā)展提供了新的可能性。
關(guān)鍵詞:#英偉達(dá)# #Llama-3.1-Nemotron-51B# #AI模型# #神經(jīng)架構(gòu)搜索# #效率提升#