ITBear旗下自媒體矩陣:

Meta新推Llama 3.2量化版,1B/3B模型功耗再降低!

   時間:2024-10-27 15:15:34 來源:ITBEAR作者:陸辰風編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】meta公司近日宣布,繼9月推出Llama 3.2的1B與3B模型后,他們于10月24日發(fā)布了這兩個模型的量化版本。通過量化,模型大小平均縮減了56%,RAM使用量降低了41%,并且模型運行速度提升了2至4倍,功耗也有所下降,這使得模型更易于部署在移動設備上。

meta采用了兩種量化方法:量化感知訓練(QAT)和后訓練量化(SpinQuant)。前者注重模型的準確性,后者則強調模型的可移植性。

針對Llama 3.2的1B和3B模型,meta分別推出了兩款量化版本。這些量化模型相較于非量化的Llama BF16模型,速度更快,RAM占用更少,功耗更低,同時保持了與Llama BF16版本相近的精度。

盡管量化后的模型支持的Token上下文有所減少,但meta的測試顯示,量化版本的基準測試結果與原版相差無幾。

meta已在一加12、三星S24+/S22及蘋果iOS設備等移動平臺上測試了這些量化模型,并計劃未來通過神經處理單元(NPU)進一步提升模型性能。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯(lián)系方式  |  版權聲明  |  網站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉載  |  滾動資訊  |  English Version