【ITBEAR】meta公司近日公開了他們的Smartphone-based Small Language Model(MobileLLM)家族的開源規(guī)劃,這一舉動引起了業(yè)界的廣泛關(guān)注。為適應(yīng)不同用戶對模型效能的多樣化需求,meta新增了參數(shù)分別為600M、1B和1.5B的三種模型版本。
據(jù)meta研究團隊介紹,MobileLLM模型系列通過采用流線型的架構(gòu)設(shè)計,并結(jié)合“SwiGLU激活函數(shù)”與“分組查詢注意力”機制,從而在確保性能的同時,也優(yōu)化了運行效率。這種雙重優(yōu)化的設(shè)計理念,讓MobileLLM在性能和效率之間找到了一個平衡點。
實驗數(shù)據(jù)顯示,在配備32顆Nvidia A100 80G GPU的高性能服務(wù)器環(huán)境下,MobileLLM 1.5B版本模型僅需18天即可完成全部訓(xùn)練,而較小的125M版本更是只需3天。這樣的訓(xùn)練速度,無疑大大提升了模型的開發(fā)與迭代效率。
在性能測試中,MobileLLM 125M和350M兩款模型展現(xiàn)出了令人矚目的實力。在零樣本常識理解任務(wù)中,這兩款模型相較于其他業(yè)界領(lǐng)先的模型如Cerebras、OPT、BLOOM等,準確率分別提升了2.7%和4.3%。
更當(dāng)將MobileLLM-1.5B與其他參數(shù)規(guī)模更大的模型進行對比時,如GPT-neo-2.7B、OPT-2.7B、BLOOM-3B以及Qwen 1.5-1.8B,MobileLLM-1.5B在各項測試中均表現(xiàn)出領(lǐng)先性能,這充分證明了meta在小型化語言模型領(lǐng)域的深厚實力和創(chuàng)新能力。