Hugging Face平臺近日宣布了一項(xiàng)重要進(jìn)展,推出了兩款專為算力受限設(shè)備設(shè)計(jì)的輕量級AI模型——SmolVLM-256M-Instruct與SmolVLM-500M-Instruct。這兩款模型的發(fā)布,標(biāo)志著在資源有限的環(huán)境下,AI技術(shù)的應(yīng)用潛力得到了進(jìn)一步拓展。
早在2024年末,Hugging Face就曾推出過一款名為SmolVLM的視覺語言模型(VLM),該模型憑借僅20億參數(shù)的高效設(shè)計(jì),在設(shè)備端推理領(lǐng)域展現(xiàn)出了卓越的性能,尤其是其極低的內(nèi)存占用,更是成為了同類模型中的佼佼者。
而此次推出的SmolVLM-256M-Instruct,更是將參數(shù)規(guī)模壓縮至了2.56億,成為了有史以來發(fā)布的最小視覺語言模型。這款模型能夠在內(nèi)存低于1GB的PC上流暢運(yùn)行,為用戶提供出色的性能表現(xiàn)。對于資源受限環(huán)境下的開發(fā)者而言,這無疑是一個(gè)巨大的福音。
與此同時(shí),SmolVLM-500M-Instruct也以其5億參數(shù)的規(guī)模,展現(xiàn)了強(qiáng)大的數(shù)據(jù)處理能力。這款模型主要針對硬件資源受限的場景設(shè)計(jì),旨在幫助開發(fā)者應(yīng)對大規(guī)模數(shù)據(jù)分析的挑戰(zhàn),實(shí)現(xiàn)AI處理效率和可訪問性的雙重突破。
SmolVLM系列模型不僅參數(shù)規(guī)模小巧,更具備先進(jìn)的多模態(tài)能力。無論是圖像描述、短視頻分析,還是回答關(guān)于PDF或科學(xué)圖表的問題,這些模型都能游刃有余地完成。Hugging Face表示,SmolVLM在構(gòu)建可搜索數(shù)據(jù)庫方面,不僅速度更快、成本更低,其性能甚至能與規(guī)模十倍于自身的模型相媲美。
為了打造這些高效的AI模型,Hugging Face團(tuán)隊(duì)依賴了兩個(gè)專有數(shù)據(jù)集:The Cauldron和Docmatix。The Cauldron是一個(gè)精選的高質(zhì)量圖像和文本數(shù)據(jù)集集合,專注于多模態(tài)學(xué)習(xí);而Docmatix則專為文檔理解而設(shè)計(jì),通過配對掃描文件與詳細(xì)標(biāo)題,增強(qiáng)了模型的理解能力。
在模型架構(gòu)方面,SmolVLM-256M-Instruct和SmolVLM-500M-Instruct采用了更小的視覺編碼器SigLIP base patch-16/512,相較于SmolVLM 2B中使用的SigLIP 400M SO,這一優(yōu)化減少了冗余,提高了模型處理復(fù)雜數(shù)據(jù)的能力。這兩款模型還能夠以每個(gè)標(biāo)記4096像素的速率對圖像進(jìn)行編碼,相較于早期版本的每標(biāo)記1820像素,有了顯著的性能提升。