Hugging Face平臺(tái)近期在科技界掀起波瀾,發(fā)布了一款名為SmolVLM的AI視覺(jué)語(yǔ)言模型(VLM),這款模型以其精簡(jiǎn)的20億參數(shù)設(shè)計(jì),專(zhuān)為設(shè)備端推理打造,憑借超低的內(nèi)存占用,在眾多同類(lèi)模型中獨(dú)樹(shù)一幟。
SmolVLM AI模型的核心優(yōu)勢(shì)在于其小巧的體積、驚人的處理速度以及高效的內(nèi)存利用。更重要的是,該模型完全開(kāi)源,所有相關(guān)的模型檢查點(diǎn)、VLM數(shù)據(jù)集、訓(xùn)練配方和工具,均在A(yíng)pache 2.0許可證下向公眾開(kāi)放。
SmolVLM提供了三個(gè)版本以滿(mǎn)足不同需求:SmolVLM-Base,適用于下游任務(wù)的微調(diào);SmolVLM-Synthetic,基于合成數(shù)據(jù)進(jìn)行微調(diào);以及SmolVLM-Instruct,這是一個(gè)指令微調(diào)版本,可直接應(yīng)用于交互式應(yīng)用中。
該模型在架構(gòu)設(shè)計(jì)上的巧妙之處,是其借鑒了Idefics3的理念,并采用了SmolLM2 1.7B作為語(yǔ)言主干。通過(guò)創(chuàng)新的像素混洗策略,SmolVLM將視覺(jué)信息的壓縮率提升了9倍,從而實(shí)現(xiàn)了更高效的視覺(jué)信息處理。
在訓(xùn)練數(shù)據(jù)集方面,SmolVLM涵蓋了Cauldron和Docmatix,并對(duì)SmolLM2進(jìn)行了上下文擴(kuò)展,使其能夠處理更長(zhǎng)的文本序列和多張圖像。這一優(yōu)化不僅提升了模型的性能,還有效降低了內(nèi)存占用,解決了大型模型在普通設(shè)備上運(yùn)行緩慢甚至無(wú)法運(yùn)行的問(wèn)題。
在內(nèi)存使用方面,SmolVLM展現(xiàn)出了卓越的能力。它將384x384像素的圖像塊編碼為81個(gè)tokens,這意味著在相同的測(cè)試圖片下,SmolVLM僅需使用1200個(gè)tokens,而相比之下,Qwen2-VL則需要1.6萬(wàn)個(gè)tokens。這一顯著的內(nèi)存節(jié)省,使得SmolVLM在設(shè)備端推理上更具優(yōu)勢(shì)。
在性能表現(xiàn)上,SmolVLM同樣令人矚目。它在多個(gè)基準(zhǔn)測(cè)試中,如MMMU、MathVista、MMStar、DocVQA和TextVQA等,均展現(xiàn)出了出色的處理能力。與Qwen2-VL相比,SmolVLM在預(yù)填充吞吐量上快了3.3到4.5倍,而在生成吞吐量上更是快了7.5到16倍。
這款創(chuàng)新模型的發(fā)布,無(wú)疑為AI視覺(jué)語(yǔ)言模型領(lǐng)域帶來(lái)了新的活力和可能性。隨著SmolVLM的廣泛應(yīng)用和深入發(fā)展,我們有理由期待它在未來(lái)能夠發(fā)揮更大的作用,為人工智能技術(shù)的發(fā)展貢獻(xiàn)更多的力量。