ITBear旗下自媒體矩陣:

Hugging Face新推SmolVLM AI模型,20億參數(shù)助力設(shè)備端高效推理

   時(shí)間:2024-11-27 14:18:04 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

Hugging Face平臺(tái)近期在科技界掀起波瀾,發(fā)布了一款名為SmolVLM的AI視覺(jué)語(yǔ)言模型(VLM),這款模型以其精簡(jiǎn)的20億參數(shù)設(shè)計(jì),專(zhuān)為設(shè)備端推理打造,憑借超低的內(nèi)存占用,在眾多同類(lèi)模型中獨(dú)樹(shù)一幟。

SmolVLM AI模型的核心優(yōu)勢(shì)在于其小巧的體積、驚人的處理速度以及高效的內(nèi)存利用。更重要的是,該模型完全開(kāi)源,所有相關(guān)的模型檢查點(diǎn)、VLM數(shù)據(jù)集、訓(xùn)練配方和工具,均在A(yíng)pache 2.0許可證下向公眾開(kāi)放。

SmolVLM提供了三個(gè)版本以滿(mǎn)足不同需求:SmolVLM-Base,適用于下游任務(wù)的微調(diào);SmolVLM-Synthetic,基于合成數(shù)據(jù)進(jìn)行微調(diào);以及SmolVLM-Instruct,這是一個(gè)指令微調(diào)版本,可直接應(yīng)用于交互式應(yīng)用中。

該模型在架構(gòu)設(shè)計(jì)上的巧妙之處,是其借鑒了Idefics3的理念,并采用了SmolLM2 1.7B作為語(yǔ)言主干。通過(guò)創(chuàng)新的像素混洗策略,SmolVLM將視覺(jué)信息的壓縮率提升了9倍,從而實(shí)現(xiàn)了更高效的視覺(jué)信息處理。

在訓(xùn)練數(shù)據(jù)集方面,SmolVLM涵蓋了Cauldron和Docmatix,并對(duì)SmolLM2進(jìn)行了上下文擴(kuò)展,使其能夠處理更長(zhǎng)的文本序列和多張圖像。這一優(yōu)化不僅提升了模型的性能,還有效降低了內(nèi)存占用,解決了大型模型在普通設(shè)備上運(yùn)行緩慢甚至無(wú)法運(yùn)行的問(wèn)題。

在內(nèi)存使用方面,SmolVLM展現(xiàn)出了卓越的能力。它將384x384像素的圖像塊編碼為81個(gè)tokens,這意味著在相同的測(cè)試圖片下,SmolVLM僅需使用1200個(gè)tokens,而相比之下,Qwen2-VL則需要1.6萬(wàn)個(gè)tokens。這一顯著的內(nèi)存節(jié)省,使得SmolVLM在設(shè)備端推理上更具優(yōu)勢(shì)。

在性能表現(xiàn)上,SmolVLM同樣令人矚目。它在多個(gè)基準(zhǔn)測(cè)試中,如MMMU、MathVista、MMStar、DocVQA和TextVQA等,均展現(xiàn)出了出色的處理能力。與Qwen2-VL相比,SmolVLM在預(yù)填充吞吐量上快了3.3到4.5倍,而在生成吞吐量上更是快了7.5到16倍。

這款創(chuàng)新模型的發(fā)布,無(wú)疑為AI視覺(jué)語(yǔ)言模型領(lǐng)域帶來(lái)了新的活力和可能性。隨著SmolVLM的廣泛應(yīng)用和深入發(fā)展,我們有理由期待它在未來(lái)能夠發(fā)揮更大的作用,為人工智能技術(shù)的發(fā)展貢獻(xiàn)更多的力量。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類(lèi)資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version