滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

Hugging Face新推SmolVLM AI模型，20億參數(shù)助力設(shè)備端高效推理

時(shí)間：2024-11-27 14:18:04 來(lái)源：ITBEAR編輯：快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

Hugging Face平臺(tái)近期在科技界掀起波瀾，發(fā)布了一款名為SmolVLM的AI視覺(jué)語(yǔ)言模型（VLM），這款模型以其精簡(jiǎn)的20億參數(shù)設(shè)計(jì)，專(zhuān)為設(shè)備端推理打造，憑借超低的內(nèi)存占用，在眾多同類(lèi)模型中獨(dú)樹(shù)一幟。

SmolVLM AI模型的核心優(yōu)勢(shì)在于其小巧的體積、驚人的處理速度以及高效的內(nèi)存利用。更重要的是，該模型完全開(kāi)源，所有相關(guān)的模型檢查點(diǎn)、VLM數(shù)據(jù)集、訓(xùn)練配方和工具，均在A(yíng)pache 2.0許可證下向公眾開(kāi)放。

SmolVLM提供了三個(gè)版本以滿(mǎn)足不同需求：SmolVLM-Base，適用于下游任務(wù)的微調(diào)；SmolVLM-Synthetic，基于合成數(shù)據(jù)進(jìn)行微調(diào)；以及SmolVLM-Instruct，這是一個(gè)指令微調(diào)版本，可直接應(yīng)用于交互式應(yīng)用中。

該模型在架構(gòu)設(shè)計(jì)上的巧妙之處，是其借鑒了Idefics3的理念，并采用了SmolLM2 1.7B作為語(yǔ)言主干。通過(guò)創(chuàng)新的像素混洗策略，SmolVLM將視覺(jué)信息的壓縮率提升了9倍，從而實(shí)現(xiàn)了更高效的視覺(jué)信息處理。

在訓(xùn)練數(shù)據(jù)集方面，SmolVLM涵蓋了Cauldron和Docmatix，并對(duì)SmolLM2進(jìn)行了上下文擴(kuò)展，使其能夠處理更長(zhǎng)的文本序列和多張圖像。這一優(yōu)化不僅提升了模型的性能，還有效降低了內(nèi)存占用，解決了大型模型在普通設(shè)備上運(yùn)行緩慢甚至無(wú)法運(yùn)行的問(wèn)題。

在內(nèi)存使用方面，SmolVLM展現(xiàn)出了卓越的能力。它將384x384像素的圖像塊編碼為81個(gè)tokens，這意味著在相同的測(cè)試圖片下，SmolVLM僅需使用1200個(gè)tokens，而相比之下，Qwen2-VL則需要1.6萬(wàn)個(gè)tokens。這一顯著的內(nèi)存節(jié)省，使得SmolVLM在設(shè)備端推理上更具優(yōu)勢(shì)。

在性能表現(xiàn)上，SmolVLM同樣令人矚目。它在多個(gè)基準(zhǔn)測(cè)試中，如MMMU、MathVista、MMStar、DocVQA和TextVQA等，均展現(xiàn)出了出色的處理能力。與Qwen2-VL相比，SmolVLM在預(yù)填充吞吐量上快了3.3到4.5倍，而在生成吞吐量上更是快了7.5到16倍。

這款創(chuàng)新模型的發(fā)布，無(wú)疑為AI視覺(jué)語(yǔ)言模型領(lǐng)域帶來(lái)了新的活力和可能性。隨著SmolVLM的廣泛應(yīng)用和深入發(fā)展，我們有理由期待它在未來(lái)能夠發(fā)揮更大的作用，為人工智能技術(shù)的發(fā)展貢獻(xiàn)更多的力量。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

更多>同類(lèi)資訊

中部最大智算中心“河南空港”正式投產(chǎn)，算力規(guī)模將達(dá)10萬(wàn)P！

01-12

高德地圖紅綠燈AI領(lǐng)航：從讀秒到智能引導(dǎo)，駕車(chē)出行新體驗(yàn)！

01-12

谷歌加速AI布局，AI Studio團(tuán)隊(duì)并入DeepMind力促項(xiàng)目提效

01-11

京東健康發(fā)布“AI京醫(yī)”大模型，分診準(zhǔn)確率高達(dá)99.5%引領(lǐng)醫(yī)療智能化

01-11

微軟DirectX新動(dòng)向：協(xié)作向量助力神經(jīng)渲染技術(shù)跨平臺(tái)發(fā)展

01-11

京東健康首推“AI京醫(yī)”體系，數(shù)字醫(yī)生24小時(shí)在線(xiàn)輔助診療

01-11

ChatGPT被用于開(kāi)發(fā)自動(dòng)射擊炮塔，OpenAI緊急叫停并封號(hào)

01-11

抖音重拳出擊！西藏地震后已清理2萬(wàn)余條AI虛假災(zāi)害視頻

01-11

谷歌、OpenAI等巨頭搶購(gòu)創(chuàng)作者未公開(kāi)視頻，高價(jià)訓(xùn)練AI模型？

01-11

Meta陷版權(quán)風(fēng)波，扎克伯格被曝批AI團(tuán)隊(duì)用盜版數(shù)據(jù)訓(xùn)練模型？

01-11

好大夫在線(xiàn)官宣：正式邁入螞蟻集團(tuán)新時(shí)代！

三言科技1月11日消息，今日，在“2025好大夫峰會(huì)”上，好大夫在線(xiàn)創(chuàng)始人王航宣布好大夫正式加入螞蟻集團(tuán)。 “我要正式向大家報(bào)告一個(gè)消息，好大夫在線(xiàn)已經(jīng)迎來(lái)全新的發(fā)展期，正式加入螞蟻集團(tuán)，這是一場(chǎng)雙向奔赴，我…

01-11

螞蟻集團(tuán)與好大夫在線(xiàn)攜手，醫(yī)療服務(wù)AI化新篇章開(kāi)啟！

01-11

扎克伯格炮轟蘋(píng)果：靠舊發(fā)明吃老本，創(chuàng)新乏力？

01-11

微軟rStar-Math技術(shù)助力，小語(yǔ)言模型數(shù)學(xué)推理能力大飛躍！

01-11

抖音重拳出擊！AI生成災(zāi)害場(chǎng)景，23652條不實(shí)信息被嚴(yán)處

01-11

點(diǎn)擊查看更多 +

全站最新

中部最大智算中心“河南空港”正式投產(chǎn)，算力規(guī)模將達(dá)10萬(wàn)P！

零跑C10增程版歐洲首秀，續(xù)航超950km，銷(xiāo)售網(wǎng)點(diǎn)覆蓋13國(guó)

一加12手機(jī)新升級(jí)：支持iOS一碰互傳，無(wú)網(wǎng)也能暢聊！

臺(tái)積電亞利桑那州工廠(chǎng)啟動(dòng)4納米芯片生產(chǎn)，總投資額高達(dá)4773億

《封神第二部：戰(zhàn)火西岐》全球多地同步上映，神話(huà)大片再掀熱潮！

華為WATCH GT5系列智能手表新配色曝光，紅色款定制表盤(pán)表帶來(lái)襲

熱門(mén)內(nèi)容

本欄最新

中部最大智算中心“河南空港”正式投產(chǎn)，算力規(guī)模將達(dá)10萬(wàn)P！

高德地圖紅綠燈AI領(lǐng)航：從讀秒到智能引導(dǎo)，駕車(chē)出行新體驗(yàn)！

京東健康發(fā)布“AI京醫(yī)”大模型，分診準(zhǔn)確率高達(dá)99.5%引領(lǐng)醫(yī)療智能化

ChatGPT被用于開(kāi)發(fā)自動(dòng)射擊炮塔，OpenAI緊急叫停并封號(hào)

抖音重拳出擊！西藏地震后已清理2萬(wàn)余條AI虛假災(zāi)害視頻

螞蟻集團(tuán)與好大夫在線(xiàn)攜手，醫(yī)療服務(wù)AI化新篇章開(kāi)啟！

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類(lèi)資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶(hù)提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) · 齊魯軟件園魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.