ITBear旗下自媒體矩陣:

Hugging Face發(fā)布超輕量級AI視覺語言模型,2.56億參數(shù)挑戰(zhàn)算力極限

   時間:2025-01-24 12:24:39 來源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評論無障礙通道

Hugging Face平臺近日宣布了一項(xiàng)重大進(jìn)展,推出了兩款專為算力受限設(shè)備設(shè)計(jì)的輕量級AI模型——SmolVLM-256M-Instruct與SmolVLM-500M-Instruct。這兩款模型的問世,標(biāo)志著在資源有限的環(huán)境下,AI性能發(fā)揮將邁入新階段。

早在去年11月,Hugging Face就已推出了僅有20億參數(shù)的SmolVLM AI視覺語言模型,該模型因其極低的內(nèi)存占用而在同類產(chǎn)品中表現(xiàn)突出,特別適用于設(shè)備端推理。而此次推出的新版本,則在參數(shù)數(shù)量上進(jìn)行了進(jìn)一步優(yōu)化。

SmolVLM-256M-Instruct,作為目前發(fā)布的最小視覺語言模型,其參數(shù)量僅為2.56億。令人驚嘆的是,這款模型甚至能在內(nèi)存低于1GB的PC上流暢運(yùn)行,同時提供出色的性能表現(xiàn)。這無疑為那些擁有有限硬件資源的用戶和開發(fā)者打開了全新的可能性。

另一款模型SmolVLM-500M-Instruct,則擁有5億參數(shù)。它主要針對硬件資源受限的場景設(shè)計(jì),旨在幫助開發(fā)者應(yīng)對大規(guī)模數(shù)據(jù)分析的挑戰(zhàn),實(shí)現(xiàn)AI處理效率和可訪問性的雙重突破。這兩款模型的推出,無疑將進(jìn)一步提升Hugging Face在AI領(lǐng)域的競爭力。

SmolVLM系列模型具備先進(jìn)的多模態(tài)能力,能夠執(zhí)行包括圖像描述、短視頻分析以及回答關(guān)于PDF或科學(xué)圖表問題在內(nèi)的多項(xiàng)任務(wù)。Hugging Face解釋稱,SmolVLM在構(gòu)建可搜索數(shù)據(jù)庫時速度更快、成本更低,其性能甚至可媲美規(guī)模遠(yuǎn)超其自身的模型。

為了開發(fā)這些模型,Hugging Face采用了兩個專有數(shù)據(jù)集:The Cauldron和Docmatix。The Cauldron是一個包含50個高質(zhì)量圖像和文本數(shù)據(jù)集的精選集合,專注于多模態(tài)學(xué)習(xí)。而Docmatix則專為文檔理解而設(shè)計(jì),通過將掃描文件與詳細(xì)標(biāo)題配對,以增強(qiáng)模型的理解能力。

在模型架構(gòu)方面,SmolVLM-256M-Instruct和SmolVLM-500M-Instruct采用了更小的視覺編碼器SigLIP base patch-16/512,而非SmolVLM 2B中使用的更大版本SigLIP 400M SO。這一優(yōu)化減少了冗余,提高了模型處理復(fù)雜數(shù)據(jù)的能力,并優(yōu)化了圖像標(biāo)記的處理方式。

SmolVLM系列模型能夠以每個標(biāo)記4096像素的速率對圖像進(jìn)行編碼,這一性能相較于早期版本中的每標(biāo)記1820像素有了顯著提升。這一改進(jìn)將進(jìn)一步增強(qiáng)模型在圖像處理和理解方面的能力。

舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version