ITBear旗下自媒體矩陣:

Hugging Face發(fā)布SmolVLM系列:小巧而強大的視覺語言模型登場

   時間:2025-01-26 20:38:19 來源:ITBEAR編輯:快訊團隊 發(fā)表評論無障礙通道

近日,Hugging Face 推出了兩款創(chuàng)新的多模態(tài)模型——SmolVLM-256M和SmolVLM-500M,這兩款模型在視覺與語言處理領(lǐng)域引起了廣泛關(guān)注。其中,SmolVLM-256M更是被譽為全球最小的視覺語言模型,這一突破性的成就令人矚目。

據(jù)了解,這兩款模型均源自Hugging Face團隊去年訓練的龐大800億參數(shù)模型,通過精心的蒸餾技術(shù)提煉而成。它們成功地在高性能與資源效率之間找到了完美的平衡點。官方強調(diào),無論是SmolVLM-256M還是SmolVLM-500M,都無需復雜配置,即可“即插即用”,輕松部署在transformer MLX和ONNX平臺上。

從技術(shù)細節(jié)來看,SmolVLM-256M和SmolVLM-500M均采用了SigLIP作為圖像編碼器,而文本編碼任務則交由SmolLM2完成。SmolVLM-256M以其小巧的體積脫穎而出,成為目前最小的多模態(tài)模型。它能夠接收任意序列的圖像和文本輸入,并生成相應的文字輸出,功能涵蓋圖像描述、視頻字幕生成、PDF處理等。尤為該模型體積小巧,即便在移動平臺上也能流暢運行,僅需不到1GB的GPU顯存即可完成單張圖像的推理任務。

相比之下,SmolVLM-500M則針對高性能需求進行了優(yōu)化。Hugging Face表示,這款模型非常適合企業(yè)運營環(huán)境,盡管其資源需求略高于SmolVLM-256M,但在推理輸出的精準度上有了顯著提升。具體來說,SmolVLM-500M在處理單張圖像時,僅需1.23GB的GPU顯存。

這兩款模型均遵循Apache 2.0開源協(xié)議,研究團隊還提供了基于transformer和WebGUI的示例程序,以便開發(fā)者快速上手。目前,所有模型及其演示均已公開發(fā)布,開發(fā)者可以輕松下載并使用,具體訪問頁面請點擊此處。

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version