ITBear旗下自媒體矩陣:

Hugging Face開源SmolVLM模型:20億參數(shù)助力端側(cè)推理新突破

   時(shí)間:2024-11-27 20:25:23 來(lái)源:ITBEAR編輯:快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

Hugging Face,這一在人工智能領(lǐng)域備受矚目的平臺(tái),近期宣布了一項(xiàng)重大進(jìn)展:他們成功研發(fā)并開源了一款名為SmolVLM的創(chuàng)新視覺語(yǔ)言模型。此舉意味著,廣大研究者與技術(shù)開發(fā)者將能夠自由訪問該模型的全部資源,包括模型檢查點(diǎn)、數(shù)據(jù)集、訓(xùn)練方法及配套工具,所有內(nèi)容均遵循Apache 2.0許可協(xié)議。

在架構(gòu)設(shè)計(jì)上,SmolVLM巧妙融合了Idefics3的先進(jìn)理念,并選用了性能卓越的SmolLM2 1.7B作為其語(yǔ)言處理的核心。該模型通過引入一項(xiàng)創(chuàng)新的像素混洗技術(shù),實(shí)現(xiàn)了視覺信息的高效壓縮,壓縮率驚人地提升了9倍,從而大幅提高了處理速度。

為了訓(xùn)練這一強(qiáng)大的模型,Hugging Face精心挑選了Cauldron和Docmatix兩個(gè)大型數(shù)據(jù)集。他們還對(duì)SmolLM2進(jìn)行了上下文擴(kuò)展,使其能夠輕松應(yīng)對(duì)更長(zhǎng)的文本輸入以及多張圖像的處理需求。這些優(yōu)化措施不僅顯著降低了內(nèi)存占用,還有效解決了大型模型在普通設(shè)備上運(yùn)行時(shí)的性能瓶頸問題。

在內(nèi)存管理方面,SmolVLM展現(xiàn)出了令人驚嘆的能力。它能夠?qū)?84x384像素的圖像塊高效編碼為81個(gè)tokens,這一表現(xiàn)在同類模型中堪稱佼佼者。在與知名模型Qwen2-VL的對(duì)比測(cè)試中,SmolVLM在相同測(cè)試圖片下的內(nèi)存占用大幅降低。在多項(xiàng)基準(zhǔn)測(cè)試中,SmolVLM更是展現(xiàn)出了卓越的性能優(yōu)勢(shì):其預(yù)填充吞吐量比Qwen2-VL快了3.3至4.5倍,而生成吞吐量更是達(dá)到了驚人的7.5至16倍提升。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動(dòng)資訊  |  爭(zhēng)議稿件處理  |  English Version