ITBear旗下自媒體矩陣:

微軟推出42億參數(shù)新AI模型Phi-3-vision,主打視覺(jué)理解

   時(shí)間:2024-05-26 08:39:49 來(lái)源:ITBEAR編輯:茹茹 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR科技資訊】5月26日消息,微軟最近推出了其小語(yǔ)言AI模型家族(SLM)的全新成員——“Phi-3-vision”。此款模型以“視覺(jué)能力”為主打特色,不僅能理解圖文內(nèi)容,還被譽(yù)為能在移動(dòng)平臺(tái)上實(shí)現(xiàn)流暢高效的運(yùn)行。

Phi-3-vision模型,作為微軟Phi-3系列的首款多模態(tài)模型,其文字理解能力源于Phi-3-mini,并繼承了其輕量化特性,非常適合在移動(dòng)設(shè)備或嵌入式系統(tǒng)中運(yùn)行。該模型擁有42億的參數(shù)量,這一數(shù)字超過(guò)了Phi-3-mini的3.8億,但低于Phi-3-small的70億。其上下文長(zhǎng)度達(dá)到了128k token,訓(xùn)練周期從2024年2月持續(xù)至4月。

據(jù)ITBEAR科技資訊了解,Phi-3-vision模型的最大亮點(diǎn)在于其“圖文識(shí)別能力”。它不僅能夠理解現(xiàn)實(shí)世界中圖片的含義,還能迅速識(shí)別和提取圖片中的文字信息。微軟表示,這款模型在辦公場(chǎng)合中表現(xiàn)出色,特別是在識(shí)別和理解圖表及方塊圖方面有著出色的能力。它可以根據(jù)用戶輸入的信息進(jìn)行推理,并為企業(yè)提供有價(jià)值的戰(zhàn)略建議,其效果甚至可與大型模型相媲美。

在模型訓(xùn)練方面,微軟強(qiáng)調(diào)Phi-3-vision是通過(guò)多種類(lèi)型的圖片和文字?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練的,這些數(shù)據(jù)來(lái)源于一系列經(jīng)過(guò)嚴(yán)格篩選的公開(kāi)內(nèi)容,如教育材料、代碼、圖文標(biāo)注數(shù)據(jù)等,從而確保了模型能夠處理多樣化的輸入。同時(shí),微軟也注重用戶隱私的保護(hù),在訓(xùn)練數(shù)據(jù)中嚴(yán)格排除了任何個(gè)人信息。

性能方面,微軟提供了Phi-3-vision與其他競(jìng)品模型如字節(jié)跳動(dòng)的Llama3-Llava-Next(8B)、微軟研究院與其他機(jī)構(gòu)合作的LlaVA-1.6(7B)以及阿里巴巴的通義千問(wèn)QWEN-VL-Chat等模型的對(duì)比圖表。結(jié)果顯示,Phi-3-vision在多個(gè)測(cè)試項(xiàng)目中均表現(xiàn)出色。

目前,微軟已經(jīng)將Phi-3-vision模型上傳至Hugging Face平臺(tái)。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0
 
 
更多>同類(lèi)資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開(kāi)放轉(zhuǎn)載  |  滾動(dòng)資訊  |  English Version