【ITBEAR科技資訊】5月26日消息,微軟最近推出了其小語言AI模型家族(SLM)的全新成員——“Phi-3-vision”。此款模型以“視覺能力”為主打特色,不僅能理解圖文內(nèi)容,還被譽為能在移動平臺上實現(xiàn)流暢高效的運行。
Phi-3-vision模型,作為微軟Phi-3系列的首款多模態(tài)模型,其文字理解能力源于Phi-3-mini,并繼承了其輕量化特性,非常適合在移動設(shè)備或嵌入式系統(tǒng)中運行。該模型擁有42億的參數(shù)量,這一數(shù)字超過了Phi-3-mini的3.8億,但低于Phi-3-small的70億。其上下文長度達到了128k token,訓(xùn)練周期從2024年2月持續(xù)至4月。
據(jù)ITBEAR科技資訊了解,Phi-3-vision模型的最大亮點在于其“圖文識別能力”。它不僅能夠理解現(xiàn)實世界中圖片的含義,還能迅速識別和提取圖片中的文字信息。微軟表示,這款模型在辦公場合中表現(xiàn)出色,特別是在識別和理解圖表及方塊圖方面有著出色的能力。它可以根據(jù)用戶輸入的信息進行推理,并為企業(yè)提供有價值的戰(zhàn)略建議,其效果甚至可與大型模型相媲美。
在模型訓(xùn)練方面,微軟強調(diào)Phi-3-vision是通過多種類型的圖片和文字數(shù)據(jù)進行訓(xùn)練的,這些數(shù)據(jù)來源于一系列經(jīng)過嚴格篩選的公開內(nèi)容,如教育材料、代碼、圖文標注數(shù)據(jù)等,從而確保了模型能夠處理多樣化的輸入。同時,微軟也注重用戶隱私的保護,在訓(xùn)練數(shù)據(jù)中嚴格排除了任何個人信息。
性能方面,微軟提供了Phi-3-vision與其他競品模型如字節(jié)跳動的Llama3-Llava-Next(8B)、微軟研究院與其他機構(gòu)合作的LlaVA-1.6(7B)以及阿里巴巴的通義千問QWEN-VL-Chat等模型的對比圖表。結(jié)果顯示,Phi-3-vision在多個測試項目中均表現(xiàn)出色。
目前,微軟已經(jīng)將Phi-3-vision模型上傳至Hugging Face平臺。