【ITBEAR】9月2日消息,近日,阿里云通義千問宣布推出全新升級的第二代視覺語言模型Qwen2-VL,該模型在視覺和語言理解能力上實(shí)現(xiàn)了質(zhì)的飛躍。
與上一代相比,Qwen2-VL展現(xiàn)出了更為出色的性能。它不僅能夠輕松解讀各種分辨率和尺寸的圖片,更在多項(xiàng)基準(zhǔn)測試中,包括DocVQA、RealWorldQA和MTVQA,取得了令人矚目的全球領(lǐng)先成績。值得一提的是,該模型還具備了對長視頻內(nèi)容的深度理解能力,可以處理超過20分鐘的視頻,并支持基于視頻的問答、對話以及內(nèi)容創(chuàng)作等多種應(yīng)用場景。
據(jù)ITBEAR了解,Qwen2-VL此次推出了2B和7B兩種尺寸的模型,同時(shí)還提供了量化版本以供選擇。此外,旗艦級的Qwen2-VL-72B模型也已通過API形式在阿里云百煉平臺上開放,供用戶直接調(diào)用,大大提升了使用的便捷性。
在功能方面,Qwen2-VL還展現(xiàn)了強(qiáng)大的視覺智能體實(shí)力。它能夠自主操作手機(jī)和機(jī)器人,根據(jù)所處的視覺環(huán)境和文字指令進(jìn)行智能化的自動操作,這一功能的加入無疑將極大地拓展模型的應(yīng)用范圍。
值得一提的是,Qwen2-VL還具備多語言文本理解能力,可以處理包括中文、英文、多數(shù)歐洲語言、日語、韓語、阿拉伯語以及越南語等在內(nèi)的多種語言。這一特性將極大地提升其在國際市場中的競爭力。
在技術(shù)層面,Qwen2-VL延續(xù)了ViT加Qwen2的經(jīng)典串聯(lián)結(jié)構(gòu),并在此基礎(chǔ)上進(jìn)行了多項(xiàng)創(chuàng)新。所有尺寸的模型都采用了統(tǒng)一的600M規(guī)模ViT,這使得模型能夠同時(shí)支持圖像和視頻的輸入。為了進(jìn)一步提升模型的感知和理解能力,團(tuán)隊(duì)還實(shí)現(xiàn)了對原生動態(tài)分辨率的全面支持,并引入了創(chuàng)新的多模態(tài)旋轉(zhuǎn)位置嵌入(M-ROPE)方法。