阿里云在今日宣布了一項(xiàng)重大技術(shù)突破,其通義千問平臺(tái)正式推出了全新的視覺模型Qwen2.5-VL,該模型提供了三種不同規(guī)模的版本,包括3B、7B以及旗艦級(jí)的72B版本。
尤為引人注目的是,旗艦版本Qwen2.5-VL-72B在多達(dá)13項(xiàng)權(quán)威視覺理解評(píng)測(cè)中拔得頭籌,其表現(xiàn)甚至超越了業(yè)界知名的GPT-4和Claude3.5模型。
據(jù)官方詳細(xì)介紹,Qwen2.5-VL在圖像內(nèi)容解析方面展現(xiàn)出了極高的準(zhǔn)確性。更為突破性的是,該模型能夠支持長達(dá)一小時(shí)的視頻內(nèi)容理解,用戶可以在視頻中搜索特定事件,并對(duì)視頻進(jìn)行分段要點(diǎn)總結(jié),從而快速提取出關(guān)鍵信息,極大地提升了工作效率。
Qwen2.5-VL無需經(jīng)過繁瑣的微調(diào)過程,即可變身為一個(gè)功能強(qiáng)大的AI視覺智能體,能夠操控手機(jī)和電腦,執(zhí)行如給朋友發(fā)送祝福信息、電腦圖像編輯、手機(jī)訂票等多步驟復(fù)雜操作。
在圖像識(shí)別能力上,Qwen2.5-VL不僅擅長識(shí)別日常生活中的常見物體,如花、鳥、魚、蟲,還能深入分析圖像中的文本、圖表、圖標(biāo)、圖形以及整體布局。
該模型在OCR(光學(xué)字符識(shí)別)技術(shù)上也實(shí)現(xiàn)了顯著提升,增強(qiáng)了多場(chǎng)景、多語言和多方向的文本識(shí)別和定位能力。同時(shí),Qwen2.5-VL在信息抽取能力上進(jìn)行了大幅度優(yōu)化,以更好地滿足資質(zhì)審核、金融商務(wù)等領(lǐng)域的數(shù)字化、智能化需求。
Qwen2.5-VL的推出,標(biāo)志著阿里云在視覺模型領(lǐng)域取得了又一重要里程碑,為人工智能技術(shù)的發(fā)展注入了新的活力。