滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 數(shù)字家電 > 正文內(nèi)容

阿里通義千問Qwen2.5-VL視覺語言模型開源，解鎖視覺理解新境界

時(shí)間：2025-01-28 08:27:30 來源：ITBEAR編輯：快訊團(tuán)隊(duì) 發(fā)表評(píng)論無障礙通道

近日，阿里巴巴旗下的通義千問團(tuán)隊(duì)宣布了一項(xiàng)重大進(jìn)展，正式推出了其旗艦級(jí)的視覺語言模型Qwen2.5-VL。此次開源的版本涵蓋了3B、7B以及72B三種不同規(guī)模，以滿足多樣化的應(yīng)用需求。

Qwen2.5-VL作為Qwen模型家族的新成員，展現(xiàn)了強(qiáng)大的視覺理解能力。它不僅能夠準(zhǔn)確識(shí)別諸如花鳥魚蟲等常見物體，更能夠深入解析圖像中的文本、圖表、圖標(biāo)、圖形以及整體布局，為用戶帶來更為詳盡的信息解讀。

尤為Qwen2.5-VL還具備作為視覺代理的能力。它能夠像人一樣，通過推理動(dòng)態(tài)地使用各種工具，甚至初步掌握了操作電腦和手機(jī)的技能，為智能化應(yīng)用開辟了全新的可能性。

在視頻處理方面，Qwen2.5-VL同樣表現(xiàn)出色。它能夠輕松理解超過一小時(shí)的長(zhǎng)視頻內(nèi)容，并憑借精準(zhǔn)定位相關(guān)視頻片段的能力，有效捕捉事件的關(guān)鍵信息，為用戶節(jié)省了大量查找時(shí)間。

Qwen2.5-VL還具備強(qiáng)大的視覺定位功能。它能夠通過生成邊界框或點(diǎn)來精確定位圖像中的物體，并以穩(wěn)定的JSON格式輸出坐標(biāo)和屬性信息，為圖像分析提供了有力的支持。

對(duì)于結(jié)構(gòu)化數(shù)據(jù)的處理，Qwen2.5-VL同樣游刃有余。無論是發(fā)票、表單還是表格等數(shù)據(jù)，它都能夠?qū)崿F(xiàn)內(nèi)容的結(jié)構(gòu)化輸出，極大地提升了金融、商業(yè)等領(lǐng)域的工作效率。

在官方公布的測(cè)試中，旗艦?zāi)Ｐ蚎wen2.5-VL-72B-Instruct在一系列涵蓋多個(gè)領(lǐng)域和任務(wù)的基準(zhǔn)測(cè)試中均取得了優(yōu)異成績(jī)。特別是在理解文檔和圖表方面，它展現(xiàn)出了顯著的優(yōu)勢(shì)。同時(shí)，作為視覺代理進(jìn)行操作時(shí)，也無需進(jìn)行特定任務(wù)的微調(diào)，展現(xiàn)了極高的靈活性和適用性。

在較小模型方面，Qwen2.5-VL同樣表現(xiàn)出色。7B版本的模型在多個(gè)任務(wù)中超越了GPT-4o-mini，而3B版本則作為端側(cè)AI的潛力股，性能超越了前代7B模型，為用戶提供了更為高效、便捷的智能化體驗(yàn)。

據(jù)通義千問團(tuán)隊(duì)介紹，與Qwen2-VL相比，Qwen2.5-VL在模型結(jié)構(gòu)和感知能力上均進(jìn)行了優(yōu)化升級(jí)。它增強(qiáng)了對(duì)時(shí)間和空間尺度的感知能力，并簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu)以提高模型效率。這些改進(jìn)使得Qwen2.5-VL在智能化應(yīng)用中更加智能、高效。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

更多>同類資訊

Intel獨(dú)顯再添新成員，三款新品現(xiàn)身Linux內(nèi)核驅(qū)動(dòng)！

01-29

蛇年春晚新媒體收視火爆，實(shí)時(shí)直播互動(dòng)量再創(chuàng)新高

三言科技 1月29日消息，總臺(tái)蛇年春晚在境內(nèi)新媒體端的實(shí)時(shí)直播收視次數(shù)和互動(dòng)量均創(chuàng)新紀(jì)錄。據(jù)初步統(tǒng)計(jì)，新媒體端直點(diǎn)播收視次數(shù)28.17億次，去年同期21.27億次，同比增長(zhǎng)6.9億次。（央視新聞）…

01-29

紅魔平板Pro錄屏模糊問題獲修復(fù)，已開啟小批量更新推送

01-29

蘋果AirPods固件升級(jí)攻略來了！六步教你輕松搞定

01-29

飛利浦H8000E降噪耳機(jī)來襲：可換電池，續(xù)航力達(dá)50小時(shí)！

01-29

Geekbench 6.4重磅升級(jí)！支持RISC-V與Arm新擴(kuò)展，性能測(cè)試再進(jìn)化

01-29

蘋果PowerBeats Pro 2曝光：運(yùn)動(dòng)耳機(jī)新增心率監(jiān)測(cè)，續(xù)航達(dá)45小時(shí)

01-29

張藝謀春晚新作《秧BOT》：揭秘宇樹Unitree H1人形機(jī)器人舞蹈技術(shù)

01-29

蘋果AirPods固件升級(jí)全攻略來了，六步搞定不再愁！

01-29

蘋果折疊屏手機(jī)專利曝光：外折設(shè)計(jì)搭配精妙分段鉸鏈

01-28

蛇年新春限定來襲，這些手機(jī)配件你心動(dòng)了嗎？

01-28

華為FreeClip耳機(jī)二代11月來襲，功能大升級(jí)能否再創(chuàng)佳績(jī)？

01-28

微軟Win11/10一月更新致DAC音頻故障，用戶等修復(fù)

01-28

張藝謀攜手宇樹機(jī)器人，2025春晚《秧 BOT》共舞迎新春！

01-28

三星S25系列相機(jī)升級(jí)：視頻可直存外部設(shè)備，編輯更方便！

01-28

點(diǎn)擊查看更多 +

全站最新

真我13 Pro系列迎來realme UI 6大版本更新，多項(xiàng)新功能上線

《黑神話·悟空》周邊火爆，國(guó)產(chǎn)3A游戲迎來新春天？

《浪人崛起》PC版來襲！PS5獨(dú)占JRPG大作3月11日登陸Steam

西城廟會(huì)游戲狂歡，贏新春大禮包，錦鯉好運(yùn)等你抱回家！

摩托車的百年征程：從簡(jiǎn)陋到輝煌，誰是摩界真正的鼻祖？

2025大尺寸插混SUV新選擇：深藍(lán)S09、昊鉑HL、比亞迪唐L誰更亮眼？

熱門內(nèi)容

本欄最新

Intel獨(dú)顯再添新成員，三款新品現(xiàn)身Linux內(nèi)核驅(qū)動(dòng)！

紅魔平板Pro錄屏模糊問題獲修復(fù)，已開啟小批量更新推送

蘋果AirPods固件升級(jí)攻略來了！六步教你輕松搞定

飛利浦H8000E降噪耳機(jī)來襲：可換電池，續(xù)航力達(dá)50小時(shí)！

Geekbench 6.4重磅升級(jí)！支持RISC-V與Arm新擴(kuò)展，性能測(cè)試再進(jìn)化

蘋果PowerBeats Pro 2曝光：運(yùn)動(dòng)耳機(jī)新增心率監(jiān)測(cè)，續(xù)航達(dá)45小時(shí)

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

阿里通義千問Qwen2.5-VL視覺語言模型開源，解鎖視覺理解新境界

阿里通義千問Qwen2.5-VL視覺語言模型開源，解鎖視覺理解新境界