滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

微軟開源OmniParser，GPT-4V秒解析屏幕截圖，智能新突破！

時(shí)間：2024-10-29 10:38:55 來(lái)源：ITBEAR編輯：快訊團(tuán)隊(duì) 發(fā)表評(píng)論無(wú)障礙通道

【ITBEAR】微軟近日宣布了一項(xiàng)重大開源項(xiàng)目——OmniParser，這是一款專為解析和識(shí)別屏幕上可交互圖標(biāo)設(shè)計(jì)的AI工具。傳統(tǒng)自動(dòng)化方法受限于HTML或視圖層次結(jié)構(gòu)，而現(xiàn)有的視覺(jué)語(yǔ)言模型在處理復(fù)雜GUI元素時(shí)又顯得力不從心。為此，微軟推出了這款純視覺(jué)基礎(chǔ)的工具，旨在解決當(dāng)前屏幕解析技術(shù)的局限性。

OmniParser結(jié)合了可交互區(qū)域檢測(cè)模型、圖標(biāo)描述模型和OCR模塊，無(wú)需依賴HTML標(biāo)簽或視圖層次結(jié)構(gòu)等顯式基礎(chǔ)數(shù)據(jù)。這一特性使得它能夠在桌面、移動(dòng)設(shè)備和網(wǎng)頁(yè)等多種平臺(tái)上跨平臺(tái)工作，顯著提高了用戶界面的解析準(zhǔn)確性。OmniParser還能將識(shí)別出的屏幕元素轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)。

在實(shí)際測(cè)試中，OmniParser展現(xiàn)出了卓越的性能。在ScreenSpot數(shù)據(jù)集中，它的準(zhǔn)確率提高了73%，遠(yuǎn)超依賴HTML解析的模型。同時(shí)，當(dāng)GPT-4V使用OmniParser的輸出后，圖標(biāo)的正確標(biāo)記率從70.5%提升至93.8%。這些改進(jìn)充分證明了OmniParser在解決當(dāng)前GUI交互模型根本缺陷方面的有效性。

微軟已在Hugging Face上發(fā)布了OmniParser，這一舉措將有助于普及這一前沿技術(shù)，進(jìn)一步推動(dòng)多模態(tài)AI的發(fā)展，特別是在無(wú)障礙、自動(dòng)化和智能用戶輔助等領(lǐng)域。

舉報(bào) 0 收藏 0 打賞 0評(píng)論 0

更多>同類資訊

我國(guó)首個(gè)海上立體光伏項(xiàng)目首批并網(wǎng)發(fā)電，年發(fā)電量達(dá)12.86億千瓦時(shí)

12-31

領(lǐng)克旗艦SUV L946即將亮相，2.0T插混系統(tǒng)引期待

12-31

中國(guó)商飛客服公司獲CCAR-135運(yùn)行合格證，C909衍生機(jī)型首飛成功

12-31

央行重拳出擊債市違規(guī) 三機(jī)構(gòu)及個(gè)人被罰超千萬(wàn)

12-31

國(guó)泰君安海通證券合并重組大揭秘：細(xì)節(jié)曝光，新巨頭呼之欲出！

12-31

國(guó)君海通合并加速，業(yè)務(wù)整合與風(fēng)險(xiǎn)管控細(xì)節(jié)全揭秘

12-31

天馬Micro-LED產(chǎn)線全制程貫通，實(shí)現(xiàn)無(wú)邊框拼接顯示新突破！

12-30

優(yōu)必選解禁日股價(jià)大跌31.6%，民銀資本清倉(cāng)套現(xiàn)1.38億港元

12-30

95后AI天才少女羅福莉引熱議，小米挖角是否為真？

事實(shí)上，早在12月20日就有媒體報(bào)道過(guò)DeepSeek羅福莉?qū)⒓尤胄∶滓皇?，但?dāng)時(shí)的報(bào)道中并沒(méi)有將羅福莉稱為天才少女。其次，這次投稿ACL paper是其近一年的產(chǎn)出，所以她為自己是付出了足夠的努力的，當(dāng)…

12-30

斯巴魯森林人混動(dòng)版25年中旬來(lái)襲，電機(jī)動(dòng)力大升級(jí)！

12-30

強(qiáng)一股份科創(chuàng)板IPO：華為持股，上半年?duì)I收破2億，募資15億布局新項(xiàng)目

12-30

2025年元旦放假安排出爐，接下來(lái)4個(gè)月無(wú)長(zhǎng)假你準(zhǔn)備好了嗎？

12-30

京東大手筆！2025年全員平均薪資將達(dá)20薪

12-30

二手電源降價(jià)真相：大廠產(chǎn)能過(guò)剩還是雜牌攪局？

12-30

西部電動(dòng)車行業(yè)新風(fēng)向：共謀發(fā)展，堅(jiān)持不放棄！

12-30

點(diǎn)擊查看更多 +

全站最新

11月全球車企銷量出爐：比亞迪新能源勢(shì)頭猛，躍升全球亞軍

小米MIX Fold 3/4系統(tǒng)大升級(jí)，AI新體驗(yàn)讓操作更流暢智能！

吳曉波年終秀：聯(lián)想“小天”智能體引領(lǐng)個(gè)人AI新時(shí)代入口？

《戰(zhàn)神》系列：戰(zhàn)斗與情感交織的沉浸式游戲盛宴

符文搭配秘籍：解鎖游戲角色潛能，享受策略樂(lè)趣！

WeGame試玩節(jié)來(lái)襲，這些國(guó)產(chǎn)游戲新品你不容錯(cuò)過(guò)！

熱門內(nèi)容

本欄最新

我國(guó)首個(gè)海上立體光伏項(xiàng)目首批并網(wǎng)發(fā)電，年發(fā)電量達(dá)12.86億千瓦時(shí)

領(lǐng)克旗艦SUV L946即將亮相，2.0T插混系統(tǒng)引期待

中國(guó)商飛客服公司獲CCAR-135運(yùn)行合格證，C909衍生機(jī)型首飛成功

央行重拳出擊債市違規(guī) 三機(jī)構(gòu)及個(gè)人被罰超千萬(wàn)

國(guó)君海通合并加速，業(yè)務(wù)整合與風(fēng)險(xiǎn)管控細(xì)節(jié)全揭秘

天馬Micro-LED產(chǎn)線全制程貫通，實(shí)現(xiàn)無(wú)邊框拼接顯示新突破！

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) · 齊魯軟件園魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

微軟開源OmniParser，GPT-4V秒解析屏幕截圖，智能新突破！

微軟開源OmniParser，GPT-4V秒解析屏幕截圖，智能新突破！