【ITBEAR】微軟近日宣布了一項(xiàng)重大開源項(xiàng)目——OmniParser,這是一款專為解析和識(shí)別屏幕上可交互圖標(biāo)設(shè)計(jì)的AI工具。傳統(tǒng)自動(dòng)化方法受限于HTML或視圖層次結(jié)構(gòu),而現(xiàn)有的視覺(jué)語(yǔ)言模型在處理復(fù)雜GUI元素時(shí)又顯得力不從心。為此,微軟推出了這款純視覺(jué)基礎(chǔ)的工具,旨在解決當(dāng)前屏幕解析技術(shù)的局限性。
OmniParser結(jié)合了可交互區(qū)域檢測(cè)模型、圖標(biāo)描述模型和OCR模塊,無(wú)需依賴HTML標(biāo)簽或視圖層次結(jié)構(gòu)等顯式基礎(chǔ)數(shù)據(jù)。這一特性使得它能夠在桌面、移動(dòng)設(shè)備和網(wǎng)頁(yè)等多種平臺(tái)上跨平臺(tái)工作,顯著提高了用戶界面的解析準(zhǔn)確性。OmniParser還能將識(shí)別出的屏幕元素轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)。
在實(shí)際測(cè)試中,OmniParser展現(xiàn)出了卓越的性能。在ScreenSpot數(shù)據(jù)集中,它的準(zhǔn)確率提高了73%,遠(yuǎn)超依賴HTML解析的模型。同時(shí),當(dāng)GPT-4V使用OmniParser的輸出后,圖標(biāo)的正確標(biāo)記率從70.5%提升至93.8%。這些改進(jìn)充分證明了OmniParser在解決當(dāng)前GUI交互模型根本缺陷方面的有效性。
微軟已在Hugging Face上發(fā)布了OmniParser,這一舉措將有助于普及這一前沿技術(shù),進(jìn)一步推動(dòng)多模態(tài)AI的發(fā)展,特別是在無(wú)障礙、自動(dòng)化和智能用戶輔助等領(lǐng)域。