清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)近期公布了一項(xiàng)突破性的研究,該研究聚焦于移動(dòng)設(shè)備上的自然語言控制自動(dòng)化。AIR在2024年末發(fā)布了一篇論文,詳細(xì)介紹了一款名為AutoDroid-V2的AI模型。這款模型利用小型語言模型(SLM)顯著提升了移動(dòng)設(shè)備上的自動(dòng)化控制能力。
傳統(tǒng)的移動(dòng)設(shè)備自動(dòng)化控制主要依賴于大型語言模型(LLM)和視覺語言模型(VLM),這些模型通過自然語言命令實(shí)現(xiàn)復(fù)雜的用戶任務(wù)。然而,這些傳統(tǒng)方法大多采用“逐步GUI智能體”方式,頻繁查詢GUI狀態(tài),依賴云端模型進(jìn)行決策,這不僅帶來了隱私和安全問題,還增加了用戶端流量消耗和服務(wù)器端成本。
相比之下,AutoDroid-V2采用了全新的方法。它根據(jù)用戶指令生成多步驟腳本,通過設(shè)備上的小型語言模型一次性執(zhí)行多個(gè)GUI操作,從而顯著減少了查詢頻率和資源消耗。這種方法不僅避免了對云端大型模型的依賴,還有效保護(hù)了用戶隱私和數(shù)據(jù)安全,降低了服務(wù)器端的成本。
在基準(zhǔn)測試中,AutoDroid-V2表現(xiàn)出色。研究團(tuán)隊(duì)在23個(gè)移動(dòng)應(yīng)用上測試了226項(xiàng)任務(wù),與AutoDroid、SeeClick、CogAgent和Mind2Web等基線方法相比,AutoDroid-V2的任務(wù)完成率提高了10.5%至51.7%。這一顯著的提升表明,AutoDroid-V2在移動(dòng)設(shè)備自動(dòng)化控制領(lǐng)域具有巨大的潛力。
AutoDroid-V2在資源消耗方面也表現(xiàn)出色。與基線方法相比,AutoDroid-V2的輸入和輸出token消耗分別減少至原來的四十三分之一和五十八分之一,LLM推理延遲降低至原來的五分之一到十三分之四。這些改進(jìn)使得AutoDroid-V2在實(shí)際應(yīng)用中更加高效節(jié)能。
在跨LLM測試中,AutoDroid-V2也表現(xiàn)出良好的一致性和穩(wěn)定性。研究團(tuán)隊(duì)在Llama3.2-3B、Qwen2.5-7B和Llama3.1-8B等不同規(guī)模的模型上進(jìn)行了測試,結(jié)果顯示AutoDroid-V2的成功率在44.6%至54.4%之間,反向冗余比在90.5%至93.0%之間。這一結(jié)果表明,AutoDroid-V2對不同規(guī)模的LLM具有良好的適應(yīng)性和魯棒性。