清华大学推 AutoDroid-V2:AI 离线在线协同,优化移动端自动化 GUI 控制

清华大学智能产业研究院(AIR)于 2024 年 12 月 24 日发布论文,介绍推出 AutoDroid-V2 AI 模型,在移动设备上利用小语言模型,显著提升了自然语言控制的自动化程度。

清华大学智能产业研究院(AIR)于 2024 年 12 月 24 日发布论文,介绍推出 AutoDroid-V2 AI 模型,在移动设备上利用小语言模型,显著提升了自然语言控制的自动化程度。

该系统采用基于脚本的方法,利用设备端小型语言模型(SLM)的编码能力,高效执行用户指令。相比依赖云端大型语言模型(LLM)的传统方法,AutoDroid-V2 在效率、隐私和安全性方面均有显著优势。

项目背景

大型语言模型(LLMs)和视觉语言模型(VLM)通过自然语言命令,彻底改变了移动设备控制的自动化,为复杂的用户任务提供了解决方案。

自动化控制设备主流采用“逐步 GUI 智能体”(Step-wise GUI agents)方式,通过在每个 GUI 状态查询,LLM 进行动态决策和反思、持续处理用户的任务,并观察 GUI 状态直至完成来进行操作。

但这种方式严重依赖基于云端的模型,在分享个人 GUI 页面时,还存在隐私和安全风险,此外还存在大量的用户端流量消耗以及高昂的服务器端集中服务成本等严重问题,阻碍大规模部署 GUI 智能体。

项目简介

不同于传统的逐步操作,AutoDroid-V2 根据用户指令生成多步骤脚本,一次性执行多个 GUI 操作,大幅减少了查询频率和资源消耗。

利用设备上的小型语言模型进行脚本生成和执行,避免了对强大云端模型的依赖,有效保护了用户隐私和数据安全,并降低了服务器端成本。

清华大学推 AutoDroid-V2:AI 离线在线协同,优化移动端自动化 GUI 控制

该模型在离线阶段会构建应用程序文档,包含 AI 引导的 GUI 状态压缩、元素 XPath 自动生成和 GUI 依赖分析,为脚本生成奠定基础。

清华大学推 AutoDroid-V2:AI 离线在线协同,优化移动端自动化 GUI 控制

此外用户提交任务请求后,本地 LLM 生成多步骤脚本,由特定域解释器执行,确保可靠高效的运行。

性能

基准测试上,在 23 个移动应用上测试 226 项任务,与 AutoDroid、SeeClick、CogAgent 和 Mind2Web 等基线相比,任务完成率提高 10.5%-51.7%。

清华大学推 AutoDroid-V2:AI 离线在线协同,优化移动端自动化 GUI 控制

在资源消耗方面,输入和输出 token 消耗分别减少至 43.5 分之一和 5.8 分之一,LLM 推理延迟降低至 5.7~13.4 分之一。

清华大学推 AutoDroid-V2:AI 离线在线协同,优化移动端自动化 GUI 控制

清华大学推 AutoDroid-V2:AI 离线在线协同,优化移动端自动化 GUI 控制

清华大学推 AutoDroid-V2:AI 离线在线协同,优化移动端自动化 GUI 控制

跨 LLM 测试中,在 Llama3.2-3B、Qwen2.5-7B 和 Llama3.1-8B 上表现一致,成功率 44.6%-54.4%,反向冗余比 90.5%-93.0%。

AI在线附上参考地址

  • AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation

相关资讯

北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路

由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队,最新推出了 LLaVA-o1,这是首个具备自发性、类似于 GPT-o1 的系统性推理视觉语言模型。

简化芯片设计传统,AI训练的新型算法正改变芯片研发范式

编辑丨&自1971年第一个商用微处理器的草图面世以来,芯片设计已经取得了长足的进步。 但是,随着芯片变得越来越复杂,设计人员必须解决的问题也越来越复杂。 而我们目前的工具并不总是能胜任这项任务。

消息称英伟达有意收购 AI 基础设施虚拟化创企 Run:ai,交易金额最高十亿美元

据外媒 SiliconANGLE 报道,英伟达有意收购 AI 基础设施虚拟化初创企业 Run:ai,交易金额最高可达 10 亿美元(IT之家备注:当前约 72 亿元人民币)。Run:ai 的同名工作负载管理平台近日率先获得英伟达 DGX SuperPOD 认证。其 AI 编排技术可帮助用户轻松运行 AI 和机器学习项目,满足对生成式 AI 和大模型不断增长的要求。Run:ai 由其 CEO 奥姆里・盖勒(Omri Geller)和 CTO 罗宁・达尔(Ronen Dar)于 2018 年创立。两人是在特拉维夫大学电