面向 SmartPerfetto 的 Android 功耗（Power/Battery/Energy）全链路分析研究报告

MAS-Bench: GUI-快捷方式混合移动代理统一基准测试分析

核心问题

本文解决了移动GUI代理系统评估的系统性空白。随着大语言模型驱动的GUI代理快速发展，现有研究主要聚焦于纯GUI交互或独立程序化方法，缺乏对GUI-快捷方式混合操作的全面评估框架。这种混合模式结合了GUI交互的灵活性与API调用、深度链接、RPA脚本等快捷方式的执行效率，对移动自动化性能优化至关重要。

创新点

1. 首个专门基准：MAS-Bench是首个专门设计用于评估GUI-快捷方式混合移动代理的综合基准测试平台，填补了该领域系统性评估的空白。 2. 真实场景覆盖：包含11个真实世界应用的139个复杂任务，涵盖电子商务、社交媒体、健康等多个领域，确保测试结果的现实相关性和代表性。 3. 混合动作空间设计：创新性地结合传统GUI操作（点击、滑动、输入）与多样化快捷方式（API、深度链接、RPA脚本），为代理提供丰富的操作选择空间。 4. 自动化评估框架：采用"描述-判断"两阶段评估框架，使用大语言模型自动评估代理执行轨迹，显著减少人工标注成本，提高评估效率。

关键实验解读

1. 性能提升显著：GLM-4.5V模型在MAS-Bench上达到68.3%的最高成功率，相比纯GUI代理基准的35.2%实现了79.8%的相对提升，绝对性能提升超过30个百分点。 2. 执行效率优化：混合代理在平均执行时间上比纯GUI代理减少30.3%，任务成功步骤比减少38.9%，验证了快捷方式对效率的显著改善，证明了混合模式的技术优势。 3. 跨模型验证：在Qwen3-VL、GLM-4.5V、ScaleCUA等多个模型家族中系统验证了快捷方式注入策略的有效性，平均成功率提升达25%以上，展示了框架的通用性。 4. 快捷方式质量评估：预定义快捷方式成功率达到100%，但代理生成的快捷方式在鲁棒性和效率上仍有差距，成功率仅38%，为未来算法改进提供了明确方向。

局限性

1. 代理生成快捷方式的质量问题：当前代理生成的快捷方式在效率和鲁棒性上仍落后于预定义快捷方式，特别是在处理动态环境变化和累积错误时表现不佳。 2. 覆盖范围有限：虽然覆盖了11个应用，但对于Android生态系统的广泛代表性仍显不足，不同应用类型和复杂度的兼容性有待进一步验证。 3. 评估维度单一：主要集中在成功率和效率指标，对用户体验、资源消耗、延迟敏感性等多维度评估较少，无法全面反映移动性能优化效果。

对Android性能优化的可执行映射

1. 混合自动化策略：在移动应用自动化中，识别并优先使用API调用和深度链接等快捷方式，可显著减少GUI交互步骤，基于实验数据可提升执行效率30%以上，降低CPU和内存消耗。 2. 智能快捷方式生成：建立基于执行历史的学习机制，自动识别重复操作模式并生成可重用的快捷方式，结合MAS-Bench评估框架持续优化自动化流程，改善长期系统性能。 3. 多层次性能监控：借鉴MAS-Bench的9维评估指标体系，建立移动自动化应用的全面性能监控框架，重点关注成功率、执行时间、资源消耗等关键指标，实现性能问题的早期预警和精准定位。

MAS-Bench: GUI-快捷方式混合移动代理统一基准测试分析

核心问题

创新点

关键实验解读

局限性

对Android性能优化的可执行映射

继续阅读