Agent 与自动化 4.0 · 优秀 2026-03-02 · X

X-PLUG/MobileAgent

MobileAgent is Alibaba Tongyi Lab’s GUI-agent project family, covering mobile, desktop, and browser automation through the GUI-Owl model line and multi-agent workflows. MobileAgent 是阿里通义实验室的 GUI Agent 项目家族,通过 GUI-Owl 模型系与多 Agent 工作流覆盖移动端、桌面端与浏览器自动化。...

打开原文回到归档

English

Mobile-Agent: A Family of Powerful GUI Agents for Multi-platform Automation

Research Papers:

@article{xu2026mobile, @article{ye2025mobile, @article{lu2025ui, @article{wanyan2025look, @article{liu2025pc, @article{wang2025mobile, @article{wang2024mobile2, @article{wang2024mobile,

中文

MobileAgent:多平台自动化的强大 GUI 代理系列

MobileAgent 是一个面向多平台 GUI 自动化的强大代理系列,主要针对移动设备和 PC 端的复杂任务自动化。

研究论文:

Mobile-Agent-v3.5:多平台基础 GUI 代理

  • 作者:Xu, Haiyang 等人
  • 期刊:arXiv 预印本 arXiv:2602.16855
  • 年份:2026

Mobile-Agent-v3:GUI 自动化的基础代理

  • 作者:Ye, Jiabo 等人
  • 期刊:arXiv 预印本 arXiv:2508.15144
  • 年份:2025

UI-S1:通过半在线强化学习推进 GUI 自动化

  • 作者:Lu, Zhengxi 等人
  • 期刊:arXiv 预印本 arXiv:2509.11543
  • 年份:2025

Mobile-Agent-E:复杂任务的自主进化移动助手

  • 作者:Wang, Zhenhailong 等人
  • 期刊:arXiv 预印本 arXiv:2501.11733
  • 年份:2025

主要特点:

1. 多平台支持:支持移动设备和 PC 端的 GUI 自动化 2. 视觉感知:具有多模态视觉感知能力,能够理解界面元素 3. 多代理协作:通过分层多代理协作框架处理复杂任务 4. 错误诊断:具备预操作错误诊断能力,提高自动化准确性 5. 自主进化:能够根据使用情况不断优化和进化代理能力

技术创新:

  • 半在线强化学习:结合在线学习和离线训练的优势
  • GUI 批判模型:在操作前进行错误诊断,避免失败
  • 层次化架构:将复杂任务分解为子任务,通过多个代理协作完成
  • 多模态感知:结合视觉、文本和界面信息进行智能决策

应用场景:

  • 移动应用自动化:自动化重复性移动应用操作
  • PC 任务自动化:处理桌面应用的复杂工作流程
  • UI 测试:自动化的用户界面测试和验证
  • 辅助功能:为残障人士提供界面辅助操作

该项目代表了 GUI 自动化领域的最新进展,特别是在移动设备和跨平台应用方面。