Agent 与自动化 3.0 · 值得看 2026-03-27 · 论文

UI-Voyager: 自进化 GUI 智能体

移动 GUI 智能体在训练中面临两个根本性挑战：1）失败轨迹学习效率低——失败轨迹占绝大多数但未被有效利用；2）长程任务的信用分配模糊——轨迹级稀疏奖励（成功/失败）无法告知智能体哪一步做错了。

打开原文回到归档

UI-Voyager: 自进化 GUI 智能体

来源: arXiv:2603.24533

作者: Zichuan Lin, Feiyu Liu, Yijun Yang, Jiafei Lyu, Yiming Gao, Yicheng Liu, Zhicong Lu, Yangbin Yu, Mingyu Yang, Junyou Li, Deheng Ye, Jie Jiang

领域: Machine Learning (cs.LG), Artificial Intelligence (cs.AI), Computer Vision and Pattern Recognition (cs.CV)

摘要

随着多模态大语言模型（MLLM）的进步，自主移动 GUI 智能体越来越受到关注。然而，现有方法在从失败轨迹中高效学习和在稀疏奖励下进行模糊信用分配方面仍存在不足。为此，我们提出了 UI-Voyager，这是一种新型的两阶段自进化移动 GUI 智能体。

在第一阶段，我们采用拒绝微调（RFT），实现数据和模型的完全自主循环协同进化。第二阶段引入群体相对自蒸馏（GRSD），通过识别群体rollout中的关键分叉点，从成功轨迹构建密集的步级监督来纠正失败轨迹。

在 AndroidWorld 上的广泛实验表明，我们的 4B 模型达到了 81.0% 的 Pass@1 成功率，优于众多最近的基线，并超越了人类水平表现。消融和案例研究进一步验证了 GRSD 的有效性。

我们的方法代表了迈向高效、自进化、高性能移动 GUI 自动化的重要一步，无需昂贵的人工数据标注。

arXiv ID: 2603.24533 提交日期: 2026年3月25日 PDF: https://arxiv.org/pdf/2603.24533

Related

继续阅读

Agents 3.0 · 值得看

Agent Skills综述

如何将大型语言模型从单体模型转变为模块化、可动态扩展的智能体系统，同时确保安全性和可维护性。创新点技能抽象层：提出基于SKILL.md的技能范式，实现渐进式披露系统性综述：从架构、获取、部署、安全四个维度全面梳理Agent Skills生态安全治理框架：提出技能信任与生命周期治理框架（四层门控权限模型）实证分析：26.1%的社区技能包含漏洞...

2026-03-24 · 论文 · **：arXiv

Agents 4.0 · 优秀

MeKi —— 用 ROM 扩展端侧 LLM，而不是继续硬堆计算

论文：MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling 精读日期：2026-03-09 定位：面向 Android / 端侧 AI / 性能优化 / SmartPerfetto 方向的深度解读一、论文要解决的问题 1.1 真正的问题不是“模型不够大”，而是“手机端的资源结构不匹配” 在服务器上，做大模型最直接的办法就是：增加参数量；增加推理时计算；用更大的显存和更强的 GPU 接住它。但到了手机端，这套思路就开始失效： …

2026-03-09 · 论文 · 允许动态投影、归一化、非线性映射这些复杂结构存在，以保证模型能学到足够好的知识表达；部署前，再把这些东西折叠到静态查表结构里。于是：

Agents 3.0 · 值得看

PROV-AGENT: Provenance-Based AI Agent

Agentic workflow 中，AI agent 会 hallucinate 或推理错误，且错误会在 agent 间传播（一个 agent 的输出作为另一个的输入）。传统 provenance 技术无法捕获 agent 特有的元数据（prompts、responses、decisions）与 workflow 上下文的关联。该论文要解决的核心问题是：如何将 AI agent 行为纳入端到端 workflow provenance，实现可追溯、可审计、可复现的 agentic workflow？

2026-04-08 · 论文 · **：Souza et al. (ORNL/Argonne National Lab)

Agents 3.0 · 值得看

Large Language Model Agent: A Survey on Methodology, Applications and Challenges

LLM Agent 到底是什么、怎么构建、怎么协作、怎么演化？本文试图用一套统一的方法论分类体系回答这个正在快速碎片化的领域的核心架构问题。这不是第 N 篇 "Agent 综述"——它的价值在于提出"构建-协作-演化"三维框架，把散落的研究线索串成了一条可追溯的架构演进路径。

2026-04-07 · 论文