Trace2Skill

LLM Agent 需要领域特定技能（skills）才能高效处理复杂任务。但技能创建面临三重困境：人工编写不可扩展：每个领域都需要专家花大量时间写详细的操作指南，随着 Agent 应用场景扩展，这个瓶颈越来越严重纯 LLM 生成效果差：直接让 LLM 凭参数化知识写技能，缺乏对目标领域具体操作和常见陷阱的了解，收益有限在线顺序更新导致碎片化：现有在线范式（如 ExpeL、Skill-Gen）按顺序处理每条轨迹，一条轨迹学一个教训就更新一次技能，导致技能碎片化且容易过拟合

Trace2Skill: 将轨迹局部经验提炼为可迁移的智能体技能

来源: arXiv:2603.25158

作者: Jingwei Ni, Yihao Liu, Xinpeng Liu, Yutao Sun, Mengyu Zhou, Pengyu Cheng, Dexin Wang, Erchao Zhao, Xiaoxi Jiang, Guanjun Jiang

领域: Artificial Intelligence (cs.AI)

摘要

为大型语言模型（LLM）智能体配备领域特定技能对于处理复杂任务至关重要。然而，手动编写技能会造成严重的可扩展性瓶颈。相反，自动技能生成往往会产生脆弱或碎片化的结果，因为它要么依赖浅层参数知识，要么顺序地过度拟合不可泛化的轨迹局部经验。

为了克服这一问题，我们提出了 Trace2Skill，这是一个模拟人类专家编写技能方式的框架：通过在将经验提炼为单一综合指南之前，全面分析广泛的执行经验。

Trace2Skill 不是对单个轨迹做出顺序反应，而是调度并行智能体子群来分析多样化的执行池。它通过归纳推理提取轨迹特定的经验，并分层整合为一个统一、无冲突的技能目录。Trace2Skill 支持深化现有的人类编写技能和从头创建新技能。

在电子表格、视觉问答和数学推理等挑战性领域的实验表明，Trace2Skill 显著优于强大的基线，包括 Anthropic 官方的 xlsx 技能。至关重要的是，这种基于轨迹的进化不仅仅是记住任务实例或模型特定的 quirks：在 Qwen3.5-35B 自己轨迹上进化的技能，将 Qwen3.5-122B 智能体在 WikiTableQuestions 上的表现提升了高达 57.65 个绝对百分点。

我们的结果表明，复杂的智能体经验可以被打包成高度可迁移的声明性技能——无需参数更新、无需外部检索模块，且仅使用 35B 参数规模的开源模型。

arXiv ID: 2603.25158 版本: v3 (2026年3月31日) PDF: https://arxiv.org/pdf/2603.25158

Trace2Skill: 将轨迹局部经验提炼为可迁移的智能体技能

摘要

继续阅读