Agent 与自动化 4.0 · 优秀 2026-05-04 · 论文

MCP-Flow: 自动构建大规模 MCP 工具数据集，让 0.6B 模型在工具调用上超越 GPT-4o

MCP-Flow 提出全自动 pipeline，从 6 个 MCP 市场自动抓取服务器配置，通过 Slot-Fill Revision + WizardLM Evolution 两阶段数据增强，产出 68733 对 instruction-function call（1166 服务器、11536 工具）。实验表明：GPT-4o 在 10 工具场景下 AST 仅 58.8%，100 工具时 Groq-8B AST 跌至 3%；而 MCP-Flow-Qwen3-0.6B 在同场景下 AST 达 81.2%，全面超越所有大模型。用 MCP-Flow 做 RAG 检索增强后，GPT-4o 在 GAIA 任务上成功率 +17%，步数减少 32%。

打开原文回到归档

MCP-Flow: 自动构建大规模 MCP 工具数据集，让 0.6B 模型在工具调用上超越 GPT-4o

来源：arxiv
作者：TikTok & 上海交大联合研究
原文链接：https://arxiv.org/abs/2510.24284
日期：2025-10

MCP-Flow 提出全自动 pipeline，从 6 个 MCP 市场自动抓取服务器配置，通过 Slot-Fill Revision + WizardLM Evolution 两阶段数据增强，产出 68733 对 instruction-function call（1166 服务器、11536 工具）。实验表明：GPT-4o 在 10 工具场景下 AST 仅 58.8%，100 工具时 Groq-8B AST 跌至 3%；而 MCP-Flow-Qwen3-0.6B 在同场景下 AST 达 81.2%，全面超越所有大模型。用 MCP-Flow 做 RAG 检索增强后，GPT-4o 在 GAIA 任务上成功率 +17%，步数减少 32%。

English Summary

MCP-Flow proposes a fully automated pipeline to scrape MCP server configs from 6 markets, augment data via Slot-Fill Revision + WizardLM Evolution, producing 68,733 instruction-function call pairs across 1,166 servers and 11,536 tools. Experiments show GPT-4o achieves only 58.8% AST accuracy with 10 tools; Groq-8B drops to 3% at 100 tools. MCP-Flow-Qwen3-0.6B achieves 81.2% AST, surpassing all large models. Using MCP-Flow for RAG retrieval augmentation, GPT-4o's GAIA task success rate improves by 17% with 32% fewer steps.

Related

继续阅读

Agents 4.0 · 优秀

Peter Yang x Mercury VP：如何为Agent设计API和MCP实战复盘

Peter Yang与Mercury VP @rywiggs合作推出关于Agent API和MCP设计的深度播客。核心观点：2020s的用户交互界面是API和MCP（Machine Communication Protocol），而非传统App。Mercury用Claude Code加500万字公司知识库构建第二大脑，每天自动生成日程/Linear/Slack简报。节目分享了：如何构建Agent友好的知识库结构、如何设计MCP工具接口、最佳API设计原则。这是第一份系统性Agent API/MCP设计实战复盘。

2026-04-24 · X · petergyang

Agents 4.0 · 优秀

论证型人机决策（Deliberative Human-AI Decision Making）

论文试图解决什么问题？ AI 系统的黑箱问题：LLMs 的推理过程不透明，难以验证和信任计算论证的可扩展性问题：传统 CA 依赖手工知识工程，难以应用于开放域人机协作的失衡：当前 AI 要么完全自动化决策，要么只是提供解释，缺乏真正的协作高风险领域的可信度：在医学、法律等领域，AI 必须提供可争议、可审查的推理核心洞察：计算论证（CA）与大语言模型（LLMs）的融合可以实现一个新范式——论证型人机决策制定，其中 AI 与人类共同推理，而不是为人类推理。

2026-03-22 · 论文 · **：Stylianos Loukas Vasileiou, Antonio Rago, Francesca Toni, William Yeoh

Agents 3.0 · 值得看

Trace2Skill

LLM Agent 需要领域特定技能（skills）才能高效处理复杂任务。但技能创建面临三重困境：人工编写不可扩展：每个领域都需要专家花大量时间写详细的操作指南，随着 Agent 应用场景扩展，这个瓶颈越来越严重纯 LLM 生成效果差：直接让 LLM 凭参数化知识写技能，缺乏对目标领域具体操作和常见陷阱的了解，收益有限在线顺序更新导致碎片化：现有在线范式（如 ExpeL、Skill-Gen）按顺序处理每条轨迹，一条轨迹学一个教训就更新一次技能，导致技能碎片化且容易过拟合

2026-04-07 · 论文

Agents 3.0 · 值得看

OpenClaw深度调研报告

OpenClaw的全面深度调研报告，涵盖架构设计、核心组件（Agent、Memory、MCP、Skills、Cron）、运行机制、与其他Agent框架的对比分析。报告系统梳理了OpenClaw的技术栈和生态位，对理解个人AI Agent的工程化实现有参考价值。

2026-03-17 · 文章