Agent 与自动化 3.0 · 值得看 2026-04-27 · 文章

谁才是地表最强 Android Agent 大模型？Google官方测评来了！

com 发布日期：2026-04-27 现有代码评测基准（HumanEval、SWE-bench）几乎清一色面向 Python，无法覆盖 Android 开发的复杂性（Kotlin/Java 双语言、Jetpack Compose 与 View 体系并行、Gradle 构建配置、设备碎片化）. Google 正式发布 Android Bench — 首个专门针对 Android 开发的 LLM 评测基准. - 任务来源：GitHub 上 500+ Star 的真实开源 Android 项目，从 38,989 个已合并的 PR 中精选 100 道题 - 任务类型：修复 Breaking Chan

回到归档

继续阅读

Agents 5.0 · 必读

Agent Memory 架构本质

深度解析 Agent Memory 的工程架构。核心观点：Memory 的难点不在容量，在治理。文章厘清了 Memory 与 State/Policy/Profile 的边界，指出蒸馏只是管理链路中的一个操作而非记忆本身。提出四个建模对象：用户模型、任务模型、世界模型、自我模型。定义了记忆的六个维度（内容/类型/置信度/来源/作用域/时间衰减），以及写入-管理-读取三条链路。强调进化=修正+遗忘，评测从 recall 转向 update/abstain/drift/forget。

2026-04-15 · 文章

Agents 5.0 · 必读

Scaling Managed Agents：解耦大脑与双手

Anthropic工程团队详解Managed Agents架构——将Agent的大脑（决策）与双手（执行）解耦的设计范式。Managed Agents允许将子任务委托给专门的Agent执行，主Agent负责协调。这种架构支持Agent的水平扩展，每个子Agent可以独立运行、使用不同工具、拥有独立的上下文窗口。文章详细讨论了委托机制、上下文传递、错误处理和成本控制等工程挑战。

2026-04-09 · 文章 · Lance Martin, Gabe Cemaj, Michael Cohen

Agents 5.0 · 必读

Dr. MAMR：解决多智能体 LLM 推理中的惰性智能体问题

问题来源：多轮 GRPO 引入归一化项 1/Ti 以避免偏向更长轨迹。然而，这引入了结构性偏差：定理 1 的直觉：给定相同上下文，如果两个行动产生：轨迹 τS：TS 轮，最终奖励 R 轨迹 τL：TL 轮（TL > TS），最终奖励 R 模型会偏向 τS（更少轮次）。为什么？梯度更新中，除非 τL 的聚合贡献至少是 τS 的 TL/TS 倍，否则 ∥gt(τL)∥ > ∥gt(τS)∥。...

2026-03-12 · 论文 · ：**

Agents 5.0 · 必读

如何从零开始写一个 OpenClaw -- 关于我用 Rust 写一只🦀🦞(CrabClaw)的开发手记

By @jakevin7 (卡比卡比) · Mon Mar 02 15:57:31 +0000 2026 📊 ❤️ 74 🔁 4 🔖 92 👁️ 14,471 💬 1 📐 735 words 从 0 到 1，用 AI 辅助开发一个 OpenClaw 类似的 Agentic AI 工具。7 天，73 个 commit，13000+ 行 Rust。这篇文章记录了整个过程中的思考、踩坑与感悟。代码在 GitHub。如果你也想造一只属于自己的螃蟹钳子，欢迎 star/fork。我的 GitHub：jackwener，欢迎 follow。起因 2026 年 2 月，OpenClaw 火了。朋友圈里人人都在聊这只龙虾——一个能在 Telegram 里跟你对话、帮你干活的 AI 智能体。...

2026-03-03 · X · jakevin7