MCP-Flow 提出全自动 pipeline,从 6 个 MCP 市场自动抓取服务器配置,通过 Slot-Fill Revision + WizardLM Evolution 两阶段数据增强,产出 68733 对 instruction-function call(1166 服务器、11536 工具)。实验表明:GPT-4o 在 10 工具场景下 AST 仅 58.8%,100 工具时 Groq-8B AST 跌至 3%;而 MCP-Flow-Qwen3-0.6B 在同场景下 AST 达 81.2%,全面超越所有大模型。用 MCP-Flow 做 RAG 检索增强后,GPT-4o 在 GAIA 任务上成功率 +17%,步数减少 32%。
Agent 与自动化
Agent 框架、MCP、A2A、工具调用、长期任务。
Peter Steinberger 转发 OpenClaw 2026.5.2 发布,重点是修复 npm 安装依赖与速度问题,让插件安装和更新更稳定,并把大部分能力迁入 extensions 以降低包体负担。发布同时提到 Gateway 与 agent hot path 精简,以及 Discord、Slack、Telegram、WhatsApp、TTS、Realtime、web search 等集成修复。
Introducing Koog Integration for Spring AI: Smarter Orchestration for Your Agents 英文原文 Introducing Koog Integration for Spring AI: Smarter Orchestration for Your Agents > 作者: @jetbrains > 发布时间: 2026-04-16 > 原文链接: --- ## JetBrains AI Supercharge your tools with AI-powered features inside many JetBrains products Follow - Follow: - _RSS_ RSS Explore More # Introducing Koog Integr...
com/s/x_FUUG4wBUqYs1H5DUtpgQ 作者: 夜天之书(tison) 本文结合作者 Agentic Coding 的实践经验,深入讨论当前 LLM Coding Agent 的能力边界与局限性. 文章指出:LLM 能够生成"疑似正确"的方案,但到"经得起考验的产品"之间存在 AI 无法覆盖的鸿沟. 当前 LLM 的核心动作是对现有知识的搜索和组合,这推理出两个重要现象: 现状代码多为浆糊(Big Ball of Mud):现实中程序员倾向于就地打补丁,导致 AI 训练的语料本身就充满问题代码. AI 容易生成"似是而非"的并发代码,因为能找到的并发代码语料本身就存在
com/langchain-ai/agents-from-scratch 官方文档: com/langchain-ai/agents-from-scratch 该仓库是一个"从零构建 Agent"的实战指南,以构建一个 Gmail 接入的"环境感知"(ambient)邮件助手为最终目标. 分为 4 个章节,每章配有 Jupyter Notebook 和对应的 src/email_assistant 目录代码. 从 Agent 基础开始,逐步递进到 Agent 评估、人在回路(Human-in-the-Loop),最终到记忆系统,最终组合成一个可部署的 Age
GitHub: com/chenhg5/cc-connect Stars: 6424 (截至 2026-04-27) License: MIT cc-connect bridges AI agents running on your machine to the messaging platforms you already use. Code review, research, automation, data analysis — anything an AI agent can do, now accessible from your phone, tab
11816 - 发表时间: 2026-01-16 - 主题: Agentic AI / 企业自动化 / 治理框架 --- 企业后台工作流(如应付账款、合同审查)要求 AI 系统必须满足:可审计(full execution traces)、策略对齐(policy-aligned)、操作可预测(operationally predictable)、副作用可管控. 这些需求通用型 multi-agent 系统往往无法满足. 本文要解决的核心问题是:如何在保持 agent 灵活性的同时,为企业级 agentic AI 添加可验证的治理能力. --- 不是让 LLM 自由生成执行路径,
com/camel-ai/owl/blob/main/README_zh. md OWL(Optimized Workforce Learning)是 CAMEL-AI 推出的前沿多智能体协作框架,旨在通过动态智能体交互实现跨多领域的任务自动化. - 多搜索引擎支持:维基百科、Google、DuckDuckGo、百度、博查等实时信息检索 - 多模态处理:支持视频、图片、语音处理 - 浏览器操作:基于 Playwright 的页面滚动、点击、输入、下载、历史回退 - 文件解析:Word、Excel、PDF、PowerPoint 内容提取 - 代码执行:Py
发布时间: 2026-04-21 > 作者: Industry Analysis --- 摘要 / Summary: MCP(Model Context Protocol)正在成为 2026 年 AI 工具互操作性的通用连接器,被誉为'AI 工具的 USB 标准'. 作为 Anthropic 开发的 JSON-RPC 客户端-服务器接口,MCP 支持类型化数据交换,旨在成为 AI 工具的通用连接器. 截至 2026 年初,已有 200 多个服务器实现,支持 GitHub、Slack、Google Drive、Salesforce 等常见服务. 获得 Anthropic、OpenAI
The “best” way to build agentic systems has changed dramatically over the past three years. When ChatGPT came out, all you could do were simple RAG chains (LangChain). Then the models got a little better, and could create more complex flows (LangGraph). Then they got a lot better, and that gave rise
AIOS 是目前学术界最完整的 LLM Agent 操作系统原型,其核心设计将 LLM 实例抽象为"CPU 核心",通过系统调用层为上层 Agent 应用提供统一的调度、内存、存储、工具和访问控制服务. AIOS 已发表 8 篇论文,被 COLM 2025、ICLR 2025、NAACL 2025 收录,GitHub 获 5,387 星. 但 AIOS 是纯用户态 Python 实现,运行在 FastAPI 之上,并未触及真正的操作系统内核层. 与此同时,Android 平台正从"操作系统"向"智能系统"演进——Google 的 AICore/AppFunctions、三星的多 Age
发布时间: 2026-04-22 > 作者: Industry Analysis --- 摘要 / Summary: 2026 年标志着 AI 智能体从实验概念转向生产系统的关键转折点. Gartner 预测 40% 的企业应用将在 2026 年底嵌入特定任务 AI 智能体,远低于之前的 5%. 市场规模预计大幅增长,企业部署显示显著 ROI. 核心特征包括:感知与规划(解释非结构化输入,分解复杂目标)、工具使用(调用外部 API、数据库、其他智能体)、记忆模块(存储上下文和时间交互)、自主操作(持续的感觉-思考-行动循环)、解决高级问题. 架构组件包括 LLM(大脑)、记忆模块、
GitHub: com/TheRealSeanDonahoe/agents-md Stars: 525 (截至 2026-04-27) License: MIT One file. Every coding agent starts behaving like a senior engineer. Drop it into any repo. Claude Code, Codex, Cursor, Gemini CLI, Aider, Windsurf, Copilot, and Devin all read it on their own. | Before
MCP(Model Context Protocol)2026 年 3 月 SDK 月下载量突破 9700 万次。该协议从 Anthropic 内部实验到 Linux 基金会 Agentic AI Foundation 托管仅用约 14 个月,速度超过任何已知开发者协议。文章提供生产级 MCP Agent 构建指南,涵盖服务器/客户端实现、安全策略和 2026 年路线图。
Hermes Agent 源码级解读,Self-Improving 机制揭露了 Agent 自进化设计的核心路径
上个月在公司里给产品和业务的小伙伴分享了下如何上手 AI Coding,加上最近又发了条推特,聊到不少同学因为订阅门槛没机会用上一线 AI Coding 工具,方法和习惯不花钱就能先学,索性把上手这部分整理出来。然后为了让内容给大伙更好理解,文章中绘制了不少简单插画,这样看起来应该更会直接。
最好的架构,是满足今日需求的最简架构,同时为明日进化保留路径。它不是一次性的完美设计,而是在应对真实业务挑战的过程中,一步步“逼”出来的。
AI Agent 公司 Avoca 完成 1.25 亿美元以上融资(种子轮+A轮+B轮),估值达 10 亿美元。Avoca 的 AI Agent 帮助物理服务企业(暖通空调、管道、屋顶等)处理来电和调度任务。两位创始人在 MIT 扑克之夜相识,最初追逐餐饮行业客户,却意外发现 HVAC 公司才是真正的痛点市场。Kleiner Perkins 等顶级 VC 参投。这标志着 AI Agent 在传统服务业的落地正在获得大规模资本认可。
com 发布日期:2026-04-27 现有代码评测基准(HumanEval、SWE-bench)几乎清一色面向 Python,无法覆盖 Android 开发的复杂性(Kotlin/Java 双语言、Jetpack Compose 与 View 体系并行、Gradle 构建配置、设备碎片化). Google 正式发布 Android Bench — 首个专门针对 Android 开发的 LLM 评测基准. - 任务来源:GitHub 上 500+ Star 的真实开源 Android 项目,从 38,989 个已合并的 PR 中精选 100 道题 - 任务类型:修复 Breaking Chan
论文研究多智能体系统中流氓智能体导致全系统失败的问题,提出实时监控与干预框架,用多项式岭分类器基于动作预测熵检测流氓智能体,在检测到低成功概率时触发回滚或重置。引入WhoDunitEnv协作环境,实验证明该机制使LLAMA-3.1-70B、QWEN-2.5-72B、GPT-4O成功率提升约10个百分点,代码生成任务提升2.5%,GovSim资源管理任务提升20%。
深入分析Hermes Agent开源架构,阐述其Self-Improving闭环的三个子系统:Memory(2200字符容量限制,声明式事实,逼Agent压缩信息;冻结快照机制保护上下文缓存)、Skill(踩坑后自动创建/patch SKILL.md,Pitfalls节记录教训,按需渐进加载)、Nudge Engine(后台fork独立Agent实例审查会话,每10回合/10迭代触发,输出重定向/dev/null用户无感知)。与OpenClaw对比:Skill需手写,Agent不自主学习;Hermes让Agent越用越强。
Peter Yang与Mercury VP @rywiggs合作推出关于Agent API和MCP设计的深度播客。核心观点:2020s的用户交互界面是API和MCP(Machine Communication Protocol),而非传统App。Mercury用Claude Code加500万字公司知识库构建第二大脑,每天自动生成日程/Linear/Slack简报。节目分享了:如何构建Agent友好的知识库结构、如何设计MCP工具接口、最佳API设计原则。这是第一份系统性Agent API/MCP设计实战复盘。
介绍斯坦福+MIT论文《Meta-Harness》,提出让Harness本身进入自动化演进。当前文本优化器在优化Harness时核心问题是反馈压缩——几千步轨迹被压缩成单分数,丢失诊断上下文。Meta-Harness通过将完整文件系统(Python源码、执行日志)开放给代码Agent,让它像人类工程师一样翻阅历史候选、推理失败原因、编写修复代码。实验中TerminalBench-2通过80行环境快照代码使Claude Haiku 4.5达37.6%通过率。
Anthropic官方博客,系统阐述将Agent连接到外部生产系统的三条路径(Direct API、CLI、MCP)的适用场景及优劣。重点介绍构建生产级MCP服务器的最佳实践:远程服务器实现最大覆盖、按Intent而非端点分组工具、设计代码编排处理大表面、丰富语义(Elicitation/MCP Apps)、标准化认证(CIMD+Vaults)。提出MCP客户端的上下文效率优化(按需加载工具定义85%+节省、程序化工具调用37%节省)。
文章系统阐述Harness Engineering的核心价值:AI时代技术重心正从单点能力转向对整体系统的组织、约束和协同。作者从Prompt工程化、Context工程化、Tools工程化、Workflow工程化四个维度展开,结合OpenAI、Anthropic、LangChain的实践经验,介绍Generator-Evaluator模式、多Agent协作框架(Anthropic 16个并行Claude协作编写C编译器案例)。强调Harness的核心不是塞信息而是设计信息结构,长任务靠外部状态管理而非更强Prompt。
论文认为当前LLM Agent与人类协作采用反应式模式存在根本缺陷,人类无法预见解题决策如何向下游传导。提出simulation-in-the-loop范式,将多条备选未来轨迹外化展示,引入Agentic Workflow、Action Space、Simulation、Simulated Impact四个核心概念,以及Lookahead Depth、Exploration Breadth、Granularity三个设计维度。属于CHI 2026视角论文,概念框架尚未经实证验证。
Google DeepMind 发布 Deep Research 和 Deep Research Max,基于 Gemini 3.1 Pro 的自主研究代理,可安全浏览网页和自定义数据(如内部文档、专业财务数据),自动生成带引用来源的专业级报告。相比传统搜索,它能完成多步骤的调研任务链,输出结构化、可溯源的报告,适合分析师、研究人员和知识工作者。
Moyu 摸鱼局长 URL: com/Jason23818126/status/2047148464409379070 发布日期:2026-04-21 整理了 8 个 Hermes Agent 热度较高的实用项目,涵盖安全防护、搜索能力、技能扩展、工作空间、持久记忆等方面. hermes-agent-camel — 集成 CaMeL 信任边界,在任务执行过程中自动进行安全校验和信任验证,适合需要较高可靠性和防护的生产或敏感场景 GitHub: com/nativ3ai/hermes-camel 2. **hermes-web-sea
设计师 Sam Henri Gold 体验 Claude Design 后撰文:Figma 花十年构建的封闭设计系统在 AI 智能体时代正变成负担。LLM 用代码训练,学不会 Figma 专有格式,单一事实来源将回归代码。Figma 走向了忠于材料原则的反面:底层规则极其死板,表面却伪装得自由散漫。相比之下,Claude Design 尽管体验粗糙但诚实地由 HTML/JS 构成,与 Claude Code 天然打通,设计与开发的反馈循环有望融合。Figma 的 Sketch 时刻正在迅速逼近。
Kimi 与 Nous Research 联合推出 Hermes Agent 创意黑客松,为期 16 天,奖金池 $25,000。招募将 Hermes Agent 应用于创意领域(视频/图像/音频/3D/长文本/互动媒体)的探索者。展示了业界对 AI Agent 从工具向创意伙伴演进的期待,也为独立开发者提供了将 AI Agent 落地的新方向参考。
2026 年 4 月 18 日 AI 高价值内容日报,筛选 5 条:① Allie Miller 的 5 天 AI 建造课程;② Karpathy 转发 Farzapedia——用 LLM 将 2500 条个人数据转化为个人维基百科的实践;③ Google 发布 Gemini 3.1 Flash TTS 表情化语音合成;④ Gemini Agentic Vision:LLM 自己写代码做视觉推理任务;⑤ Nature 重磅论文——LLM 可通过隐含数据信号传递偏好与对齐特征。
RookieRicardoR 系统梳理当前 AI Agent 开发工具链全貌:底层(模型协议层)推荐 Claude Agent SDK(子进程方式兼容所有 Claude 协议模型)和 OpenAI Agent SDK / Vercel AI SDK / Pi-mono;上层 Runtime 推荐 assistant-ui + tools.ui(完整事件流+UI组件);开源完整方案推荐 CodePilot;记忆层建议可插拔设计(better sqlite + F5,或 markdown)。线程讨论深入,延伸至 Human-in-the-loop 审批、Wiki 模式不是真正记忆层等工程细节。
基于 DeerFlow(字节开源多智能体框架,GitHub 6万+ Stars)和 LangChain 创始人 Harrison Chase 的文章,系统梳理 Agent 自我进化的三层框架:Model(权重更新,最重)、Harness(执行机制,2026年核心竞争点)、Context(记忆与个性化,最先落地)。核心判断:2026 年 Agent 的分水岭不在模型在 Harness;Context 层会最先普及;traces 是三层学习的统一燃料;未来更强的 Agent 不来自更大模型,而来自更会复盘、记忆、重构的系统。
文章分析 OpenClaw 进入真实生产场景还缺的四层能力:可视化层(Agent 在做什么必须清晰可见)、封闭层(把开放业务动作重构为边界明确的工作单元)、验证层(垂直领域的 gate,不通过不能进入完成态)、回滚层(沙盘机制,Amazon agent canvas 的实践)。核心判断:Coding Agent 成功是因为代码世界天然具备可视化/封闭/可验证/可回滚四个特征;业务 Agent 要落地必须先把这四层能力构建出来。
深度解析 Agent Memory 的工程架构。核心观点:Memory 的难点不在容量,在治理。文章厘清了 Memory 与 State/Policy/Profile 的边界,指出蒸馏只是管理链路中的一个操作而非记忆本身。提出四个建模对象:用户模型、任务模型、世界模型、自我模型。定义了记忆的六个维度(内容/类型/置信度/来源/作用域/时间衰减),以及写入-管理-读取三条链路。强调进化=修正+遗忘,评测从 recall 转向 update/abstain/drift/forget。
作者提出 AI Knowledge Layer 的两层架构:动态知识库层(KBL)和静态品牌基础层(BF)。KBL 让用户将推文、文章、书签等原始素材导入文件夹,由 AI Agent 自动分类、构建结构化 Wiki 页面并维护主索引;BF 则存储用户的声音规则、视觉风格、定位等静态信息,Agent 只读不改。灵感来自 Karpathy 关于将 token 消耗从代码转向知识管理的观点。开源框架,20 分钟即可部署。
首次系统梳理 LLM 记忆系统的全设计空间,指出 Raw/Derived 权衡是结构性问题
[EN] - 来源:X/Twitter 原文链接: 作者:augmentcode 日期:2026-04-14 抓取时间:2026-04-14 12:0...
本文深度分析 ISSCC 2026 展示的 ARIES 芯片架构,这是一款专为 AI Agent 时代设计的 RISC-V+AI 异构 SoC。核心创新三点:第一,将 RISC-V CPU 直接集成进 SoC 核心区作为调度单元,解决传统 NPU 控制流跳回 Host CPU 的 PCIe 时延问题;第二,采用统一 Tile + 独立时钟域替代 PD/AF 物理分离,同一硬件动态切换算力密集和访存密集模式;第三,堆 280MB 片内 SRAM + CIM 存内计算消灭访存瓶颈,通过 LUT-based 多精度量化在 14nm 工艺实现超越 4nm GPU 的能效比(YOLO 系列 10.12x FPS/W 提升)。ARIES 代表了 Agent 时代逻辑控制与极致算力耦合的实用主义芯片设计路线。
Harness Engineering 是继 Prompt Engineering、Context Engineering 之后,由 Mitchell Hashimoto(HashiCorp 联合创始人)提出并因 OpenAI 报告而广为人知的第三类 AI 工程化方法。其核心隐喻是为 AI Agent 这匹野马套上缰绳,通过约束、引导与纠正确保其稳定运行。该框架以 R.E.S.T 四目标(可靠性、效率、安全性、可追溯性)为基石,通过上下文管理、Function Calling 降级策略、沙盒隔离与多层度量体系,将 Agent 从有趣的玩具变为可规模化的可靠生产力工具。
English Claudian is an Obsidian plugin that embeds AI coding agents (Claude Code, Codex, and more to come) in your vault. Your vault becomes the agent's working directory — file read/write, search, bash, and multi-step workflows all work out of the box. Open the chat sidebar from the ribbon icon or command palette. Select text and use the hotkey for inline edit....
面向移动设备厂商研发团队的Agent体系深度研究报告。系统梳理Agent定义谱系、架构范式与多智能体协作机制,给出可落地的PerformanceAgent(性能智能体)参考设计。重点对齐Claude Agent SDK的官方能力模型,涵盖工具调用、子智能体、Skills、Hooks、上下文压缩、权限沙箱、托管形态等。从移动厂商视角出发,设计性能优化专属Agent架构。
Anthropic工程团队详解Managed Agents架构——将Agent的大脑(决策)与双手(执行)解耦的设计范式。Managed Agents允许将子任务委托给专门的Agent执行,主Agent负责协调。这种架构支持Agent的水平扩展,每个子Agent可以独立运行、使用不同工具、拥有独立的上下文窗口。文章详细讨论了委托机制、上下文传递、错误处理和成本控制等工程挑战。
Agentic workflow 中,AI agent 会 hallucinate 或推理错误,且错误会在 agent 间传播(一个 agent 的输出作为另一个的输入)。传统 provenance 技术无法捕获 agent 特有的元数据(prompts、responses、decisions)与 workflow 上下文的关联。该论文要解决的核心问题是:如何将 AI agent 行为纳入端到端 workflow provenance,实现可追溯、可审计、可复现的 agentic workflow?
LLM Agent 需要领域特定技能(skills)才能高效处理复杂任务。但技能创建面临三重困境: 人工编写不可扩展:每个领域都需要专家花大量时间写详细的操作指南,随着 Agent 应用场景扩展,这个瓶颈越来越严重 纯 LLM 生成效果差:直接让 LLM 凭参数化知识写技能,缺乏对目标领域具体操作和常见陷阱的了解,收益有限 在线顺序更新导致碎片化:现有在线范式(如 ExpeL、Skill-Gen)按顺序处理每条轨迹,一条轨迹学一个教训就更新一次技能,导致技能碎片化且容易过拟合
LLM Agent 到底是什么、怎么构建、怎么协作、怎么演化? 本文试图用一套统一的方法论分类体系回答这个正在快速碎片化的领域的核心架构问题。这不是第 N 篇 "Agent 综述"——它的价值在于提出"构建-协作-演化"三维框架,把散落的研究线索串成了一条可追溯的架构演进路径。
作者开源了 Waza 技能集(日语"技"),包含 8 个核心 skill(/think、/design、/hunt、/check、/read、/write、/learn、/health),对应他认为 AI 时代工程师应具备的 8 个能力:会思考、会设计、会排查、会检查、会阅读、会写作、会学习、会维护。强调简单好用、清楚 Agent 在做什么,不多不少刚好够用。
介绍 Nous Research 开源的自改进 AI Agent 框架 Hermes。核心特点:内置学习循环,每次完成任务后自动提炼可复用 Skill 存入持久记忆。多层记忆系统(短期+长时+Skills),支持 40+ 工具。与 OpenClaw 对比:Hermes 重单个 Agent 深度自我成长,OpenClaw 强在多平台覆盖和复杂工作流。内置 hermes claw migrate 迁移命令。
Avi Chawla 通过 Claude Code 案例详细解析了 LLM Prompt Caching 的技术原理与工程实践。核心观点:KV Cache 将计算复杂度从 O(n^2) 降至 O(n),静态前缀(系统指令、工具定义、项目上下文)可被缓存并以 0.1x 价格读取。Claude Code 实测 92% Cache Hit Rate,实现 81% 成本降低($6.00 -> $1.15)。三大工程原则:不要在会话中修改工具定义、不要中途切换模型、不要在缓存前缀中注入状态变量。
LLM Agent 正在从研究概念走向实际部署,但目前的研究呈现碎片化状态:构建方法、协作模式、进化机制分散在不同工作中,缺乏统一的方法论框架。如何系统化地理解和设计 LLM Agent 系统?
基于 Claude Code 泄露源码抽离逻辑实现的开源 Agent SDK,用于替代官方 claude-agent-sdk。解决了官方 SDK 的两个核心问题:1)依赖不开源的 claude code 黑盒调用,出了问题没法修;2)需要创建 claude code 本地进程处理 query,开销大,不适合云端规模化。open-agent-sdk 完全兼容官方接口(只需换包名)、完全开源可定制、函数调用不依赖本地 cli 进程,适合云端高并发。MIT 协议。
LLM Agent 串行执行"LLM 推理 → 工具调用"循环,工具执行占总时间 35%-61%。LLM 持有昂贵资源却被迫等待外部工具返回结果,造成严重的延迟瓶颈和资源浪费。
LLM Agent 如何从"通用模型"进化为"可动态扩展专业技能的模块化系统"? Agent Skills 作为一种新兴的抽象层,通过可组合的指令-代码-资源包,使 Agent 无需重训练即可按需加载专业能力。但这一范式在架构、获取、部署和安全方面面临系统性挑战。
LLM Agent 领域研究碎片化严重,缺乏统一的分类框架。本文提出"构建-协作-进化"三维方法论体系,系统梳理 LLM Agent 从个体设计到多 Agent 协作再到持续进化的全生命周期。
SmartPerfetto 的 Harness Engineering 实战记录。在 Perfetto UI 加 AI 分析面板,Claude Agent + MCP 调用 trace_processor 执行 SQL 自动分析 Android trace。演进到 20 个 MCP 工具 + 158 个 YAML Skill + 三层验证。含滑动性能分析完整 session log。计划开源。
Founder Park 组织 30+ 创业者闭门讨论 Agent 生态创业机会。核心议题:Agent 支付基础设施、身份与担责、硬件环境感知(眼镜/声音)、Memory 存取难题、不要抢护城河要开新市场。关键洞察:给 Agent 造产品而非给人做工具。
AI Agent实践的知识图谱总结,涵盖四大核心主题:1)记忆系统优化——三层记忆架构(日记层→核心记忆层→向量层)、语义检索策略;2)自我改进机制——错误捕获系统、技能提取流程、任务改进周报;3)工具使用模式——OpenCLI多平台集成、多模型协作与容灾降级策略;4)框架对比——LangGraph(底层编排)、CrewAI(角色协作)、AutoGen(编程式多代理)的定位差异分析。提供了可执行的实践建议。
移动 GUI 智能体在训练中面临两个根本性挑战:1)失败轨迹学习效率低——失败轨迹占绝大多数但未被有效利用;2)长程任务的信用分配模糊——轨迹级稀疏奖励(成功/失败)无法告知智能体哪一步做错了。
当前基于 LLM 的多智能体系统能够可靠地达成共识吗?在存在恶意智能体的情况下,共识机制是否鲁棒? 这篇论文研究了一个基础问题:当多个 LLM 智能体需要达成一致决策时,它们能否可靠地完成这一任务?特别是在存在可能破坏共识的拜占庭智能体的情况下。...
如何将大型语言模型从单体模型转变为模块化、可动态扩展的智能体系统,同时确保安全性和可维护性。 创新点 技能抽象层:提出基于SKILL.md的技能范式,实现渐进式披露 系统性综述:从架构、获取、部署、安全四个维度全面梳理Agent Skills生态 安全治理框架:提出技能信任与生命周期治理框架(四层门控权限模型) 实证分析:26.1%的社区技能包含漏洞...
论文系统梳理基于大语言模型(LLM)的智能 Agent 系统,从方法论、应用和挑战三个维度构建统一分类体系,揭示 Agent 设计原则与复杂环境中涌现行为之间的基本联系。 创新点 方法论中心的分类法:提出 Build-Collaborate-Evolve 三维框架,系统解构 Agent 的构建、协作和演进机制 统一架构视角:连接角色定义、记忆机制、规划能力和行动执行四大核心组件,揭示设计原则与涌现行为的联系 前沿应用与真实挑战:涵盖安全、隐私、伦理等现实问题...
分析Browser Use在OpenClaw环境中的集成可行性。盘点现有浏览器相关工具(OpenCLI、web_fetch、r.jina.ai)及其限制。Browser Use的核心优势场景:需要登录的网站数据抓取(知乎/掘金/即刻/星球)、复杂表单填写、多步骤浏览器操作(Perfetto分析流程)、需保持会话状态的任务。技术限制包括需要Python环境和LLM API。
Browser Use CLI 2.0调研报告——一个为AI agents设计的浏览器自动化工具。核心特点:AI-First设计(语义理解替代CSS selectors)、自然语言驱动、持久化Daemon(50ms延迟)、支持复用本地Chrome登录态。与Playwright/Selenium对比,在AI集成和登录态复用上有显著优势。支持OpenAI/Anthropic/Google/本地模型。工作流集成潜力:SaaS控制台自动化、电商后台、招聘网站、财务录入等场景。
论文试图解决什么问题? AI 系统的黑箱问题:LLMs 的推理过程不透明,难以验证和信任 计算论证的可扩展性问题:传统 CA 依赖手工知识工程,难以应用于开放域 人机协作的失衡:当前 AI 要么完全自动化决策,要么只是提供解释,缺乏真正的协作 高风险领域的可信度:在医学、法律等领域,AI 必须提供可争议、可审查的推理 核心洞察:计算论证(CA)与大语言模型(LLMs)的融合可以实现一个新范式——论证型人机决策制定,其中 AI 与人类共同推理,而不是为人类推理。
OpenClaw的全面深度调研报告,涵盖架构设计、核心组件(Agent、Memory、MCP、Skills、Cron)、运行机制、与其他Agent框架的对比分析。报告系统梳理了OpenClaw的技术栈和生态位,对理解个人AI Agent的工程化实现有参考价值。
Exploring the Necessity of Reasoning in LLM-based Agent Scenarios 论文链接: 阅读日期:2026-03-15 论文类型:智能体框架 / 推理评估 一、核心问题(Core Problem) 1.1 研究背景 大型推理模型(LRMs,如DeepSeek-R1, Claude3.7-sonnet)的兴起,对传统基于大型语言模型(LLMs)的智能体框架带来了范式转变。这些新一代模型在逻辑演绎上更强大,但也带…
Q1:这项研究要解决什么问题? 核心问题:LLM 智能体无法从历史经验中学习 记忆效率低下:存储原始轨迹 Token 消耗大(15K+ tokens/episode) 缺乏抽象能力:无法从具体案例中提取通用规则 无法持续改进:每次任务从零开始,重复犯错 Q2:为什么这个问题重要?...
问题来源: 多轮 GRPO 引入归一化项 1/Ti 以避免偏向更长轨迹。然而,这引入了结构性偏差: 定理 1 的直觉: 给定相同上下文,如果两个行动产生: 轨迹 τS:TS 轮,最终奖励 R 轨迹 τL:TL 轮(TL > TS),最终奖励 R 模型会偏向 τS(更少轮次)。 为什么? 梯度更新中,除非 τL 的聚合贡献至少是 τS 的 TL/TS 倍,否则 ∥gt(τL)∥ > ∥gt(τS)∥。...
关于Claude悄悄更新了Skills生成器,这绝对是一次史诗级的收藏文章
AI 重构软件工程:OpenAI Harness Engineering,程序员不写代码的时代来了 ,OpenAI 在工程博客发布的《Harness engineering: leveraging Codex in an agent-first world》,抛出了一个颠覆软件工程界的实验结果:一支初始 3 人的工程师团队,从空 Git 仓库起步,仅用 5 个月时间,依靠 Codex+GPT-5 构建出一款拥有约 100 万行代码的 一、百万代码零手写,OpenAI 工程实验 二、驾驭工程:不是 AI 写代码,而是驯服
AI 进化论-花生发布的 98 页 OpenClaw 橙皮书,浏览量超 175 万,书签数 5713。这是 OpenClaw(龙虾)生态的重要实战手册文档。
论文:MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling 精读日期:2026-03-09 定位:面向 Android / 端侧 AI / 性能优化 / SmartPerfetto 方向的深度解读 一、论文要解决的问题 1.1 真正的问题不是“模型不够大”,而是“手机端的资源结构不匹配” 在服务器上,做大模型最直接的办法就是: 增加参数量; 增加推理时计算; 用更大的显存和更强的 GPU 接住它。 但到了手机端,这套思路就开始失效: …
OpenClaw 用户分享将 SearxNG 聚合搜索引擎接入龙虾生态(Claude Code + MCP)的方案。核心判断:LLM 叠 LLM 是反模式(Perplexica 的搜索→小模型总结→返回链路等于让实习生帮主刀医生看片子),正确做法是 SearxNG 毫秒级返回原始搜索结果,让大模型自己判断哪条值得深入。方案特点:零 API key、零成本、全隐私,聚合 70+ 搜索源,含反爬实战经验(Reddit/知乎绕过方案)。
一篇 4800+ 字的 AI 工程师全栈学习指南,提出三层架构:Prompt Engineering(微语法,控制即时指令)→ Context Engineering(乘数,MCP + Context as Code + RAG 管道)→ Intent Engineering(差异化,组织目标编码)。用 Klarna 客服 AI 的失败案例(节省 $60M 但因 intent gap 被迫重新雇人)论证意图工程的重要性。提供 7 组件意图框架和大量可复用 prompt 模板,覆盖结构化格式、Few-Shot、CoT、元提示词、上下文审计、RAG 架构设计、MCP Server 蓝图等。
By @wangray (Ray Wang) · Tue Mar 03 12:58:17 +0000 2026 📊 ❤️ 102 🔁 28 🔖 180 👁️ 35,261 💬 1 📐 253 words 2026 年初,美国软件股经历了一场近乎恐慌式的下跌。 导火索并不复杂。ServiceNow 在财报电话会上提到,客户正在重新评估按 seat 采购软件的方式。市场立刻意识到一个问题:如果 AI Agent 能让 2 个人干 20 个人的活,那过去按人头收费的软件公司,收入模型会不会被直接打穿? 恐慌迅速蔓延。Atlassian、Workday、Salesforce、Adobe 接连大跌,整个应用软件板块蒸发了约 2 万亿美元。华尔街甚至给这场下跌起了个名字:SaaSpocalypse。...
By @jakevin7 (卡比卡比) · Mon Mar 02 15:57:31 +0000 2026 📊 ❤️ 74 🔁 4 🔖 92 👁️ 14,471 💬 1 📐 735 words 从 0 到 1,用 AI 辅助开发一个 OpenClaw 类似的 Agentic AI 工具。7 天,73 个 commit,13000+ 行 Rust。 这篇文章记录了整个过程中的思考、踩坑与感悟。 代码在 GitHub。如果你也想造一只属于自己的螃蟹钳子,欢迎 star/fork。我的 GitHub:jackwener,欢迎 follow。 起因 2026 年 2 月,OpenClaw 火了。朋友圈里人人都在聊这只龙虾——一个能在 Telegram 里跟你对话、帮你干活的 AI 智能体。...
Agent 相关:Agent Frameworks Are Getting Squeezed
@Wuming_Mr_ (無名先生) 🕐 Mon Mar 02 10:36:00 +0000 2026 📊 ❤️ 324 🔁 95 🔖 461 👁️ 34,765 💬 17 《我在 ClawHub 折腾一周后,留下这 10 个真香技能》 先说结论:#ClawHub 真的能把 #OpenClaw 从“会聊天的工具”升级成“能干活的员工”。 但前提是——别乱装。 现在生态已经野蛮生长,上万个 Skills 里确实有宝藏,也有雷。我自己踩过两个坑(一个权限乱读文件,一个 prompt 写得离谱),所以这篇是纯个人实战后的筛选清单,不是搬运榜单。 时间:2026年3月 结论:新手按这个顺序装,基本不会翻车。 ✅ 第一优先级:保命四件套(先装这 4 个) 1️⃣ Skill Vetter(安全审计) 这玩意必须第一个装。...
@evilcos (Cos(余弦)😶🌫️) 🕐 Mon Mar 02 13:12:03 +0000 2026 📊 ❤️ 787 🔁 183 🔖 1,231 👁️ 161,327 💬 45 🦞OpenClaw 极简安全实践指南 (Security Practice Guide) 是面向 OpenClaw 的黑手册。 我尝试了其他一些方式来试图加固 OpenClaw,包括 Skill 方式,但是发现还不如给 OpenClaw 植入一个安全“思想钢印”来的有意思,这个“思想钢印”形成一个 md 文档,包含安全事前、事中、事后需要做的策略,但这里有个前提: 尽量不影响 OpenClaw 的日常使用,安全不要干扰用户体验,需要给这只🦞足够的自由。...
归档说明:本次通过 X 已登录页面抓取到长文正文大段文本。受页面动态加载限制,末尾少量段落可能存在缺失,待核实。 I’ve been using Claude Cowork since January 12, the day it launched. 我从 1 月 12 日(它上线当天)就开始使用 Claude Cowork。 In seven weeks, I’ve run over 400 Cowork sessions. I tested plugins, connectors, and slash commands, and measured what actually changes outcomes. 在 7 周里,我运行了 400+ 次 Cowork 会话,测试了插件、连接器和斜杠命令,并关注哪些做法真正改变结果。
MobileAgent is Alibaba Tongyi Lab’s GUI-agent project family, covering mobile, desktop, and browser automation through the GUI-Owl model line and multi-agent workflows. MobileAgent 是阿里通义实验室的 GUI Agent 项目家族,通过 GUI-Owl 模型系与多 Agent 工作流覆盖移动端、桌面端与浏览器自动化。...
memU is a memory framework designed for always-on proactive agents, with the goal of reducing token costs and preserving long-term user context across sessions. memU 是一个面向 24/7 主动式 Agent 的记忆框架,目标是在跨会话场景下降低 token 成本并保留长期用户上下文。...
这条长推文将 Agent 工程映射为分布式系统工程,强调 durability、isolation、governance、persistence、scale、composability 六个支柱,适合作为团队架构评审清单。 @Stv_Lynn (Steven Lynn) 🕐 Mon Mar 02 01:55:50 +0000 2026 📊 ❤️ 4 🔁 1 🔖 5 👁️ 669 💬 0 Agno 创始人 Ashpreet Bedi 发了一篇长文: Agent 工程 = 分布式系统工程。这些问题(持久化、隔离、容错、扩展)我们已经解决了几十年,只是 AI 行业还没把这些经验带过来。
这是一个一线使用者的一个月复盘,核心结论是:OpenClaw 当前更适合有技术维护能力、愿意投入基础设施与 API 成本、并能容忍不稳定性的用户。 @LotusDecoder (LotusDecoder) 🕐 Mon Mar 02 00:54:09 +0000 2026 📊 ❤️ 52 🔁 3 🔖 27 👁️ 5,479 💬 11 使用了一个月的openclaw, 发现适合的人群相对较窄。 有一定技术维护能力,部署和维修都需要动手,包括请得到人和使用 claude code 来拯救。 对错误、掉线、杀自己包容性大,经常卡顿是很恼火的。 愿意投入,硬件上隔离运行,云服务器,容器,独立mac。软件上花钱买优质api token。...
Ruflo (formerly Claude Flow) positions itself as a production-ready multi-agent orchestration framework, with claims around 60+ specialized agents, swarm coordination, consensus, and self-learning loops. Ruflo(前身 Claude Flow)将自己定位为生产可用的多 Agent 编排框架,强调 60+ 专用代理、蜂群协作、共识机制与自学习闭环。
这篇 X Article 介绍了通过 MemOS Cloud 插件给 OpenClaw 增加外部记忆层,以降低 token 消耗并提升跨会话记忆稳定性,并进一步讨论了多 Agent 共享/分层记忆的协作模式。 By @lxfater (铁锤人) · Mon Mar 02 04:03:00 +0000 2026 📊 ❤️ 9 🔁 1 🔖 17 👁️ 612 💬 1 📐 163 words 你在用小龙虾时候有没有遇到这么个问题: 小龙虾用久后,它老是记不住重要的东西,反而一些无关紧要的事情记得贼清楚。更要命的是,明明还搞点小任务,但是没过几天账单就爆炸了。 究其原因,是 OpenClaw 的记忆机制的问题 他每次对话都会把之前的对话附带上去,比如说像下面这个老哥,让 AI 写个代码。...
@DLKFZWilliam2 (独立开发者William) 🕐 Sun Mar 01 01:05:49 +0000 2026 📊 ❤️ 56 🔁 11 🔖 101 👁️ 3,663 💬 1 该项目在github上: 链接: A Python-based mobile automation agent that uses Qwen3-VL vision-language models to understand and interact with Android devices through visual analysis and ADB commands.
文章较长 感谢阅读 或者直接把这篇推文的链接扔给你的龙虾 最推荐看本文的「后话」这一部分 前言 如果你也用OpenClaw 也在不停按照X上各种大佬的架构给它「优化」 (三层架构/AI Agent的第N代/异步任务处理系统/龙虾的自我迭代...) 那你一定对下面的场景不陌生: 装了一堆架构,全是空文件夹📁 熟悉吗?那些架构确实被引进了 或者说 那些优质架构的目录确实被引进了 然后就没有然后了。 文件夹空空如也,Agent 根本不会主动往里面写东西。你以为搭好了骨架,结果只是搭了个空壳。 你的龙虾不会主动用这些架构 你告诉 🦞:「你整理一下我们的东西吧哈哈 记得用新架构噢」。 🦞 说:「好的!」 然后它继续把所有东西都塞进一个巨大的 context 里,完全无视你精心设计的架构。 为什么?我也不知道。...
40 天实践:Agent 变聪明靠的不是调 prompt 或换模型,而是持续对话反馈让它们自己写下来。三层操作系统:内容 Agent 学会了作者的声音、研究 Agent 每天交付 7 个值得读的故事、8 个 Agent 24/7 运行。核心是越来越丰富的 markdown 文件栈。同一模型第 1 天和第 40 天输出质量天差地别。
6551 团队开源了积累一年的数据基础架构:X 数据 + 全网 50+ 实时新闻 + 链上数据的 MCP 和 Skill。Agent 可直接连上 X 数据和全网新闻源,24h 监控分析并触发 Telegram 提醒。无需配置 API 密钥。几分钟部署。
自适应网页抓取框架,从单次请求到全量并发爬取。解析器能在页面结构变化后重新定位元素,抓取器提供反反爬能力(如 Cloudflare 绕过)。Spider 系统支持并发、多会话路由、断点续跑、代理轮换和流式输出。适合生产级数据流水线。支持 MCP 集成。
字节跳动开源 DeerFlow 2.0,基于 LangGraph 和 LangChain 完全重写的超级 Agent 运行底座。可编排子 Agent、记忆、工具与沙箱以完成长链路多步骤任务。核心能力:任务分解(主 Agent 并行派发子 Agent)、中间结果汇总、跨会话持久化记忆。默认提供文件系统、技能、执行环境。
系统拆解 2026 年初 AI 变化的四层结构:大脑(推理模型→agentic能力→agent team 内化到模型)、手脚(工具/沙箱/浏览器)、组织(多 Agent 协作与上下文专业化)、进化(数据飞轮:模型→agent→反馈→更强模型)。核心规律:模型与脚手架关系是循环,模型先出→agent→multi agent→内化到模型。AI 自我迭代已开始(Claude Code 用 Claude Code 迭代自己)。应用层方向:通用/垂直 Agent、Agent 基建、多模态内容。
OpenClaw 底层的编码 Agent Pi 详解。Pi 由 Mario Zechner 开发,理念是让 Agent 自己扩展自己而非下载扩展。刻意不支持 MCP(可用 mcporter 桥接),强调代码生成和运行。核心设计:会话是树结构(可分支/回退/导航),内置热重载让 Agent 自己写代码→重载→测试循环。多模型支持、可移植性优先。扩展可注册工具给 LLM 调用,也可渲染自定义 TUI 组件。
长文系统分析 2026 年 AI 趋势。模型两条线:大语言模型智力线(推理模型→agentic能力→agent team内化)和多模态生成线(技术门槛被内化到模型)。数据飞轮驱动模型持续变强。应用层机会:通用/垂直 Agent、Agent 基建(API/MCP/Skills)。多模态创作门槛消失(ComfyUI 不再需要学)。对个人建议:判断力 > 代码流利度,品味是真正的护城河。
Perplexity CEO 的核心观点:没有一个模型家族能独立做到最好,多模型编排远超任何单一模型。介绍了内部实验 ASI(后端 19 个模型),本质上是一台计算机——有文件系统、shell、浏览器。类比 Chromebook:Google 没错理解网络是最重要的部分,但低估了网络的 READ 功能。AI 是把 READ 能力真正补上的关键。
OpenClaw 实时监控与控制中心,基于 Next.js、React 19 和 Tailwind CSS v4。部署在 OpenClaw 工作区内,直接读取主机配置/代理/会话/记忆/日志,不需额外后端。核心模块:系统监控、代理看板、成本追踪、定时任务管理、活动流、记忆/文件浏览、全局搜索、通知中心、只读终端。强调"OpenClaw 本身就是后端"。
Agent Reach:一句安装指令快速获得 Web、Twitter/X、YouTube、Reddit、B站、RSS 等读取与搜索能力。免费优先、可替换渠道实现、带 doctor 诊断命令。每个平台独立模块,便于后续替换底层工具。降低 Agent 联网能力搭建门槛。
规范驱动开发比临时提示词更好,但若规范是静态文档仍会失败。过期设计文档误导工程师,过期规范误导 Agent 自信地做错事。Augment Code 的解法是"共维护":人和 Agent 都从同一份规范读取并回写更新。执行前由协调 Agent 拆任务,执行中 Agent 持续回写新发现。核心结论:既然 Agent 能写代码,也应该维护计划本身。
介绍 Conway Agent 部署方法。Conway 把服务器(Conway Cloud/Sandbox)、AI 推理(Conway Compute)和域名封装到统一平台,使用 Credit 计费。定位为完全自主运行的 AI 系统。内容较简短,为归档节选。
OpenClaw 84 天达 20 万 GitHub Star。文章核心视角偏实战:解释 OpenClaw 与新一代 Claw 类系统底层如何构建,以及真实部署里哪些架构选择最关键。用户在旧游戏电脑上运行自治 Agent、自动化个人工作流。内容为摘要归档。
把"上下文管理"从一次性对话输入转为可持久化的文件系统结构,让 Agent 读写统一的项目记忆与规则,减少重复提示、降低上下文漂移,提高长期任务稳定性。内容为摘要归档。
围绕 Agent 失忆、记忆可发现性、长期上下文维护与工程化落地展开,强调通过结构化记忆机制降低重复输入和推理成本。适合作为 OpenClaw/Agent 记忆系统设计的实践参考。内容为摘要归档,待补全全文。
借助 AI Coding 快速打造 AI Agent 系统 公众号: 阿里云开发者 发布时间: 1970-01-01 08:33:46 原文链接: 一、前言 在AI驱动的电商运营时代,如何让运营同学通过自然语言快速生成个性化购物场景,并自动关联优质商品搭建会场,成为提升运营效率的关键问题。购物场景生成AI Agent应运而生,通过智能化的场景生成和商品匹配,让运营可以用一句话,就能自动生成包含场景标题、描述、一二级标签的完整购物场景,并智能查询热点知识库,关联相关商品,对商品进行信息补全和相关性过滤,最终快速对接会场搭建来产出一个完整的场景导购会场。 然而,随着业务复杂度的提升和技术栈的演进,原有基于低代码的流程编排方案逐渐暴露出扩展性和灵活性的瓶颈。...
Claude Code 浏览器自动化方案,怎么选? 在Claude Code中,最好的浏览器自动化方案是什么? 昨天和几位创业的朋友吃饭,席间讨论了一个问题:"在Claude Code中,最好的浏览器自动化方案是什么?" 在刚有MCP的时候,我写过一些浏览器自动化文章,那时,最好用的Playwright MCP和一些第三方的浏览器自动化工具,还不算稳定。 (参考:所有的RPA可以去死了!Claude Code可以只靠口喷完成一切!) 大半年过去了,现在最流行、稳定、专门针对Agent的浏览器自动化方案已经有了三个明显的头部:Agent Browser 、Devtools MCP 、Play...
GitHub - vercel-labs/agent-browser: Browser automation CLI for AI agents Browser automation CLI for AI agents. Contribute to vercel-labs/agent-browser development by creating an account on GitHub. Headless browser automation CLI for AI agents. Fast Rust CLI with Node.js fallback. npm install -g ag...
Claude Code 2.1 发布:一口气更新了80多个功能特性 最近这一周我几乎都是每天10小时+的在疯狂用Claude Code,又找到了一些做产品的乐趣。 最近这一周我几乎都是每天10小时+的在疯狂用Claude Code,又找到了一些做产品的乐趣。尤其是昨天「小猫相册」app在AppStore上线后,我又收到不少反馈,已经在继续疯狂🤪改bug、修体验了。 然后,用着用着,突然发现Claude Code 已经跳到2.1版本了。 我去查了下,他们是昨天(1月7日)发布的2.1.0,今天又跟了个2.1.1小修复。2026年第一个大版本,这次更新的内容多得离谱,changelog里列了8...
Agent Skills 终极指南:入门、精通、预测 应该是全网最好的 Skills 中文指南与教程 🎐 卷首语 应该是全网最好的 Skills 中文指南与教程,全文 1.2w 字,包含了我对 Skills 的完整应用思考。 巧借通用 Agent 内核,只靠 Skills 设计,就能低成本创造具有通用 AI ...
LangChain 博客阐述文件系统作为 Agent 上下文工程核心工具的价值。四个关键场景:1) 大 token 消耗时,文件系统作为 scratch pad 存储工具结果,按需 grep 读取;2) 需要大量上下文时,通过文件持久化计划和子 Agent 知识,避免 context window 限制;3) 寻找小众信息时,glob/grep 比语义搜索更适合技术文档和代码文件;4) 持续学习时,Agent 可将用户偏好和经验写入自身文件。核心观点:文件系统提供统一接口,让 Agent 灵活存储、检索和更新无限量上下文。
2026 年 AI 行业预测汇总,AI 将如何改变世界? 汇总自 Gartner、SaaStr、a16z、Every、Gary Marcus 和 Forbes 的 26 年 AI 行业分析 最近看到各大投资机构在 2026 年 AI 行业的预测,我做了一个汇总,把相同点进行整理,不同点里有意思的观点做了摘要。
2026 AI First 系列(一):从助手到智能体——代理工程时代的到来 copyright x @ wquguru 欢迎转载,请注明出处 "Claude Agent SDK 将在2026年为知识工作带来的变革,就像Claude Cod copyright x @ wquguru 欢迎转载,请注明出处
2025,MCP、Agent、AI Coding 新的一年,少一些宏大叙事,多一些落地执行。 这是我从 腾讯裸辞 成为自由职业以后,写的第三篇年终总结。 前两年的年终总结,以罗列产品为主。 2023,我做过的 AI 项目 2024,我追过的 AI 风口
Android Studio 的 AI Agent 有什么特别?未来会有惊艳什么功能? 相信大家都在之前的 《Android Studio Otter 2 Feature 发布》已经了解过,为什么这是一个比较值得更新的 Android Studio 版本,与此同时,谷歌也和我们展示了未来(Canary)全新的 AI Agent 有什么特别之处。 对于一个 AI Agent 来说,最重要的有三个基础概念:工具 (Tools)、 上下文 (Context) 和 MCP (模型上下文协议) ,而大多数人对于它们的理解,可能还比较片面。 比如工具 ,实际上 AI Agent 不只是一个聊天场景,更多是 Agent 通过"工具"来执行任务 ,而不是单纯用来做文本回复...
MobileWorld是阿里巴巴通义实验室发布的移动GUI Agent基准测试,构建201个任务覆盖20个应用,强调长时域跨应用工作流(平均27.8步,62.2%跨应用任务),并新增用户交互任务(需主动识别歧义请求澄清)和MCP增强任务(调用外部工具协同)。GPT-5+UI-Ins-7B以51.7%成功率领先,证明当前主流Agent在用户交互和MCP任务上仍有显著不足。
Anthropic 详细分享其 Research 功能的多 Agent 系统从原型到生产的过程。架构采用 orchestrator-worker 模式:LeadResearcher 规划和协调,Subagents 并行搜索。8 条 prompt 工程原则:像 Agent 一样思考、教会 orchestrator 如何委派、按复杂度缩放资源、工具设计至关重要、让 Agent 自我改进、先宽后窄搜索、引导思考过程、并行工具调用。评测方面:LLM-as-judge + 人工测试互补。生产挑战:有状态错误累积、调试困难、需要 rainbow deployment。BrowseComp 评测中 token 使用量解释了 80% 的性能方差。
Claude Code之父:Claude Code是怎么被创造出来的?-哔哩哔哩 Cursor CEO:AI时代,品味是核心竞争力 Every CEO: AI Native公司,15个员工,5个产品,百万美元营收 Anthropic CEO:AI风险与机遇并存 Notion 3.0:成为知识管理Agent 黄仁勋最新访谈:信息量极大!AI仍然被低估,将实现十亿倍增长 Intercom CEO:SaaS巨头如何靠AI逆袭? Anthropic联创:分享从草根到AI大佬之路 OpenAI联创Greg Brockman最新访谈 Notion CEO:高能访谈,对工具和AI的深入思考 Rundow...
OPPO ColorOS 智慧产品研发总监姜昱辰在极客公园创新大会 2026 的深度对谈。核心观点:1) GUI Agent 是长尾场景的兜底技术,OPPO 更倾向 Agent to Agent 生态互联;2) 记忆是 AI 手机演进的第一刀,只有记得才能懂你;3) 记忆系统的核心挑战是隐私,唯一解法是端侧计算;4) AI OS 的本质是主动式与个人化的交互革命。对比豆包 AI 手机的 GUI Agent 路线,认为手机厂商应通过生态合作而非单一 GUI Agent 提供最高质量服务。
Android 系统上 AI Agent 的一些可能性 最近,我注意到手机端 AI Agent 应用的兴起,例如 DroidRun 和 AutoGLM。这类应用能够模拟用户操作,在手机上自动执行任务,全程无需人工干预------比如自动发布一篇小红书笔记,或是在美团上点一杯咖啡。 对用户而言,这类应用的核心价值在于解放双手、节省时间。 想象一下,那些每日重复的应用签到、定时的优惠券抢购、或是在不同应用间搬运信息的繁琐操作,都可以交给一个不知疲倦的后台"数字助理"来完成。这不仅极大地提升了个人效率,更让用户能将精力专注于更有创造力和价值的事情上。 然而,这些应用在实现上普遍面临一个核心痛点:独占屏幕 。当 Agent 运行时,它会接管手机屏幕,导致用户无法使用自己的手机。加之目...
IBM Research 团队对 2018-2025 年 RAG(检索增强生成)文献进行系统性综述,提出五维分类法(检索逻辑、融合拓扑、模态、适应性、信任校准),是目前最完整的 RAG 架构分类体系。论文整合了 RAGAS 评估框架和企业级基准数据:Galileo AI 的 chunk attribution 达 86% 准确率(1.36x 于 GPT-3.5-Turbo),Trustworthiness 指标中 groundedness 人类相关性 85-92%。论文指出传统 BLEU/ROUGE 对语义一致性评估不足,LLM-based judge 与人类判断相关性更高。
Anthropic 揭秘:上下文工程如何让 Agent 专注核心任务 Anthropic 揭秘让 AI 更靠谱的「上下文工程」 你有没有过这样的体验?跟 AI 聊得久了,它突然 "失忆"------ 前面提过的关键信息没了下文,甚至答非所问;让它处理复杂任务,比如分析大数据库、写长代码,它越往后越混乱...... 其实不是 AI "不认真",而是它的 "注意力" 有限。
Google《智能体设计模式》之 智能体推理引擎的内部视角 - 附录F 中翻版 原创 企业AI小蜜书 企业AI小蜜书 企业AI解构局 在小说阅读器读本章 去阅读 在小说阅读器中沉浸阅读 点击上方 蓝字 关注,一起畅游AI 前言: 这本由谷歌资深工程主管 Antonio Gulli 免费分享的 《智能体设计模式》 ,系统性地提炼出 21 个核心智能体设计模式,涵盖从提示链、工具使用到多智能体协作、自我修正等关键技术。 本书的中文翻译流程为「AI 初次翻译 → AI 交叉评审 → 人工评审 → 人工交叉评审」,所有翻译内容将会持续更新到开源项目:github.com/ginobefun/agentic-design-patterns-cn。 我参与了第十四章(RAG)和附录F(LLM内部推理引擎)的翻译,请大家在本文/开源项目地址提交指正。...
Anthropic Skills 深度解析:当通用 Agent 学会专业技能 将文件夹系统作为 Context,正是 Claude 最核心的产品理念。 昨天深入研究了 Anthropic 刚开源的 Skills 仓库,发现这东西比想象中更有意思。 当通用 Agent 学会了专业技能会怎样?
Anthropic 官方分享:为 AI 智能体打造高效工具——让 AI 智能体来帮忙 来自 Anthropic 工程团队模型上下文协议(Model Context Protocol, MCP)可 模型上下文协议(Model Context Protocol, MCP)可...
AI 助力网站出海:只靠聊天,做高颜值网站,你也行! 4次与AI的对话,来让大家看看如何做出精美的AI播客网站。 朋友好,我是赫兹! 一个探索网站出海生意的新手,上次分享了第一次赚美元!纯新手深度复盘网站出海,一文掌握全流程 之后,有朋友问我可以详细说说设计开发部分吗,今天我就来聊聊设计开发部分。 今天我用4次与...
从 Manus 构建经验总结的 Agent 上下文工程方法论
上周六,我受邀参加了由 *InfoQ* 举办的 *全球人工智能开发与应用大会(AICon)* ,在北京国际会议中心,做了一场题为《AI 时代如何做独立开发》的分享。 活动举办很成功,现场观众很热烈。我想把分享内容,整理成文字,与你共享。 2011 年,我本科入学武汉大学核工程专业,大一那年暑假,偶然接触了 Abobe 公司的 Photo...
English "基于 MCP 的 AI Agent 应用开发实践" 是一篇被广泛转载和讨论的文章,特别在AI Agent和MCP(Model Context Protocol)技术社区中具有一定影响力。该文章主要探讨了如何通过标准化协议实现工具提供方与应用研发者的解耦,从而推动AI Agent应用研发范式的转变。 这篇实践文章常被提及与"字节跳动开源"相关,并以字节跳动开发的Agent TARS应用为例,详细介绍了MCP在开发范式和工具生态扩展方面的作用。文章的作者之一被识别为"AI技术老狗(QA)". 由于其内容的重要性,该文章在多个技术平台和社区都有出现,包括CSDN博客、InfoQ写作社区、墨滴以及51CTO等。许多平台都以"实操干货"或"全解析"等形式对其进行讨论、引用或转载,表明它已经成为该领域的重要参考资料。...
最近爆火的MCP究竟有多大魅力?MCP开发初体验|得物技术 English 最近爆火的MCP究竟有多大魅力?MCP开发初体验|得物技术 公众号: 得物技术 发布时间: 1970-01-01 08:33:45 原文链接: 目录 一、前言 二、MCP 基础架构 基础架构 工作流程 三、MCP Server 开发&实践 准备 MCP Client 开发 MCP Server 配置 MCP Server 开始体验 进阶体验 联想一下 四、总结 一 前言 MCP 全称 Model Context Protocol,是由 Anthropic 公司在 2024 年 11 月推出一个开放协议,主要用于标准化应用程序向大语言模型提供上下文的方式。可以将 MCP 想象成 AI 应用程序的 USB-C 接口。...
AI 傻傻分不清楚?那么多 AI 变体究竟怎么选?这里快速简单理清! 2025 年的 AI 确实越来越好用,甚至可选的大模型也越来越多,不管是 web chat 还是 ide coding,现在都提供了大量丰富的可选模型,但是这同样也带来了「选择困难症」,特别是对于用户而言,面对有限的「免费次数」或者「排队时间」,选错模型等于浪费生命,所以本篇意在简单介绍下这些模型和变体的区别,帮助你简单了解它们的适用情况 。
GitHub - MobinX/awesome-mcp-list: A concise list for mcp servers A concise list for mcp servers. Contribute to MobinX/awesome-mcp-list development by creating an account on GitHub. Awesome MCP Servers - Concise List Note that this list is continuously updating and improving. Please star this repo ...
LLM Agent 领域研究碎片化严重:架构设计、协作模式、进化机制散落在不同工作中,缺乏统一的方法论框架来理解"Agent 如何构建、如何协作、如何进化"这一完整生命周期。
AI 代理可观测性 - 演变标准与最佳实践 AI 代理将在 2025 年成为人工智能的下一个重大飞跃,AI 代理的可观测性变得尤为重要,特别是在将这些代理扩展以满足企业需求时。没有适当的监控、追踪和日志记录机制,诊断问题、提高效率和确保 AI 代理驱动应用的可靠性将面临挑战。 作者:Guangya Liu (IBM), Sujay Solomon (Google) AI 代理将在 2025 年成为人工智能的下一个重大飞跃。从自主工作流到智能决策,AI 代理将为各行业的众多应用提供动力。然而,随着这一演变,AI 代理的可观测性变得尤为重要,特别是在将这些代理扩展以满足企业需求时。没有适当的监控、追踪和日志记录机制,诊断问题、提高效率和确保 AI 代理驱动应用的可靠性将面临挑战。
【科普】程序员必看,AI时代新协议 MCP 正在连接吞噬一切,20+资源全收录! 公众号: 向阳乔木推荐看 发布时间: 1970-01-01 08:33:45 原文链接: 字数 1800,阅读大约需 9 分钟 如果你最近经常刷 X 的话,你会发现一个频繁出现的关键词:MCP。 X(Twitter)上,AI 圈 10w+ 关注大V橘子兄这么评价: 不少独立开发圈的朋友们,对MCP技术也很感兴趣。 前段时间自己摸索,用AI写了一个MCP服务器,自然语言控制AI生成音频,效果让我十分震惊,所以快速组个MCP技术交流群。 个人觉得 MCP是 AI Agent 落地的关键协议,生态正在爆炸式增长,海外知名软件,没一个不在不提供自己的 MCP 服务。...
AI 正在推动程序员的进化,而不是灭亡 | 宝玉的分享 这是纽约时报新刊登的一篇 AI 对程序员影响的文章,有人担心 AI 很快会自动取代数百万个工作岗位,文章主要观点还是认为 AI 正在推动程序员的进化,而不是灭亡,创造力、批判性思维、解决问题的能力、沟通能力、共情能力------这些才是人们在未来需要持续培养的技能。当然,还要学会如何管理和使用好这些 AI 工具。 同时 HackerNews 上关于这篇文章也有不少讨论,一起整理后放在附录中供参考。 微软等公司推出的 AI 工具正辅助编写代码,让软件工程师站在这项技术对劳动力市场所带来冲击的最前沿。
逐步解析 | 如何使用 LangChain、NestJS 和 Gemma 2 构建一个 Agentic RAG 应用 原文链接: English 环境异常 当前环境异常,完成验证后即可继续访问。 去验证 : , 。 视频 小程序 赞 ,轻点两下取消赞 在看 ,轻点两下取消在看 中文