MCP-Flow 提出全自动 pipeline,从 6 个 MCP 市场自动抓取服务器配置,通过 Slot-Fill Revision + WizardLM Evolution 两阶段数据增强,产出 68733 对 instruction-function call(1166 服务器、11536 工具)。实验表明:GPT-4o 在 10 工具场景下 AST 仅 58.8%,100 工具时 Groq-8B AST 跌至 3%;而 MCP-Flow-Qwen3-0.6B 在同场景下 AST 达 81.2%,全面超越所有大模型。用 MCP-Flow 做 RAG 检索增强后,GPT-4o 在 GAIA 任务上成功率 +17%,步数减少 32%。
从标签进入专题阅读
专题页用于积累长期价值:同一模型、同一工具、同一方法论会逐步聚合为可持续更新的阅读路径。
agent
Peter Steinberger 转发 OpenClaw 2026.5.2 发布,重点是修复 npm 安装依赖与速度问题,让插件安装和更新更稳定,并把大部分能力迁入 extensions 以降低包体负担。发布同时提到 Gateway 与 agent hot path 精简,以及 Discord、Slack、Telegram、WhatsApp、TTS、Realtime、web search 等集成修复。
阿里发布 Qwen3.6-Max-Preview,在 SWE-Bench Pro、Terminal-Bench 2.0、SkillsBench、SciCode、QwenClawBench、QwenWebBench 六项 Agent 和编程基准测试中排名第一。输入价格 1.04 美元/百万 token,输出 6.24 美元/百万 token。但旗舰 Max 版本不再完全开源,阿里转向"小模型开源、旗舰闭源"的中间路线。
acpx(openclaw 出品的 agent 控制工具)发布 0.6.0 版本,带来多项实用更新:Claude system prompt 直接控制、session pruning(自动削减上下文)、embeddable turn handles(嵌入到自定义 UI)、--no-terminal 模式、persistent session 修复、WSL cwd 路径转换、queue 稳定性提升及更清晰的报错提示。对于日常使用 Claude/Codex 进行自动化任务的同学,session pruning 和 system prompt 控制是本次最值得关注的两个功能——前者避免上下文溢出,后者让你更精细地约束模型行为。已在 GitHub 开源,有需求的开发者值得关注。
llm
设计师 Sam Henri Gold 体验 Claude Design 后撰文:Figma 花十年构建的封闭设计系统在 AI 智能体时代正变成负担。LLM 用代码训练,学不会 Figma 专有格式,单一事实来源将回归代码。Figma 走向了忠于材料原则的反面:底层规则极其死板,表面却伪装得自由散漫。相比之下,Claude Design 尽管体验粗糙但诚实地由 HTML/JS 构成,与 Claude Code 天然打通,设计与开发的反馈循环有望融合。Figma 的 Sketch 时刻正在迅速逼近。
[EN] - 来源:X/Twitter 原文链接: 作者:chrysb 日期:2026-04-14 抓取时间:2026-04-14 12:00...
[EN] - 来源:X/Twitter 原文链接: 作者:amitiitbhu 日期:2026-04-14 抓取时间:2026-04-14 12:00...
Harness Engineering 是继 Prompt Engineering 和 Context Engineering 之后 2026 年 AI 领域的核心工程方法论,由 HashiCorp 联合创始人 Mitchell Hashimoto 提出。核心比喻是缰绳:AI Agent = SOTA 模型(野马)+ Harness(驾驭系统)= 千里马。文章系统性拆解了 Harness 的设计目标(R.E.S.T 模型:可靠性、效率、安全性、可观测性)、四层架构(控制平面+数据平面)、核心运行机制(REPL 容器抽象、Token 转化流水线、Function Calling 生命周期)、规划模式(Plan-and-Execute 为主)、沙盒执行框架(从进程级到 VM 级四档隔离)以及度量体系。适合 Agent 系统工程师建立完整的工程化框架认知。
claude
acpx(openclaw 出品的 agent 控制工具)发布 0.6.0 版本,带来多项实用更新:Claude system prompt 直接控制、session pruning(自动削减上下文)、embeddable turn handles(嵌入到自定义 UI)、--no-terminal 模式、persistent session 修复、WSL cwd 路径转换、queue 稳定性提升及更清晰的报错提示。对于日常使用 Claude/Codex 进行自动化任务的同学,session pruning 和 system prompt 控制是本次最值得关注的两个功能——前者避免上下文溢出,后者让你更精细地约束模型行为。已在 GitHub 开源,有需求的开发者值得关注。
Suryansh Tiwari 深度解析了 Claude 风格多智能体系统的两种核心架构:Sub-Agents(隔离执行,单次任务,父节点控制)和 Agent Teams(协作通信,共享上下文,对等交互)。核心区别在于上下文边界的设计而非角色分工。提出了 5 种关键模式:Prompt Chaining、Routing、Parallelization、Orchestrator-Worker、Evaluator-Optimizer。强调应基于上下文边界而非角色来拆分任务,避免每个交接点的质量损失。
Allie K. Miller 推出免费 5 天邮件课程「AI Fast Track」,核心主张是:「用 AI」与「用 AI 建造工具」之间存在鸿沟,仅复制粘贴 Prompt 远远不够。课程无需编程基础,手把手教你用 Claude 构建个人 AI 软件、自动化脚本和实用工具。每天一个主题,聚焦可落地的 side project,而非泛泛的 AI 概念,tens of thousands 已经注册,适合想从「消费者」升级为「建造者」的 AI 用户。
Peter Yang 发布 Claude Design 实操教程 live demo,在 16 分钟内演示了用 Claude Design 创建视频、幻灯片、网站、App 乃至完整设计系统的完整流程。涵盖从概念到可交付物的每一步,展示 Claude 在多模态创意工作中的实际能力边界。视频为实时演示,可直接参考其操作路径用于自己的项目。
openclaw
Peter Steinberger 转发 OpenClaw 2026.5.2 发布,重点是修复 npm 安装依赖与速度问题,让插件安装和更新更稳定,并把大部分能力迁入 extensions 以降低包体负担。发布同时提到 Gateway 与 agent hot path 精简,以及 Discord、Slack、Telegram、WhatsApp、TTS、Realtime、web search 等集成修复。
acpx(openclaw 出品的 agent 控制工具)发布 0.6.0 版本,带来多项实用更新:Claude system prompt 直接控制、session pruning(自动削减上下文)、embeddable turn handles(嵌入到自定义 UI)、--no-terminal 模式、persistent session 修复、WSL cwd 路径转换、queue 稳定性提升及更清晰的报错提示。对于日常使用 Claude/Codex 进行自动化任务的同学,session pruning 和 system prompt 控制是本次最值得关注的两个功能——前者避免上下文溢出,后者让你更精细地约束模型行为。已在 GitHub 开源,有需求的开发者值得关注。
首次系统梳理 LLM 记忆系统的全设计空间,指出 Raw/Derived 权衡是结构性问题
作者开源了 Waza 技能集(日语"技"),包含 8 个核心 skill(/think、/design、/hunt、/check、/read、/write、/learn、/health),对应他认为 AI 时代工程师应具备的 8 个能力:会思考、会设计、会排查、会检查、会阅读、会写作、会学习、会维护。强调简单好用、清楚 Agent 在做什么,不多不少刚好够用。
coding
阿里发布 Qwen3.6-Max-Preview,在 SWE-Bench Pro、Terminal-Bench 2.0、SkillsBench、SciCode、QwenClawBench、QwenWebBench 六项 Agent 和编程基准测试中排名第一。输入价格 1.04 美元/百万 token,输出 6.24 美元/百万 token。但旗舰 Max 版本不再完全开源,阿里转向"小模型开源、旗舰闭源"的中间路线。
LLM Agent 在长时间、动态交互环境中运行时,如何实现持续学习和自适应?现有方法(长上下文、外部记忆、参数更新)为何无法完整支撑真正长期化的 Agent?
Agentic code assistants(Claude Code、Codex、Jules)是 2024 年兴起的新一代 AI 编程工具,能自主完成端到端软件工程任务。但这类工具的行为和效果高度依赖配置文件(Claude.md),目前缺乏对这类配置文件的结构、内容和最佳实践的系统性研究。
当前最强的 LLM 编码 Agent 能否胜任工业级移动应用开发?它们在真实产品需求、多模态输入、大规模代码库上表现如何?
paper
Agentic workflow 中,AI agent 会 hallucinate 或推理错误,且错误会在 agent 间传播(一个 agent 的输出作为另一个的输入)。传统 provenance 技术无法捕获 agent 特有的元数据(prompts、responses、decisions)与 workflow 上下文的关联。该论文要解决的核心问题是:如何将 AI agent 行为纳入端到端 workflow provenance,实现可追溯、可审计、可复现的 agentic workflow?
LLM Agent 需要领域特定技能(skills)才能高效处理复杂任务。但技能创建面临三重困境: 人工编写不可扩展:每个领域都需要专家花大量时间写详细的操作指南,随着 Agent 应用场景扩展,这个瓶颈越来越严重 纯 LLM 生成效果差:直接让 LLM 凭参数化知识写技能,缺乏对目标领域具体操作和常见陷阱的了解,收益有限 在线顺序更新导致碎片化:现有在线范式(如 ExpeL、Skill-Gen)按顺序处理每条轨迹,一条轨迹学一个教训就更新一次技能,导致技能碎片化且容易过拟合
LLM Agent 到底是什么、怎么构建、怎么协作、怎么演化? 本文试图用一套统一的方法论分类体系回答这个正在快速碎片化的领域的核心架构问题。这不是第 N 篇 "Agent 综述"——它的价值在于提出"构建-协作-演化"三维框架,把散落的研究线索串成了一条可追溯的架构演进路径。
LLM Agent 正在从研究概念走向实际部署,但目前的研究呈现碎片化状态:构建方法、协作模式、进化机制分散在不同工作中,缺乏统一的方法论框架。如何系统化地理解和设计 LLM Agent 系统?
ai-tools
独立开发者 Tibo 复盘5款AI产品做到100万美金/月 快速验证快速失败是核心
使用GPT-5.5和Image Gen构建项目,每周选出2-3个最佳项目赢得免费DevDay 2026门票,提供实践AI前沿技术的机会。
OpenAI 总裁 Greg Brockman 亲自实测后发现,GPT-5.5 配合 GPT-Image-2 是目前应用开发的最强组合。这一组合被集成到 Build Web Apps 插件中,Codex 可以独立完成从设计到应用的完整流程。DKundel 详细拆解了为何这对组合如此高效——图像生成与代码生成的深度结合,让设计到落地的链路大幅缩短。对开发者而言,这是目前最值得尝试的 AI 开发工作流。
Sam Altman 发推透露 GPT-5.5 的发布时间选在了 5 月 5 日下午 5:55,并开放 Luma 报名链接邀请大家参加派对,Codex 会在回复中帮忙筛选参与者。GPT-5.5 在发布时机上展现了幽默感,也再次强调了其主打的 5.5 版本命名逻辑。对于关注 OpenAI 动态的开发者,这是个值得参与社区互动的机会。
openai
OpenAI 与 AWS 联合宣布 GPT-5.5、Codex 编程代理及 Bedrock Managed Agents 进入有限预览。此前微软与 OpenAI 重签合作协议,取消 Azure 独家许可、废除 AGI 条款。GPT-5.4 已可调用,GPT-5.5 将在未来两周内上线。AWS 客户可通过现有 Bedrock API 调用 OpenAI 模型,复用统一的安全与治理框架。云计算 AI 模型市场从"独家绑定"转向"多平台分发"。
Meta、谷歌、OpenAI 等大厂的顶级研究员持续离职创办 AI 初创公司。Dealroom 数据显示 2025 年初至今成立的 AI 初创公司已获得 188 亿美元风投资金。AI 行业的人才流动模式已从"大厂之间跳槽"升级为"大厂出走创业",大厂已成为 AI 人才的"培训基地"。
微软与 OpenAI 宣布修改合作协议:IP 许可从独家改为非独家(延续至 2032 年);删除 AGI 限制性条款;收入分成机制重设。此前 2025 年 10 月重组中 OpenAI 取消利润上限并给予微软 27% 股权。这次修改为 OpenAI 接入 AWS 等其他云平台扫清法律障碍,标志着 AI 行业最核心的商业关系发生结构性变化。
awesome-gpt-image-2 是目前最大的 GPT Image 2 提示词库,每日更新,汇集 1800+ 精选提示词并附带预览图,支持 16 种语言。GPT Image 2 的核心能力:精准文字渲染(中日英)、跨图一致性、商业级插画输出、故事板/IP 角色生成、多语言设计海报。同时提供 YouMind GPT Image 2 Prompts Gallery 在线画廊,支持分类浏览和 AI 一键生成。GitHub 2558 Stars。
reasoning
LLM Agent 在长时间、动态交互环境中运行时,如何实现持续学习和自适应?现有方法(长上下文、外部记忆、参数更新)为何无法完整支撑真正长期化的 Agent?
Agentic workflow 中,AI agent 会 hallucinate 或推理错误,且错误会在 agent 间传播(一个 agent 的输出作为另一个的输入)。传统 provenance 技术无法捕获 agent 特有的元数据(prompts、responses、decisions)与 workflow 上下文的关联。该论文要解决的核心问题是:如何将 AI agent 行为纳入端到端 workflow provenance,实现可追溯、可审计、可复现的 agentic workflow?
LLM Agent 需要领域特定技能(skills)才能高效处理复杂任务。但技能创建面临三重困境: 人工编写不可扩展:每个领域都需要专家花大量时间写详细的操作指南,随着 Agent 应用场景扩展,这个瓶颈越来越严重 纯 LLM 生成效果差:直接让 LLM 凭参数化知识写技能,缺乏对目标领域具体操作和常见陷阱的了解,收益有限 在线顺序更新导致碎片化:现有在线范式(如 ExpeL、Skill-Gen)按顺序处理每条轨迹,一条轨迹学一个教训就更新一次技能,导致技能碎片化且容易过拟合
LLM Agent 到底是什么、怎么构建、怎么协作、怎么演化? 本文试图用一套统一的方法论分类体系回答这个正在快速碎片化的领域的核心架构问题。这不是第 N 篇 "Agent 综述"——它的价值在于提出"构建-协作-演化"三维框架,把散落的研究线索串成了一条可追溯的架构演进路径。
codex
Greg Brockman 分享了一个 Codex Skill,可以对创业想法进行压力测试。用户只需输入创业想法,Codex 会自动找到核心假设、暴露致命缺陷、检查问题是否真实存在,并给出坦诚的批判性评估。这个 Skill 解决了一个常见痛点:大多数创业想法听起来都不错,但缺乏系统性的验证机制。对于独立开发者、天使投资人以及正在构思 MVP 的创业者,这个工具提供了一个低成本的初期验证手段,可以快速筛选出想法中的致命漏洞。
acpx(openclaw 出品的 agent 控制工具)发布 0.6.0 版本,带来多项实用更新:Claude system prompt 直接控制、session pruning(自动削减上下文)、embeddable turn handles(嵌入到自定义 UI)、--no-terminal 模式、persistent session 修复、WSL cwd 路径转换、queue 稳定性提升及更清晰的报错提示。对于日常使用 Claude/Codex 进行自动化任务的同学,session pruning 和 system prompt 控制是本次最值得关注的两个功能——前者避免上下文溢出,后者让你更精细地约束模型行为。已在 GitHub 开源,有需求的开发者值得关注。
Greg Brockman 转发了 GPT-5.5 在 Codex 模式下端到端生成完整 Excel 工作簿和 PPT 的能力。Derrick Choi 日常大量涉及电子表格和幻灯片,GPT-5.5 现在能直接生成带公式、格式和图表的 Excel 文件,以及完整演示文稿。这标志着 LLM 的生产力范围正从代码向办公全家桶扩张——不写一行代码也能用自然语言生成生产级文档。
Greg Brockman 演示了用自然语言完全在 Codex 内构建 WebApp 和小游戏的工作流:开发者可在 Codex 内直接运行自己开发的游戏,用 Codex 生成的工具来设计建筑等元素,并能实时提问、修改、边运行边调优。这标志着 AI 代码生成从「辅助补全」进化到「主导开发」的关键信号,开发者应尽早熟悉对话即 IDE 的新范式。
claude-code
Peter Yang 与 Mercury VP of Product Ryan Wiggins 深度对谈,主题是如何为 AI Agent 设计出色的 API 与 MCP(Model Context Protocol)。提供完整实战演示:25 分钟用 Claude Code 构建 Second Brain。MCP 正成为 Agent 间通信的事实标准,提前掌握即获得 AI 工作流下一代基础设施的入场券。
agents-md 是一份可直接放入项目根目录的 AGENTS.md 文件,使 Claude Code、Codex、Cursor 等编程代理遵循高级工程师行为规范。综合了 Karpathy 的四大编程代理失败原则和 Boris Cherny 的 Claude Code 工作流,核心改变:代理在用户犯错时反驳、只做最小必要修改、不擅自重构无关代码、先跑验证再报告完成、遇到歧义主动询问。约 200 行,有两个可编辑部分(项目上下文和经验积累),其余规则保持精简。可通过创建 CLAUDE.md 和 GEMINI.md 符号链接统一管理所有代理的行为规范。
Boris Cherny 深度使用 Claude Opus 4.7 后分享的实用技巧总结。核心功能包括:Auto mode(Claude 自动判断命令安全性并批准执行)、/fewer-permission-prompts(智能白名单)、Recaps(任务回顾)、Focus mode(隐藏中间步骤)、灵活的努力程度设定(低-max)。推荐工作流:让 Claude 验证自己的工作成果(端到端测试),结合 /go 自定义技能实现自我测试+精简代码+PR 提交流程。引发 211 次点赞和 41 次转发的热门讨论。
基于 Reddit 真实数据(Claude Code Opus 4.6 ~100小时 vs Codex GPT-5.4 ~20小时,8万行 Python/TypeScript,2800测试用例)的深度对比。发现两种截然不同的工程师人格:Claude Code 像赶工期的资深工程师,速度快3-4倍但倾向堆砌技术债务;Codex 像稳妥的5-6年经验开发者,深思熟虑但交付质量更高。作者提出实用的互补工作流:用 Claude Code 快速原型探索,Codex 重构架构补测试。核心结论:AI 编程助手是放大器而非替代品,Claude 需要技艺精湛的驾驶员,Codex 对实时介入要求更低。
mcp
MCP-Flow 提出全自动 pipeline,从 6 个 MCP 市场自动抓取服务器配置,通过 Slot-Fill Revision + WizardLM Evolution 两阶段数据增强,产出 68733 对 instruction-function call(1166 服务器、11536 工具)。实验表明:GPT-4o 在 10 工具场景下 AST 仅 58.8%,100 工具时 Groq-8B AST 跌至 3%;而 MCP-Flow-Qwen3-0.6B 在同场景下 AST 达 81.2%,全面超越所有大模型。用 MCP-Flow 做 RAG 检索增强后,GPT-4o 在 GAIA 任务上成功率 +17%,步数减少 32%。
Peter Yang与Mercury VP @rywiggs合作推出关于Agent API和MCP设计的深度播客。核心观点:2020s的用户交互界面是API和MCP(Machine Communication Protocol),而非传统App。Mercury用Claude Code加500万字公司知识库构建第二大脑,每天自动生成日程/Linear/Slack简报。节目分享了:如何构建Agent友好的知识库结构、如何设计MCP工具接口、最佳API设计原则。这是第一份系统性Agent API/MCP设计实战复盘。
Peter Yang 与 Mercury VP of Product Ryan Wiggins 深度对谈,主题是如何为 AI Agent 设计出色的 API 与 MCP(Model Context Protocol)。提供完整实战演示:25 分钟用 Claude Code 构建 Second Brain。MCP 正成为 Agent 间通信的事实标准,提前掌握即获得 AI 工作流下一代基础设施的入场券。
深度解析Claude Code背后的六层架构:基座模型、开放协议(MCP)、共享运行时、能力系统和扩展框架。这种垂直整合(Anthropic控制从模型训练到终端工具的每一层)创造了竞争对手难以复制的复合优势。Claude Code从内部原型到最受欢迎的AI编程工具仅用不到一年,2025年单年发布176次更新,每天产生135,000个GitHub commits。理解这六个组件的架构关系是理解Claude Code领先优势的关键。
multi-agent
Suryansh Tiwari 深度解析了 Claude 风格多智能体系统的两种核心架构:Sub-Agents(隔离执行,单次任务,父节点控制)和 Agent Teams(协作通信,共享上下文,对等交互)。核心区别在于上下文边界的设计而非角色分工。提出了 5 种关键模式:Prompt Chaining、Routing、Parallelization、Orchestrator-Worker、Evaluator-Optimizer。强调应基于上下文边界而非角色来拆分任务,避免每个交接点的质量损失。
论文研究多智能体系统中流氓智能体导致全系统失败的问题,提出实时监控与干预框架,用多项式岭分类器基于动作预测熵检测流氓智能体,在检测到低成功概率时触发回滚或重置。引入WhoDunitEnv协作环境,实验证明该机制使LLAMA-3.1-70B、QWEN-2.5-72B、GPT-4O成功率提升约10个百分点,代码生成任务提升2.5%,GovSim资源管理任务提升20%。
面向移动设备厂商研发团队的Agent体系深度研究报告。系统梳理Agent定义谱系、架构范式与多智能体协作机制,给出可落地的PerformanceAgent(性能智能体)参考设计。重点对齐Claude Agent SDK的官方能力模型,涵盖工具调用、子智能体、Skills、Hooks、上下文压缩、权限沙箱、托管形态等。从移动厂商视角出发,设计性能优化专属Agent架构。
Agentic workflow 中,AI agent 会 hallucinate 或推理错误,且错误会在 agent 间传播(一个 agent 的输出作为另一个的输入)。传统 provenance 技术无法捕获 agent 特有的元数据(prompts、responses、decisions)与 workflow 上下文的关联。该论文要解决的核心问题是:如何将 AI agent 行为纳入端到端 workflow provenance,实现可追溯、可审计、可复现的 agentic workflow?
memory
深入分析Hermes Agent开源架构,阐述其Self-Improving闭环的三个子系统:Memory(2200字符容量限制,声明式事实,逼Agent压缩信息;冻结快照机制保护上下文缓存)、Skill(踩坑后自动创建/patch SKILL.md,Pitfalls节记录教训,按需渐进加载)、Nudge Engine(后台fork独立Agent实例审查会话,每10回合/10迭代触发,输出重定向/dev/null用户无感知)。与OpenClaw对比:Skill需手写,Agent不自主学习;Hermes让Agent越用越强。
[EN] - 来源:X/Twitter 原文链接: 作者:chrysb 日期:2026-04-14 抓取时间:2026-04-14 12:00...
首次系统梳理 LLM 记忆系统的全设计空间,指出 Raw/Derived 权衡是结构性问题
LLM Agent 在长时间、动态交互环境中运行时,如何实现持续学习和自适应?现有方法(长上下文、外部记忆、参数更新)为何无法完整支撑真正长期化的 Agent?
anthropic
Anthropic 在发布 81,000 人用户调研后,进一步发布了关于这些用户「经济期望与担忧」的研究报告。这是 AI 领域迄今规模最大的定性用户调研之一,揭示了普通用户对 AI 经济影响的真实心态:既期待 AI 提升生产力和收入,又担忧职业替代和技能贬值。这份研究的价值在于:它为 AI 产品设计者、创业者和政策制定者提供了真实的用户心理画像,有助于构建更符合用户期待、更易被市场接受的 AI 产品。
Boris Cherny 深度使用 Claude Opus 4.7 后分享的实用技巧总结。核心功能包括:Auto mode(Claude 自动判断命令安全性并批准执行)、/fewer-permission-prompts(智能白名单)、Recaps(任务回顾)、Focus mode(隐藏中间步骤)、灵活的努力程度设定(低-max)。推荐工作流:让 Claude 验证自己的工作成果(端到端测试),结合 /go 自定义技能实现自我测试+精简代码+PR 提交流程。引发 211 次点赞和 41 次转发的热门讨论。
基于 Reddit 真实数据(Claude Code Opus 4.6 ~100小时 vs Codex GPT-5.4 ~20小时,8万行 Python/TypeScript,2800测试用例)的深度对比。发现两种截然不同的工程师人格:Claude Code 像赶工期的资深工程师,速度快3-4倍但倾向堆砌技术债务;Codex 像稳妥的5-6年经验开发者,深思熟虑但交付质量更高。作者提出实用的互补工作流:用 Claude Code 快速原型探索,Codex 重构架构补测试。核心结论:AI 编程助手是放大器而非替代品,Claude 需要技艺精湛的驾驶员,Codex 对实时介入要求更低。
Anthropic对80,508名Claude用户进行的大规模定性研究,覆盖159个国家、70种语言,是迄今最大规模的多语言定性AI调研。核心发现:人们希望从AI获得的九大愿景——专业卓越(18.8%)、个人转变(13.7%)、生活管理(13.5%)、时间自由(11.1%)、财务独立(9.7%)、社会转型(9.4%)、创业(8.7%)、学习成长(8.4%)、创意表达(5.6%)。81%的人认为AI已向愿景迈出一步。方法论创新在于用AI访谈员实现定性研究的规模化——兼顾深度与数量。
Agent
2026 年 4 月 18 日 AI 高价值内容日报,筛选 5 条:① Allie Miller 的 5 天 AI 建造课程;② Karpathy 转发 Farzapedia——用 LLM 将 2500 条个人数据转化为个人维基百科的实践;③ Google 发布 Gemini 3.1 Flash TTS 表情化语音合成;④ Gemini Agentic Vision:LLM 自己写代码做视觉推理任务;⑤ Nature 重磅论文——LLM 可通过隐含数据信号传递偏好与对齐特征。
基于 DeerFlow(字节开源多智能体框架,GitHub 6万+ Stars)和 LangChain 创始人 Harrison Chase 的文章,系统梳理 Agent 自我进化的三层框架:Model(权重更新,最重)、Harness(执行机制,2026年核心竞争点)、Context(记忆与个性化,最先落地)。核心判断:2026 年 Agent 的分水岭不在模型在 Harness;Context 层会最先普及;traces 是三层学习的统一燃料;未来更强的 Agent 不来自更大模型,而来自更会复盘、记忆、重构的系统。
文章分析 OpenClaw 进入真实生产场景还缺的四层能力:可视化层(Agent 在做什么必须清晰可见)、封闭层(把开放业务动作重构为边界明确的工作单元)、验证层(垂直领域的 gate,不通过不能进入完成态)、回滚层(沙盘机制,Amazon agent canvas 的实践)。核心判断:Coding Agent 成功是因为代码世界天然具备可视化/封闭/可验证/可回滚四个特征;业务 Agent 要落地必须先把这四层能力构建出来。
SmartPerfetto 的 Harness Engineering 实战记录。在 Perfetto UI 加 AI 分析面板,Claude Agent + MCP 调用 trace_processor 执行 SQL 自动分析 Android trace。演进到 20 个 MCP 工具 + 158 个 YAML Skill + 三层验证。含滑动性能分析完整 session log。计划开源。
workflow
Pete Yang 与前 Tinder CPO Ravi Mehta 合作,提出构建有用 AI 产品的3层 context 系统:Functional 层(应用做什么)、Visual 层(应用长什么样)和 Context 层(当前交互上下文)。Pete 指出目前 AI 使用中最常见的错误是不主动管理 context——模型无法有效利用历史信息,导致输出质量下降。这套3层框架可帮助产品经理和开发者系统性地设计 AI 产品的信息架构,避免常见的信息流混乱问题,是一个可复用的产品方法论。
Peter Steinberger 转发 OpenClaw 2026.5.2 发布,重点是修复 npm 安装依赖与速度问题,让插件安装和更新更稳定,并把大部分能力迁入 extensions 以降低包体负担。发布同时提到 Gateway 与 agent hot path 精简,以及 Discord、Slack、Telegram、WhatsApp、TTS、Realtime、web search 等集成修复。
独立开发者 Tibo 复盘5款AI产品做到100万美金/月 快速验证快速失败是核心
Karpathy 分享了一种高效利用 LLM 的方式——构建个人知识库(Knowledge Bases)。他指出,在 LLM Agent 时代,与其分享具体代码或应用,不如直接分享「创意文件」(Idea File),让 AI 帮你整理、检索和加工研究材料。这种方法将大量 token 消耗从代码操作转向知识操作,大幅提升信息消化效率。适合研究者、知识工作者和需要管理大量文献资料的人群。
Android
English Airbnb’s Page Performance Score on Android Luping Lin7 min read·Dec 17, 2021 -- Listen Share Part 4 of our series on Airbnb’s Page Performance Score....
SmartPerfetto 的 Harness Engineering 实战记录。在 Perfetto UI 加 AI 分析面板,Claude Agent + MCP 调用 trace_processor 执行 SQL 自动分析 Android trace。演进到 20 个 MCP 工具 + 158 个 YAML Skill + 三层验证。含滑动性能分析完整 session log。计划开源。
我在知乎发现了一篇值得思考的文章,一起来看看吧。 在性能优化领域,竞品分析是一个永恒的话题。然而,现有的分析手段往往存在较大的局限性: • 指标维度浅层化 :大多局限于帧率(FPS)、内存占用、CPU 频率及利用率、线程统计等硬件或系统层面的指标。虽然可以通过截帧分析渲染管线,但对于 CPU 端的具体开销(如 UI 逻辑、战斗系统、渲染提交等模块的具体耗时)难以进一步拆解。 • 技术壁垒:在缺乏源代码和符号表的情况下,往往难以洞察竞品底层的具体技术实现。
Android Studio 的 AI Agent 有什么特别?未来会有惊艳什么功能? 相信大家都在之前的 《Android Studio Otter 2 Feature 发布》已经了解过,为什么这是一个比较值得更新的 Android Studio 版本,与此同时,谷歌也和我们展示了未来(Canary)全新的 AI Agent 有什么特别之处。 对于一个 AI Agent 来说,最重要的有三个基础概念:工具 (Tools)、 上下文 (Context) 和 MCP (模型上下文协议) ,而大多数人对于它们的理解,可能还比较片面。 比如工具 ,实际上 AI Agent 不只是一个聊天场景,更多是 Agent 通过"工具"来执行任务 ,而不是单纯用来做文本回复...
safety
LLM Agent 到底是什么、怎么构建、怎么协作、怎么演化? 本文试图用一套统一的方法论分类体系回答这个正在快速碎片化的领域的核心架构问题。这不是第 N 篇 "Agent 综述"——它的价值在于提出"构建-协作-演化"三维框架,把散落的研究线索串成了一条可追溯的架构演进路径。
Google 最新 Gemma-4-31B 基础模型出现越狱版本 Gemma-4-31B-JANG_4M-CRACK,HarmBench 得分 93.7%(149/159)。采用 18GB 混合精度 MLX 量化,支持 Apple Silicon,原生支持视觉多模态。已在 Hugging Face 开放下载。
LLM Agent 正在从研究概念走向实际部署,但目前的研究呈现碎片化状态:构建方法、协作模式、进化机制分散在不同工作中,缺乏统一的方法论框架。如何系统化地理解和设计 LLM Agent 系统?
LLM Agent 串行执行"LLM 推理 → 工具调用"循环,工具执行占总时间 35%-61%。LLM 持有昂贵资源却被迫等待外部工具返回结果,造成严重的延迟瓶颈和资源浪费。
prompt
Greg Brockman 分享了一个 Codex Skill,可以对创业想法进行压力测试。用户只需输入创业想法,Codex 会自动找到核心假设、暴露致命缺陷、检查问题是否真实存在,并给出坦诚的批判性评估。这个 Skill 解决了一个常见痛点:大多数创业想法听起来都不错,但缺乏系统性的验证机制。对于独立开发者、天使投资人以及正在构思 MVP 的创业者,这个工具提供了一个低成本的初期验证手段,可以快速筛选出想法中的致命漏洞。
吴恩达(Andrew Ng)指出2026年的 Prompt 技巧与2022年 ChatGPT 刚发布时已截然不同。他新推出课程「AI Prompting for Everyone」,旨在帮助各种技能水平的用户成为AI power user。课程覆盖跨 ChatGPT、Gemini、Claude 等主流模型的通用 Prompt 技巧,强调如何针对不同模型特性优化 Prompt 策略。对于想系统提升 AI 使用效率的读者,这门跨模型的通用方法论比单一工具教程更有长期价值。
GitHub - PacktPublishing/LLM-Engineers-Handbook: The LLM's practical guide: From the fundamentals to... The LLM's practical guide: From the fundamentals to deploying advanced LLM and RAG apps to AWS using LLMOps best practices - PacktPublishing/LLM-Engineers-Handbook LLM Engineer's Handbook: Maste...
GitHub - rockbenben/ChatGPT-Shortcut: 让生产力加倍的 ChatGPT 快捷指令,按照领域和功能分区,可对提示词进行标签筛选、关键词搜索和一键复制。 ChatGPT Shortcut 是根据领域和功能划分的 ChatGPT 快捷指令表,可通过标签筛选、关键词搜索和一键复制来使用提示词,旨在简化你的工作流程并提高生产力。即使是初学者,你只需复制提示词,稍加修改后发送给 ChatGPT,就能获得指定输出,让你的生产力加倍! 提示词(即 Prompt)通常是用户提供的问题或文本,以激活模型生成回复。简单来说,prompt 就是用户想要询问的内容,作为输入送到 ...
github
AI代理可能取代GitHub的中心地位,代码获取方式从访问网站转为对话式,代码库越来越定制化。
wsl8297 推荐 12 个 GitHub 项目用于配置 Claude Code: LightRAG(知识图谱)、Superpowers(Claude 增强)、Obsidian Skills(上下文管理)、Everything Claude Code(功能汇总)、Claude Mem(记忆)、n8n-MCP(自动化集成)、Awesome Claude Code(用法汇总)、UI UX Pro Max(设计审美)、GSD(目标导向执行)等。社区补充 Oh My Claude Code 应排第一;GSD 中 Nyquist 规则(每步60s内验证)被单独点名实用。引发 1189 次点赞、260 次转发的高热度讨论。
论文试图解决什么问题? 大语言模型(LLM)在代码生成和理解任务上表现出色(如 GitHub Copilot、GPT-4 Code Interpreter),但在深度代码推理方面仍有明显局限。具体问题包括: 表面模式匹配:LLM 往往基于关键词和表面模式,而非深度语义理解。例如,对代码 if (x > 0) return x; else return -x;,LLM 可能识别出"返回绝对值",但无法推理出"如果 x 是负数,返回 -x 的数学意义"。 推理不一致:对同一代码的不同提问,LLM 可能给出矛盾答案。例如,问"这个函数的时间复杂度?"可能回答 O(n),问"这个函数会超时吗?"可能回答"不会",但两者矛盾。 缺乏可解释性:LLM 的推理过程是黑盒,难以验证结论正确性。开发者无法判断 LLM 的结论是基于真实理解还是表面模式。...
来源:@frxiaobei | GitHub 仓库 这个仓库值一个亿。Cursor、Claude Code、Devin、Windsurf、v0... 所有你用过的 AI 编程工具,它们的 System Prompt 全被扒出来了。30000 行指令,30+ 个产品,0 元获取。 该仓库收录了以下 AI 编程工具的 System Prompt: Augment Code Claude Code Cluely CodeBuddy Comet Cursor Devin AI Junie Kiro Leap.new Lovable Manus NotionAI **Orchids.
Anthropic
据 The Information 报道,Anthropic 正在与英国 SRAM 基 AI 芯片初创公司 Fractile 进行早期洽谈,计划在 2027 年 Fractile 产品上市后采购其推理芯片。随着 Anthropic 销售额爆发式增长,现有服务器供应(来自 Google、Amazon、Nvidia)已面临压力。此举反映了 AI 公司正在积极多元化芯片供应链,以应对日益增长的推理算力需求。Fractile 的 SRAM 基方案代表了一种不同于传统 GPU 的推理加速路径。
MCP(Model Context Protocol)2026 年 3 月 SDK 月下载量突破 9700 万次。该协议从 Anthropic 内部实验到 Linux 基金会 Agentic AI Foundation 托管仅用约 14 个月,速度超过任何已知开发者协议。文章提供生产级 MCP Agent 构建指南,涵盖服务器/客户端实现、安全策略和 2026 年路线图。
Anthropic 发布 Claude Design,基于 Claude Opus 4.7,实现描述到可交互高保真原型的工作流。与 Figma/Canva 的本质区别:AI 是主要生成者、人是审阅者,而非在画布工具上叠加 AI 插件。核心能力:输出 React+CSS 可运行代码而非静态图;理解代码库结构后自动套用设计系统;可生成临时专用工具;与 Claude Code 形成设计到代码落地闭环。实测案例:3 轮对话产出完整 Mac App 原型,含可点击交互和版本对比。Anthropic 设计师一人服务 7 条产品线的现实已发生,Figma 股价当日大跌。
Anthropic 官方员工 Thariq 发布的产品使用指南,系统讲解 Claude Code 100 万上下文下的会话管理策略。覆盖:Continue(继续)、Rewind(回溯,纠正错误的最佳方式)、Clear(清空新会话)、Compact(上下文压缩,有损摘要)、Subagents(委派干净上下文的子任务)五种决策路口。好压缩的关键是让模型知道下一步往哪走;子智能体适合阅后即焚型大量中间结果;100 万上下文让主动提前压缩成为可能。
reinforcement-learning
LLM Agent 到底是什么、怎么构建、怎么协作、怎么演化? 本文试图用一套统一的方法论分类体系回答这个正在快速碎片化的领域的核心架构问题。这不是第 N 篇 "Agent 综述"——它的价值在于提出"构建-协作-演化"三维框架,把散落的研究线索串成了一条可追溯的架构演进路径。
LLM Agent 串行执行"LLM 推理 → 工具调用"循环,工具执行占总时间 35%-61%。LLM 持有昂贵资源却被迫等待外部工具返回结果,造成严重的延迟瓶颈和资源浪费。
LLM Agent 如何从"通用模型"进化为"可动态扩展专业技能的模块化系统"? Agent Skills 作为一种新兴的抽象层,通过可组合的指令-代码-资源包,使 Agent 无需重训练即可按需加载专业能力。但这一范式在架构、获取、部署和安全方面面临系统性挑战。
移动 GUI 智能体在训练中面临两个根本性挑战:1)失败轨迹学习效率低——失败轨迹占绝大多数但未被有效利用;2)长程任务的信用分配模糊——轨迹级稀疏奖励(成功/失败)无法告知智能体哪一步做错了。
LLM
xAI 发布 Grok 4.3 模型,主打"常驻推理"(always-on reasoning)能力,具备 100 万 token 上下文窗口,API 定价仅为 Grok 4.20 的 60%(输入 $1.25/百万token,输出 $2.50/百万token)。在 Artificial Analysis Intelligence Index 上比 Grok 4.20 提升 4 分,以 500B 参数超越 Claude Sonnet 4.6。同时发布 Custom Voices 语音克隆套件,仅需 1 分钟语音样本即可生成可用的语音克隆。xAI 工程师表示更大规模的模型正在训练中。
2026 年 4 月 18 日 AI 高价值内容日报,筛选 5 条:① Allie Miller 的 5 天 AI 建造课程;② Karpathy 转发 Farzapedia——用 LLM 将 2500 条个人数据转化为个人维基百科的实践;③ Google 发布 Gemini 3.1 Flash TTS 表情化语音合成;④ Gemini Agentic Vision:LLM 自己写代码做视觉推理任务;⑤ Nature 重磅论文——LLM 可通过隐含数据信号传递偏好与对齐特征。
从注意力机制原理出发,详解 KV Cache 的工作原理与工程权衡。自回归生成中 Token 1-49 的 K/V 每次都重算是 O(n^2) 浪费;KV Cache 把历史 K/V 只算一次并缓存,新 Token 只追加自己的 K/V,实现约 5x 提速;代价是显存占用,context window 翻倍意味着单请求 cache 翻倍。Prefill 阶段(首个 Token)最贵,因为要一次性算完所有历史 K/V,这就是 TTFT 瓶颈的来源。GQA/MQA 通过共享 K/V head 显著降内存,是大规模服务必用方案。
Karpathy 分享他用 LLM 构建个人知识库的工作流:raw/ 目录存放原始文档,LLM 增量"编译"成 .md wiki(含摘要、反向链接、概念分类文章);用 Obsidian 作为 IDE 前端查看原始数据、编译产物和可视化;wiki 达到约 100 篇文章/40 万字后,可以直接向 LLM agent 提问复杂问题。关键发现:不需要 fancy RAG,LLM 自己会维护索引文件和文档摘要。输出形式包括 Markdown 文件、幻灯片(Marp 格式)、matplotlib 图像。还会用 LLM 做 wiki 健康检查(不一致数据、缺失数据、新文章候选)。
MCP
MCP(Model Context Protocol)2026 年 3 月 SDK 月下载量突破 9700 万次。该协议从 Anthropic 内部实验到 Linux 基金会 Agentic AI Foundation 托管仅用约 14 个月,速度超过任何已知开发者协议。文章提供生产级 MCP Agent 构建指南,涵盖服务器/客户端实现、安全策略和 2026 年路线图。
Anthropic官方博客,系统阐述将Agent连接到外部生产系统的三条路径(Direct API、CLI、MCP)的适用场景及优劣。重点介绍构建生产级MCP服务器的最佳实践:远程服务器实现最大覆盖、按Intent而非端点分组工具、设计代码编排处理大表面、丰富语义(Elicitation/MCP Apps)、标准化认证(CIMD+Vaults)。提出MCP客户端的上下文效率优化(按需加载工具定义85%+节省、程序化工具调用37%节省)。
Claude Code官方中文文档。Claude Code是由AI驱动的编码助手,可理解整个代码库并跨多个文件和工具工作。支持macOS/Linux/WSL/Windows安装,核心功能包括:繁琐任务自动化(测试、lint修复、合并冲突)、自然语言描述→规划→编码→验证的工作流、git集成、MCP连接外部数据源、CLAUDE.md项目配置、自定义命令(Skills)和Hooks。
Anthropic官方Claude Code实战课程的中文翻译版,适合离线阅读。课程覆盖21个章节:基础部分(引言、编码助手概念、实战、安装配置、项目准备、添加上下文、修改代码)、进阶部分(控制上下文、自定义命令、MCP服务器、GitHub集成)、Hooks专题(认识/定义/实现Hooks及常见坑点)、高级主题(SDK、测验、总结)。
OpenAI
华尔街日报对 OpenAI CFO Sarah Friar 的深度专访。知情人士透露,Friar 私下建议将 OpenAI IPO 推迟至 2027 年,以避免在 Anthropic 之前匆忙上市导致估值受损。她帮助维持了 OpenAI 与微软的关键合作关系,并正在管理 Sam Altman 的雄心与公司实际发展节奏之间的平衡。报道指出 OpenAI 正处于 11 年历史上最关键的发展阶段,走得太快可能透支业务,太慢则可能被 Anthropic 抢先。
马斯克对 OpenAI 的诉讼在首周审理中遭遇波折。据彭博社报道,庭审过程中出现多个不利信号。这起备受关注的案件被视为 AI 行业治理走向的风向标,涉及 OpenAI 从非营利向营利转型的合法性、创始团队的信义义务等核心问题。案件的走向将对整个 AI 行业的公司治理结构产生深远影响。
使用GPT-5.5和Image Gen构建项目,每周选出2-3个最佳项目赢得免费DevDay 2026门票,提供实践AI前沿技术的机会。
发表在 Science 上的哈佛研究显示,OpenAI 的 o1 推理模型在真实急诊场景中使用电子病历和护士简短描述进行诊断,正确率达到 67%,而分诊医生仅为 50-55%。在管理计划方面,AI 得分 89% 远超医生的 34%。研究者称这是"将重塑医学的深刻技术变革",但也强调 AI 应作为辅助工具而非替代医生,呼吁进行更大规模的前瞻性临床试验。论文同期被 NPR、Vox、CNET 等多家主流媒体广泛报道。
chatgpt
GitHub - yetone/openai-translator: 基于 ChatGPT API 的划词翻译浏览器插件和跨平台桌面端应用 - Browser extension and cross-platform desktop application for translation based on ChatGPT API. 基于 ChatGPT API 的划词翻译浏览器插件和跨平台桌面端应用 - Browser extension and cross-platform desktop application for translation based on ...
GitHub - rockbenben/ChatGPT-Shortcut: 让生产力加倍的 ChatGPT 快捷指令,按照领域和功能分区,可对提示词进行标签筛选、关键词搜索和一键复制。 ChatGPT Shortcut 是根据领域和功能划分的 ChatGPT 快捷指令表,可通过标签筛选、关键词搜索和一键复制来使用提示词,旨在简化你的工作流程并提高生产力。即使是初学者,你只需复制提示词,稍加修改后发送给 ChatGPT,就能获得指定输出,让你的生产力加倍! 提示词(即 Prompt)通常是用户提供的问题或文本,以激活模型生成回复。简单来说,prompt 就是用户想要询问的内容,作为输入送到 ...
关于GPT-4o:OpenAI 发布最强人机交互模型的收藏文章
ChatGPT的火爆出圈,让大家对NLP语言模型的发展历程产生了浓厚的兴趣。本文将从深度学习在NLP领域的发展历程,到大语言模型的发展历程,再到大语言模型的未来展望,带你一起了解NLP语言模型的发展历史。 本文处于初稿状态,可能存在很多错误,如果你有不同的看法,欢迎不吝赐教,先行感谢! ChatGPT的火爆出圈,让大家对自然语言处理(Natural Language Processing)语言模型的发展历程产生了浓厚的兴趣。本文将从深度学习在NLP领域的发展历程,到大语言模型的发展历程,再到大语言模型的未来展望,带你一起了解NLP语言模型的发展历史。 想必很多人对ChatGPT涌现出的多领域能...
Claude
Obsidian + Claude 搭建个人知识库的核心架构实践。核心思路:把笔记库当代码仓库来"编译"。三层目录结构:原料/(只读,Claude 不可修改)→ 摘要/(Claude 结构化编译产物)→ 沉淀/(Query 高质量回答落文件)。两个元文件:CLAUDE.md(控制 AI 行为的最高宪法)和 index.md(全局目录 + TLDR,Claude 检索时先扫再深读)。日常工作流三个动作:Ingest(逐篇处理)、Query(好回答存文件)、Lint(定期健康检查)。防腐化底线:重要断言必须有来源、新旧冲突报 diff 不覆盖、区分事实和推论。
Source: @aiedge_ The only guide you need to master Claude from zero. 介绍 The only guide you need to master Claude from zero. 这是从零开始掌握 Claude 的唯一指南。 Last week, Anthropic shipped its best suite of Claude features yet. If you're still using ChatGPT, this is the nail in the coffin. **上周,Anthropic 发布了迄今为止最好的 Claude 功能套件。如果你还在使用 ChatGPT,这就是压死骆驼的最后一根稻草。
Anthropic 最近在自家的教育平台 Anthropic Academy 上线了一门免费课程叫 Claude 101,总共 13 节课,从最基础的"Claude 是什么"一路讲到企业搜索、深度研究、自定义技能,覆盖了一个普通用户上手 Claude 需要知道的几乎所有东西。 这篇文章把 13 节课的核心内容做了一次系统梳理,按照课程原有的四大模块展开,帮你在最短时间内把 Claude 的能力版图看清楚。 课程开篇花了很大篇幅去讲 Claude 的设计哲学,核心就一句话: 帮你从想法的萌芽阶段就找到答案,并建立各种联系 具体来说,Claude 能跟你一起阅读文档、分析电子表格、制作演示文稿,把你脑子里的想法从"文字和幻灯片"变成真实可执行的条目、更新、行动。...
AI Coding In-Depth Sharing: How to Truly Utilize Tools, From Principles to Practice This article systematically deconstructs AI programming tools from underlying principles (Token, tool calling, Codebase retrieval, Merkle Tree) to practical applications (dialogue optimization, best practices, tool alternatives), guiding developers to efficiently utilize AI-assisted coding....
fine-tuning
MCP-Flow 提出全自动 pipeline,从 6 个 MCP 市场自动抓取服务器配置,通过 Slot-Fill Revision + WizardLM Evolution 两阶段数据增强,产出 68733 对 instruction-function call(1166 服务器、11536 工具)。实验表明:GPT-4o 在 10 工具场景下 AST 仅 58.8%,100 工具时 Groq-8B AST 跌至 3%;而 MCP-Flow-Qwen3-0.6B 在同场景下 AST 达 81.2%,全面超越所有大模型。用 MCP-Flow 做 RAG 检索增强后,GPT-4o 在 GAIA 任务上成功率 +17%,步数减少 32%。
LLM Agent 在长时间、动态交互环境中运行时,如何实现持续学习和自适应?现有方法(长上下文、外部记忆、参数更新)为何无法完整支撑真正长期化的 Agent?
LLM Agent 需要领域特定技能(skills)才能高效处理复杂任务。但技能创建面临三重困境: 人工编写不可扩展:每个领域都需要专家花大量时间写详细的操作指南,随着 Agent 应用场景扩展,这个瓶颈越来越严重 纯 LLM 生成效果差:直接让 LLM 凭参数化知识写技能,缺乏对目标领域具体操作和常见陷阱的了解,收益有限 在线顺序更新导致碎片化:现有在线范式(如 ExpeL、Skill-Gen)按顺序处理每条轨迹,一条轨迹学一个教训就更新一次技能,导致技能碎片化且容易过拟合
论文试图解决什么问题? AI 系统的黑箱问题:LLMs 的推理过程不透明,难以验证和信任 计算论证的可扩展性问题:传统 CA 依赖手工知识工程,难以应用于开放域 人机协作的失衡:当前 AI 要么完全自动化决策,要么只是提供解释,缺乏真正的协作 高风险领域的可信度:在医学、法律等领域,AI 必须提供可争议、可审查的推理 核心洞察:计算论证(CA)与大语言模型(LLMs)的融合可以实现一个新范式——论证型人机决策制定,其中 AI 与人类共同推理,而不是为人类推理。
context-management
Pete Yang 与前 Tinder CPO Ravi Mehta 合作,提出构建有用 AI 产品的3层 context 系统:Functional 层(应用做什么)、Visual 层(应用长什么样)和 Context 层(当前交互上下文)。Pete 指出目前 AI 使用中最常见的错误是不主动管理 context——模型无法有效利用历史信息,导致输出质量下降。这套3层框架可帮助产品经理和开发者系统性地设计 AI 产品的信息架构,避免常见的信息流混乱问题,是一个可复用的产品方法论。
文章系统阐述Harness Engineering的核心价值:AI时代技术重心正从单点能力转向对整体系统的组织、约束和协同。作者从Prompt工程化、Context工程化、Tools工程化、Workflow工程化四个维度展开,结合OpenAI、Anthropic、LangChain的实践经验,介绍Generator-Evaluator模式、多Agent协作框架(Anthropic 16个并行Claude协作编写C编译器案例)。强调Harness的核心不是塞信息而是设计信息结构,长任务靠外部状态管理而非更强Prompt。
Source: @aiedge_ The only guide you need to master Claude from zero. 介绍 The only guide you need to master Claude from zero. 这是从零开始掌握 Claude 的唯一指南。 Last week, Anthropic shipped its best suite of Claude features yet. If you're still using ChatGPT, this is the nail in the coffin. **上周,Anthropic 发布了迄今为止最好的 Claude 功能套件。如果你还在使用 ChatGPT,这就是压死骆驼的最后一根稻草。
By @yanhua1010 (Yanhua) · Fri Mar 06 02:40:30 +0000 2026 📊 ❤️ 145 🔁 43 🔖 259 👁️ 10,204 💬 1 📐 400 words 本文受 @aiedge 的 Claude 终极初学者指南 启发创作,结合个人一年多的实战经验。 2026 年 3 月,Anthropic 一口气释放了 Claude 有史以来最强的功能组合。Skills、Cowork、Opus 4.6。 如果你还在观望,或者还停留在"问它一个问题,得到一个回答"的阶段,这篇文章会帮你重新理解 Claude 到底是什么,以及怎么真正用好它。 我用 Claude 超过一年了。从最早的 API 到今天的桌面端、Code、Cowork,几乎每一个功能更新我都第一时间上手。...
skill
深入分析Hermes Agent开源架构,阐述其Self-Improving闭环的三个子系统:Memory(2200字符容量限制,声明式事实,逼Agent压缩信息;冻结快照机制保护上下文缓存)、Skill(踩坑后自动创建/patch SKILL.md,Pitfalls节记录教训,按需渐进加载)、Nudge Engine(后台fork独立Agent实例审查会话,每10回合/10迭代触发,输出重定向/dev/null用户无感知)。与OpenClaw对比:Skill需手写,Agent不自主学习;Hermes让Agent越用越强。
Source: @aiedge_ The only guide you need to master Claude from zero. 介绍 The only guide you need to master Claude from zero. 这是从零开始掌握 Claude 的唯一指南。 Last week, Anthropic shipped its best suite of Claude features yet. If you're still using ChatGPT, this is the nail in the coffin. **上周,Anthropic 发布了迄今为止最好的 Claude 功能套件。如果你还在使用 ChatGPT,这就是压死骆驼的最后一根稻草。
By @yanhua1010 (Yanhua) · Fri Mar 06 02:40:30 +0000 2026 📊 ❤️ 145 🔁 43 🔖 259 👁️ 10,204 💬 1 📐 400 words 本文受 @aiedge 的 Claude 终极初学者指南 启发创作,结合个人一年多的实战经验。 2026 年 3 月,Anthropic 一口气释放了 Claude 有史以来最强的功能组合。Skills、Cowork、Opus 4.6。 如果你还在观望,或者还停留在"问它一个问题,得到一个回答"的阶段,这篇文章会帮你重新理解 Claude 到底是什么,以及怎么真正用好它。 我用 Claude 超过一年了。从最早的 API 到今天的桌面端、Code、Cowork,几乎每一个功能更新我都第一时间上手。...
By @jakevin7 (卡比卡比) · Mon Mar 02 15:57:31 +0000 2026 📊 ❤️ 74 🔁 4 🔖 92 👁️ 14,471 💬 1 📐 735 words 从 0 到 1,用 AI 辅助开发一个 OpenClaw 类似的 Agentic AI 工具。7 天,73 个 commit,13000+ 行 Rust。 这篇文章记录了整个过程中的思考、踩坑与感悟。 代码在 GitHub。如果你也想造一只属于自己的螃蟹钳子,欢迎 star/fork。我的 GitHub:jackwener,欢迎 follow。 起因 2026 年 2 月,OpenClaw 火了。朋友圈里人人都在聊这只龙虾——一个能在 Telegram 里跟你对话、帮你干活的 AI 智能体。...
prompt-engineering
文章系统阐述Harness Engineering的核心价值:AI时代技术重心正从单点能力转向对整体系统的组织、约束和协同。作者从Prompt工程化、Context工程化、Tools工程化、Workflow工程化四个维度展开,结合OpenAI、Anthropic、LangChain的实践经验,介绍Generator-Evaluator模式、多Agent协作框架(Anthropic 16个并行Claude协作编写C编译器案例)。强调Harness的核心不是塞信息而是设计信息结构,长任务靠外部状态管理而非更强Prompt。
agents-md 是一份可直接放入项目根目录的 AGENTS.md 文件,使 Claude Code、Codex、Cursor 等编程代理遵循高级工程师行为规范。综合了 Karpathy 的四大编程代理失败原则和 Boris Cherny 的 Claude Code 工作流,核心改变:代理在用户犯错时反驳、只做最小必要修改、不擅自重构无关代码、先跑验证再报告完成、遇到歧义主动询问。约 200 行,有两个可编辑部分(项目上下文和经验积累),其余规则保持精简。可通过创建 CLAUDE.md 和 GEMINI.md 符号链接统一管理所有代理的行为规范。
作者在QCon北京分享了两年做AI产品的阶段性总结,聚焦三个核心问题:为什么AI产品难做(不确定性、场景模糊、用户预期管理);提示词工程被严重低估(是产品特性而非技术细节);AI产品团队如何构建(需要新的协作流程和角色)。内容来自大量AI产品demo的实战积累,对AI产品经理有较高参考价值。
原文链接: 作者:Khazix0918 日期:2026-04-14 抓取时间:2026-04-14 12:00
cursor
agents-md 是一份可直接放入项目根目录的 AGENTS.md 文件,使 Claude Code、Codex、Cursor 等编程代理遵循高级工程师行为规范。综合了 Karpathy 的四大编程代理失败原则和 Boris Cherny 的 Claude Code 工作流,核心改变:代理在用户犯错时反驳、只做最小必要修改、不擅自重构无关代码、先跑验证再报告完成、遇到歧义主动询问。约 200 行,有两个可编辑部分(项目上下文和经验积累),其余规则保持精简。可通过创建 CLAUDE.md 和 GEMINI.md 符号链接统一管理所有代理的行为规范。
Claude Code 编程工具相关实践与技巧
来源:@frxiaobei | GitHub 仓库 这个仓库值一个亿。Cursor、Claude Code、Devin、Windsurf、v0... 所有你用过的 AI 编程工具,它们的 System Prompt 全被扒出来了。30000 行指令,30+ 个产品,0 元获取。 该仓库收录了以下 AI 编程工具的 System Prompt: Augment Code Claude Code Cluely CodeBuddy Comet Cursor Devin AI Junie Kiro Leap.new Lovable Manus NotionAI **Orchids.
@yibie (yibie) 🕐 Tue Mar 03 01:57:42 +0000 2026 📊 ❤️ 2 🔁 0 🔖 5 👁️ 153 💬 0 重读 OpenClaw 缔造者 Perter Steinberger 的这篇雄文《Shipping at Inference-Speed》,还有很深的启发,这篇文章是 Perter 说明自己 AI 辅助编程时,他自己工作流、方法、工具选择的转变,而这个转变让他打开与 AI 协作新的大门。 Perter 在 AI 辅助编程的范式转变,是来自他亲自开发的项目 VibeTunnel。年初他花了两个月时间,尝试用Rust、Go 甚至 Zig 重写核心模块,但旧模型一直失败,最终没完成。...
Performance
我在知乎发现了一篇值得思考的文章,一起来看看吧。 在性能优化领域,竞品分析是一个永恒的话题。然而,现有的分析手段往往存在较大的局限性: • 指标维度浅层化 :大多局限于帧率(FPS)、内存占用、CPU 频率及利用率、线程统计等硬件或系统层面的指标。虽然可以通过截帧分析渲染管线,但对于 CPU 端的具体开销(如 UI 逻辑、战斗系统、渲染提交等模块的具体耗时)难以进一步拆解。 • 技术壁垒:在缺乏源代码和符号表的情况下,往往难以洞察竞品底层的具体技术实现。
Anthropic 官方分享:为 AI 智能体打造高效工具——让 AI 智能体来帮忙 来自 Anthropic 工程团队模型上下文协议(Model Context Protocol, MCP)可 模型上下文协议(Model Context Protocol, MCP)可...
Android×鸿蒙×AI 技术刊#第13期——APK极速瘦身策略、MVI架构实践与AI工具链新动态 本周 Android 生态聚焦性能优化、架构演进与 AI 融合三大方向: 1️⃣ 性能深度优化 APK 瘦身实战:Unreal 项目压缩 NativeLibs 与资源,实现 1.23G → 130M 体积优化; 鸿蒙组件冻结技术:freezeWhenInactive 属性抑制非活跃 UI 刷新,降低主线程负载。 2️⃣ 开发范式革新 MVI 架构解析:厘清单向数据流与状态管理核心,对比 Redux/MVVM 适用场景; Flutter Hotload 突破:双重映射技术绕过 iOS 26 权限限制,恢复真机 Hotload 能力。
Android×鸿蒙×AI 技术刊#第12期:Android 16新特性、Compose与Flutter对比、ART机制揭秘 本周 Android 生态动态聚焦系统升级、框架演进与底层优化三大方向: 1️⃣Android 16 更新深度解读 强制应用开启全屏模式(edge-to-edge) ,预测性返回手势默认激活; 引入动态刷新率API (getSuggestedFrameRate)、增强型安全模式 及广播优先级限制等关键行为变更。 2️⃣ 跨平台框架能力交锋 Compose Multiplatform:Jetpack Compose 对比 Flutter 在 包体积、冷启动性能 的显著优势; **Flutter 挑战 iOS 26 ...
ChatGPT
AI 助力网站出海:只靠聊天,做高颜值网站,你也行! 4次与AI的对话,来让大家看看如何做出精美的AI播客网站。 朋友好,我是赫兹! 一个探索网站出海生意的新手,上次分享了第一次赚美元!纯新手深度复盘网站出海,一文掌握全流程 之后,有朋友问我可以详细说说设计开发部分吗,今天我就来聊聊设计开发部分。 今天我用4次与...
AI 正在推动程序员的进化,而不是灭亡 | 宝玉的分享 这是纽约时报新刊登的一篇 AI 对程序员影响的文章,有人担心 AI 很快会自动取代数百万个工作岗位,文章主要观点还是认为 AI 正在推动程序员的进化,而不是灭亡,创造力、批判性思维、解决问题的能力、沟通能力、共情能力------这些才是人们在未来需要持续培养的技能。当然,还要学会如何管理和使用好这些 AI 工具。 同时 HackerNews 上关于这篇文章也有不少讨论,一起整理后放在附录中供参考。 微软等公司推出的 AI 工具正辅助编写代码,让软件工程师站在这项技术对劳动力市场所带来冲击的最前沿。
1866 年,西门子的一位工程师发明了人类第一台直流发电机。 40 年后,通用电气在 1906 年开始量产真正让电灯普及的第一代白炽灯泡。 在这两者之间的半个世纪里,人类世界依然黑暗,电气的技术革命好像没有发生。 但,这只是因为我们身处后世,才能如此轻描淡写地将这 40 年一笔带过。对于当时的人们来说,电气技术的发展,是他们眼皮底下一天天展开的:第一条电报线路的铺设,第一个电话的接通,第一辆电车的开动,每一次技术的进步,都在真切地改变着他们的生活,只是它没有快到让当时的每个人都在一个时间点集体惊呼"啊,电气革命终于来了!"
AI 和写作 | Randy's Blog | Randy's Blog 到底什么样的形式是一个好的写作 Copilot, 我也没有答案,但我认为它一定不能是侵入式的。它应该在一旁默默地观察我写出来的想法,然后在合适的时候告诉我它对此的观点。它有比我多得多的知识量,可以做到: 在我提出一个观点时,找出其中可能的逻辑漏洞,帮助我更完整地思考。 在我提出一个观点时,找出其在学术研究中对应的名词可以解释这个观点,甚至找出对应的科学实验、论文、现实中的案例。这在非虚构类写作中十分有帮助。我最近在读 Ali Abdaal 的 Feel good productivity 一书,里面十个观点有八个都能举出一个科学实验来论证,我基本可以单方面认为 Ali 一定是在用 GPT ...
Claude Code
串串狗小刊发布的一篇从 Claude Code 迁移到 Codex 的实践指南。文章对比了两个 AI 编程工具在日常使用中的差异,包括上下文管理、工具调用方式、权限模型等方面的区别,并分享了作者在实际项目中完成迁移的经验和踩坑记录。对于同时使用或考虑切换 AI 编程工具的开发者有直接参考价值。(原文抓取失败,基于 RSS 元数据提取)
Anthropic 官方员工 Thariq 发布的产品使用指南,系统讲解 Claude Code 100 万上下文下的会话管理策略。覆盖:Continue(继续)、Rewind(回溯,纠正错误的最佳方式)、Clear(清空新会话)、Compact(上下文压缩,有损摘要)、Subagents(委派干净上下文的子任务)五种决策路口。好压缩的关键是让模型知道下一步往哪走;子智能体适合阅后即焚型大量中间结果;100 万上下文让主动提前压缩成为可能。
Claude Code 的图谱 Skill,支持将代码、论文、图片自动生成知识图谱。多模态提取:tree-sitter 解析代码、Claude vision 看图片、LLM 读 PDF。每条边标注 EXTRACTED/INFERRED/AMBIGUOUS 三种可信度,在 52 文件场景下实现 71.5x token 压缩率。输出支持交互式 HTML、Obsidian vault、可 Agent 读取的 wiki、持久化 JSON 跨 session 可查询。
基于 Claude Code 创始人 Boris Cherny 分享的技巧整理的实战指南。核心要点:给 Claude 验证机会(装 Chrome 扩展/Playwright MCP 让它自己看效果,输出质量提升 2-3 倍);同时开 3-5 个 git worktree 并行;/remote-control 手机遥控;/loop 定时循环和 /schedule 持久化任务;Hooks 是确定性的(绕不过去),CLAUDE.md 规则是建议性的(压力大可能跳过);/btw 插队提问不进历史;/batch 大规模迁移神器(AI 军团式编程);/model opus 切换模型省 token。