AI 编程 4.0 · 优秀 2026-03-02 · X

工程师,开始给 Agent 打工了

OpenAI 内部有个团队,5 个月,3 个工程师,几乎不靠手写代码,做出了一个内部产品。 约 100 万行代码,约 1500 个 PR,人均每天 3.5 个 PR。 这是什么概念? 正常工程师一天能稳定交付一个 PR,已经算高效。3.5 个 PR,意味着产出被直接拉高到了另一个数量级。更夸张的是,这些代码大部分都不是工程师亲手敲出来的。 这篇文章是 OpenAI 工程师写的,讲他们怎么用 Codex 从零构建一个叫 Harness 的内部工具。读完之后,我沉默了挺久。 因为它把一件正在发生的事,讲得非常清楚: 工程师的核心工作,正在从写代码,转向设计让 Agent 持续工作的环境。 这句话很重要。 这不是一句夸张的口号,也不是某种抽象比喻。它描述的是一个已经开始发生的角色迁移。...

打开原文回到归档

工程师,开始给 Agent 打工了

正文

这篇文章讲的是OpenAI的三个工程师如何通过精心设计的Agent工作流,撬动了百万行代码的工程量。

核心观点

3个工程师能撬动100万行代码,重点不是"Agent把工程师替掉了"。真正发生的事情是,工程师的杠杆变了。

过去,工程师的产出更多取决于自己亲手写了多少。 现在,工程师的产出越来越取决于他能不能把Agent的执行环境设计好。

关键要素

清晰的AGENTS.md

  • NOW.md看优先级
  • MEMORY.md看长期积累
  • content-playbook.md看内容策略
  • Agent读AGENTS.md不是为了在这一页里理解全部事情,它要的是知道下一步该去哪里读,去哪里拿到完成任务真正需要的上下文

"Agent看不到的,等于不存在"

  • 所有关键知识,都必须编码进repo
  • 如果一个设计决策只存在于某条Slack消息里,或者只存在于某个工程师的脑子里,Agent就永远不会知道
  • 对人来说,很多缺失的信息可以靠常识补,可以问同事,可以凭经验猜,可以从语境里推断
  • 对Agent来说,它只能使用它看得到的东西
  • 所以,一个能让Agent高效工作的repo,必须尽量接近一个完整、自解释、可追踪的系统

用linter机械化强制架构

  • Agent生成代码的速度太快,人工review很容易跟不上
  • 很多原来靠资深工程师肉眼发现的问题,到了agent-first的工作流里,已经不适合继续靠人力兜底
  • 最好的办法,是把规范直接写进系统里
  • 用linter、CI、自动检查去执行规范
  • 凡是可以机械化的质量控制,都应该尽量机械化
  • 人的注意力应该留给那些只有人能做判断的事情

垃圾回收是必须的

  • Agent会复制repo里已有的模式。好的会复制,坏的也会复制
  • 如果repo里有一个写得不好的函数,在过去,它可能只是一个局部问题
  • Agent介入之后,它会参考这个函数继续生成类似实现
  • 新生成的实现又会变成新的参考,然后坏模式开始扩散,这个过程会越来越快
  • 所以他们专门做"垃圾回收",定期清理repo里的坏模式

核心洞察

这意味着,未来最值钱的工程师,未必是写代码最快的人。更可能是最会把知识、约束和反馈,整理成Agent可执行环境的人。

这件事,已经开始发生了。

接下来真正该问的问题是:我有没有把我的知识、规范、流程和反馈,整理成一个Agent能持续工作的系统。

*注:以上内容为从原始推文文章中提取的核心观点和主要内容,保持了原文的论述结构和重要观点。*