Claude刚登顶，OpenAI就放出24小时不休息的编程AI，谁才是最强？

公众号: 硅基思维

发布时间: 1970-01-01 08:33:45

原文链接: https://mp.weixin.qq.com/s/s31XsURGnSgpEK_RPnYB5g

2025年，AI领域出现了一个词叫"涌现"。

什么意思呢？就是模型的能力不是线性增长的，而是突然跳跃式地变强。就像

水烧到99度还是水，但到100度就变成蒸汽了。

今年的AI编程领域，就处于这个"沸腾"的状态。

1月DeepSeek-R1把价格打下来，5月Claude 4在SWE-bench封神，9月Claude Sonnet 4.5实现30小时自主编程，11月Claude Opus 4.5拿下80.9%的历史最高分......

每隔几周就有一个新王者，上一个"最强"还没捂热，下一个就来了。

而11月19日，OpenAI放出了自己的大招——GPT-5.1-Codex-Max。

GPT-5.1-Codex-Max到底是什么？

名字很长，但你可以简单理解为：这是一个专门给程序员干活的AI，而且是那种能连续加班24小时不喊累的AI。

它不是简单的代码补全工具，它是个智能体（Agent）。啥意思呢？就是你给它一个任务，它能自己规划怎么做，自己写代码，自己测试，自己发现问题再改，一条龙服务，中间不需要你管。

听起来有点科幻，但OpenAI说了，在内部测试中，这玩意真的能连续工作超过24小时，持续迭代代码、修复测试失败，最终交付成功结果。

这是怎么做到的？OpenAI用了一个叫"压缩"（Compaction）的技术。

简单解释一下：AI有个"上下文窗口"的限制，你可以理解为AI的"工作记忆"，它能同时记住的东西是有限的。以前的AI干活干到一半，记忆满了，就得停下来，或者忘掉前面的内容。

但GPT-5.1-Codex-Max会在快满的时候，自动把不重要的信息压缩掉，给重要的内容腾地方。就像你收拾书桌，把用不着的东西先放抽屉里，留出空间继续干活。

这样一来，它就能在一个任务里连贯处理数百万Token，支持项目级的大规模重构，深度调试会话，以及那种跑好几个小时的复杂任务。

它到底有多强？

说数据可能没感觉，我给你讲几个具体的能力。

1\. 前沿编程能力

GPT-5.1-Codex-Max是专门为"真实软件工程任务"训练的。不是那种刷题训练，而是针对实际工作场景：创建PR、代码审查、前端开发、写文档、问答等等。

在SWE-bench Verified测试中（这是业界最权威的软件工程能力测试），它拿到了77.9%的成绩。虽然被Claude Opus 4.5的80.9%压了一头，但在OpenAI自己的模型里，这是最强的。

更关键的是，它是第一个支持在Windows环境中运行的模型。以前很多AI编程工具只能在Linux/Mac上跑，Windows用户想用还得折腾半天。现在不用了。

2\. 效率提升30%

这个数据是跟它的前代GPT-5.1-Codex比的。

在同等推理强度下，GPT-5.1-Codex-Max的性能更好，同时使用的"思考Token"减少了30%。

啥叫思考Token？就是AI在给你答案之前，自己内部推理用掉的资源。减少30%意味着两件事：第一，同样的任务，它干得更快了；第二，按Token计费的话，你花的钱更少了。

用更少的钱，干更多的活，还干得更好。这就是进化。

3\. 长时间任务处理

这才是最可怕的能力。

以前的AI编程助手，你给它一个任务，它做完了就结束了。但GPT-5.1-Codex-Max不一样，它能够：

•独立工作数小时甚至超过24小时•持续迭代实现方案•自动修复测试失败•最终交付可用结果

OpenAI内部有个测试叫Terminal-Bench 2.0，专门测这种长时间任务能力。GPT-5.1-Codex-Max的表现是目前最好的。

想象一下这个场景：你周五下班前给AI说，把这个老项目重构一下，用新的架构。然后你就回家了。周一上班，代码重构完了，测试跑通了，PR也帮你创建好了。

这不是科幻，这是现在。

怎么用起来？

说了这么多，怎么才能用上这个东西？

方法一：通过ChatGPT订阅

GPT-5.1-Codex-Max已经在Codex上线了，支持以下套餐：

•ChatGPT Plus（个人订阅）•ChatGPT Pro（高级订阅）•ChatGPT Business（商业版）•ChatGPT Edu（教育版）•ChatGPT Enterprise（企业版）

如果你已经是订阅用户，直接在Codex界面里就能用了。从11月19日发布之日起，GPT-5.1-Codex-Max已经取代了之前的GPT-5.1-Codex，成为默认模型。

方法二：通过Codex CLI命令行工具

这是给程序员用的方式，更灵活。

首先，确保你的电脑装了Node.js，然后打开终端，运行：

npm i -g @openai/codex

安装完成后，运行codex命令就能启动。第一次运行会让你输入OpenAI的API密钥。

然后你就可以用自然语言跟它交互了。比如：

codex "创建一个简单的HTTP服务器，监听8080端口，返回Hello World"

它会给你生成代码，还能自动执行和测试。

推理强度选择

GPT-5.1-Codex-Max提供了多种推理强度选项：

•中等（Medium）：适合日常任务，性能和成本之间取得平衡•超高（Extra High）：适合复杂任务，需要更高质量的结果，对延迟不敏感

一般来说，日常开发用中等就够了。遇到特别复杂的架构设计或者大规模重构，再上超高。

安全性：别让AI把你害了

用这么强的AI，安全是个大问题。OpenAI在这方面做了不少限制。

默认安全沙箱

Codex默认在安全沙箱中运行：

•文件写入仅限于它的工作空间，不会乱动你的系统文件•网络访问默认是禁用的，除非你手动开启

为什么要限制网络？因为如果开启了网络访问，AI可能会去网上搜索信息，这时候就可能被恶意内容"注入"错误指令。这叫"提示注入攻击"，是AI安全领域的一个大坑。

人工审查不能省

虽然AI很强，但OpenAI官方也说了：在部署到生产环境之前，务必审查智能体的工作。

Codex会生成终端日志，会引用它调用的工具和测试结果，方便你审查。但审查这一步不能省，毕竟AI再聪明，也可能犯错。

这就像用GPS导航，它帮你规划路线，但你得自己判断这条路能不能走，有没有坑。

跟其他模型比起来怎么样？

现在市面上编程AI这么多，GPT-5.1-Codex-Max到底处于什么水平？

根据SWE-bench Verified测试的最新数据：

模型

得分

Claude Opus 4.5

80.9%

GPT-5.1-Codex-Max

77.9%

Gemini 3 Pro

76.2%

Claude Haiku 4.5

73.3%

Claude Sonnet 4.5

72.7%

从数据上看，Claude Opus 4.5目前是第一，GPT-5.1-Codex-Max是第二。

但这个排名不代表一切。

不同模型有不同的特点。GPT-5.1-Codex-Max的优势在于：

1.长时间任务处理能力最强：连续干24小时不是吹的2.跨平台支持：Windows用户终于不用折腾了3.Token效率高：同样的任务，花费更少4.与ChatGPT生态深度整合：如果你已经是ChatGPT用户，上手最方便

而Claude的优势在于纯粹的代码生成准确率更高，尤其是复杂推理任务。

Google的Gemini则在图像转代码方面很强，能把设计稿直接变成React组件。

选哪个，取决于你的具体需求。如果你需要长时间自动化任务，GPT-5.1-Codex-Max可能更适合。如果你需要最高的代码准确率，Claude可能更好。

如果你想现在就用起来，这是我的建议：

1\. 先试免费的

OpenAI的ChatGPT有免费版本，虽然功能受限，但能让你感受一下AI辅助编程是什么样的体验。

2\. 从小任务开始

别一上来就让AI重构整个项目。先从小任务开始：写个函数、生成单元测试、帮你Debug。等熟悉了它的脾气，再上大任务。

3\. 学会写好提示词（Prompt）

同样的任务，不同的提示词，AI给出的结果可能天差地别。多试几次，找到最有效的表达方式。

4\. 一定要审查输出

AI生成的代码不是拿来就能用的。要看懂它写了什么，理解它的逻辑，确认没有问题再部署。把AI当成一个很能干但有时候会犯糊涂的实习生，它的代码你得过一遍。

5\. 保持学习

这个领域变化太快了。今天的最强模型，可能三个月后就被超越了。关注行业动态，保持学习，才能不被落下。

写这篇文章的时候，我突然想起十年前刚入行时的场景。那时候写代码，要自己一行一行敲，不懂的就上Stack Overflow搜，一个Bug能折腾一整天。

现在呢？AI能帮你写代码，帮你Debug，帮你做Code Review，甚至能帮你连续干24小时完成一个大项目。

这变化，说实话，有点快得让人喘不过气。

但我觉得，这不是坏事。

技术进步从来都是这样，会淘汰一些岗位，但也会创造新的机会。20年前，谁能想到"程序员"会成为高薪职业？10年前，谁能想到"自媒体"能养活那么多人？

AI来了，它会创造什么新机会，我们还不完全知道。但有一点是确定的：那些愿意拥抱变化、敢于尝试的人，总能找到自己的位置。

毕竟，人最大的对手从来都不是AI，而是那个拒绝改变的自己。

全文完，感谢阅读，如果觉得有帮助请三连。

附：快速上手清单

1.安装Codex CLI：npm i -g @openai/codex2.配置API密钥3.用中等推理强度处理日常任务4.复杂任务用超高推理强度5.长时间任务放心交给它，但记得审查结果6.保持沙箱模式运行，别随便开网络权限

专注AI领域前沿动态，关注我 👇 把最新的技术变化掰碎了讲给你听

往期文章：

以前找设计公司报价5万，现在用Lovart我直接自己搞定，还能一年无限使用Nano Banana Pro

疯狂动物城合影刷爆朋友圈

用自然语言操控手机：普通人的AI自动化时代真的来了

Claude Opus 4.5 这次的更新，想说点大实话

你大爷永远是你大爷，谷歌放大招：Gemini 3 和 Antigravity，关键还让你免费用

Claude的新技能为我省下了北京的一套一室一厅

不会用 Cursor 的程序员，和十年前不会用电脑的人没区别