Claude刚登顶,OpenAI就放出24小时不休息的编程AI,谁才是最强?
公众号: 硅基思维
发布时间: 1970-01-01 08:33:45
原文链接: https://mp.weixin.qq.com/s/s31XsURGnSgpEK_RPnYB5g
2025年,AI领域出现了一个词叫"涌现"。
什么意思呢?就是模型的能力不是线性增长的,而是突然跳跃式地变强。就像
水烧到99度还是水,但到100度就变成蒸汽了。
今年的AI编程领域,就处于这个"沸腾"的状态。
1月DeepSeek-R1把价格打下来,5月Claude 4在SWE-bench封神,9月Claude Sonnet 4.5实现30小时自主编程,11月Claude Opus 4.5拿下80.9%的历史最高分......
每隔几周就有一个新王者,上一个"最强"还没捂热,下一个就来了。
而11月19日,OpenAI放出了自己的大招——GPT-5.1-Codex-Max。
- * *
GPT-5.1-Codex-Max到底是什么?
名字很长,但你可以简单理解为:这是一个专门给程序员干活的AI,而且是那种能连续加班24小时不喊累的AI。
它不是简单的代码补全工具,它是个智能体(Agent)。啥意思呢?就是你给它一个任务,它能自己规划怎么做,自己写代码,自己测试,自己发现问题再改,一条龙服务,中间不需要你管。
听起来有点科幻,但OpenAI说了,在内部测试中,这玩意真的能连续工作超过24小时,持续迭代代码、修复测试失败,最终交付成功结果。
这是怎么做到的?OpenAI用了一个叫"压缩"(Compaction)的技术。
简单解释一下:AI有个"上下文窗口"的限制,你可以理解为AI的"工作记忆",它能同时记住的东西是有限的。以前的AI干活干到一半,记忆满了,就得停下来,或者忘掉前面的内容。
但GPT-5.1-Codex-Max会在快满的时候,自动把不重要的信息压缩掉,给重要的内容腾地方。就像你收拾书桌,把用不着的东西先放抽屉里,留出空间继续干活。
这样一来,它就能在一个任务里连贯处理数百万Token,支持项目级的大规模重构,深度调试会话,以及那种跑好几个小时的复杂任务。
- * *
它到底有多强?
说数据可能没感觉,我给你讲几个具体的能力。
1\. 前沿编程能力
GPT-5.1-Codex-Max是专门为"真实软件工程任务"训练的。不是那种刷题训练,而是针对实际工作场景:创建PR、代码审查、前端开发、写文档、问答等等。
在SWE-bench Verified测试中(这是业界最权威的软件工程能力测试),它拿到了77.9%的成绩。虽然被Claude Opus 4.5的80.9%压了一头,但在OpenAI自己的模型里,这是最强的。
更关键的是,它是第一个支持在Windows环境中运行的模型。以前很多AI编程工具只能在Linux/Mac上跑,Windows用户想用还得折腾半天。现在不用了。
2\. 效率提升30%
这个数据是跟它的前代GPT-5.1-Codex比的。
在同等推理强度下,GPT-5.1-Codex-Max的性能更好,同时使用的"思考Token"减少了30%。
啥叫思考Token?就是AI在给你答案之前,自己内部推理用掉的资源。减少30%意味着两件事:第一,同样的任务,它干得更快了;第二,按Token计费的话,你花的钱更少了。
用更少的钱,干更多的活,还干得更好。这就是进化。
3\. 长时间任务处理
这才是最可怕的能力。
以前的AI编程助手,你给它一个任务,它做完了就结束了。但GPT-5.1-Codex-Max不一样,它能够:
•独立工作数小时甚至超过24小时•持续迭代实现方案•自动修复测试失败•最终交付可用结果
OpenAI内部有个测试叫Terminal-Bench 2.0,专门测这种长时间任务能力。GPT-5.1-Codex-Max的表现是目前最好的。
想象一下这个场景:你周五下班前给AI说,把这个老项目重构一下,用新的架构。然后你就回家了。周一上班,代码重构完了,测试跑通了,PR也帮你创建好了。
这不是科幻,这是现在。
- * *
怎么用起来?
说了这么多,怎么才能用上这个东西?
方法一:通过ChatGPT订阅
GPT-5.1-Codex-Max已经在Codex上线了,支持以下套餐:
•ChatGPT Plus(个人订阅)•ChatGPT Pro(高级订阅)•ChatGPT Business(商业版)•ChatGPT Edu(教育版)•ChatGPT Enterprise(企业版)
如果你已经是订阅用户,直接在Codex界面里就能用了。从11月19日发布之日起,GPT-5.1-Codex-Max已经取代了之前的GPT-5.1-Codex,成为默认模型。
方法二:通过Codex CLI命令行工具
这是给程序员用的方式,更灵活。
首先,确保你的电脑装了Node.js,然后打开终端,运行:
npm i -g @openai/codex
安装完成后,运行codex命令就能启动。第一次运行会让你输入OpenAI的API密钥。
然后你就可以用自然语言跟它交互了。比如:
codex "创建一个简单的HTTP服务器,监听8080端口,返回Hello World"
它会给你生成代码,还能自动执行和测试。
推理强度选择
GPT-5.1-Codex-Max提供了多种推理强度选项:
•中等(Medium):适合日常任务,性能和成本之间取得平衡•超高(Extra High):适合复杂任务,需要更高质量的结果,对延迟不敏感
一般来说,日常开发用中等就够了。遇到特别复杂的架构设计或者大规模重构,再上超高。
- * *
安全性:别让AI把你害了
用这么强的AI,安全是个大问题。OpenAI在这方面做了不少限制。
默认安全沙箱
Codex默认在安全沙箱中运行:
•文件写入仅限于它的工作空间,不会乱动你的系统文件•网络访问默认是禁用的,除非你手动开启
为什么要限制网络?因为如果开启了网络访问,AI可能会去网上搜索信息,这时候就可能被恶意内容"注入"错误指令。这叫"提示注入攻击",是AI安全领域的一个大坑。
人工审查不能省
虽然AI很强,但OpenAI官方也说了:在部署到生产环境之前,务必审查智能体的工作。
Codex会生成终端日志,会引用它调用的工具和测试结果,方便你审查。但审查这一步不能省,毕竟AI再聪明,也可能犯错。
这就像用GPS导航,它帮你规划路线,但你得自己判断这条路能不能走,有没有坑。
- * *
跟其他模型比起来怎么样?
现在市面上编程AI这么多,GPT-5.1-Codex-Max到底处于什么水平?
根据SWE-bench Verified测试的最新数据:
模型
得分
Claude Opus 4.5
80.9%
GPT-5.1-Codex-Max
77.9%
Gemini 3 Pro
76.2%
Claude Haiku 4.5
73.3%
Claude Sonnet 4.5
72.7%
从数据上看,Claude Opus 4.5目前是第一,GPT-5.1-Codex-Max是第二。
但这个排名不代表一切。
不同模型有不同的特点。GPT-5.1-Codex-Max的优势在于:
1.长时间任务处理能力最强:连续干24小时不是吹的2.跨平台支持:Windows用户终于不用折腾了3.Token效率高:同样的任务,花费更少4.与ChatGPT生态深度整合:如果你已经是ChatGPT用户,上手最方便
而Claude的优势在于纯粹的代码生成准确率更高,尤其是复杂推理任务。
Google的Gemini则在图像转代码方面很强,能把设计稿直接变成React组件。
选哪个,取决于你的具体需求。如果你需要长时间自动化任务,GPT-5.1-Codex-Max可能更适合。如果你需要最高的代码准确率,Claude可能更好。
- * *
如果你想现在就用起来,这是我的建议:
1\. 先试免费的
OpenAI的ChatGPT有免费版本,虽然功能受限,但能让你感受一下AI辅助编程是什么样的体验。
2\. 从小任务开始
别一上来就让AI重构整个项目。先从小任务开始:写个函数、生成单元测试、帮你Debug。等熟悉了它的脾气,再上大任务。
3\. 学会写好提示词(Prompt)
同样的任务,不同的提示词,AI给出的结果可能天差地别。多试几次,找到最有效的表达方式。
4\. 一定要审查输出
AI生成的代码不是拿来就能用的。要看懂它写了什么,理解它的逻辑,确认没有问题再部署。把AI当成一个很能干但有时候会犯糊涂的实习生,它的代码你得过一遍。
5\. 保持学习
这个领域变化太快了。今天的最强模型,可能三个月后就被超越了。关注行业动态,保持学习,才能不被落下。
- * *
写这篇文章的时候,我突然想起十年前刚入行时的场景。那时候写代码,要自己一行一行敲,不懂的就上Stack Overflow搜,一个Bug能折腾一整天。
现在呢?AI能帮你写代码,帮你Debug,帮你做Code Review,甚至能帮你连续干24小时完成一个大项目。
这变化,说实话,有点快得让人喘不过气。
但我觉得,这不是坏事。
技术进步从来都是这样,会淘汰一些岗位,但也会创造新的机会。20年前,谁能想到"程序员"会成为高薪职业?10年前,谁能想到"自媒体"能养活那么多人?
AI来了,它会创造什么新机会,我们还不完全知道。但有一点是确定的:那些愿意拥抱变化、敢于尝试的人,总能找到自己的位置。
毕竟,人最大的对手从来都不是AI,而是那个拒绝改变的自己。
全文完,感谢阅读,如果觉得有帮助请三连。
- * *
附:快速上手清单
1.安装Codex CLI:npm i -g @openai/codex2.配置API密钥3.用中等推理强度处理日常任务4.复杂任务用超高推理强度5.长时间任务放心交给它,但记得审查结果6.保持沙箱模式运行,别随便开网络权限
- * *
专注AI领域前沿动态,关注我 👇 把最新的技术变化掰碎了讲给你听
往期文章:
以前找设计公司报价5万,现在用Lovart我直接自己搞定,还能一年无限使用Nano Banana Pro