Codex 变得更快、更可靠,并且在实时协作和独立处理任务方面表现更好,无论您在何处进行开发 – 无论是通过终端、IDE、网络还是手机。
今天,我们发布了 GPT‑5-Codex,这是 GPT‑5 的一个版本,针对 Codex 中的代理编码进行了进一步优化。GPT‑5-Codex 的训练侧重于实际的软件工程工作;它既擅长快速的交互式会话,也能够独立完成冗长复杂的任务。它的代码审查功能可以在产品发布之前发现关键错误。GPT‑5-Codex 可在您使用 Codex 的任何地方使用——它是云任务和代码审查的默认设置,开发者也可以选择通过 Codex CLI 和 IDE 扩展程序将其用于本地任务。
自从我们首次推出Codex CLI以来(在新窗口中打开)4 月份,Codex 网页版于 5 月份上线,Codex 已稳步发展成为更高效的编码协作工具。两周前,我们将 Codex 整合为一个通过 ChatGPT 帐户连接的单一产品体验,使您能够在本地环境和云端之间无缝迁移工作,而不会丢失上下文。现在,Codex 可以在您开发的任何平台运行——终端或 IDE、网页、GitHub,甚至 ChatGPT iOS 应用。Codex 包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 套餐中。
通过这些更新,Codex 更接近我们一直以来的目标——一个了解您的情况、与您一起工作并可靠地为您的团队承担工作的队友。
GPT‑5-Codex
GPT‑5-Codex 是 GPT‑5 的一个版本,针对 Codex 中的代理软件工程进行了进一步优化。它针对复杂的实际工程任务进行了训练,例如从头构建完整项目、添加功能和测试、调试、执行大规模重构以及进行代码审查。它更具可操作性,并且更好地遵循了AGENTS.md (在新窗口中打开)说明,并生成更高质量的代码 – 只需告诉它您需要什么,而无需编写有关样式或代码清洁度的长篇说明。

SWE-bench 已验证:历史上,包括在 GPT-5 发布时,我们报告了 477 个 SWE-bench 已验证任务的结果,因为有些任务无法在我们的基础架构中运行。我们已经解决了这个问题,现在可以报告所有 500 个任务的结果。
代码重构任务:我们的代码重构评估包含来自大型成熟代码库的重构式任务,包括 Python、Go 甚至 OCaml 语言的任务。以下是来自 Gitea 的拉取请求的示例任务。(在新窗口中打开)它改变了 232 个文件和 3,541 行代码,以便将 ctx 变量贯穿到应用程序逻辑中。
GPT‑5-Codex 会根据任务的复杂程度,更动态地调整其思考时间。该模型结合了编码代理的两项基本技能:在交互式会话中与开发者配对,以及在较长的任务上持续、独立地执行。这意味着 Codex 在处理小型、定义明确的请求或与它聊天时会感觉更敏捷,并且在处理大型重构等复杂任务时也能工作更长时间。在测试过程中,我们看到 GPT‑5-Codex 每次独立处理大型复杂任务超过 7 小时,不断迭代实现,修复测试错误,并最终交付成功的实施。
在 OpenAI 员工流量中,我们发现,对于按模型生成的 token 排序的后 10% 的用户轮次(包括隐藏推理和最终输出),GPT-5-Codex 使用的 token 比 GPT-5 少 93.7%。相反,对于前 10% 的用户轮次,GPT-5-Codex 的思考时间更长,在推理、编辑和测试代码以及迭代上花费的时间是 GPT-5 的两倍。

GPT‑5-Codex 经过专门训练,可用于执行代码审查并查找关键缺陷。审查时,它会浏览您的代码库,推理依赖关系,并运行代码和测试以验证正确性。我们评估了热门开源存储库中近期提交的代码审查性能。对于每次提交,经验丰富的软件工程师都会评估审查意见的正确性和重要性。我们发现,GPT‑5-Codex 的意见不太可能出现错误或不重要的情况,从而将更多用户注意力集中在关键问题上。