Menu

Codex 升级介绍

Image
OpenAI 发布 GPT‑5-Codex:下一代 AI 协作编码工具

Codex 变得更快、更可靠,并且在实时协作和独立处理任务方面表现更好,无论您在何处进行开发 – 无论是通过终端、IDE、网络还是手机。

今天,我们发布了 **GPT‑5-Codex**,这是 **GPT‑5** 的一个版本,针对 Codex 中的代理编码进行了进一步优化。GPT‑5-Codex 的训练侧重于实际的软件工程工作;它既擅长快速的交互式会话,也能够独立完成冗长复杂的任务。它的代码审查功能可以在产品发布之前发现关键错误。

GPT‑5-Codex 可在您使用 Codex 的任何地方使用——它是云任务和代码审查的默认设置,开发者也可以选择通过 Codex CLI 和 IDE 扩展程序将其用于本地任务。

一、Codex 的产品演进

自从我们首次推出Codex CLI以来(在新窗口中打开)4 月份,Codex ⁠网页版于 5 月份上线,Codex 已稳步发展成为更高效的编码协作工具。两周前,我们将 Codex 整合为一个通过 ChatGPT 帐户连接的单一产品体验,使您能够在本地环境和云端之间无缝迁移工作,而不会丢失上下文。

现在,Codex 可以在您开发的任何平台运行——终端或 IDE、网页、GitHub,甚至 ChatGPT iOS 应用。Codex 包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 套餐中。

通过这些更新,Codex 更接近我们一直以来的目标——一个了解您的情况、与您一起工作并可靠地为您的团队承担工作的队友。

二、GPT‑5-Codex 的核心能力

GPT‑5-Codex 是 GPT‑5 的一个版本,针对 Codex 中的代理软件工程进行了进一步优化。它针对复杂的实际工程任务进行了训练,例如从头构建完整项目、添加功能和测试、调试、执行大规模重构以及进行代码审查。它更具可操作性,并且更好地遵循了AGENTS.md ⁠(在新窗口中打开)说明,并生成更高质量的代码 – 只需告诉它您需要什么,而无需编写有关样式或代码清洁度的长篇说明。

ChatGPT Team 计划 $1 促销折扣图表
  • **SWE-bench 已验证:** 现已可以报告所有 **500 个** SWE-bench 任务的结果,解决了此前因基础设施问题导致部分任务无法运行的问题。
  • **代码重构任务:** 评估包含来自大型成熟代码库的重构式任务,包括 Python、Go 甚至 OCaml 语言的任务。例如,来自 Gitea 的拉取请求的示例任务(在新窗口中打开)改变了 232 个文件和 3,541 行代码,以便将 ctx 变量贯穿到应用程序逻辑中。
动态思考时间与独立任务处理:

GPT‑5-Codex 会根据任务的复杂程度,更动态地调整其思考时间。该模型结合了编码代理的两项基本技能:在交互式会话中与开发者配对,以及在较长的任务上持续、独立地执行。这意味着 Codex 在处理小型、定义明确的请求或与它聊天时会感觉更敏捷,并且在处理大型重构等复杂任务时也能工作更长时间。

在测试过程中,我们看到 GPT‑5-Codex 每次独立处理大型复杂任务超过 **7 小时**,不断迭代实现,修复测试错误,并最终交付成功的实施。

效率和思考时间分布:
  • 对于按模型生成的 token 排序的**后 10%** 的用户轮次(简单任务),GPT-5-Codex 使用的 token 比 GPT-5 **少 93.7%**。
  • 对于**前 10%** 的用户轮次(复杂任务),GPT-5-Codex 的思考时间更长,在推理、编辑和测试代码以及​​迭代上花费的时间是 GPT-5 的**两倍**。
ChatGPT Team 计划 $1 促销折扣图表
代码审查功能:

GPT‑5-Codex 经过专门训练,可用于执行代码审查并查找关键缺陷。审查时,它会浏览您的代码库,推理依赖关系,并运行代码和测试以验证正确性。我们评估了热门开源存储库中近期提交的代码审查性能。对于每次提交,经验丰富的软件工程师都会评估审查意见的正确性和重要性。我们发现,GPT‑5-Codex 的意见不太可能出现错误或不重要的情况,从而将更多用户注意力集中在关键问题上。

提问

您认为 GPT-5-Codex 这种“动态调整思考时间”的能力,对开发者的日常工作流程会有哪些具体的影响?

限时访问免费文章