Menu

隆重推出 OpenAI o3 和 o4-mini

Image
OpenAI 发布 o3 和 o4-mini:具备全面工具访问权限的智能推理模型

我们迄今为止最智能、功能最强大的模型,具有**全部工具访问权限**。

今日,我们正式发布 **OpenAI o3** 和 **o4-mini**,这是我们 o 系列模型的最新成员,该系列模型经过训练,能够在回应之前进行**更深入的思考**。我们的推理模型首次能够自主调用并整合 ChatGPT 内的**所有工具**(包括网络搜索、Python 代码分析、视觉推理和图像生成)。

尤为关键的是,这些模型经过训练,能够**判断何时以及如何使用工具**,以恰当的输出格式提供详尽且经过思考的回答,朝着能够**独立代表用户执行任务**的更具自主性的 ChatGPT 迈进了一步。

一、OpenAI o3:全面突破的旗舰推理模型

**OpenAI o3** 是我们功能最为强大的推理模型,在编码、数学、科学、视觉感知等多个领域均实现了突破。它非常适合处理需要多维度分析且答案并非显而易见的复杂问题。

核心性能指标:
  • **基准测试:** 在 Codeforces、SWE-bench(无需构建定制化的特定模型框架)和 MMMU 等基准测试中均取得了新的最优成绩。
  • **视觉任务:** 在分析图像、图表和图形方面表现尤为出色。
  • **错误率:** 在高难度的现实任务中,比 OpenAI o1 的重大错误率**降低了 20%**,尤其在编程、商业/咨询和创意构思等领域表现超群。
  • **专家反馈:** 分析严谨性强,能够生成和批判性评估新假设,特别是在生物学、数学和工程领域。
二、OpenAI o4-mini:快速且高效的优化模型

**OpenAI o4-mini** 是一款更小型但经过优化的模型,旨在实现快速且经济高效的推理。尽管其规模较小、成本较低,但在数学、编码和视觉任务等方面均拥有卓越的性能。

利用工具的效率(以 AIME 2025 为例):
  • **o4-mini (调用 Python):** 取得 **99.5% pass@1** 和 **100% consensus@8** 的成绩。
  • **o3 (调用 Python):** 取得 **98.4% pass@1** 和 **100% consensus@8** 的成绩。
  • **适用场景:** o4-mini 的使用限制远高于 o3,非常适合用于解决需要推理支持的问题,尤其是**高体量、高吞吐量**的场景。
共同的改进点:
  • 在专家评估中,o4-mini 在非 STEM 任务以及数据科学等领域也超越了其前身 o3‑mini。
  • 指令遵循方面表现出色,提供的回答比其前身更有用、更可验证。
  • 能够参考**记忆和过往对话**,使回答更加个性化、更贴合需求。
ChatGPT Team 计划 $1 促销折扣图表
三、持续扩展强化学习与智能工具调用

在开发 OpenAI o3 的过程中,我们观察到大规模强化学习展现出了与 GPT 系列预训练相同的**“计算量增加 = 性能提升”**的趋势。

思考时间与性能:
  • 在训练计算量和推理时推理方面均提高了一个数量级,模型性能会随着**思考时间的增加而持续提高**。
  • 在保持与 OpenAI o1 相同的延迟和成本的情况下,o3 在 ChatGPT 中展现出了更高的性能,并能通过更长时间的思考持续提升。
智能工具调用:

我们通过强化学习训练这两个模型使用工具 — 不仅教它们如何使用工具,还教它们**判断何时使用工具**。它们能够根据期望的结果来部署工具,这使得它们在开放式场景中更加得心应手,特别是在涉及视觉推理和多步骤工作流程的情况下。

下一步探讨

您对 o3 或 o4-mini 在**编码**、**视觉分析**或**学术研究**方面的具体应用案例最感兴趣?

限时访问免费文章