我们迄今为止最智能、功能最强大的模型,具有**全部工具访问权限**。
今日,我们正式发布 **OpenAI o3** 和 **o4-mini**,这是我们 o 系列模型的最新成员,该系列模型经过训练,能够在回应之前进行**更深入的思考**。我们的推理模型首次能够自主调用并整合 ChatGPT 内的**所有工具**(包括网络搜索、Python 代码分析、视觉推理和图像生成)。
尤为关键的是,这些模型经过训练,能够**判断何时以及如何使用工具**,以恰当的输出格式提供详尽且经过思考的回答,朝着能够**独立代表用户执行任务**的更具自主性的 ChatGPT 迈进了一步。
一、OpenAI o3:全面突破的旗舰推理模型
**OpenAI o3** 是我们功能最为强大的推理模型,在编码、数学、科学、视觉感知等多个领域均实现了突破。它非常适合处理需要多维度分析且答案并非显而易见的复杂问题。
核心性能指标:
- **基准测试:** 在 Codeforces、SWE-bench(无需构建定制化的特定模型框架)和 MMMU 等基准测试中均取得了新的最优成绩。
- **视觉任务:** 在分析图像、图表和图形方面表现尤为出色。
- **错误率:** 在高难度的现实任务中,比 OpenAI o1 的重大错误率**降低了 20%**,尤其在编程、商业/咨询和创意构思等领域表现超群。
- **专家反馈:** 分析严谨性强,能够生成和批判性评估新假设,特别是在生物学、数学和工程领域。
二、OpenAI o4-mini:快速且高效的优化模型
**OpenAI o4-mini** 是一款更小型但经过优化的模型,旨在实现快速且经济高效的推理。尽管其规模较小、成本较低,但在数学、编码和视觉任务等方面均拥有卓越的性能。
利用工具的效率(以 AIME 2025 为例):
- **o4-mini (调用 Python):** 取得 **99.5% pass@1** 和 **100% consensus@8** 的成绩。
- **o3 (调用 Python):** 取得 **98.4% pass@1** 和 **100% consensus@8** 的成绩。
- **适用场景:** o4-mini 的使用限制远高于 o3,非常适合用于解决需要推理支持的问题,尤其是**高体量、高吞吐量**的场景。
共同的改进点:
- 在专家评估中,o4-mini 在非 STEM 任务以及数据科学等领域也超越了其前身 o3‑mini。
- 指令遵循方面表现出色,提供的回答比其前身更有用、更可验证。
- 能够参考**记忆和过往对话**,使回答更加个性化、更贴合需求。

三、持续扩展强化学习与智能工具调用
在开发 OpenAI o3 的过程中,我们观察到大规模强化学习展现出了与 GPT 系列预训练相同的**“计算量增加 = 性能提升”**的趋势。
思考时间与性能:
- 在训练计算量和推理时推理方面均提高了一个数量级,模型性能会随着**思考时间的增加而持续提高**。
- 在保持与 OpenAI o1 相同的延迟和成本的情况下,o3 在 ChatGPT 中展现出了更高的性能,并能通过更长时间的思考持续提升。
智能工具调用:
我们通过强化学习训练这两个模型使用工具 — 不仅教它们如何使用工具,还教它们**判断何时使用工具**。它们能够根据期望的结果来部署工具,这使得它们在开放式场景中更加得心应手,特别是在涉及视觉推理和多步骤工作流程的情况下。
下一步探讨
您对 o3 或 o4-mini 在**编码**、**视觉分析**或**学术研究**方面的具体应用案例最感兴趣?
















