Menu

隆重推出 OpenAI o1

Image
OpenAI 推出 o1 推理模型预览版:重大突破性推理能力

我们开发了一系列新的人工智能模型,旨在让它们在给出答复之前花**更多的时间思考**。它们可以推理复杂的任务,并解决比以前的科学、编码和数学模型更难的问题。

今天,我们将在 ChatGPT 和我们的 API 中发布该系列的第一个**预览版模型,命名为 OpenAI o1**。这是一个重大进步,代表了人工智能能力的新水平,我们将定期进行更新和改进。

ChatGPT Team 计划 $1 促销折扣图表
一、工作原理与性能突破

我们训练这些模型花**更多时间思考问题**,然后再做出反应,就像人一样。通过训练,它们学会了完善自己的思考过程、尝试不同的策略并认识到自己的错误。

关键性能对比(下一次更新的模型):
  • **科学领域:** 在物理、化学和生物领域具有挑战性的基准任务上的表现与**博士生相似**。
  • **数学(IMO 资格考试):** o1 推理模型的正确率高达 **83%**,而 GPT‑4o 仅为 13%。
  • **编码能力:** 在 Codeforces 竞赛中获得了**第 89 位**。
当前局限性:

作为一个早期模型,它还不具备使 ChatGPT 变得有用的许多功能,如**浏览网络信息、上传文件和图片等**。对于许多常见情况,GPT‑4o 在短期内会有更强的能力。

二、安全性重大提升与合规承诺

我们提出了一种新的安全训练方法,利用 o1 模型的推理能力,使其**遵守安全和一致性准则**。通过在上下文中对我们的安全规则进行推理,它可以更有效地应用这些规则。

“越狱”测试结果(衡量安全合规性):
  • **o1‑preview 模型:** 在最难的越狱测试中得分为 **84 分**(0-100 分)。
  • **GPT‑4o:** 在相同测试中得分为 22 分。
安全工作强化:
  • 加强了安全工作、内部管理和联邦政府合作,包括使用防范准备框架进行严格测试。
  • 已与美国和英国的 AI 安全研究所签订协议,允许这两家机构**提前使用该模型的研究版本**进行研究、评估和测试。
三、适用对象与未来应用

如果您正在处理**科学、编码、数学和类似领域**的复杂问题,这些增强的推理能力可能会特别有用。

应用示例:
  • **医疗保健研究人员:** 使用 o1 为细胞测序数据添加注释。
  • **物理学家:** 使用 o1 生成量子光学所需的复杂数学公式。
  • **开发人员:** 使用 o1 构建和执行多步骤工作流。
下一步探讨

您对 o1 模型在**数学竞赛 (IMO)** 或**编码竞赛 (Codeforces)** 中的表现更感兴趣?我可以查找更多相关的技术研究细节。

限时访问免费文章