“揭秘OpenAI内部细节”：来自前OpenAI员工Codex项目负责人的离职信

作者： 7 月 16, 2025

分钟阅读

文章浏览次数： 607,755

来自前OpenAI员工Codex项目负责人Calvin Owen的一封离职信：“揭秘OpenAI内部细节”

导读：揭秘OpenAI内部细节

我在 OpenAI 的经历与感悟

我于三周前离开了 OpenAI，此前我在公司工作了大约一年，于 2024 年 5 月加入。之所以想分享一些我的思考，是因为外界对 OpenAI 的讨论很多，但真正来自内部、亲身体验过其工作文化的声音却很少。Nabeel Quereshi 曾写过一篇关于 Palantir 的精彩文章《Reflections on Palantir》，探讨了 Palantir 的独特之处。我想趁着记忆犹新，也为 OpenAI 写一篇类似的分享。这里不会有任何商业机密，更多的是我对这个历史长河中，处于一个极其有趣时代的非凡组织的当下状况的一些个人看法。

首先声明：我离职并非因为任何个人恩怨，事实上，我内心非常挣扎。从一个自己事业的创始人转变为一个拥有 3000 名员工组织中的一员，确实很难适应。我现在渴望一个新的开始。

当然，不排除未来我会被其工作的质量吸引而再次回归。很难想象能有什么项目的影响力会超越通用人工智能（AGI），而大型语言模型（LLMs）无疑是这十年最重要的技术创新。我很幸运能亲身见证一些发展，并且参与了 Codex 的发布。

显然，这些看法仅代表我个人，并非公司官方观点。OpenAI 规模庞大，这只是我管中窥豹的一角。

一、真实的 OpenAI 企业文化

关于 OpenAI，首先要知道的是它发展得有多快。我加入时，公司只有一千多人。一年后，已经超过三千人，而我按资历计算，已经属于前 30% 的员工了。公司里几乎所有领导层的工作内容都与两三年前大相径庭。

当然，当公司以如此快的速度扩张时，一切都可能出现问题：公司内部沟通、汇报结构、产品发布流程、人员管理与组织、招聘流程等等。不同团队的文化差异很大：有些团队始终全力冲刺，有些则在“照看”大型项目运行，还有些则以更稳定的节奏前进。OpenAI 并没有单一的工作体验，研究、应用和市场推广 (GTM) 等部门都有着非常不同的时间周期。

OpenAI 一个不同寻常的特点是，所有的一切，我是说所有的一切，都通过 Slack 运行。几乎没有电子邮件。我在那里的整个工作期间，大概只收到了约 10 封邮件。如果你不善于整理信息，你会觉得这非常容易分心。但如果你能好好管理你的频道和通知，它也会变得非常高效。

OpenAI 的工作方式非常自下而上，尤其在研究部门。我刚来的时候，曾问过下一个季度的路线图是什么。得到的答案是：“这个不存在”（尽管现在有了）。好的想法可以来自任何地方，而且通常很难提前判断哪些想法会最有成效。与其说有一个宏大的“总计划”，不如说进展是迭代的，随着新研究的成果而不断发现。

得益于这种自下而上的文化，OpenAI 也非常注重能力和结果。从历史上看，公司的领导者主要根据他们提出好想法并付诸实施的能力来晋升。许多能力极强的领导者，可能并不擅长在全体会议上演讲或进行政治斡旋。在 OpenAI，这些事情的重要性远低于其他公司。最出色的想法往往能脱颖而出。

公司有很强的行动偏好（你可以直接去做）。不同的团队，即使没有直接关联，也经常会不约而同地产生相似的想法。我最初参与的一个内部项目，就与 ChatGPT Connectors 有些类似。在决定正式发布 Codex 之前，内部大概有三到四个不同的原型在同时进行。这些努力通常由少数几个人在未经许可的情况下发起。一旦它们显示出潜力，团队就会迅速围绕它们组建起来。

Codex 项目的负责人 Andrey 曾告诉我，你应该把研究人员看作是他们自己的“迷你高管”。公司强烈鼓励员工去研究自己感兴趣的东西，并看它能带来什么结果。这也引出了一个推论——大多数研究是通过“难题诱惑”研究人员去解决特定问题而完成的。如果某个问题被认为是无聊或“已解决”的，那它很可能就不会有人去研究。

优秀的研究经理作用巨大，但人才却极其稀缺。最出色的研究经理能够将许多不同的研究工作联系起来，并促成更大规模的模型训练。同样，杰出的产品经理也是如此（特别感谢 ae）。

我曾合作过的 ChatGPT 工程经理们（Akshay, Rizzo, Sulman）是我见过最酷的“客户”之一。感觉他们当时已经看透了一切。他们中的大多数人相对放手，但会招聘优秀的人才，并努力确保他们能够取得成功。

OpenAI方向转变非常迅速。这曾是我们在 Segment 公司非常看重的一点——随着新信息的出现，及时调整并做正确的事情，远比仅仅因为制定了计划就坚持原有路线要好得多。值得称道的是，OpenAI 这样规模的公司仍然保持着这种精神——谷歌显然做不到。公司决策迅速，一旦确定方向，就会全力以赴。

公司受到了大量的审视。对我这个来自 B2B 企业背景的人来说，这有点令人震惊。我经常看到媒体报道一些公司内部尚未宣布的消息。我告诉别人我在 OpenAI 工作时，对方通常已经对公司有了先入为主的看法。一些 Twitter 用户甚至运行着自动化机器人，检查是否有新的功能发布。

因此，OpenAI 是一个非常保密的地方。我不能向任何人详细透露我正在做什么。有少数几个 Slack 工作区拥有不同的权限。营收和支出数据更是受到严密保护。

OpenAI 也比你想象的要严肃得多，部分原因在于赌注实在太高了。一方面，目标是构建通用人工智能（AGI）——这意味着有很多事情需要做正确。另一方面，你正在努力构建一个产品，供数亿用户用于从医疗建议到心理治疗的各种用途。再者，公司正在全球最大的竞技场中竞争。我们会密切关注 Meta、谷歌和 Anthropic 的动向——我相信他们也都在做同样的事情。全球主要国家政府都对这个领域抱有浓厚兴趣。

尽管 OpenAI 在媒体上经常被诟病，但我遇到的每个人都在努力做正确的事情。鉴于其以消费者为中心，它是大型实验室中最受瞩目的一个，因此也承受了许多不实指控。

话虽如此，你可能不应该将 OpenAI 视为一个单一的整体。我认为 OpenAI 像洛斯阿拉莫斯实验室那样起步。它最初是一群科学家和技术爱好者，致力于探索科学前沿。这个群体偶然间催生了历史上最具病毒传播力的消费级应用。随后，它的野心膨胀到向政府和企业销售产品。不同任期和不同部门的人因此有着非常不同的目标和观点。你在这里工作的时间越长，可能就越会从“研究实验室”或“为善的非营利组织”的角度来看待事物。

我最欣赏的一点是，公司在分享 AI 惠益方面“言行一致”。最先进的模型并没有被保留给那些签订了年度协议的企业级客户。世界上任何人都可以登录 ChatGPT 并获得答案，即使他们没有登录。有一个 API 可以注册和使用——而且大多数模型（即使是顶尖或专有的）也往往很快就会进入 API 供初创公司使用。你可以想象一个与我们今天所处的截然不同的运营模式。OpenAI 在这方面值得大加赞扬，这仍然是公司核心 DNA 的一部分。

安全问题实际上比你想象的更受重视，如果你读了 Zvi 或 Lesswrong 的大量文章，可能会有不同的看法。有大量人员致力于开发安全系统。鉴于 OpenAI 的性质，我看到更多关注的是实际风险（仇恨言论、滥用、操纵政治偏见、制造生物武器、自残、提示注入），而非理论风险（智能爆炸、权力寻求）。这并不是说没有人研究后者，肯定有人关注理论风险。但从我的角度来看，这不是重点。大多数完成的工作都没有公布，OpenAI 确实应该做更多工作来将其公之于众。

与其他在每次招聘会上都免费赠送纪念品的公司不同，OpenAI很少赠送纪念品（甚至对新员工也是如此）。相反，会有一些“掉落”活动，你可以订购有库存的物品。第一次活动的需求量之大，甚至导致 Shopify 商店崩溃。当时还有一篇内部帖子流传，教大家如何发送正确的 JSON 数据包来规避这个问题。

与 GPU 成本相比，几乎所有其他开销都微不足道。举个例子：作为 Codex 产品一部分构建的一个小众功能，其 GPU 成本开销与我们整个 Segment 基础设施（规模与 ChatGPT 不同，但也有相当一部分互联网流量）相同。

OpenAI 也许是我见过最具惊人抱负的组织。你可能认为拥有全球顶级的消费者应用之一就已经足够了，但他们渴望在数十个领域展开竞争：API 产品、深度研究、硬件、编码智能体、图像生成，以及一些尚未公布的其他领域。这是一个孕育思想并将其付诸实践的沃土。

公司非常关注 Twitter。如果你发布了与 OpenAI 相关并走红的推文，很有可能有人会看到并考虑。我的一个朋友开玩笑说：“这家公司是靠 Twitter 上的‘气氛’运作的。”作为一家面向消费者的公司，也许这并非完全错误。当然，仍有大量关于使用量、用户增长和留存的分析数据——但“气氛”同样重要。

OpenAI 的团队比其他公司更加灵活。在发布 Codex 时，我们需要一些经验丰富的 ChatGPT 工程师的帮助才能赶上发布日期。我们与一些 ChatGPT 的工程经理会面，提出了请求。第二天，就有两位优秀的同事准备好投入并提供帮助。没有“等待季度规划”或“重新分配人手”的情况。事情进展得非常迅速。

领导层非常透明且深度参与。这在 OpenAI 这样的公司可能很明显，但每位高管似乎都非常投入。你会经常看到 gdb、sama、kw、mark、dane 等人在 Slack 上发言。没有缺席的领导者。

二、Codex代码

OpenAI 使用一个巨大的单体代码库，其中大部分是 Python（尽管 Rust 服务越来越多，并且还散布着一些 Golang 服务，用于网络代理等）。这导致代码看起来很奇怪，因为编写 Python 的方式实在太多了。你会遇到既有来自谷歌十年经验的资深工程师为大规模系统设计的库，也有新晋博士随手创建的 Jupyter Notebook。几乎所有东西都围绕 FastAPI 构建 API，并使用 Pydantic 进行数据验证。但并没有强制执行广泛的代码风格指南。

OpenAI 所有业务都运行在 Azure 上。有趣的是，我个人认为只有三项服务是真正值得信赖的：Azure Kubernetes Service、CosmosDB（Azure 的文档存储）和 BlobStore。没有真正的 Dynamo、Spanner、Bigtable、Bigquery Kinesis 或 Aurora 等价物。人们很少会深入思考自动扩缩容单元。IAM（身份和访问管理）的实现往往比 AWS 提供的功能受限得多。而且，公司有很强的内部实现偏好。

就人员而言（至少在工程部门），存在一条非常显著的 Meta → OpenAI 人才输送链。在许多方面，OpenAI resembles 早期的 Meta：一款现象级的消费者应用，正在发展的基础设施，以及追求极快发展速度的愿望。我所见过的从 Meta 和 Instagram 招募来的基础设施人才都非常优秀。

将这些因素结合起来，你会发现很多核心基础设施部分都让人想起 Meta。例如，他们内部重新实现了 TAO。还有一个致力于在边缘整合身份认证的努力。我相信还有许多我不知道的类似项目。

聊天功能根深蒂固。自从 ChatGPT 走红以来，大量代码库都围绕着聊天消息和对话的概念构建。这些基本功能现在已经深深地融入其中，你最好不要轻易忽视它们。我们在 Codex 中确实稍有偏离（更侧重于从 responses API 中获得的经验），但我们借鉴了大量现有成果。

代码优先。没有中央架构或规划委员会，决策通常由计划执行工作的团队做出。结果就是，行动偏好很强，而且代码库中经常有重复的部分。我大概见过六七个用于队列管理或代理循环的库。

有几个领域，由于工程团队快速扩张而缺乏足够的工具，导致了一些问题。sa-server（后端单体服务）有点像个垃圾场。CI (持续集成) 在主分支上经常出现故障，比你想象的要频繁得多。即使并行运行测试用例并考虑一部分依赖项，也可能需要大约 30 分钟才能在 GPU 上运行完成。这些问题并非无法解决，但这很好地提醒我们，这类问题无处不在，而且当你快速扩张时，它们很可能会变得更糟。值得称赞的是，内部团队非常注重改进这方面的问题。

三、我学到的其他东西

大型消费品牌是怎样的。直到我们开始开发 Codex，我才真正理解这一点。一切都以“专业版订阅数”来衡量。即使对于 Codex 这样的产品，我们主要考虑的是个人用户的使用，而非团队。这对我这个主要从事 B2B/企业级产品背景的人来说，有点颠覆认知。你拨动一个开关，流量就会从第一天开始涌入。

大型模型如何训练（从宏观层面看）。训练过程有一个从“实验”到“工程”的连续光谱。大多数想法都始于小规模实验。如果结果看起来很有希望，它们就会被整合到更大的运行中。实验不仅是调整核心算法，也包括调整数据组合和仔细研究结果。在大规模端，进行一次大型运行几乎就像一个巨大的分布式系统工程。你会遇到奇怪的边缘情况和意想不到的问题。你需要自己去调试它们。

如何进行 GPU 计算。在 Codex 发布时，我们必须预测负载容量需求，而这是我第一次真正对 GPU 进行基准测试。关键在于，你应该从所需的延迟要求（总体延迟、令牌数量、首个令牌响应时间）出发，而不是从 GPU 能支持什么进行自下而上的分析。每个新的模型迭代都可能大幅改变负载模式。

如何在一个大型 Python 代码库中工作。 Segment 是微服务和单体服务的结合，主要使用 Golang 和 TypeScript。我们并没有 OpenAI 那样广阔的代码库。我学到了很多关于如何根据贡献开发人员数量来扩展代码库的知识。你必须设置更多的防护措施，例如“默认工作”、“保持主分支清洁”和“难以误用”等。

四、发布 Codex

我在 OpenAI 最后三个月的重要工作是发布 Codex。这无疑是我职业生涯中的一大亮点。

背景是，2024 年 11 月，OpenAI 设定了 2025 年发布一款代码智能体的目标。到 2025 年 2 月，我们已经有了一些内部工具，它们利用模型取得了很好的效果。我们感受到了发布一款针对编码的智能体的压力。显然，模型已经发展到对编码非常有用的程度（看看市场上新出现的“氛围编程”工具的爆炸式增长）。

我提前结束了陪产假，回来帮助参与 Codex 的发布。我回来一周后，两个团队（有点混乱地）合并了，我们开始了疯狂的冲刺。从开始（写下第一行代码）到结束，整个产品只用了七周时间就构建完成了。

Codex 的冲刺可能是我近十年工作中最辛苦的一次。大多数晚上都工作到 11 点或午夜。每天早上 5:30 被新生儿吵醒。早上 7 点又赶去办公室。大多数周末都在工作。我们整个团队都全力以赴，因为每一周都至关重要。这让我想起了在 YC（Y Combinator）创业的日子。

这种速度有多么惊人，再怎么强调也不为过。我从未见过任何组织，无论大小，能在如此短的时间内，将一个想法变成一个功能齐全、免费可用的产品。范围也不小；我们构建了容器运行时，优化了仓库下载，微调了定制模型以处理代码编辑，处理了各种 Git 操作，引入了全新的用户界面，实现了互联网访问，最终得到了一款普遍令人愉悦的产品。

不管你怎么说，OpenAI 仍然保留着那种发布产品的激情。

好消息是，合适的人才能创造奇迹。我们是一个高级团队，大约有 8 名工程师、4 名研究员、2 名设计师、2 名市场推广人员和 1 名产品经理。如果没有这个团队，我想我们会失败。没有人需要太多的指导，但我们需要大量的协调。如果你有机会与 Codex 团队的任何一个人合作，要知道他们每个人都非常出色。

发布前一晚，我们五个人一直工作到凌晨四点，努力部署主单体服务（一项耗时数小时的工作）。然后又回到办公室，参加早上八点的发布会和直播。我们打开了功能标志，开始看到流量涌入。我从未见过一款产品仅仅因为出现在左侧边栏就能获得如此大的即时增长，这就是 ChatGPT 的力量。

在产品形态方面，我们最终确定了一种完全异步的形式。与 Cursor（当时，它现在支持类似模式）或 Claude Code 等工具不同，我们的目标是允许用户启动任务，让智能体在自己的环境中运行。我们的赌注是，在最终阶段，用户应该像对待同事一样对待代码智能体：他们向智能体发送消息，智能体有时间完成工作，然后带着一个 PR 返回。

这有点冒险：我们现在处于一个稍微奇怪的状态，模型很好，但不是很好。它们可以连续工作几分钟，但还不能连续工作几小时。用户对模型能力的信任程度差异很大。而且我们甚至不清楚模型的真正能力是什么。

从长远来看，我确实相信大多数编程将更像 Codex。与此同时，所有产品如何发展将非常有趣。

Codex（也许并不意外）非常擅长在大型代码库中工作，理解如何进行导航。我见过的与其他工具最大的区别是能够同时启动多个任务并比较它们的输出。

我最近看到有公开数据显示，不同大型语言模型（LLM）智能体创建的 PR 数量进行了比较。仅就公开数据而言，Codex 已经生成了 630,000 个 PR。这意味着自发布以来的 53 天里，每位工程师平均产生了约 7.8 万个公开 PR（你可以自己猜测非公开 PR 的倍数）。我一生中似乎从未参与过如此有影响力的项目。

五、临别感言

说实话，我最初对加入 OpenAI 心存疑虑。我不确定牺牲自由、拥有老板、成为一台更大机器中更小螺丝钉的感觉会是怎样。我加入时相当低调，以防它不适合我。

我确实想从这次经历中获得三样东西：