一系列用于解决难题的全新推理模型。从 9.12 开始可用
OpenAI 开发了一系列新的 AI 模型,旨在花更多时间思考后再做出反应。它们可以推理复杂的任务,解决比以前的科学、编码和数学模型更难的问题。
09.12,OpenAI 将在 ChatGPT 和我们的 API 中发布该系列中的第一个。这是一个预览版,我们期待定期更新和改进。除了此版本之外,我们还将包含目前正在开发的下一次更新的评估。
以下采用openAI第一人称来介绍o1-preview。
工作原理
我们训练这些模型花更多时间思考问题,然后再做出反应,就像人类一样。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
在我们的测试中,下一个模型更新在物理、化学和生物学的具有挑战性的基准任务上的表现与博士生相似。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克 (IMO) 资格考试中,GPT-4o 仅正确解决了 13% 的问题,而推理模型得分为 83%。他们的编码能力在比赛中得到了评估,并在 Codeforces 比赛中达到了第 89 个百分位。您可以在我们的技术研究文章中阅读更多相关信息。
作为早期模型,它还不具备 ChatGPT 的许多实用功能,例如浏览网页获取信息以及上传文件和图片。对于许多常见情况,GPT-4o 将在短期内变得更加强大。
但对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为 1,并将该系列命名为 OpenAI o1。
安全
在开发这些新模型的过程中,我们提出了一种新的安全训练方法,利用它们的推理能力,使它们遵守安全和协调准则。通过能够在上下文中推理我们的安全规则,它可以更有效地应用它们。
我们衡量安全性的一种方法是测试当用户试图绕过安全规则(称为“越狱”)时,我们的模型如何继续遵循安全规则。在我们最严格的越狱测试之一中,GPT-4o 得分为 22(0-100 分制),而我们的 o1 预览模型得分为 84。您可以在系统卡和我们的研究帖子中阅读更多相关信息。
为了适应这些模型的新功能,我们加强了安全工作、内部管理和联邦政府合作。这包括使用我们的准备框架进行严格的测试和评估(在新窗口中打开)、一流的红队测试和董事会级审查流程,包括我们的安全与安保委员会。
为了推进我们对人工智能安全的承诺,我们最近与美国和英国的人工智能安全研究所正式达成协议。我们已经开始实施这些协议,包括授予这些研究所早期使用该模型研究版本的权限。这是我们合作中重要的第一步,有助于在未来模型公开发布之前和之后建立研究、评估和测试流程。
适合对象
如果您正在解决科学、编码、数学和类似领域的复杂问题,这些增强的推理能力可能特别有用。例如,医疗研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。
OpenAI o1-mini
o1 系列擅长准确生成和调试复杂代码。为了给开发人员提供更高效的解决方案,我们还发布了OpenAI o1-mini,这是一种速度更快、成本更低的推理模型,在编码方面尤其有效。作为一款较小的模型,o1-mini 比 o1-preview 便宜 80%,使其成为一款功能强大、经济高效的模型,适用于需要推理但不需要广泛世界知识的应用程序。
如何使用 OpenAI o1
从今天开始,ChatGPT Plus 和 Team用户将能够在 ChatGPT 中访问 o1 模型。o1-preview 和 o1-mini 都可以在模型选择器中手动选择,在发布时,每周发送消息次数限制为 o1-preview 30 条消息和 o1-mini 50 条消息。我们正在努力提高这些发送次数,并使 ChatGPT 能够根据给定的提示自动选择正确的模型。
ChatGPT Enterprise 和 Edu用户将从下周开始使用这两种模式。
符合API 使用等级 5 的开发人员 (在新窗口中打开)现在可以开始使用 API 中的两种模型进行原型设计,速率限制为 20 RPM。我们正在努力在进行额外测试后提高这些限制。这些模型的 API 目前不包括函数调用、流式传输、对系统消息的支持和其他功能。要开始使用,请查看 API文档(在新窗口中打开)。
我们还计划向所有ChatGPT Free 用户提供 o1-mini 访问权限。
下一步
这是 ChatGPT 和 API 中这些推理模型的早期预览。除了模型更新之外,我们还希望添加浏览、文件和图片上传等功能,让它们对每个人都更有用。
除了新的 OpenAI o1 系列之外,我们还计划继续开发和发布 GPT 系列中的模型。