摘要
OpenAI o1 是 OpenAI 推出的一系列新模型,擅长复杂的推理任务,使用思路链推理在数学、编码和科学等领域超越 GPT-4o。
当我们都在等待GPT-5 的时候,OpenAI 于 2024 年 9 月 12 日发布了OpenAI o1 ,让所有人大吃一惊。
OpenAI将计数器重置为 1,并将其命名为 OpenAI o1,强调与传统GPT 系列相比,其对推理的独特关注。这标志着新的 OpenAI o 系列的开始,类似于我们熟知的 GPT 系列。
初始版本o1-preview已经在数学、编码和解谜等广泛领域的标准基准测试中展示了令人印象深刻的结果。
此外,o1 标志着大型学习模型 (LLM)训练方法的转变,更加重视专用于训练和推理阶段的计算资源。
O1 型号并非旨在在所有情况下取代 GPT-4o。对于需要图像输入、函数调用或持续快速响应时间的应用,GPT-4o 和 GPT-4o mini 型号仍然是最佳选择。
OpenAI o1 的工作原理
与 o1 交互时,你会注意到的第一件事是,与 GPT-4o 相比,它生成响应所需的时间明显更长。这种刻意的停顿反映了模型对推理的重视。O1 在响应之前会花更多时间“思考”,这使其能够处理复杂的任务并解决逻辑、数学、编码和科学方面的更难的问题。
OpenAI o1-preview 正在解决蒙提霍尔问题
强化学习和思路链
O1的卓越推理是通过强化学习和思路链推理的结合实现的。
通过强化学习,模型学会改进其思维过程,探索不同的策略,识别错误,并调整其方法以得出最准确和最合乎逻辑的解决方案。
另一方面,思维链推理是一种将复杂问题分解为更小、更易于管理的部分的技术。这种方法允许人们“先思考再回答”,就像在开始烹饪之前精心规划复杂食谱的步骤一样。
通过明确地阐述其推理过程,o1 可以及早发现潜在错误并增加得出正确解决方案的可能性,就像我们人类在仔细概述我们的思维过程时不太可能犯错误一样。
OpenAI o1 使用思路链推理,这使得它在数学、科学和编码等领域特别有效,因为在这些领域获得正确答案通常需要多个步骤。
计算分配的新范式
OpenAI o1 的一个关键区别在于其对计算资源的战略性重新分配。虽然传统的 LLM 主要侧重于大量预训练数据集,但 o1 将重点转向训练和推理阶段。
这种转变表明,为这些阶段分配更多的计算可以显著提高复杂的推理能力。
来源:OpenAI
上图显示了在应对具有挑战性的 AIME(美国邀请数学考试)时,增加计算资源对 OpenAI 的 o1 模型性能的影响。它包含两个图表,每个图表都绘制了模型的准确性与专用于训练或测试(推理)的计算能力的关系。
两张图都呈现出明显的正相关性:随着计算资源的增加,模型在第一次尝试解决 AIME 问题时的准确率也会提高。值得注意的是,这种关系在测试时间图中更为明显,这表明在解决问题时给予模型更多时间“思考”可以显著提高性能。
这一观察结果强调了 o1 的计算密集型特性,凸显了其对大量计算资源的依赖。然而,两张图中的上升趋势也意味着,通过更多的计算,准确率有可能进一步提高,为未来人工智能推理能力的发展提供了有希望的途径。
OpenAI O1 基准测试:更擅长推理繁重的任务
为了展示 o1 相对于 GPT-4o 增强的推理能力,OpenAI 在各种具有挑战性的数学、编码和科学基准上对该模型进行了评估。
人体检查
人工检查表明,o1 的表现始终优于 GPT-4o。
实线表示 pass@1 准确率,阴影区域表示 64 个样本的多数投票(共识)表现。资料来源:OpenAI
也许最引人注目的观察是 GPT-4o 与 o1(甚至 o-1 预览版)在数学和编码基准上的性能巨大飞跃。
虽然在科学领域的改进并不明显,但值得注意的是,o1-preview 和完全优化的 o1 模型在博士级科学问题上的表现都优于人类专家。这表明 o1 有潜力解决复杂的现实问题,甚至在某些领域超越人类水平的表现。
OpenAI o1 在遗传学领域有潜在的用途。
除了学术基准之外,OpenAI 还寻求人类反馈,以在不同领域一系列具有挑战性的开放式问题上比较 o1-preview 和 GPT-4o。人类训练员会收到来自两个模型的匿名回复,并被要求选择他们喜欢的模型。
来源:OpenAI
结果显示,在数据分析、编码和数学等严重依赖推理的领域,o1-preview 明显受到青睐。然而,GPT-4o 在某些自然语言任务中仍保持优势,这表明 o1-preview 虽然推理能力强大,但可能并不是所有应用的最佳选择。
机器学习基准
从 ML 基准测试的结果来看,o1 在推理方面的进步相当明显。在 MathVista(数学基准)和 MMLU 上,与 GPT-4o 相比,o1 的准确率都有显著提高。
来源:OpenAI
o1 的专门版本,称为 o1-ioi,即使在严格的竞争条件下,也表现出卓越的编码能力,在 2024 年国际信息学奥林匹克竞赛中获得第 49 个百分位的排名。
在模拟竞赛中(见下图),o1-ioi的表现更是飙升,超越了93%的竞争对手。
来源:OpenAI
OpenAI o1 用例
OpenAI o1 的推理能力使其特别适合解决科学、编码和数学中的复杂问题。
科学研究
例如,医疗保健研究人员可以利用 o1 来注释复杂的细胞测序数据,而物理学家可以使用它来生成量子光学研究所需的复杂数学公式。
量子物理学和 OpenAI o1
编码
从建议代码优化和生成测试用例到自动化代码审查和促进知识共享,o1 有可能显著提高开发人员的工作效率并简化工作流程。
此外,o1 的理解和生成代码能力使其用途不仅限于编码。它可以帮助进行项目规划、需求分析和软件架构设计,帮助开发人员制定更有效的解决方案。
尽管 o1 的全部功能仍在开发中,但其目前的功能已经很有前景。随着 OpenAI 不断完善模型,o1 很可能成为开发人员的宝贵工具,促进创新并影响软件开发的未来。
正如基准测试部分所述,o1 模型在编码领域显示出巨大的潜力。
使用 OpenAI o1 进行 HTML 贪吃蛇游戏
数学
o1 的高级推理能力也将为数学领域带来巨大益处。它在 AIME 等基准测试中的出色表现表明,它有望应用于解决复杂方程式、证明定理和探索新的数学概念,让学生和研究人员都从中受益。
使用 OpenAI o1 进行数学运算
推理密集型用例
除了特定领域之外,o1 专注于推理,这使其成为任何需要批判性思维和逻辑推理的任务的宝贵资产。从解决难题和谜语到分析复杂论点和促进明智的决策,o1 可以开辟解决问题的新方法.
使用 OpenAI o1 编写谜题
如何访问 OpenAI o1
如果您有 ChatGPT Plus 或 ChatGPT Team 订阅,则可以在 ChatGPT 界面中直接访问 o1-preview 模型。从页面顶部的模型选择器下拉菜单中 选择o1-preview 。
请记住,预览阶段初始使用有限制,每周访问限制为 30 条消息。
此外,目前ChatGPT中的o1-preview不支持浏览、文件和图片上传等功能。
OpenAI o1 API
虽然 Plus 和 Team 订阅者可以在 ChatGPT 中访问 o1-preview,但需要更大灵活性和集成选项的开发人员和研究人员会发现 OpenAI o1 API 更适合他们的需求。
Beta 版限制
该 API 当前提供对 o1 模型的两种变体的访问:
- o1-preview:这是完整 o1 模型的早期预览,旨在解决需要广泛常识的复杂问题。
- o1-mini:o1 的更快、更具成本效益的版本,非常适合不需要大量常识的编码、数学和科学任务。
o1-preview 和 o1-mini 都可通过聊天完成端点访问,因此很容易将它们合并到现有项目中。该过程涉及在进行 API 调用时 选择所需的模型(例如)。model="o1-preview"
由于 o1 目前处于测试阶段,某些 API 参数和功能尚不受支持。这些包括:
- 形式:目前仅支持文本输入和输出;尚不支持图像处理。
- 消息类型:不支持系统消息;只允许用户和助手消息。
- 流媒体:流媒体功能尚未适用于 o1 型号。
- 工具和函数调用:目前不支持这些高级功能。
- Logprobs:对数概率尚不可用。
- 其他参数:
temperature
、、top_p
和等参数n
固定为1,而presence_penalty
和frequency_penalty
固定为0。 - 助手和批处理 API :o1 模型尚未与助手 API 或批处理 API 集成。
随着 o1 结束测试阶段,OpenAI 计划逐步增加对其中一些参数和功能的支持。多模态和工具使用等更高级的功能预计将包含在 o1 系列的未来版本中。
理解推理标记
o1 模型的一个关键方面是引入了“推理标记”。这些标记代表了模型在分解提示、考虑各种方法并制定响应时的内部思维过程。虽然这些推理标记无法通过 API 看到,但它们确实会占用模型上下文窗口中的空间,并计入总标记数,从而影响计费。
来源:OpenAI
上下文窗口和成本
o1-preview 和 o1-mini 都提供了 128,000 个 token 的上下文窗口。但是,每次完成对生成的输出 token 总数(包括不可见的推理 token 和可见的完成 token)都有最大限制。为了避免意外成本并确保模型有足够的“思考”空间,有效管理上下文窗口并使用参数设置适当的限制至关重要max_completion_tokens
。
提示最佳实践
为了使 o1 模型获得最佳效果,请保持提示简单直接。避免使用诸如少样本提示或明确指示模型“逐步思考”之类的技术,因为这些技术可能会阻碍而不是提高性能。利用分隔符清晰地构造您的输入,并在检索增强生成场景中仅提供最相关的上下文,以防止模型使其响应过于复杂。
什么是 OpenAI o1-mini?
除了成熟的 o1 预览模型外,OpenAI 还发布了更小、更快的版本 o1-mini,旨在为探索 o1 系列功能的开发人员和研究人员提供更易于访问的切入点。
虽然 o1-mini 可能不具备与体型更大的机器人同样深度的常识,但它在需要集中推理能力的任务中表现出色,特别是在编码、数学和科学领域。
其尺寸减小意味着响应时间更快、计算要求更低,这使其成为注重速度和效率的应用的实用选择。
尽管 o1-mini 目前处于测试阶段且存在某些限制,但它让我们看到了 o1 系列的潜力及其对增强 AI 推理能力的关注。随着 OpenAI 继续完善和开发 o1 模型,我们可以期待 o1-mini 与其更大的兄弟一起发展,为广泛的应用提供越来越强大和多功能的工具。
OpenAI o1 的局限性
尽管 OpenAI o1-preview 提供了令人印象深刻的功能,但仍有一些限制需要注意。这些限制可能会影响其在某些情况下的实用性,因此需要注意以下事项。
隐藏的思维链
为了确保未来监控和安全增强的潜力,o1 使用的原始思路推理过程不对用户直接可见。虽然这一决定旨在实现更有效的模型监督,但它确实限制了透明度,并可能影响用户对模型决策过程的理解。
尚未浏览网页
OpenAI o1-preview 无法浏览网页,这意味着它提供的信息可能并非总是最新的。如果您正在寻找实时或当前事件数据,该模型将无法直接检索它。
不支持文件和图像
目前,OpenAI o1-preview 不支持文件或图像上传。这限制了它处理多媒体数据或分析用户直接上传的特定文档的能力。
响应时间更长
最明显的限制之一是该模型需要相对较长的时间来处理复杂的查询。虽然这段额外的时间可以让它产生更周到的响应,但对于期待更快答案的用户来说,这可能会导致延迟。
不适合低延迟应用程序
由于响应时间较慢,OpenAI o1-preview 并不适合需要快速交互的应用程序,例如实时聊天机器人或翻译服务。在这些用例中,延迟可能会导致糟糕的用户体验,因为等待几秒钟才能得到响应会让人感到沮丧。
如果使用不当,可能会带来负面的用户体验
如果模型应用于其优势与任务不匹配的情况,则可能导致负面的用户体验。在需要快速、即时响应的场景中尤其如此,在这种情况下,模型较慢的处理时间可能会成为一种阻碍,而不是一种好处。
OpenAI o1 安全
新款 o1 模型采用安全训练方法,利用其推理能力来实现更好的情境安全性。
一项关键的安全措施是测试模型对“越狱”尝试的抵抗力,即用户试图绕过安全规则。在一项具有挑战性的越狱测试中,GPT-4o 得分为 22 分(满分 100 分),而较新的 o1-preview 模型得分为 84 分,表明取得了显着的进步。
通过严格的测试、内部治理和与联邦政府的合作,安全工作得到了加强。这包括使用准备框架、红队和安全与安保委员会的董事会级审查。
此外,与美国和英国人工智能安全研究所的合作已经正式建立,使他们能够提前获得该模型的研究版本。
然而,以谨慎乐观的态度对待这些早期结果至关重要。
未来:OpenAI O系列
OpenAI o1的推出,不仅标志着一个新模型的诞生,也标志着一个新系列的开始:OpenAI O系列。这标志着OpenAI战略方向的一次刻意转变,强调复杂推理能力是未来AI发展的核心重点。
o1-preview 的早期结果令人印象深刻,尤其是在需要解决复杂问题的基准测试中的强劲表现,表明这个新系列具有巨大的前景。
随着 OpenAI 不断完善和扩展 o 系列模型的功能,我们可以预见未来人工智能将在科学发现、软件开发和其他需要高级认知技能的领域发挥更加积极的作用。
然而,充分发挥 O 系列潜力的道路并非一帆风顺。这些模型的计算密集型特性及其独特的扩展约束要求持续进行研究和开发。
结论
就在我们热切期待 GPT-5 到来的同时,OpenAI 却意外推出了优先考虑复杂推理能力的模型 o1。
o1-preview 在各种基准测试中取得的早期成功证明了其在解决数学、编码和科学研究等领域的挑战性问题的潜力。
尽管o1具有良好的前景,但它仍处于早期阶段,面临着诸多挑战,包括计算密集型特性以及需要对安全性和道德部署进行持续研究。
常见问题解答
OpenAI o1是什么,它与其他模型有何不同?
OpenAI o1 是一种新型人工智能模型,专注于数学、编码和谜题等复杂推理任务。它使用思路链推理来分解问题,与 GPT-4 等旧模型相比,准确性有所提高。
OpenAI o1 模型特别擅长哪些任务?
OpenAI o1 擅长解决数学问题、编码挑战、数据分析和需要多步骤推理的科学任务。
我如何访问 OpenAI o1?
您可以通过ChatGPT访问OpenAI o1,开发人员可以通过OpenAI的API访问。
OpenAI o1 和 o1-mini 有什么区别?
o1-mini 是 o1 的较小版本,更适合较轻的任务,但复杂推理能力较弱。
OpenAI o1 模型未来更新中预计会有哪些功能?
未来的更新可能包括更快的响应时间、网页浏览和文件处理。
使用 OpenAI o1 模型的定价是多少?
o1 模型的定价基于使用情况,取决于具体模型和处理的令牌数量。
- 对于o1-preview,每 100 万输入令牌的成本为 15.00 美元,每 100 万输出令牌的成本为 60.00 美元。
- 对于o1-mini,每 100 万输入代币的成本为 3.00 美元,每 100 万输出代币的成本为 12.00 美元。
- 重要的是要记住,总令牌数包括可见的完成令牌和不可见的推理令牌,它们都会影响总成本。