o1发布版本
传闻中的“Strawberry”模型已经问世,该公司表示它可以处理更复杂的查询——但价格昂贵。
OpenAI 发布了一款名为 o1 的新模型,这是计划中的一系列“推理”模型中的第一个,这些模型经过训练可以回答更复杂的问题,速度比人类更快。它将与更小、更便宜的 o1-mini 一起发布。是的,如果你对人工智能谣言很感兴趣:这实际上是被大肆宣传的 Strawberry模型。
对于 OpenAI 来说,o1 代表着它朝着类人人工智能的更广泛目标迈出了一步。更实际的是,它在编写代码和解决多步骤问题方面比以前的模型做得更好。但它也比GPT-4o更昂贵、使用速度更慢。OpenAI 称 o1 的这个版本为“预览版”,以强调它还处于起步阶段。
ChatGPT Plus 和 Team 用户从今天开始可以访问 o1-preview 和 o1-mini,而 Enterprise 和 Edu 用户将于下周初获得访问权限。OpenAI 表示,它计划向 ChatGPT 的所有免费用户提供 o1-mini 访问权限,但尚未确定发布日期。 开发人员访问 o1非常昂贵:在 API 中,o1-preview 每 100 万个输入令牌或模型解析的文本块收费 15 美元,每 100 万个输出令牌收费 60 美元。相比之下,GPT-4o 每 100 万个输入令牌收费 5 美元,每 100 万个输出令牌收费 15 美元。
OpenAI 的研究负责人 Jerry Tworek 告诉我,o1 背后的训练与之前的版本有着根本的不同,尽管该公司没有透露具体细节。他说 o1“使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行了训练。”
图片:OpenAI
OpenAI 教会了之前的 GPT 模型模仿其训练数据中的模式。借助 o1,它使用一种称为强化学习的技术训练模型自行解决问题,该技术通过奖励和惩罚来教导系统。然后,它使用“思路链”来处理查询,类似于人类通过逐步解决问题来处理问题的方式。
OpenAI 表示,由于采用了这种新的训练方法,该模型应该会更加准确。“我们注意到这个模型的幻觉减少了,”Tworek 说。但问题仍然存在。“我们不能说我们解决了幻觉问题。”
OpenAI 表示,这个新模型与 GPT-4o 的主要区别在于,它能够比前辈更好地解决编码和数学等复杂问题,同时还能解释其推理。
OpenAI 首席研究官 Bob McGrew 告诉我:“该模型在解决 AP 数学测试方面肯定比我做得更好,而我在大学时辅修了数学。”他说,OpenAI 还用国际数学奥林匹克资格考试对 o1 进行了测试,虽然 GPT-4o 只正确解决了 13% 的问题,但 o1 的得分为 83%。
“我们不能说我们解决了幻觉问题”
在被称为 Codeforces 竞赛的在线编程竞赛中,这个新模型达到了参与者的第 89 个百分位,OpenAI 声称该模型的下一次更新将“在物理、化学和生物学领域具有挑战性的基准任务上表现得与博士生相似”。
与此同时,o1 在很多领域的能力不如 GPT-4o。它在关于世界的事实知识方面表现不佳。它也没有浏览网页或处理文件和图像的能力。不过,该公司认为它代表了一种全新的能力。它被命名为 o1,表示“将计数器重置为 1”。
“说实话,我认为我们传统上在命名方面很糟糕,”麦格鲁说。“所以我希望这是更新、更理智的名字的第一步,可以更好地向世界传达我们正在做的事情。”
我无法亲自演示 o1,但 McGrew 和 Tworek 本周通过视频通话向我展示了它。他们要求它解决这个难题:
“当公主的年龄是王子的两倍,而公主的年龄是他们现在年龄的一半时,公主的年龄将与王子一样大。王子和公主的年龄是多少?请提供该问题的所有答案。”
该模型缓冲了 30 秒,然后给出了正确答案。OpenAI 设计了界面来展示模型思考时的推理步骤。令我印象深刻的不是它展示了自己的工作成果(GPT-4o 可以在提示下做到这一点),而是它似乎有意模仿人类思维。“我很好奇”、“我正在思考”和“好的,让我看看”等短语营造出一种一步一步思考的幻觉。
但这个模型并没有思考,当然也不是人类。那么,为什么要把它设计得看起来像是人类呢?
诸如“我很好奇”,“我正在思考”,“好的,让我看看”等短语创造了一种逐步思考的幻觉。图片:OpenAI
Tworek 表示,OpenAI 并不认为人工智能模型思维等同于人类思维。但他表示,界面旨在展示模型如何花费更多时间处理问题并深入解决问题。“与之前的模型相比,它在某些方面感觉更人性化。”
“我认为你会发现,在很多方面,它都给人一种外星人的感觉,但也有很多方面,它让人感觉非常人性化,”McGrew 说。该模型被赋予了有限的时间来处理查询,因此它可能会说这样的话:“哦,我的时间不多了,让我快点找到答案。”在早期,在它的思维链中,它也可能看起来像是在集思广益,并说这样的话:“我可以做这个或那个,我应该怎么做?”
面向代理构建
大型语言模型并不像 现在这样智能。它们本质上只是根据从大量数据中学习到的模式预测单词序列,从而为您提供答案。以 ChatGPT 为例,它往往会错误地声称“strawberry”这个词只有两个 R,因为它没有正确地分解这个词。值得一提的是,新的 o1 模型确实正确回答了该查询。
据报道,OpenAI 希望以惊人的 1500 亿美元估值筹集更多资金,其发展势头取决于更多的研究突破。该公司正在为 LLM 带来推理能力,因为它看到了未来自主系统或代理能够代表您做出决策并采取行动的前景。
对于人工智能研究人员来说,破解推理是迈向人类智能的重要一步。他们认为,如果一个模型的能力不仅限于模式识别,那么它就可以在医学和工程等领域取得突破。不过,目前,o1 的推理能力相对较慢,不像代理,而且开发人员使用起来成本高昂。
“我们花了好几个月研究推理,因为我们认为这实际上是一个关键的突破,”麦格鲁说。“从根本上说,这是一种新的模型模式,能够解决真正困难的问题,从而达到与人类相似的智能水平。
翻译自:https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawberry-chatgpt