预测 OpenAI 人工智能技术的下一步发展将会是什么样子,以及 GPT-5 模型可能会有哪些进步。
ChatGPT 推出并向公众开放已经有一年多了。它最初以理解和生成自然语言的能力令我们所有人震惊。
然而,当前人工智能创新的稳步推进意味着 OpenAI 不能独揽所有风头。从谷歌 Bard 的推出,到其尖端新模型Gemini的发布,再到 Anthropic 等新竞争对手的加入,以及Meta 的 LLaMA推动的强大开源运动,OpenAI 如果想在人工智能领域保持领先地位,就必须迅速采取行动。
今天,当我们站在另一个技术里程碑的起点时,人们对 GPT-5 的期望也与日俱增。这主要受到我们的想象力和科技界的猜测的推动。
本文试图阐明我们对 GPT-5 的期望,借鉴GPT-4等前辈的想法以及人工智能领域主要进步的轨迹。
重要的是考虑到这里讨论的大部分内容都是基于预测,描绘出一幅既令人兴奋又极其不确定的未来图景。
因此,让我们尝试揭示一些有关 GPT-5 尚未实现的真相。
什么是 GPT-5?
生成式预训练 Transformer(GPT)是 OpenAI 开发的一系列大型语言模型 (LLM),对 ML 和 AI 领域都产生了重大影响。
GPT 的核心设计是根据收到的输入来理解和生成类似人类的文本。这些模型是根据大量数据集进行训练的。GPT 模型系列在推广基于 LLM 的应用程序方面发挥了重要作用,为自然语言处理、生成等领域的可能性设定了新的基准。
GPT-5 代表了 GPT 系列的下一个迭代。有些人可能想知道下一个迭代意味着什么。让我们回顾一下迄今为止 GPT 模型的历史:
GPT-1
2018 年,OpenAI 推出了 GPT-1 生成式预训练的概念,使用转换器架构来增强自然语言理解。该模型在其论文《通过生成式预训练提高语言理解》中进行了详细介绍,作为概念验证,并未公开发布。
GPT-2
一年后,OpenAI 发布了 GPT-2,展示了文本生成方面的重大改进。GPT-2 能够生成短文本,这比其前身有了显著的进步。它是公开的,允许机器学习社区进行更广泛的实验。
GPT-3
随着 2020 年GPT-3的发布,OpenAI 大幅扩展了其模型,参数数量比 GPT-2 多 100 倍。这一扩展使 GPT-3 能够生成更长、更连贯的文本,在各种任务中表现出色。ChatGPT 是 GPT-3.5 系列中以对话为中心的迭代,其推出展示了该模型生成类似人类文本的卓越能力,迅速普及并在短短两个月内覆盖了 1 亿用户。
GPT-4
GPT-4 是该系列的最新版本,它进一步完善了前代产品的功能。借助更大的数据集和更多参数,GPT-4 改进了 GPT-3 的自然语言理解和生成能力。它在生成长篇连贯、上下文相关的文本方面表现出了增强的性能,并且在复杂的对话场景中表现出更好的理解能力。
GPT-4 的进步包括对上下文的更细致理解、事实性增强以及减少产生偏见或有害内容。它被广泛采用,从高级对话代理到复杂的内容创建工具,突显了它的多功能性和人工智能驱动的自然语言处理技术的不断发展。
2023 年 11 月,OpenAI 发布了GPT-4 Turbo with Vision,更新了多项功能。随后在 2024 年 5 月,GPT-4o 推出,这是一种多模态模型,速度更快,成本更低。您可以在我们之前关于 GPT-4 的文章中了解有关GPT 系列演变的更多信息。
GPT-5
因此,GPT-5 很可能代表生成预训练 Transformer 的下一个版本。
尽管关于下一次迭代的信息很少,但我们知道 GPT-4 比其前辈有了显着的改进,特别是在逻辑推理能力方面。尽管它仍然不知道 2023 年 4 月以后的事件,但 GPT-4 仍然拥有更广泛的一般知识库和对我们世界的更深入的理解。因此,到目前为止,一切都表明 GPT-5 将遵循相同的趋势并改进当前的 GPT-4 模型。
使用 GPT-4 中的 DALLE-3 创建的图像,提示为“GPT 模型的演变
GPT-5 何时发布?
在 2024 年 1 月 Sam Altman 与比尔·盖茨的讨论中,盖茨确认 GPT-5 的工作已经开始,但未透露发布日期的任何线索。
我们可以参考 GPT-4 的情况,尝试预测 GPT-5 发布后可能发生的情况。尽管 OpeanAI 在 ChatGPT 发布几个月后才发布 GPT-4,但我们知道 GPT-4 的开发周期(包括训练阶段、开发和测试)耗时超过两年。
因此,如果 GPT-5 遵循类似的时间表,它的发布可能会延长到 2025 年底。尽管这次新的发布似乎还很遥远,但这并不一定意味着 OpenAI 不会继续改进 GPT-4。
OpenAI 很可能会继续改进 GPT-4,并且我们可能会看到中间更新 GPT-4.5 的推出,就像我们已经看到 GPT-3.5 一样。
我们可以期待 GPT-5 具有哪些功能?
GPT-5 可能在一两年后发布,对其发展的大部分预测都基于谷歌和开源 AI 计划所塑造的当前趋势。这些发展为我们提供了有关该行业未来方向的宝贵见解。
不过,OpenAI 核心团队已经透露了一些初步线索。在接受盖茨采访时,奥尔特曼强调 OpenAI 的努力将集中在增强推理能力和整合视频处理能力上。
因此,让我们尝试理解这一切,并讨论一下 GPT-5 预期的一些关键增强功能。
参数大小
虽然 GPT-4 的确切参数大小仍处于保密状态,但模型越来越复杂,功能越来越强大,这种趋势正在持续。大多数消息来源表明,参数数量可能约为 1.5 万亿。
图片来自作者。GPT 家族参数数量的演变。
如果这种轨迹继续下去,GPT-5 可能会重新定义当前 LLM 的极限,提供前所未有的规模。
多模态
鉴于现有的 GPT-4 模型已经支持语音和图像功能,视频处理的集成将成为 GPT-5 的自然发展。我们已经看到谷歌开始在其 Gemini 模型中试验此功能,因此竞争迫使 OpenAI 进行创新只是时间问题。
因此,GPT-5 可以改进当前的 GPT-4 多模式功能并添加视频集成等新功能,从而在我们与 AI 互动的方式上产生重大转变,实现更自然、更多样的交流方式。
从聊天机器人到代理
从聊天机器人到完全自主代理的转变是另一个令人兴奋的领域。想象一下,如果你可以将琐碎的任务或工作分配给 GPT 驱动的应用程序。如果 OpenAI 继续整合第三方服务,这实际上可能会成为现实。我们已经看到了自定义 GPT的引入,而且这很可能会继续发展。
这项新功能将允许 GPT-5 无缝连接到各种服务并在现实世界中执行操作,代表用户完成任务,而无需直接人工监督。例如,我们可以要求自主代理根据我们自己的饮食偏好购买杂货。
更高的准确性
随着每次迭代,GPT 模型的准确性不断提高,使其在理解上下文和生成适当响应方面更加可靠。GPT 模型的下一代将意味着其训练数据集的大小和多样性的增加。
目前的GPT-4 模型比其前身 GPT-3 好 40%,因此 GPT-5 有望延续这一趋势,减少错误并增强其交互的保真度。
增加上下文窗口
当前模型的局限性之一是它们在生成响应时可以考虑的上下文窗口的大小。鉴于 GPT-5 可能会使用大量数据进行训练,预计其上下文窗口会扩大,使其能够理解和引用更大范围的文本,从而产生更连贯、更符合上下文的输出。
经济高效地使用 OpenAI API
随着新模型的出现,我们还可以预期使用 OpenAI API 的成本会降低,从而使 GPT-4 和 GPT-3.5 等技术更容易获得。GPT-5 的推出可能意味着 GPT-4 将变得更加易于使用且更便宜。
这种民主化的访问可能会激发一波创新浪潮,使更广泛的开发人员和组织能够将先进的人工智能集成到他们的应用程序中。
一旦它变得更便宜、更容易获得,GPT 模型就可以更熟练地执行编码或研究等复杂任务。如果你还没有尝试过 OpenAI 的 API,我强烈建议你遵循 DataCamp 的OpenAI API 指南来尝试一下。
结论
虽然我们热切地等待有关 GPT-5 的具体细节,但必须记住,我们当前的讨论只是基于历史事实、人工智能总体趋势以及 OpenAI 团队似乎分享的一些小线索的猜测和预测。
历史表明,在中期 GPT-5 到来之前,我们可能会看到增量更新,例如 GPT-4.5。
无论时间线如何,GPT 系列的演变都继续吸引着人们的想象力,预示着未来人工智能的潜力仅受限于我们想象其应用的能力。