OpenAI 宣布发布其最新的大型语言模型 GPT-4。该模型是一个大型多模态模型,可以接受图像和文本输入并生成文本输出。
GPT-4 的发布是人工智能领域,特别是自然语言处理领域的一个重要里程碑。在本文中,我们对其高级功能进行了全面分析,并深入探讨了生成式预训练 Transformer (GPT) 的历史和发展,以及 GPT-4 解锁的新功能。
什么是生成预训练 Transformer?
生成式预训练 Transformers (GPT) 是一种用于生成类似人类文本的深度学习模型。常见用途包括
- 回答问题
- 总结文本
- 将文本翻译成其他语言
- 生成代码
- 生成博客文章、故事、对话和其他内容类型。
GPT 模型的应用无穷无尽,您甚至可以针对特定数据对其进行微调,以创建更好的结果。通过使用 transformer,您将节省计算、时间和其他资源的成本。
GPT 之前
当前自然语言 AI 革命只有在 Transformer 模型发明后才有可能,首先是 2017 年谷歌的BERT。在此之前,文本生成是使用其他深度学习模型进行的,例如递归神经网络 ( RNN ) 和长短期记忆神经网络 ( LSTM )。这些模型在输出单个单词或短语方面表现良好,但无法生成逼真的较长内容。
BERT 的 Transformer 方法是一项重大突破,因为它不是一种监督学习技术。也就是说,它不需要昂贵的注释数据集来训练它。谷歌使用 BERT 来解释自然语言搜索,但它无法根据提示生成文本。
GPT-1
Transformer 架构 | GPT-1 论文
2018 年,OpenAI 发表了一篇论文(通过生成式预训练提高语言理解能力),介绍了如何使用他们的 GPT-1 语言模型进行自然语言理解。该模型是一个概念验证,并未公开发布。
GPT-2
各种任务上的模型表现 | GPT-2 论文
次年,OpenAI 发表了另一篇关于其最新模型 GPT-2 的论文(语言模型是无监督的多任务学习器)。这一次,该模型向机器学习社区开放,并在文本生成任务中得到了一些采用。GPT-2 通常可以在崩溃之前生成几个句子。这是 2019 年最先进的模型。
GPT-3
三个开放域 QA 任务的结果 | GPT-3 论文
2020 年,OpenAI 发表了另一篇关于其 GPT-3 模型的论文(语言模型是小样本学习器)。该模型的参数比 GPT-2 多 100 倍,并在更大的文本数据集上进行训练,从而提高了模型性能。该模型通过各种迭代不断改进,被称为 GPT-3.5 系列,包括以对话为中心的 ChatGPT。
这个版本以其生成类似人类的文本页面的能力震惊了世界,并风靡全球。ChatGPT 成为有史以来增长最快的网络应用程序,仅两个月就拥有 1 亿用户。
您可以在单独的文章中了解有关 GPT-3、其用途以及如何使用它的更多信息。
ChatGPT 课程简介
开始使用 ChatGPT
什么是 GPT-4?
GPT-4 的开发是为了改善模型的“一致性”,即能够遵循用户意图,同时使其更加真实并产生更少攻击性或危险的输出。
要了解最新型号,您可以查看我们的GPT-4 Turbo指南和GPT-4o文章以了解更多详细信息。
GPT-4 性能改进
正如您所预料的,GPT-4 在答案的事实正确性方面比 GPT-3.5 模型有所改进。模型出现事实或推理错误的“幻觉”数量较少,在OpenAI 的内部事实性能基准测试中,GPT-4 的得分比 GPT-3.5 高出 40%。
它还提高了“可操纵性”,即根据用户请求改变其行为的能力。例如,您可以命令它以不同的风格、语气或声音书写。尝试以“您是一位健谈的数据专家”或“您是一位简洁的数据专家”作为提示开头,并让它向您解释数据科学概念。您可以在此处阅读有关为 GPT 模型设计出色提示的更多信息。
另一个改进是模型对护栏的遵守。如果你要求它做一些非法或令人不快的事情,它更善于拒绝这个要求。
在 GPT-4 中使用视觉输入
一个重大变化是 GPT-4 可以使用图像输入(仅限研究预览;尚未向公众开放)和文本。用户可以通过输入穿插的文本和图像来指定任何视觉或语言任务。
展示的示例突出了 GPT-4 正确解释复杂图像(例如图表、模因和学术论文中的屏幕截图)的能力。
截至 2024 年 6 月,GPT-4 的图像输入功能已向更广泛的用户群体开放。例如,我要求 GPT-4o 分析我的一株植物的图片。虽然我仍然无法使用 GPT-4o 中的集成视觉功能,但我必须拍一张照片并询问 ChatGPT 这是什么植物:
虽然不太准确,但这个做法还不错。虽然这是一棵盆景树,但它是 Ilex crenata 而不是 Carmona retusa。不过,这两种植物看起来非常相似,所以很容易犯错,我很欣赏关于如何照顾植物的额外信息。
下面,我们还可以从一个图表中看到一个视觉推理的例子:
GPT-4 性能基准
OpenAI 通过模拟为人类设计的考试(例如律师资格考试和 LSAT 以及大学入学考试 SAT)对 GPT-4 进行了评估。结果表明,GPT-4 在各种专业和学术基准上都达到了人类水平。
OpenAI 还根据为机器学习模型设计的传统基准对 GPT-4 进行了评估,结果显示其表现优于现有的大型语言模型和大多数可能包含基准特定设计或额外训练协议的先进模型。这些基准包括 57 个科目的多项选择题、围绕日常事件的常识推理、小学多项选择科学题等。
OpenAI 使用 Azure Translate 将 MMLU 基准(一套涵盖 57 个主题的 14,000 个多项选择题)翻译成各种语言,从而测试了 GPT-4 在其他语言中的能力。在测试的 26 种语言中,有 24 种语言中,GPT-4 的表现优于 GPT-3.5 和其他大型语言模型的英语表现。
最近的测试表明,GPT-4 在多语言能力方面继续保持领先地位,特别是在代表性不足的语言方面,在最新模型测试的 30 种语言中,有 28 种表现出色。
总体而言,GPT-4 更为扎实的成果表明 OpenAI 在开发具有日益先进功能的 AI 模型方面取得了重大进展。
如何获取 GPT-4 及其变体
想要充分利用 GPT-4、GPT-4 Turbo、GPT-4o 和 GPT-4o mini 的强大功能吗?具体方法如下:
使用 ChatGPT
- 免费套餐:
- 默认访问 GPT-4o,消息上限有限。
- 还提供数据分析和视觉功能等高级工具。
- ChatGPT Plus 和团队:
- 订阅 Plus 或加入团队以获得更大的使用上限。
- 在 GPT-4o 上每 3 小时最多发送 80 条消息,在 GPT-4 上每 3 小时最多发送 40 条消息。
- ChatGPT 企业版:
- 专为具有无限制访问 GPT-4o 和 GPT-4 的大型组织而设计。
- 包括企业级安全和高级工具等额外功能。
使用 OpenAI API
- API 访问:
- 注册一个 OpenAI API 账户。
- 支付 5 美元即可访问 GPT-4 和 GPT-4 Turbo。
- GPT-4o 和 GPT-4o mini 可供所有 API 用户使用。
- 定价和限制:
- GPT-4o 比 GPT-4 Turbo 更便宜、更快。
- 查看 OpenAI 的 API 定价页面了解详情。
- 数据处理:
- 您的数据是安全的,除非您选择加入,否则不会用于培训。
模型功能:所有模型都支持文本、图像和音频输入/输出。
OpenAI 已经开源了 OpenAI Evals,这是一个自动评估人工智能模型性能的框架,允许任何人报告其模型中的缺点并指导进一步改进。
常见问题解答
什么是 GPT-4?
GPT-4 是生成式预训练 Transformer 的最新版本,这是一种用于自然语言处理和文本生成的深度学习模型。它标志着人工智能领域,特别是自然语言处理领域的一个重要里程碑。
GPT 模型具有哪些功能?
GPT 模型可以生成类似人类的文本、回答问题、总结文本、将文本翻译成其他语言、生成代码以及生成博客文章、故事和对话等各种类型的内容。
GPT 模型的历史是什么?
GPT 模型的出现得益于 Transformer 模型的发明,首先是 2017 年谷歌的 BERT。在此之前,文本生成是使用其他深度学习模型进行的,例如递归神经网络 (RNN) 和长短期记忆神经网络 (LSTM)。
GPT-4 比以前的模型有何改进?
GPT-4 改进了模型的“对齐”能力,即能够遵循用户意图,同时使其更加真实,并产生更少的冒犯性或危险性输出。它还提高了事实正确性和“可操纵性”,即根据用户请求改变其行为的能力。此外,除了文本之外,GPT-4 还可以使用图像输入。
GPT-4 在基准测试中的表现如何?
GPT-4 在各种专业和学术基准上都达到了人类水平,包括律师资格考试和 LSAT,以及大学入学考试 SAT。在传统机器学习基准上,它的表现也优于现有的大型语言模型和大多数最先进的模型。