了解 OpenAI 的 GPT-4o,并了解其发布日期、独特功能、能力、成本和实际用例。
周一,OpenAI 宣布了其最新的大型语言模型GPT-4o,这是 GPT-4 Turbo 的后继者。请继续阅读以了解其功能、性能以及您可能想要如何使用它。
OpenAI 的 GPT-4o 是什么?
GPT-4o 是 OpenAI 的最新法学硕士。GPT-4o 中的“o”代表“omni”(拉丁语中意为“every”),指的是这个新模型可以接受混合了文本、音频、图像和视频的提示。此前,ChatGPT 界面针对不同的内容类型使用单独的模型。
例如,当通过语音模式与 ChatGPT 对话时,你的语音将使用Whisper转换为文本,使用GPT-4 Turbo生成文本响应,然后该文本响应将使用TTS转换为语音。
GPT-4 Turbo 与 GPT-4o 处理语音输入的比较
类似地,处理 ChatGPT 中的图像需要混合使用 GPT-4 Turbo 和DALL-E 3。
为不同的内容媒体采用单一模型可以提高速度和结果质量、简化界面并增加一些新的用例。
GPT-4o 与 GPT-4 Turbo 有何不同?
一体化模型方法意味着 GPT-4o 克服了之前语音交互功能的几个限制。
1. 现在考虑语调,促进情绪反应
在之前的 OpenAI 系统中,Whisper、GPT-4 Turbo 和 TTS 被整合到一个管道中,推理引擎 GPT-4 只能访问口语。这种方法意味着语调、背景噪音和对多个说话者的声音的了解等信息被直接丢弃。因此,GPT-4 Turbo 无法真正表达具有不同情绪或说话风格的回应。
通过使用能够推理文本和音频的单一模型,这些丰富的音频信息可用于提供具有更多种类说话风格的更高质量的响应。
在以下 OpenAI 提供的示例中,GPT-4o 提供了讽刺的输出。
2. 更低的延迟可实现实时对话
现有的三模型管道意味着与 ChatGPT 对话和获得响应之间存在短暂的延迟(“等待时间”)。
OpenAI 分享称,GPT-3.5 的语音模式平均延迟为 2.8 秒,GPT-4 为 5.4 秒。相比之下,GPT-4o 的平均延迟为 0.32 秒,比 GPT-3.5 快 9 倍,比 GPT-4 快 17 倍。
这种减少的延迟接近人类的平均响应时间(0.21 秒),这对于对话用例非常重要,因为在对话用例中,人与人工智能之间有很多来回,并且响应之间的差距会累积起来。
此功能让人想起谷歌在 2010 年推出的 Instant(搜索查询自动完成功能)。虽然搜索不需要很长时间,但每次使用时都能节省几秒钟,从而改善产品体验。
随着 GPT-4o 延迟的降低,一个变得更加可行的用例是实时语音翻译。OpenAI 展示了一个用例,两个同事,一个讲英语,另一个讲西班牙语,通过 GPT-4o 翻译他们的对话进行交流。
3. 集成视觉功能可描述摄像头馈送的信息
除了语音和文本集成之外,GPT-4o 还包含图像和视频功能。这意味着,如果你让它访问计算机屏幕,它可以描述屏幕上显示的内容、回答有关屏幕图像的问题,或充当你工作的副驾驶。
在 OpenAI 发布的一段以可汗学院的萨尔·可汗 (Sal Khan) 为主角的视频中,GPT-4o 协助萨尔的儿子完成数学作业。
除了处理屏幕之外,如果你让 GPT-4o 访问相机(可能是你的智能手机),它就可以描述它所看到的内容。
OpenAI 展示的更长的演示结合了所有这些功能。两部运行 GPT-4o 的智能手机进行了对话。一个 GPT 可以访问智能手机摄像头,并向另一个看不到的 GPT 描述它能看到的内容。
最终,人类与两个人工智能实现了三方对话。视频中还包含人工智能唱歌的部分,这是之前的模型无法实现的。
4. 非罗马字母的标记化效果更好,速度更快,性价比更高
LLM 工作流程中的一个步骤是将提示文本转换为标记。这些是模型可以理解的文本单元。
在英语中,一个 token 通常是一个单词或一个标点符号,尽管有些单词可以分解为多个 token。平均而言,三个英语单词占用大约四个 token。
如果模型中能够用更少的token来表示语言,那么需要进行的计算就更少,生成文本的速度就会加快。
此外,由于 OpenAI 对其 API 按每个代币输入或输出收费,因此代币越少,API 用户的价格就越低。
GPT-4o 改进了标记化模型,从而减少了每篇文本所需的标记数量。这一改进在不使用罗马字母的语言中最为明显。
例如,印度语言尤其受益,印地语、马拉地语、泰米尔语、泰卢固语和古吉拉特语的 token 数量均减少了 2.9 至 4.4 倍。阿拉伯语的 token 数量减少了 2 倍,中文、日语、韩语和越南语等东亚语言的 token 数量减少了 1.4 至 1.7 倍。
5. 推出免费计划
按照 OpenAI 现有的 ChatGPT 定价策略,用户必须付费才能使用最佳模型:GPT-4 Turbo 仅在 Plus 和 Enterprise 付费计划中提供。
这种情况正在改变,OpenAI 承诺也将免费版 GPT-4o 提供。此外,用户收到的消息数量将是免费版用户的五倍。
推出将是渐进的,红队(试图打破模型来查找问题的测试人员)将立即开始访问,并且随着时间的推移,更多用户将获得访问权限。
6. 推出 ChatGPT 桌面应用程序
虽然这不一定是 GPT-4o 独有的更新,但 OpenAI 还宣布发布 ChatGPT 桌面应用程序。上面提到的延迟和多模态方面的更新以及应用程序的发布意味着我们使用 ChatGPT 的方式可能会发生变化。例如,OpenAI 展示了使用语音和 ChatGPT 桌面应用程序的增强编码工作流程的演示。在用例部分向下滚动以查看该示例的实际效果!
GPT-4o 如何工作?
多种内容类型,一个神经网络
GPT-4o 的工作原理细节仍然很少。OpenAI 在其声明中提供的唯一细节是 GPT-4o 是一个针对文本、视觉和音频输入进行训练的单一神经网络。
这种新方法不同于以前针对不同数据类型训练单独模型的技术。
不过,GPT-4o 并不是第一个采用多模态方法的模型。2022 年,腾讯实验室创建了 SkillNet,该模型将 LLM Transformer 特征与计算机视觉技术相结合,以提高识别汉字的能力。
2023 年,苏黎世联邦理工学院、麻省理工学院和斯坦福大学的团队创建了 WhisBERT,这是 BERT 系列大型语言模型的变体。虽然 GPT-4o 不是第一个,但它比这两项早期尝试都更加雄心勃勃、功能更加强大。
GPT-4o 是 GPT-4 Turbo 的根本变化吗?
GPT-4o 架构与 GPT-4 Turbo 相比变化有多大,取决于你问的是 OpenAI 的工程团队还是营销团队。今年 4 月,一个名为“im-also-a-good-gpt2-chatbot”的机器人出现在 LMSYS 的 Chatbot Arena 上,这是最佳生成 AI 的排行榜。现在,这个神秘的 AI 已被揭露为 GPT-4o。
名称中的“gpt2”部分很重要。不要与 GPT-3.5 和 GPT-4 的前身 GPT-2 混淆,“2”后缀被广泛认为意味着 GPT 系列模型的全新架构。
显然,OpenAI 的研究或工程团队中的某个人认为,将文本、视觉和音频内容类型结合到一个模型中是一个足够大的变化,值得六年来首次版本号的提升。
另一方面,营销团队选择了相对温和的命名变化,延续了“GPT-4”的惯例。
GPT-4o 性能与其他模型的比较
OpenAI 发布了 GPT-4o 与其他几款高端模型的基准数据。
- GPT-4 Turbo
- GPT-4(初始版本)
- 克劳德 3 作品
- 双子座专业版 1.5
- 双子座超级 1.0
- 骆驼3 400B
其中,只有三种模型真正具有比较意义。GPT 4 Turbo、Claude 3 Opus和 Gemini Pro 1.5 在过去几个月里一直在争夺LMSYS Chatbot Arena排行榜的头把交椅。
Llama 3 400B 可能是未来的竞争者,但它还没有结束。因此,这里我们只展示这三款型号和 GPT-4o 的结果。
使用了六个基准的结果。
- 大规模多任务语言理解(MMLU)。任务包括初等数学、美国历史、计算机科学、法律等。为了在这项测试中获得高精度,模型必须具备广泛的世界知识和解决问题的能力。
- 研究生水平的 Google 验证问答(GPQA)。由生物学、物理学和化学领域的专家编写的多项选择题。这些问题质量很高,难度极高:拥有或正在攻读相应领域博士学位的专家准确率达到 74%。
- 数学。初中和高中的数学问题。
- HumanEval . 对计算机代码功能正确性的测试,用于检查代码生成。
- 多语言小学数学(MSGM)。小学数学问题,翻译成十种语言,包括孟加拉语和斯瓦希里语等代表性不足的语言。
- 段落离散推理(DROP)。需要理解完整段落的问题。例如,通过添加、计数或排序分散在多个句子中的值。
GPT-4o、GPT-4 Turbo、Gemini Pro 1.5 和 Claude 3 Opus 在六个 LLM 基准测试中的表现。每个基准测试的分数范围从 0 到 100。根据 OpenAI 提供的数据重新创建。没有为 GPQA 基准测试提供 Gemini Pro 1.5 的数据。
GPT-4o 在四项基准测试中均获得最高分,但在 MSGM 基准测试中被 Claude 3 Opus 击败,在 DROP 基准测试中被 GPT-4 Turbo 击败。总体而言,这一表现令人印象深刻,并且为多模式训练的新方法带来了希望。
如果仔细观察 GPT-4o 与 GPT-4 Turbo 的数字对比,你会发现性能提升仅几个百分点。
对于一年后来说,这是一个令人印象深刻的提升,但远不及从 GPT-1 到 GPT-2 或从 GPT-2 到 GPT-3 的性能显著提升。
文本推理能力每年提高 10% 可能成为新常态。唾手可得的成果已经摘尽,文本推理能力要继续取得巨大飞跃就很困难了。
另一方面,这些 LLM 基准测试没有捕捉到 AI 在多模态问题上的表现。这个概念太新了,我们没有任何好的方法来衡量一个模型在文本、音频和视觉方面的表现。
总体而言,GPT-4o 的表现令人印象深刻,它为多模式训练的新方法带来了希望。
GPT-4o 的用例有哪些?
1. GPT-4o 用于数据分析和编码任务
最近的 GPT 模型及其衍生产品(如 GitHub Copilot)已经能够提供代码辅助,包括编写代码以及解释和修复错误。GPT-4o 的多模式功能带来了一些有趣的机会。
在 OpenAI 首席技术官 Mira Murati 主持的宣传视频中,两位 OpenAI 研究人员 Mark Chen 和 Barret Zoph 演示了如何使用 GPT-4o 处理一些 Python 代码。
将代码以文本形式分享给GPT,利用语音交互功能让GPT对代码进行讲解,后期在运行代码之后,再利用GPT-4o的视觉能力对剧情进行讲解。
总的来说,向 ChatGPT 展示你的屏幕并说出问题可能比将图表保存为图像文件、将其上传到 ChatGPT、然后输入问题更简单。
2. GPT-4o 用于实时翻译
准备好带着 GPT-4o 去度假吧。GPT-4o 的低延迟语音功能意味着现在可以实现实时翻译(如果您的手机套餐中有漫游数据!)。这意味着在您不会说当地语言的国家旅行变得更加容易。
3. 与 GPT-4o 进行角色扮演
ChatGPT 已经成为角色扮演场景的有用工具,无论您是在为梦想的数据职业准备面试,还是在培训销售团队更好地销售您的产品。
到目前为止,它最适合纯文本角色扮演,但对于这些用例来说,这并不理想。改进的语音功能意味着口语角色扮演现在是一个可行的选择。
4. GPT-4o 用于协助视障用户
GPT-4o 能够理解来自摄像头的视频输入并口头描述场景,这可能是视障人士必备的功能。它本质上是电视的音频描述功能,但适用于现实生活。
亲身体验 GPT-4o
自发布以来,我就开始使用 GPT-4o 的一些新功能(遗憾的是,目前还没有语音聊天功能),它的许多输出都给我留下了深刻的印象。响应似乎更快、更一致,而且它似乎比以前更能理解我的请求。但这并不是说它是完美的。
以下是我与 ChatGPT-4o 互动的一些示例:
数据分析任务
首先,我使用语音聊天询问它如何分析我支持的足球队——强大的利兹联队的表现。除了提供几个选项外,它还给了我一些示例 Python 代码:
import pandas as pd
# Sample data for Leeds United's match results
data = {
'Match': ['Match1', 'Match2', 'Match3', 'Match4', 'Match5'],
'Result': ['Win', 'Draw', 'Loss', 'Win', 'Win'],
'Goals Scored': [2, 1, 0, 3, 2]
}
# Create a DataFrame
df = pd.DataFrame(data)
# Summarize match results
summary = df['Result'].value_counts()
total_goals = df['Goals Scored'].sum()
average_goals = df['Goals Scored'].mean()
# Display summary
print("Match Results Summary:")
print(summary)
print("\nTotal Goals Scored:", total_goals)
print("Average Goals Per Match:", round(average_goals, 2))
然而,当我更详细地探究这一思路时,事情有点不对劲。我首先要求使用一些真实数据 – 它搜索了网络并找到了两个不错的来源,但它报告的统计数据是错误的。利兹联队在常规赛中打了 46 场比赛,进球数为 81 个,净胜球数为 38 个,而它在回复中列出的比赛场次为 40 场。
然后我让 ChatGPT 将每支球队的进球数可视化:
再次强调,这里的任务只完成了一半。它按照要求创建了一个可视化效果,表面上看起来不错。但实际上,很多数据都是编造的,不准确(球队出现两次、进球不计算在内,以及球队与利兹不在同一级别)。
公平地说,如果我自己提供完整的数据集,我想性能会更好,但我希望它能这样说,而不是自信地编造答案。
图像分析
接下来,我让 GPT-4o 分析我的一株植物的图片。我仍然无法使用集成视觉功能,所以我不得不拍一张照片并询问 ChatGPT 这是什么植物:
虽然不太准确,但这个做法还不错。虽然这是一棵盆景树,但它是 Ilex crenata 而不是 Carmona retusa。不过,这两种植物看起来非常相似,所以很容易犯错,我很欣赏关于如何照顾植物的额外信息。
图像生成
最后,我想测试一下新模型的图像能力。我首先给它看了一张我家乌龟达尔文的照片,然后让它告诉我关于我朋友的事情:
同样,这很接近但并不完美。达尔文陆龟实际上是一只霍斯菲尔德陆龟,而不是赫尔曼陆龟,但它们看起来确实非常相似。然后我让 ChatGPT-4o 拍摄原始图像并以葛饰北斋的风格重新创建它。结果如下:
相当不错的成果,虽然与原图没有太多相似之处,但我想这也就够了。生成这个也花了一点时间。
但总体而言,我对新模型的响应能力以及它对我的要求的理解程度印象深刻。它远非完美无缺,有时仍会产生幻觉,但我迫不及待地想亲自体验改进后的语音和集成视觉。
GPT-4o 的局限性和风险
生成式人工智能的监管仍处于早期阶段;欧盟人工智能法案是迄今为止唯一值得注意的法律框架。这意味着创造人工智能的公司需要自行决定什么是安全的人工智能。
OpenAI 有一个准备框架,用于确定新模型是否适合向公众发布。
该框架测试四个关注领域。
- 网络安全。人工智能能否提高网络犯罪分子的生产力并帮助制造漏洞?
- BCRN。人工智能能否协助专家制造生物、化学、放射或核威胁?
- 说服。人工智能能否创建(具有潜在互动性的)内容来说服人们改变他们的信念?
- 模型自主性。人工智能可以充当代理,与其他软件一起执行操作吗?
每个关注领域被评为低、中、高或严重,并且模型的得分是四个类别中的最高分数。
OpenAI 承诺不会发布引起严重担忧的模型,尽管这是一个相对较低的安全标准:根据其定义,严重担忧对应于会颠覆人类文明的事情。GPT-4o 轻松避开了这种情况,得分为中等担忧。
产出不完美
与所有生成式人工智能一样,模型并不总是按照预期运行。计算机视觉并不完美,因此对图像或视频的解释并不能保证有效。
同样,语音转录也很少能 100% 正确,特别是如果说话者带有浓重的口音或使用了技术词汇。
OpenAI 提供了一些 GPT-4o 未按预期运行的片段视频。
值得注意的是,两种非英语语言之间的翻译是失败的案例之一。其他问题包括语气不合适(傲慢)和说错语言。
音频深度伪造的风险加剧
OpenAI 公告指出,“我们认识到 GPT-4o 的音频模式存在各种新风险。”在很多方面,GPT-4o 可以加速深度伪造诈骗电话的兴起,其中人工智能冒充名人、政客以及人们的朋友和家人。这个问题在得到解决之前只会变得更糟,而 GPT-4o 有能力让深度伪造诈骗电话更加令人信服。
为了降低这种风险,音频输出仅提供部分预设声音。
据推测,具有技术头脑的诈骗者可以使用 GPT-4o 来生成文本输出,然后使用他们自己的文本转语音模型,尽管目前尚不清楚这是否仍然可以获得 GPT-4o 提供的延迟和语音音调优势。
GPT-4o 发布日期
截至 2024 年 7 月 19 日,GPT-4o 的许多功能已逐步推出。许多 Plus 和免费计划的用户都添加了文本和图像功能。这包括通过移动浏览器访问的 ChatGPT。同样,GPT-4o 的文本和视觉功能已经可以通过 API 获得。
GPT-4o 的这些功能在 iOS 和 Android 移动应用程序上广泛可用。不过,我们仍在等待新的语音模式,该模式将更新为使用 GPT-4o,API 将为 GPT-4o 添加音频和视频功能,新模型将在 Mac Desktop 上提供。后者的访问权限也正在逐步推广到 Plus 用户,Windows 桌面应用程序计划于今年晚些时候推出。
以下是 GPT-4o 发布日期的摘要:
- GPT-4o 发布日期:2024 年 5 月 13 日
- GPT-4o 文本和图像功能推出:2024 年 5 月 13 日开始
- GPT-4o 在免费套餐和 Plus 用户中的可用性:从 2024 年 5 月 13 日起
- GPT-4o(文本和视觉)的 API 访问:从 2024 年 5 月 13 日开始
- GPT-4o 将在 Mac 桌面上面向 Plus 用户推出:未来几周(从 2024 年 5 月 13 日开始)
- 带有 GPT-4o 的语音模式新版本处于 alpha 阶段:未来几周/几个月(2024 年 5 月 13 日之后)
- 音频和视频功能的 API 支持:未来几周/几个月(2024 年 5 月 13 日之后)
- GPT-4o mini:2024 年 7 月 18 日
然而,在新语音功能的演示引起争议之后,OpenAI 似乎对发布持谨慎态度。根据他们更新的博客,“在接下来的几周和几个月里,我们将致力于技术基础设施、通过后期训练实现可用性以及发布其他模式所需的安全性。例如,在发布时,音频输出将仅限于一组预设的声音,并将遵守我们现有的安全政策。”
GPT-4o 的价格是多少?
尽管 GPT-4o 比 GPT-4 Turbo 速度更快,视觉能力更强,但它的成本将比其前身便宜 50% 左右。据 OpenAI 网站称,使用该模型的输入成本为每百万代币 5 美元,输出成本为每百万代币 15 美元。
如何在 ChatGPT 的 Web 版本中访问 GPT-4o?
ChatGPT 的用户界面已更改。ChatGPT 中的所有消息都默认使用 GPT-4o,可以使用响应下方的切换按钮将模型更改为 GPT-3.5。
GPT-4o 对未来意味着什么?
关于人工智能的发展方向,目前有两种观点。一种观点认为,人工智能应该变得更加强大,能够完成更广泛的任务。另一种观点认为,人工智能应该以尽可能低的成本更好地解决特定任务。
OpenAI 的使命是创建通用人工智能 (AGI),其商业模式也使其坚定地站在前者阵营。GPT-4o 是朝着更强大的 AI 目标迈出的又一步。
这是 OpenAI 第一代全新模型架构。这意味着该公司在未来几个月内还有很多东西需要学习和优化。
短期内,预计会出现新类型的怪癖和幻觉;长期来看,预计性能会有所提高,包括速度和输出质量。
GPT-4o 的时机很有趣。正如科技巨头们意识到 Siri、Alexa 和 Google Assistant 并不是他们曾经希望的赚钱工具一样,OpenAI 希望让人工智能再次变得善于交谈。在最好的情况下,这将为生成式人工智能带来大量新的用例。至少,你现在可以用你喜欢的任何语言设置计时器。
结论
GPT-4o 代表了生成式人工智能的进一步进步,它将文本、音频和视觉处理整合到一个高效模型中。这项创新有望实现更快的响应速度、更丰富的交互和更广泛的应用,从实时翻译到增强的数据分析和为视障人士提供的更便捷的访问。
尽管 GPT-4o 存在一些初始限制和风险,例如可能被滥用于深度伪造骗局以及需要进一步优化,但它是 OpenAI 实现通用人工智能目标的又一步。随着 GPT-4o 越来越普及,它可能会改变我们与人工智能的互动方式,融入日常和专业任务中。
GPT-4o 凭借更低的成本和增强的功能,有望树立 AI 行业的新标准,为各个领域的用户拓展可能性。
AI 的未来令人兴奋,现在正是开始学习这项技术工作原理的好时机。如果您是该领域的新手,请从我们的AI 基础技能轨迹开始,该轨迹涵盖了 ChatGPT、大型语言模型、生成式 AI 等主题的可操作知识。您还可以在我们的实践课程中了解有关使用 OpenAI API 的更多信息。