OpenAI 发布了 GPT-4o mini,这是功能强大的GPT-4o的更易于使用版本。这款新型号旨在平衡性能与成本效益,满足企业和开发人员希望以更低的价格获得强大的 AI 解决方案的需求。
2024 年,围绕人工智能的叙述似乎正在从更大、更好的模型转向更具成本效益的选择,尤其是对于 B2B 应用而言。从基于云的人工智能转向本地人工智能,使得较小的模型变得更加重要。
到目前为止,自 GPT-3.5 以来,OpenAI 一直缺乏该领域的有力候选人。GPT-4o mini 改变了这一现状,它使强大的 AI 变得易于访问且价格合理,可以集成到每个应用程序和网站中。
在本文中,我们将探讨 GPT-4o mini 的主要功能、它与其他类似 LLM 的比较以及此次发布对 AI 发展的意义。
OpenAI 基础知识
开始使用 OpenAI API 及更多功能!
什么是 GPT-4o Mini?
GPT-4o mini 是通过提炼过程从较大的 GPT-4o 模型衍生而来的。这个过程涉及训练较小的模型来模仿较大、更复杂的模型的行为和性能,从而产生具有成本效益但功能强大的原始版本。
主要特征
- 大上下文窗口:GPT-4o mini 保留了 GPT-4o 的 128k 令牌上下文窗口,使其能够有效处理长文本。这对于需要大量上下文的应用程序(例如分析大型文档或维护对话历史记录)来说是理想的选择。
- 多模态功能:该模型可处理文本和图像输入,未来计划支持视频和音频输入和输出。这种多功能性使其适用于从文本分析到图像识别的各种应用。
- 降低成本:GPT-4o mini 比其前代产品便宜得多。它每百万输入代币的成本为 0.15 美元,每百万输出代币的成本为 0.60 美元,比 GPT-4o 型号便宜得多,后者的价格为每百万输入代币 5.00 美元,每百万输出代币 15.00 美元。与 GPT-3.5 Turbo 相比,GPT-4o mini 便宜了 60% 以上。
- 安全性增强:该模型包含与 GPT-4o 相同的安全特性,并在 API 中首次采用指令层次结构方法。这提高了其对越狱、提示注入和系统提示提取的抵抗力,使其在各种应用中使用更安全。
GPT-4o 迷你竞赛
GPT-4o mini 与Llama 3 8B、Gemini 1.5 Flash 和 Claude Haiku 等模型以及 OpenAI 自己的 GPT-3.5 Turbo 竞争。这些模型提供类似的功能,但通常成本较高或性能指标较低。
- Gemini 1.5 Flash :虽然Gemini 1.5 Flash的输出速度略高,但GPT-4o mini的质量更胜一筹,对于同时需要速度和高精度的应用来说,它是一个更均衡的选择。
- Claude 3 Haiku 和 Llama 3 (8B) :GPT-4o mini 在质量和输出速度方面均优于这些型号,展示了其效率和有效性。
- GPT-3.5 Turbo :GPT-4o mini 在输出速度和整体质量方面优于 GPT-3.5 Turbo,并提供 GPT-3.5 Turbo 所缺乏的视觉功能。
来源:人工分析
GPT-4o Mini 的工作原理:蒸馏机制
GPT-4o mini 通过一种称为模型蒸馏的过程实现了性能和效率的平衡。本质上,这涉及训练一个更小、更精简的模型(“学生”)来模仿更大、更复杂的模型(“老师”)的行为和知识。
在本例中,更大的模型 GPT-4o 已在大量数据上进行了预训练,并且对语言模式、语义甚至推理能力具有深刻的理解。然而,其庞大的规模使其计算成本高昂,不太适合某些应用。
模型蒸馏通过将较大的 GPT-4o 模型的知识和功能转移到较小的 GPT-4o mini 来解决此问题。这通常是通过让较小的模型学习在多样化的输入数据集上预测较大模型的输出来实现的。通过这个过程,GPT-4o mini 有效地从其较大的模型中“提炼”出最重要的知识和技能。
最终,该模型虽然更小、更高效,但保留了原始模型的大部分性能和功能。GPT-4o mini 可以处理复杂的语言任务、理解上下文并生成高质量的响应,同时消耗更少的计算资源。这使其成为广泛应用的实用且经济实惠的解决方案,尤其是在速度和成本效益至关重要的应用中。
GPT-4o 迷你性能
GPT-4o mini 在各种基准测试中都表现出色。我为每个基准测试创建了Claude Artifacts,以解释每个 LLM 基准测试是什么以及它测量什么。
推理任务
对于推理任务,我们对 GPT-4o mini 进行了以下评估:
MMLU(大规模多任务语言理解)是一项基准测试,它使用 57 个不同学科的多项选择题来测试模型,包括 STEM、人文科学和社会科学。这些问题的难度从基础到高级不等。它衡量有多少答案是正确的,有多少答案需要精确匹配。GPT-4o Mini 得分为 82.0%,超过了 Gemini Flash(77.9%)和 Claude Haiku(73.8%)等竞争对手。
GPQA(Google 认证问答基准)是一个难度较高的数据集,其中的问题由专家设计,旨在挑战非专家,同时又便于专家处理。这些问题经过多轮仔细验证,既有难度,也有准确性,以降低污染风险。
DROP(段落离散推理)测试模型从段落中提取相关信息以及执行排序或计数等推理任务的能力。使用自定义 F1 和精确匹配分数来评估性能。
数学和编码能力
MGSM 基准包括 250 道翻译成 10 种语言的小学数学问题,测试多语言推理能力。
启发式数学能力倾向测验 (MATH) 以高中水平的竞赛问题为特色。它评估模型解决以 Latex 和 Asymptote 格式编写的复杂数学问题的能力,重点关注最具挑战性的问题。
HumanEval 基准测试通过评估生成的代码是否通过特定单元测试来衡量代码生成性能。它使用 pass@k 指标来确定编码问题的 k 个解决方案中至少一个通过测试的概率。
多模态推理
大规模多任务语言理解 (MMLU) 基准测试模型的知识广度、自然语言理解的深度和解决问题的能力。它有超过 15,000 个多项选择题,涵盖 57 个主题,从常识到专业领域。MMLU 在少数和零次设置下评估模型,测量各个主题的准确率并取平均值以获得最终分数。
MathVista 基准测试结合了数学和视觉任务,包含 6,141 个示例,这些示例来自 28 个现有多模态数据集和 3 个新创建的数据集(IQTest、FunctionQA 和 PaperQA)。它用需要高级视觉理解和复杂组合推理的任务来挑战模型。
GPT-4o Mini 的用例
GPT-4o mini 体积小、成本低、性能强大,非常适合在个人设备、快速原型设计和资源有限的环境中使用。此外,它的实时响应能力可以改善交互式应用程序。以下是 GPT-4o mini 的有效使用方法:
用例类别 | 好处 | 示例应用程序 |
设备上的 AI | 更小的尺寸允许在笔记本电脑、智能手机和边缘服务器上进行本地处理,从而减少延迟并提高隐私。 | 语言学习应用程序、个人助理、离线翻译工具 |
快速成型 | 更快的迭代和更低的成本使得在扩展到更大的模型之前进行实验和改进成为可能。 | 测试新的聊天机器人想法,开发人工智能原型,以经济高效的方式试验不同的人工智能功能 |
实时应用程序 | 快速的响应时间增强了交互体验。 | 聊天机器人、虚拟助手、实时语言翻译、游戏和虚拟现实中的互动叙事 |
教育用途 | 价格实惠,适合教育机构使用,可提供 AI 实践经验。 | 人工智能辅导系统、语言学习平台、编码练习工具 |
访问 GPT-4o Mini
您可以通过OpenAI API使用 GPT-4o Mini ,其中包括 Assistants API、Chat Completions API 和 Batch API 等选项。以下是有关如何使用 OpenAI API 来使用 GPT-4o Mini 的简单指南。
首先,你需要使用 API 密钥进行身份验证(替换your_api_key_here
为你的实际 API 密钥)。设置完成后,你可以开始使用 GPT-4o Mini 生成文本:
from openai import OpenAI
MODEL="gpt-4o-mini"
## Set the API key
client = OpenAI(api_key="your_api_key_here")
completion = client.chat.completions.create(
model=MODEL,
messages=[
{"role": "system", "content": "You are a helpful assistant that helps me with my math homework!"},
{"role": "user", "content": "Hello! Could you solve 20 x 5?"}
]
)
有关设置和使用 OpenAI API 的更多详细信息,请查看GPT-4o API 教程。
结论
GPT-4o mini 是一款强大且具有成本效益的 AI 模型,在性能和可负担性之间实现了显著的平衡。
它从更大的 GPT-4o 模型中提炼而来,结合其巨大的上下文窗口、多模态功能和增强的安全特性,使其成为广泛应用的多功能且可访问的选项。
随着对高效且经济实惠的 AI 解决方案的需求不断增长,GPT-4o mini 在 AI 技术民主化方面可以发挥重要作用。