摘要
Llama 3.2 提供多模态视觉和轻量级模型,代表 Meta 在大型语言模型 (LLM)方面的最新进展,并在各种用例中提供增强的功能和更广泛的适用性。这些新模型专注于负责任的创新和系统级安全,在广泛的行业基准上展示了最先进的性能,并引入了可帮助您构建新一代 AI 体验的功能。
这些模型旨在通过图像推理启发建设者,并且更适用于边缘应用程序,从而释放 AI 的更多可能性。
Llama 3.2 模型系列提供多种尺寸,从适合边缘设备的轻量级纯文本 1B 和 3B 参数模型,到能够执行复杂推理任务(包括对高分辨率图像的多模态支持)的小型和中型 11B 和 90B 参数模型。Llama 3.2 11B 和 90B 是首批支持视觉任务的 Llama 模型,其新模型架构将图像编码器表示集成到语言模型中。新模型旨在提高 AI 工作负载的效率,降低延迟并提高性能,使其适用于广泛的应用。
所有 Llama 3.2 型号均支持 128K 上下文长度,保留了 Llama 3.1 中引入的扩展令牌容量。此外,这些型号还为八种语言提供了改进的多语言支持,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
除了现有的支持文本的Llama 3.1 8B、70B 和 405B 模型外,Llama 3.2 还支持多模式用例。现在,您可以在 Amazon Bedrock 中使用 Meta 中的四个新 Llama 3.2 模型(90B、11B、3B 和 1B)来构建、试验和扩展您的创意:
Llama 3.2 90B Vision(文本 + 图像输入)
——Meta 最先进的模型,非常适合企业级应用。该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。它还引入了图像推理功能,可以执行图像理解和视觉推理任务。该模型非常适合以下用例:图像字幕、图像文本检索、视觉基础、视觉问答和视觉推理以及文档视觉问答。
Llama 3.2 11B Vision(文本 + 图像输入)
——非常适合内容创建、对话式 AI、语言理解和需要视觉推理的企业应用程序。该模型在文本摘要、情绪分析、代码生成和遵循指令方面表现出色,并增加了对图像进行推理的能力。该模型用例与 90B 版本类似:图像字幕、图像文本检索、视觉基础、视觉问答和视觉推理以及文档视觉问答。
Llama 3.2 3B(文本输入)
——专为需要低延迟推理和有限计算资源的应用程序而设计。它擅长文本摘要、分类和语言翻译任务。该模型非常适合以下用例:移动 AI 驱动的写作助手和客户服务应用程序。
Llama 3.2 1B(文本输入)
——Llama 3.2 模型系列中最轻量级的模型,非常适合边缘设备和移动应用程序的检索和摘要。此模型非常适合以下用例:个人信息管理和多语言知识检索。
此外,Llama 3.2 建立在Llama Stack之上,Llama Stack 是用于构建规范工具链组件和代理应用程序的标准化接口,使构建和部署比以往更加简单。Llama Stack API 适配器和发行版旨在最有效地利用 Llama 模型功能,并使客户能够对不同供应商的 Llama 模型进行基准测试。
多模式功能——对于 11B 和 90B Vision 模型,Llama 3.2 引入了一种新颖的图像理解方法:
- 单独训练的图像推理适配器权重与核心 LLM 权重集成在一起。
- 这些适配器通过交叉注意机制连接到主模型。交叉注意允许模型的一个部分关注另一个组件输出的相关部分,从而实现模型不同部分之间的信息流动。
- 当输入图像时,模型将图像推理过程视为“工具使用”操作,允许在文本处理的同时进行复杂的视觉分析。在这种情况下,工具使用是模型使用外部资源或功能来增强其功能并更有效地完成任务时使用的通用术语。
优化推理– 所有模型都支持分组查询注意 (GQA),这提高了推理速度和效率,对于较大的 90B 模型尤其有益。
这种架构使 Llama 3.2 能够处理广泛的任务,从文本生成和理解到复杂的推理和图像分析,同时保持跨不同模型大小的高性能和适应性。