Llama 3.1技术报告：Meta推出最强开源大模型

要点：

Meta 致力于开放 AI。阅读马克·扎克伯格的信，详细了解开源为何对开发者、对 Meta 和对世界都有好处。
我们的最新模型将上下文长度扩展到 128K、增加了对八种语言的支持，并包括第一个前沿级开源 AI 模型 Llama 3.1 405B，为所有人带来开放智能。
Llama 3.1 405B 独树一帜，具有无与伦比的灵活性、控制力和最先进的功能，可与最好的闭源模型相媲美。我们的新模型将使社区能够解锁新的工作流程，例如合成数据生成和模型提炼。
我们将继续通过提供更多与模型配合使用的组件（包括参考系统）来将 Llama 打造为一个系统。我们希望为开发人员提供工具，让他们能够创建自己的自定义代理和新型代理行为。我们正在通过新的安全工具（包括 Llama Guard 3 和 Prompt Guard）来支持这一目标，以帮助负责任地构建。我们还发布了对 Llama Stack API 的评论请求，这是一个标准接口，我们希望它能让第三方项目更轻松地利用 Llama 模型。
该生态系统已准备就绪，第一天就有超过 25 个合作伙伴提供服务，包括 AWS、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud 和 Snowflake。
通过 WhatsApp 和meta.ai在美国尝试 Llama 3.1 405B，询问具有挑战性的数学或编码问题。

到目前为止，开源大型语言模型在功能和性能方面大多落后于封闭式模型。现在，我们正迎来一个由开源引领的新时代。我们公开发布了 Meta Llama 3.1 405B，我们认为这是世界上最大、功能最强大的公开基础模型。迄今为止，所有 Llama 版本的总下载量已超过 3 亿次，而这仅仅是个开始。

隆重推出 Llama 3.1

Llama 3.1 405B 是第一个公开可用的模型，在常识、可操纵性、数学、工具使用和多语言翻译等先进功能方面可与顶级 AI 模型相媲美。随着 405B 模型的发布，我们已准备好增强创新能力，为增长和探索提供前所未有的机会。我们相信最新一代的 Llama 将激发新的应用程序和建模范例，包括合成数据生成，以便改进和训练较小的模型，以及模型提炼，这是开源中从未如此大规模实现的功能。

作为最新版本的一部分，我们推出了 8B 和 70B 模型的升级版本。这些模型支持多种语言，上下文长度显著增加，达到 128K，使用最先进的工具，推理能力也更强。这使得我们的最新模型能够支持高级用例，例如长篇文本摘要、多语言对话代理和编码助手。我们还对许可证进行了更改，允许开发人员使用 Llama 模型（包括 405B）的输出来改进其他模型。为了履行我们对开源的承诺，从今天开始，我们将这些模型提供给社区，供其在llama.meta.com和Hugging Face上下载，并可在我们广泛的合作伙伴平台生态系统上立即开发。

模型评估

对于此版本，我们在 150 多个涵盖多种语言的基准数据集上评估了性能。此外，我们还进行了广泛的人工评估，在真实场景中将 Llama 3.1 与竞争模型进行了比较。我们的实验评估表明，我们的旗舰模型在一系列任务中与领先的基础模型相媲美，包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet。此外，我们的小型模型与具有相似数量参数的封闭和开放模型相媲美。

模型架构

作为我们迄今为止最大的模型，在超过 15 万亿个 token 上训练 Llama 3.1 405B 是一项重大挑战。为了能够以这种规模进行训练并在合理的时间内取得成果，我们显著优化了整个训练堆栈，并将模型训练推向超过 16,000 个 H100 GPU，使 405B 成为第一个以这种规模训练的 Llama 模型。

为了解决这个问题，我们做出了设计选择，重点关注保持模型开发过程的可扩展性和简单性。

我们选择了标准的仅解码器的变压器模型架构，并进行了细微的改动，而不是混合专家模型，以最大限度地提高训练稳定性。
我们采用了迭代式后训练程序，每轮都使用监督式微调和直接偏好优化。这使我们能够为每一轮创建最高质量的合成数据，并提高每项功能的性能。

与之前的 Llama 版本相比，我们提高了用于训练前和训练后的数据的数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理流程、开发更严格的质量保证以及训练后数据的过滤方法。

正如语言模型的缩放定律所预期的那样，我们的新旗舰模型比使用相同程序训练的小型模型表现更好。我们还使用 405B 参数模型来提高小型模型的训练后质量。

为了支持 405B 规模模型的大规模生产推理，我们将模型从 16 位 (BF16) 量化为 8 位 (FP8) 数字，有效降低了所需的计算要求并允许模型在单个服务器节点内运行。

指令和聊天微调

借助 Llama 3.1 405B，我们努力提高模型对用户指令的响应能力、质量和详细指令遵循能力，同时确保高水平的安全性。我们面临的最大挑战是支持更多功能、128K 上下文窗口和更大的模型大小。

在后期训练中，我们通过在预训练模型的基础上进行几轮对齐来生成最终的聊天模型。每轮都涉及监督微调 (SFT)、拒绝抽样 (RS) 和直接偏好优化 (DPO)。我们使用合成数据生成来生成绝大多数 SFT 示例，并进行多次迭代以生成涵盖所有功能的越来越高质量的合成数据。此外，我们投资了多种数据处理技术，以将这些合成数据过滤到最高质量。这使我们能够跨功能扩展微调数据量。

我们仔细平衡数据，以生成在所有功能上都具有高质量模型。例如，即使扩展到 128K 上下文，我们的模型在短上下文基准上也能保持质量。同样，即使我们添加了安全缓解措施，我们的模型仍能继续提供最有帮助的答案。

llama系统

Llama 模型始终旨在作为整体系统的一部分，该系统可以协调多个组件，包括调用外部工具。我们的愿景是超越基础模型，让开发人员能够访问更广泛的系统，让他们能够灵活地设计和创建符合他们愿景的定制产品。这种想法始于去年，当时我们首次引入了核心 LLM 之外的组件。

为了持续致力于在模型层之外负责任地开发 AI 并帮助其他人也这样做，我们发布了一个完整的参考系统，其中包括几个示例应用程序，并包括新组件，例如Llama Guard 3（多语言安全模型）和 Prompt Guard（即时注入过滤器）。这些示例应用程序是开源的，社区可以在此基础上进行构建。

Llama System 愿景中的组件实现仍然很分散。这就是为什么我们开始与行业、初创公司和更广泛的社区合作，以帮助更好地定义这些组件的接口。为了支持这一点，我们在 GitHub 上发布了对我们称之为“Llama Stack”的评论请求。Llama Stack 是一组标准化和有主见的接口，用于如何构建规范的工具链组件（微调、合成数据生成）和代理应用程序。我们希望这些接口能够在整个生态系统中得到采用，这将有助于更轻松地实现互操作性。

我们欢迎反馈和改进提案的方法。我们很高兴能够发展围绕 Llama 的生态系统并降低开发人员和平台提供商的门槛。

开放驱动创新

与封闭模型不同，Llama 模型权重可供下载。开发人员可以根据自己的需求和应用完全自定义模型，在新数据集上进行训练，并进行额外的微调。这使更广泛的开发人员社区和世界能够更充分地认识到生成式 AI 的强大功能。开发人员可以完全自定义其应用程序，并在任何环境中运行，包括本地、云端，甚至本地笔记本电脑上 – 所有这些都无需与 Meta 共享数据。

尽管许多人可能认为封闭模型更具成本效益，但根据人工智能分析的测试，Llama 模型的每代币成本是业内最低的。正如马克·扎克伯格所说，开源将确保全世界更多的人能够享受人工智能的好处和机会，权力不会集中在少数人手中，并且该技术可以更均匀、更安全地在整个社会中部署。这就是为什么我们继续采取措施，让开放式人工智能成为行业标准。

我们看到社区利用过去的 Llama 模型构建了令人惊叹的东西，包括使用 Llama 构建并部署在 WhatsApp 和 Messenger 中的AI 学习伙伴、专为医疗领域量身定制的 LLM，旨在帮助指导临床决策，以及巴西的一家医疗保健非营利初创公司，它使医疗保健系统能够更轻松地以数据安全的方式组织和传达患者的住院信息。借助开源的力量，我们迫不及待地想看看他们利用我们的最新模型构建了什么。

使用 Llama 3.1 405B 进行构建

对于普通开发者来说，使用 405B 规模的模型是一项挑战。虽然这是一个非常强大的模型，但我们认识到，使用它需要大量的计算资源和专业知识。我们与社区进行了交流，我们意识到生成式 AI 开发不仅仅是提示模型。我们希望让每个人都能充分利用 405B，包括：

实时和批量推理
监督微调
针对您的特定应用评估您的模型
持续预训练
检索增强生成 (RAG)
函数调用
合成数据生成

这正是 Llama 生态系统可以提供帮助的地方。在第一天，开发人员就可以利用 405B 模型的所有高级功能并立即开始构建。开发人员还可以探索高级工作流程，例如易于使用的合成数据生成、遵循模型提炼的交钥匙指示以及使用 AWS、NVIDIA 和 Databricks 等合作伙伴的解决方案实现无缝 RAG。此外，Groq 针对云部署优化了低延迟推理，而戴尔也针对本地系统实现了类似的优化。

我们与 vLLM、TensorRT 和 PyTorch 等主要社区项目合作，从第一天开始提供支持，以确保社区为生产部署做好准备。

我们希望 405B 的发布也能激发整个社区的创新，使这种规模的模型的推理和微调变得更容易，并推动模型提炼的下一波研究。

立即试用 Llama 3.1 系列模型

我们迫不及待地想看看社区将如何处理这项工作。使用多语言性和增加的上下文长度，可以构建有用的新体验，潜力巨大。借助 Llama Stack 和新的安全工具，我们期待继续负责任地与开源社区共同建设。在发布模型之前，我们会通过多种措施来识别、评估和减轻潜在风险，包括通过红队进行部署前风险发现练习以及安全微调。例如，我们与外部和内部专家进行了广泛的红队测试，以对模型进行压力测试并找到可能使用它们的意外方式。（阅读此博客文章，了解有关我们如何负责任地扩展我们的 Llama 3.1 模型集合的更多信息。）

虽然这是我们迄今为止最大的模型，但我们相信未来仍有许多新的领域值得探索，包括更多设备友好的尺寸、更多模式以及在代理平台层的更多投资。与往常一样，我们期待看到社区将利用这些模型构建的所有令人惊叹的产品和体验。

这项工作得到了整个 AI 社区合作伙伴的支持。我们要感谢并致谢（按字母顺序）：埃森哲、亚马逊网络服务、AMD、Anyscale、CloudFlare、Databricks、戴尔、德勤、Fireworks.ai、谷歌云、Groq、Hugging Face、IBM WatsonX、Infosys、英特尔、Kaggle、微软 Azure、NVIDIA、OctoAI、甲骨文云、普华永道、Replicate、Sarvam AI、Scale.AI、SNCF、Snowflake、Together AI 以及加州大学伯克利分校天空计算实验室开发的 vLLM 项目。

开始使用 Llama 3.1

阅读 Llama 3.1 论文

访问 Llama GitHub 存储库

在 Hugging Face 上下载 Llama 3.1