• Privacy & Policy
  • Contact
2025-06-14 07:16:09
  • Login
  • Register
欢迎来到ClaudeAI博客社区
  • Home
  • AI教程
    • 大模型应用实践课程
      • 大型语言模型课程介绍
      • 第1-1章:使用 OpenAI 创建您的第一个聊天机器人-大模型应用实践教程
      • 第1-2章:使用 OpenAI 创建简单的自然语言到 SQL-大模型应用实践教程
    • Claude应用开发教程
      • 第1章:基本提示结构-Claude应用开发教程
      • 第 2 章:基本函数构建-Claude开发应用教程
      • 第3章:角色扮演提示-Claude应用开发教程
      • 第4章 分离数据和指令-Claude开发应用教程
      • 第 5 章:格式化输出-Claude应用开发教程
      • 第6章:预知(Thinking Step by Step)-Claude应用开发教程
    • Claude提示词教程
      • 第 1 课:基本提​​示词技术-Claude提示词工程课程
      • 第 2 课:医疗病例摘要助手[XML-JSON格式化输出]-Claude提示词工程教程
      • 第 3 课:提示工程迭代流程-Claude提示词工程课程
      • 第 4 课:客服聊天记录总结生成器-Claude提示词课程
    • Claude函数/工具调用教程
      • 第3章:使用工具调用强制 JSON结构输出[以提取维基百科页面文章为例]-Claude工具调用教程
      • 第2章:ClaudeAPI如何构建工具并调用[以计算器工具调用为例]-Claude工具调用教程
      • 第1章:工具使用/函数调用介绍和概述-Claude函数工具调用教程
    • ClaudeAPI基础入门教程
      • 第2章:构建简单的多轮聊天机器人-ClaudeAPI基础入门教程
      • 第1章:Claude SDK安装和使用-CLaudeAPI基础入门教程
      • Claude API基础知识课程简介
  • AI大模型
    • chatgpt
      • OpenAI o1-preview 简介和如何使用
      • 如何设置使用新的 ChatGPT o1 模型
      • OpenAI o1 性能评估和学习推理思维链介绍
      • OpenAI o1-mini和gpt4o性能对比介绍
      • OpenAI o1 模型与GPT-4o模型使用区别和场景
    • Claude
      • Claude的project介绍和创建
      • Claude Sonnet 3.5 API 教程
      • Claude 3 最新注册使用教程!(国内版)-性能完爆GPT4o!
      • Claude3.5 vs GPT4 谁才是最强大模型?
      • Claude国内无法登录的解决办法
      • Claude3.5 Sonnet的详细介绍
      • Claude如何写好提示词
      • Claude快速入门指南
    • Llama3
      • Llama3.2最新90b 11b 3b 1b模型介绍-AI大模型
      •  Llama Stack入门安装指南[结合Ollama]-AI大模型
      • Llama 3.2介绍最全技术报告-AI大模型
      • Llama 3.1技术报告:Meta推出最强开源大模型
      • Meta 的 Llama 3.1 405B工作原理、用例等
      • 如何在本地安装和运行 Meta Llama 3.1
      • 使用 Ollama和租用GPU 运行 Llama 3.1 405B:分步指南
      • Llama3.1 Colab 微调指南
  • AI论文
    • OpenAIo1原理解读:重复采样扩展推理计算[Large Language Monkeys: Scaling Inference Compute with Repeated Sampling]-AI论文
    • OpenIAo1原理解读:Q*强化学习与启发式搜索推理框架[Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning]-AI论文
    • OpenAIo1原理解读:基于蒙特卡罗树搜索的自我博弈互相推理[Self-play Mutual Reasoning]-AI论文
    • openAIo1原理解读:推理增加计算量提高大模型效果[Scaling LLM Test-Time Compute Optimally can be More Effective]-AI论文
    • OpenAI o1大模型原理解读:自博弈Self-play强化学习方法[A Survey on Self-play Methods in Reinforcement Learning]-AI论文
    • OpenAI o1大模型原理解读:Quiet-STaR 推理思维链[Language Models Can Teach Themselves to Think Before Speaking]-AI论文
    • OpenAI o1大模型原理论文汇总[Awesome LLM Strawberry]-AI论文
  • AI应用
    •  Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具-AI应用
    • AI Scientist:用于全自动科学发现的写论文应用-AI应用
    • ai-data-analysis-MulitAgent:一种用于自动化复杂研究过程的先进多智能体系统-AI应用
    • Aider:最好的免费开源 AI 编码助手,自动git提交代码!-AI应用
    • AIHawk:你的 AI 求职助手,自动化申请、获得个性化推荐,更快找到您梦想的工作-AI应用
  • 加入会员社区
  • About Us
No Result
View All Result
  • Home
  • AI教程
    • 大模型应用实践课程
      • 大型语言模型课程介绍
      • 第1-1章:使用 OpenAI 创建您的第一个聊天机器人-大模型应用实践教程
      • 第1-2章:使用 OpenAI 创建简单的自然语言到 SQL-大模型应用实践教程
    • Claude应用开发教程
      • 第1章:基本提示结构-Claude应用开发教程
      • 第 2 章:基本函数构建-Claude开发应用教程
      • 第3章:角色扮演提示-Claude应用开发教程
      • 第4章 分离数据和指令-Claude开发应用教程
      • 第 5 章:格式化输出-Claude应用开发教程
      • 第6章:预知(Thinking Step by Step)-Claude应用开发教程
    • Claude提示词教程
      • 第 1 课:基本提​​示词技术-Claude提示词工程课程
      • 第 2 课:医疗病例摘要助手[XML-JSON格式化输出]-Claude提示词工程教程
      • 第 3 课:提示工程迭代流程-Claude提示词工程课程
      • 第 4 课:客服聊天记录总结生成器-Claude提示词课程
    • Claude函数/工具调用教程
      • 第3章:使用工具调用强制 JSON结构输出[以提取维基百科页面文章为例]-Claude工具调用教程
      • 第2章:ClaudeAPI如何构建工具并调用[以计算器工具调用为例]-Claude工具调用教程
      • 第1章:工具使用/函数调用介绍和概述-Claude函数工具调用教程
    • ClaudeAPI基础入门教程
      • 第2章:构建简单的多轮聊天机器人-ClaudeAPI基础入门教程
      • 第1章:Claude SDK安装和使用-CLaudeAPI基础入门教程
      • Claude API基础知识课程简介
  • AI大模型
    • chatgpt
      • OpenAI o1-preview 简介和如何使用
      • 如何设置使用新的 ChatGPT o1 模型
      • OpenAI o1 性能评估和学习推理思维链介绍
      • OpenAI o1-mini和gpt4o性能对比介绍
      • OpenAI o1 模型与GPT-4o模型使用区别和场景
    • Claude
      • Claude的project介绍和创建
      • Claude Sonnet 3.5 API 教程
      • Claude 3 最新注册使用教程!(国内版)-性能完爆GPT4o!
      • Claude3.5 vs GPT4 谁才是最强大模型?
      • Claude国内无法登录的解决办法
      • Claude3.5 Sonnet的详细介绍
      • Claude如何写好提示词
      • Claude快速入门指南
    • Llama3
      • Llama3.2最新90b 11b 3b 1b模型介绍-AI大模型
      •  Llama Stack入门安装指南[结合Ollama]-AI大模型
      • Llama 3.2介绍最全技术报告-AI大模型
      • Llama 3.1技术报告:Meta推出最强开源大模型
      • Meta 的 Llama 3.1 405B工作原理、用例等
      • 如何在本地安装和运行 Meta Llama 3.1
      • 使用 Ollama和租用GPU 运行 Llama 3.1 405B:分步指南
      • Llama3.1 Colab 微调指南
  • AI论文
    • OpenAIo1原理解读:重复采样扩展推理计算[Large Language Monkeys: Scaling Inference Compute with Repeated Sampling]-AI论文
    • OpenIAo1原理解读:Q*强化学习与启发式搜索推理框架[Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning]-AI论文
    • OpenAIo1原理解读:基于蒙特卡罗树搜索的自我博弈互相推理[Self-play Mutual Reasoning]-AI论文
    • openAIo1原理解读:推理增加计算量提高大模型效果[Scaling LLM Test-Time Compute Optimally can be More Effective]-AI论文
    • OpenAI o1大模型原理解读:自博弈Self-play强化学习方法[A Survey on Self-play Methods in Reinforcement Learning]-AI论文
    • OpenAI o1大模型原理解读:Quiet-STaR 推理思维链[Language Models Can Teach Themselves to Think Before Speaking]-AI论文
    • OpenAI o1大模型原理论文汇总[Awesome LLM Strawberry]-AI论文
  • AI应用
    •  Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具-AI应用
    • AI Scientist:用于全自动科学发现的写论文应用-AI应用
    • ai-data-analysis-MulitAgent:一种用于自动化复杂研究过程的先进多智能体系统-AI应用
    • Aider:最好的免费开源 AI 编码助手,自动git提交代码!-AI应用
    • AIHawk:你的 AI 求职助手,自动化申请、获得个性化推荐,更快找到您梦想的工作-AI应用
  • 加入会员社区
  • About Us
No Result
View All Result
欢迎来到ClaudeAI博客社区
No Result
View All Result
Home llama

Meta微调Llama3.1模型的各种可用方法

小远 by 小远
2024-09-09
in llama
1

这是关于调整开源大型语言模型 (LLM) 的三部分系列博文中的第一篇。在这篇文章中,我们将介绍将 LLM 调整为领域数据的各种可用方法。

  • 在第 2 部分中,我们将讨论如何确定微调是否适合您的用例。
  • 在第 3 部分中,我们将探讨一些策划良好训练数据集的经验规则。

目录

Toggle
  • 介绍
  • 大语言模型 (LLM) 微调方法
    • 预训练
    • 继续进行预训练
    • 微调
    • 检索增强生成 (RAG)
    • 情境学习(ICL)
  • 选择正确的微调方法
  • ❌ 预训练
  • ❌ 持续预训练
  • ✅ 完全微调和参数高效微调(PEFT)
  • ✅ 检索增强生成 (RAG)
  • ✅ 情境学习(ICL)
  • 概括
  • 致谢

介绍

大型语言模型 (LLM) 在众多语言任务和自然语言处理 (NLP)基准测试中表现出了卓越的能力。基于这些“通用”模型的产品用例正在不断增加。在这篇博文中,我们将为想要将 LLM 调整并集成到项目中的小型 AI 产品团队提供指导。让我们首先澄清有关 LLM 的(通常令人困惑的)术语,然后简要比较可用的不同调整方法,最后推荐一个分步流程图来确定适合您用例的正确方法。

大语言模型 (LLM) 微调方法

预训练

预训练是使用数万亿个数据标记从头开始训练 LLM 的过程。该模型使用自监督算法进行训练。最常见的是,训练通过自回归预测下一个标记(又称因果语言建模)进行。预训练通常需要数千个 GPU 小时(105 – 107 [源 1,源 2 ]])分布在多个 GPU 上。预训练的输出模型称为基础模型。

继续进行预训练

持续预训练(又称为第二阶段预训练)涉及使用新的、未见过的领域数据进一步训练基础模型。使用与初始预训练相同的自监督算法。通常涉及所有模型权重,并将原始数据的一小部分与新数据混合。

微调

微调是使用带注释的数据集以监督方式或使用基于强化学习的技术调整预训练语言模型的过程。与预训练相比,有两个主要区别:

  1. 对带注释的数据集(包含正确的标签/答案/偏好)进行监督训练,而不是自监督训练
  2. 需要更少的代币(数千或数百万,而不是预训练所需的数十亿或数万亿),其主要目的是增强指令遵循、人类协调、任务执行等能力。

可以从两个维度来了解当前的微调状况:改变的参数百分比和由于微调而增加的新功能。

参数改变的百分比

根据改变的参数数量,算法可分为两类:

  1. 完全微调:顾名思义,这包括改变模型的所有参数,包括对 XLMR 和 BERT 等小型模型(100 – 300M 个参数)进行的传统微调,以及对Llama 2、GPT3(1B+ 个参数)等大型模型进行微调。
  2. 参数高效微调(PEFT): PEFT 算法不会对所有 LLM 权重进行微调,而是仅微调少量附加参数或更新预训练参数的子集,通常占总参数的 1 – 6%。

添加到基础模型的功能

进行微调的目的是为预训练模型添加功能,例如:指令遵循、人体对齐等。Chat-tuned Llama 2 是一个经过微调的模型的例子,它增加了指令遵循和对齐功能。

检索增强生成 (RAG)

企业还可以通过添加特定领域的知识库来调整 LLM。RAG 本质上是“搜索驱动的 LLM 文本生成”。RAG 于 2020 年推出,它使用动态提示上下文,该上下文使用用户问题检索并注入 LLM 提示中,以引导它使用检索到的内容,而不是其预先训练的(可能已过时的)知识。Chat LangChain是一个流行的 Q/A 聊天机器人,它基于 LangChain 文档,由 RAG 提供支持。

情境学习(ICL)

使用 ICL,我们通过在提示中放置原型示例来调整 LLM。多项研究表明,“通过示例进行演示”是有效的。示例可以包含不同类型的信息:

  • 仅输入和输出文本——即小样本学习
  • 推理痕迹:添加中间推理步骤;参见思路链(CoT) 提示
  • 规划和反思痕迹:添加教导 LLM 规划和反思其问题解决策略的信息;参见ReACT

还有多种其他修改提示的策略,并且“提示工程指南”包含全面的概述。

选择正确的微调方法

要确定上述哪种方法适合特定应用,您应该考虑各种因素:所追求任务所需的模型能力、训练成本、推理成本、数据集类型等。下面的流程图总结了我们的建议,以帮助您选择正确的 LLM 微调方法。

❌ 预训练

预训练是 LLM 训练的重要组成部分,它使用 token 预测变体作为损失函数。其自监督特性允许对大量数据进行训练。例如,Llama 2 是在 2 万亿个 token 上进行训练的。这需要大量的计算基础设施:Llama 2 70B 耗时1,720,320 GPU 小时。因此,对于资源有限的团队,我们不建议将预训练作为 LLM 适应的可行方法。

由于预训练在计算上过于昂贵,因此更新已经预训练过的模型的权重可能是使 LLM 适应特定任务的有效方法。任何更新预训练模型权重的方法都容易受到一种称为灾难性遗忘的现象的影响,该术语指的是模型忘记以前学到的技能和知识。例如,这项研究展示了在医学领域经过微调的模型在遵循指令和常见的 QA 任务方面的性能如何下降。其他研究也表明,通过预训练获得的一般知识可能会在后续的训练中被遗忘。例如,这项研究从领域知识、推理和阅读理解的角度提供了 LLM 中知识遗忘的一些证据。

❌ 持续预训练

考虑到灾难性遗忘,最近的发展表明,持续预训练 (CPT) 可以进一步提高性能,而计算成本仅为预训练的一小部分。CPT 对于那些需要 LLM 掌握新转换技能的任务大有裨益。例如,据报道,持续预训练在增加多语言能力方面取得了成功。

但 CPT 仍然是一个昂贵的过程,需要大量的数据和计算资源。例如,Pythia 套件经历了第二阶段的预训练,最终创建了FinPythia-6.9B。这个专为金融数据设计的模型使用包含 240 亿个 token 的数据集进行了 18 天的 CPT。此外,CPT 也容易发生灾难性遗忘。因此,对于资源有限的团队,我们不建议继续进行预训练作为 LLM 适应的可行方法。

总而言之,使用自监督算法和未注释的数据集来调整 LLM (就像在预训练和持续预训练中所做的那样)需要大量资源和成本,因此不建议作为一种可行的方法。

✅ 完全微调和参数高效微调(PEFT)

与使用未注释的数据集进行预训练相比,使用较小的带注释的数据集进行微调是一种更具成本效益的方法。通过将预训练模型调整为特定任务,微调模型已证明可以在广泛的应用和专业领域(例如法律、医疗或金融)中实现最佳结果。

微调,特别是参数高效微调 (PEFT),只需要预训练/持续预训练所需计算资源的一小部分。因此,对于资源有限的团队来说,这是一种可行的调整 LLM 的方法。在本系列的第 3 部分中,我们将深入探讨微调细节,包括完整微调、PEFT 以及如何进行微调的实用指南。

✅ 检索增强生成 (RAG)

RAG 是 LLM 适应的另一种流行方法。如果您的应用程序需要从动态知识库(例如 QA 机器人)中提取,RAG 可能是一个很好的解决方案。基于 RAG 的系统的复杂性主要在于检索引擎的实现。这种系统中的推理成本可能更昂贵,因为提示包括检索到的文档,并且大多数提供商使用按令牌计费的模型。在本系列的第 2 部分中,我们将更广泛地讨论 RAG 并提供与微调的比较。

✅ 情境学习(ICL)

这是采用 LLM 的最经济的方式。ICL 不需要任何额外的训练数据或计算资源,因此是一种经济高效的方法。但是,与 RAG 类似,推理的成本和延迟可能会随着推理时处理的标记增多而增加。

概括

创建基于 LLM 的系统是迭代的。我们建议从简单的方法开始,逐渐增加复杂性,直到实现目标。上面的流程图概述了这一迭代过程,并为您的 LLM 适应策略奠定了坚实的基础。

致谢

我们要感谢 Suraj Subramanian 和 Varun Vontimitta 对这篇博文的组织和准备提出的建设性反馈。

转载自:https://ai.meta.com/blog/adapting-large-language-models-llms/

Tags: llama3.1meta大模型微调微调方法预训练
Previous Post

ClaudeAI-API函数调用[工具调用]使用教程

Next Post

Meta-llama3.1大模型是否需要微调探讨分析

小远

小远

大家好,我是小远,毕业于华南理工大学。作为一名AI算法工程师,我创立了个人博客,旨在成为连接AI技术前沿与广大爱好者的桥梁。宗旨是:记录并分享关于AI大模型的最新知识、研究成果及行业动态,致力于普及AI知识,降低技术门槛,让更多人能够了解并参与到这场科技革命中来。

Related Posts

2024年30大RAG面试问题和答案
llama

Llama3.2最新90b 11b 3b 1b模型介绍-AI大模型

2024-09-27
 Llama Stack入门安装指南[结合Ollama]-AI大模型
llama

 Llama Stack入门安装指南[结合Ollama]-AI大模型

2024-10-13
Llama 3.2介绍最全技术报告-AI大模型
llama

Llama 3.2介绍最全技术报告-AI大模型

2024-09-27
Load More
Next Post
Meta微调Llama3.1模型的各种可用方法

Meta-llama3.1大模型是否需要微调探讨分析

Please login to join discussion
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs[不要过度思考2+3等于几 在类LLM的过度思考上]-AI论文
claude

Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs[不要过度思考2+3等于几 在类LLM的过度思考上]-AI论文

by 小远
2025-01-12
0

图1:在图(a)中过度思考问题的示意图:...

Read more
Slow Perception: Let’s Perceive Geometric Figures Step-by-step[缓慢感知:让我们逐步感知几何图形]-AI论文
AI论文

Slow Perception: Let’s Perceive Geometric Figures Step-by-step[缓慢感知:让我们逐步感知几何图形]-AI论文

by 小远
2025-01-12
0

摘要 近期,“视觉感知”开始进入人们的视...

Read more
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning[结合大型语言模型与过程奖励引导的树搜索以提升复杂推理能力]-AI论文
claude

Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning[结合大型语言模型与过程奖励引导的树搜索以提升复杂推理能力]-AI论文

by 小远
2025-01-12
0

摘要 尽管大型语言模型近期取得了显著进展...

Read more
Large Concept Models:Language Modeling in a Sentence Representation Space[大型概念模型:在句子表示空间中的语言建模]-AI论文
AI论文

Large Concept Models:Language Modeling in a Sentence Representation Space[大型概念模型:在句子表示空间中的语言建模]-AI论文

by 小远
2025-01-06
0

大型语言模型(LLMs)已经彻底改变了人...

Read more

Claude大模型学习社区

希望成为中国第一个大模型教程和AI论文的分享乐园!帮助每一位同学快速上入门大模型!

分类

  • AIRAG
  • AI应用
  • AI提示库
  • AI论文
  • artifacts
  • chatgpt
  • claude
  • claude教程
  • Cursor
  • gemini
  • llama
  • ollama
  • openAIo1
  • prompt工程
  • 文心一言

标签

Agent Agents AI工具 AI应用 AI提示库 AI论文 API chatgpt claude Claude3.5 Sonnet COT css Cursor CursorAI ernie html IDE Llama 3 llama3.1 llama3.2 LLM meta o1 o1-preview ollama OpenAI openAIo1 OpenAI o1 openAIo1原理 prompt rag Reasoning Swarm web 函数构建 原理解读 合成数据 多智能体 大模型 强化学习 思维链 接码平台 提示词 智能体 检索增强
  • Home
  • AI教程
  • AI大模型
  • AI论文
  • AI应用
  • 加入会员社区
  • About Us

© 2024 ClaudeAI大模型学习社区 所有属于ICP备案:豫ICP备2024068873号-1号.

No Result
View All Result
  • Home
  • AI教程
    • 大模型应用实践课程
      • 大型语言模型课程介绍
      • 第1-1章:使用 OpenAI 创建您的第一个聊天机器人-大模型应用实践教程
      • 第1-2章:使用 OpenAI 创建简单的自然语言到 SQL-大模型应用实践教程
    • Claude应用开发教程
      • 第1章:基本提示结构-Claude应用开发教程
      • 第 2 章:基本函数构建-Claude开发应用教程
      • 第3章:角色扮演提示-Claude应用开发教程
      • 第4章 分离数据和指令-Claude开发应用教程
      • 第 5 章:格式化输出-Claude应用开发教程
      • 第6章:预知(Thinking Step by Step)-Claude应用开发教程
    • Claude提示词教程
      • 第 1 课:基本提​​示词技术-Claude提示词工程课程
      • 第 2 课:医疗病例摘要助手[XML-JSON格式化输出]-Claude提示词工程教程
      • 第 3 课:提示工程迭代流程-Claude提示词工程课程
      • 第 4 课:客服聊天记录总结生成器-Claude提示词课程
    • Claude函数/工具调用教程
      • 第3章:使用工具调用强制 JSON结构输出[以提取维基百科页面文章为例]-Claude工具调用教程
      • 第2章:ClaudeAPI如何构建工具并调用[以计算器工具调用为例]-Claude工具调用教程
      • 第1章:工具使用/函数调用介绍和概述-Claude函数工具调用教程
    • ClaudeAPI基础入门教程
      • 第2章:构建简单的多轮聊天机器人-ClaudeAPI基础入门教程
      • 第1章:Claude SDK安装和使用-CLaudeAPI基础入门教程
      • Claude API基础知识课程简介
  • AI大模型
    • chatgpt
      • OpenAI o1-preview 简介和如何使用
      • 如何设置使用新的 ChatGPT o1 模型
      • OpenAI o1 性能评估和学习推理思维链介绍
      • OpenAI o1-mini和gpt4o性能对比介绍
      • OpenAI o1 模型与GPT-4o模型使用区别和场景
    • Claude
      • Claude的project介绍和创建
      • Claude Sonnet 3.5 API 教程
      • Claude 3 最新注册使用教程!(国内版)-性能完爆GPT4o!
      • Claude3.5 vs GPT4 谁才是最强大模型?
      • Claude国内无法登录的解决办法
      • Claude3.5 Sonnet的详细介绍
      • Claude如何写好提示词
      • Claude快速入门指南
    • Llama3
      • Llama3.2最新90b 11b 3b 1b模型介绍-AI大模型
      •  Llama Stack入门安装指南[结合Ollama]-AI大模型
      • Llama 3.2介绍最全技术报告-AI大模型
      • Llama 3.1技术报告:Meta推出最强开源大模型
      • Meta 的 Llama 3.1 405B工作原理、用例等
      • 如何在本地安装和运行 Meta Llama 3.1
      • 使用 Ollama和租用GPU 运行 Llama 3.1 405B:分步指南
      • Llama3.1 Colab 微调指南
  • AI论文
    • OpenAIo1原理解读:重复采样扩展推理计算[Large Language Monkeys: Scaling Inference Compute with Repeated Sampling]-AI论文
    • OpenIAo1原理解读:Q*强化学习与启发式搜索推理框架[Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning]-AI论文
    • OpenAIo1原理解读:基于蒙特卡罗树搜索的自我博弈互相推理[Self-play Mutual Reasoning]-AI论文
    • openAIo1原理解读:推理增加计算量提高大模型效果[Scaling LLM Test-Time Compute Optimally can be More Effective]-AI论文
    • OpenAI o1大模型原理解读:自博弈Self-play强化学习方法[A Survey on Self-play Methods in Reinforcement Learning]-AI论文
    • OpenAI o1大模型原理解读:Quiet-STaR 推理思维链[Language Models Can Teach Themselves to Think Before Speaking]-AI论文
    • OpenAI o1大模型原理论文汇总[Awesome LLM Strawberry]-AI论文
  • AI应用
    •  Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具-AI应用
    • AI Scientist:用于全自动科学发现的写论文应用-AI应用
    • ai-data-analysis-MulitAgent:一种用于自动化复杂研究过程的先进多智能体系统-AI应用
    • Aider:最好的免费开源 AI 编码助手,自动git提交代码!-AI应用
    • AIHawk:你的 AI 求职助手,自动化申请、获得个性化推荐,更快找到您梦想的工作-AI应用
  • 加入会员社区
  • About Us

© 2024 ClaudeAI大模型学习社区 所有属于ICP备案:豫ICP备2024068873号-1号.

Welcome Back!

Login to your account below

Forgotten Password? Sign Up

Create New Account!

Fill the forms below to register

All fields are required. Log In

Retrieve your password

Please enter your username or email address to reset your password.

Log In