• Privacy & Policy
  • Contact
2025-05-18 19:00:13
  • Login
  • Register
欢迎来到ClaudeAI博客社区
  • Home
  • AI教程
    • 大模型应用实践课程
      • 大型语言模型课程介绍
      • 第1-1章:使用 OpenAI 创建您的第一个聊天机器人-大模型应用实践教程
      • 第1-2章:使用 OpenAI 创建简单的自然语言到 SQL-大模型应用实践教程
    • Claude应用开发教程
      • 第1章:基本提示结构-Claude应用开发教程
      • 第 2 章:基本函数构建-Claude开发应用教程
      • 第3章:角色扮演提示-Claude应用开发教程
      • 第4章 分离数据和指令-Claude开发应用教程
      • 第 5 章:格式化输出-Claude应用开发教程
      • 第6章:预知(Thinking Step by Step)-Claude应用开发教程
    • Claude提示词教程
      • 第 1 课:基本提​​示词技术-Claude提示词工程课程
      • 第 2 课:医疗病例摘要助手[XML-JSON格式化输出]-Claude提示词工程教程
      • 第 3 课:提示工程迭代流程-Claude提示词工程课程
      • 第 4 课:客服聊天记录总结生成器-Claude提示词课程
    • Claude函数/工具调用教程
      • 第3章:使用工具调用强制 JSON结构输出[以提取维基百科页面文章为例]-Claude工具调用教程
      • 第2章:ClaudeAPI如何构建工具并调用[以计算器工具调用为例]-Claude工具调用教程
      • 第1章:工具使用/函数调用介绍和概述-Claude函数工具调用教程
    • ClaudeAPI基础入门教程
      • 第2章:构建简单的多轮聊天机器人-ClaudeAPI基础入门教程
      • 第1章:Claude SDK安装和使用-CLaudeAPI基础入门教程
      • Claude API基础知识课程简介
  • AI大模型
    • chatgpt
      • OpenAI o1-preview 简介和如何使用
      • 如何设置使用新的 ChatGPT o1 模型
      • OpenAI o1 性能评估和学习推理思维链介绍
      • OpenAI o1-mini和gpt4o性能对比介绍
      • OpenAI o1 模型与GPT-4o模型使用区别和场景
    • Claude
      • Claude的project介绍和创建
      • Claude Sonnet 3.5 API 教程
      • Claude 3 最新注册使用教程!(国内版)-性能完爆GPT4o!
      • Claude3.5 vs GPT4 谁才是最强大模型?
      • Claude国内无法登录的解决办法
      • Claude3.5 Sonnet的详细介绍
      • Claude如何写好提示词
      • Claude快速入门指南
    • Llama3
      • Llama3.2最新90b 11b 3b 1b模型介绍-AI大模型
      •  Llama Stack入门安装指南[结合Ollama]-AI大模型
      • Llama 3.2介绍最全技术报告-AI大模型
      • Llama 3.1技术报告:Meta推出最强开源大模型
      • Meta 的 Llama 3.1 405B工作原理、用例等
      • 如何在本地安装和运行 Meta Llama 3.1
      • 使用 Ollama和租用GPU 运行 Llama 3.1 405B:分步指南
      • Llama3.1 Colab 微调指南
  • AI论文
    • OpenAIo1原理解读:重复采样扩展推理计算[Large Language Monkeys: Scaling Inference Compute with Repeated Sampling]-AI论文
    • OpenIAo1原理解读:Q*强化学习与启发式搜索推理框架[Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning]-AI论文
    • OpenAIo1原理解读:基于蒙特卡罗树搜索的自我博弈互相推理[Self-play Mutual Reasoning]-AI论文
    • openAIo1原理解读:推理增加计算量提高大模型效果[Scaling LLM Test-Time Compute Optimally can be More Effective]-AI论文
    • OpenAI o1大模型原理解读:自博弈Self-play强化学习方法[A Survey on Self-play Methods in Reinforcement Learning]-AI论文
    • OpenAI o1大模型原理解读:Quiet-STaR 推理思维链[Language Models Can Teach Themselves to Think Before Speaking]-AI论文
    • OpenAI o1大模型原理论文汇总[Awesome LLM Strawberry]-AI论文
  • AI应用
    •  Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具-AI应用
    • AI Scientist:用于全自动科学发现的写论文应用-AI应用
    • ai-data-analysis-MulitAgent:一种用于自动化复杂研究过程的先进多智能体系统-AI应用
    • Aider:最好的免费开源 AI 编码助手,自动git提交代码!-AI应用
    • AIHawk:你的 AI 求职助手,自动化申请、获得个性化推荐,更快找到您梦想的工作-AI应用
  • 加入会员社区
  • About Us
No Result
View All Result
  • Home
  • AI教程
    • 大模型应用实践课程
      • 大型语言模型课程介绍
      • 第1-1章:使用 OpenAI 创建您的第一个聊天机器人-大模型应用实践教程
      • 第1-2章:使用 OpenAI 创建简单的自然语言到 SQL-大模型应用实践教程
    • Claude应用开发教程
      • 第1章:基本提示结构-Claude应用开发教程
      • 第 2 章:基本函数构建-Claude开发应用教程
      • 第3章:角色扮演提示-Claude应用开发教程
      • 第4章 分离数据和指令-Claude开发应用教程
      • 第 5 章:格式化输出-Claude应用开发教程
      • 第6章:预知(Thinking Step by Step)-Claude应用开发教程
    • Claude提示词教程
      • 第 1 课:基本提​​示词技术-Claude提示词工程课程
      • 第 2 课:医疗病例摘要助手[XML-JSON格式化输出]-Claude提示词工程教程
      • 第 3 课:提示工程迭代流程-Claude提示词工程课程
      • 第 4 课:客服聊天记录总结生成器-Claude提示词课程
    • Claude函数/工具调用教程
      • 第3章:使用工具调用强制 JSON结构输出[以提取维基百科页面文章为例]-Claude工具调用教程
      • 第2章:ClaudeAPI如何构建工具并调用[以计算器工具调用为例]-Claude工具调用教程
      • 第1章:工具使用/函数调用介绍和概述-Claude函数工具调用教程
    • ClaudeAPI基础入门教程
      • 第2章:构建简单的多轮聊天机器人-ClaudeAPI基础入门教程
      • 第1章:Claude SDK安装和使用-CLaudeAPI基础入门教程
      • Claude API基础知识课程简介
  • AI大模型
    • chatgpt
      • OpenAI o1-preview 简介和如何使用
      • 如何设置使用新的 ChatGPT o1 模型
      • OpenAI o1 性能评估和学习推理思维链介绍
      • OpenAI o1-mini和gpt4o性能对比介绍
      • OpenAI o1 模型与GPT-4o模型使用区别和场景
    • Claude
      • Claude的project介绍和创建
      • Claude Sonnet 3.5 API 教程
      • Claude 3 最新注册使用教程!(国内版)-性能完爆GPT4o!
      • Claude3.5 vs GPT4 谁才是最强大模型?
      • Claude国内无法登录的解决办法
      • Claude3.5 Sonnet的详细介绍
      • Claude如何写好提示词
      • Claude快速入门指南
    • Llama3
      • Llama3.2最新90b 11b 3b 1b模型介绍-AI大模型
      •  Llama Stack入门安装指南[结合Ollama]-AI大模型
      • Llama 3.2介绍最全技术报告-AI大模型
      • Llama 3.1技术报告:Meta推出最强开源大模型
      • Meta 的 Llama 3.1 405B工作原理、用例等
      • 如何在本地安装和运行 Meta Llama 3.1
      • 使用 Ollama和租用GPU 运行 Llama 3.1 405B:分步指南
      • Llama3.1 Colab 微调指南
  • AI论文
    • OpenAIo1原理解读:重复采样扩展推理计算[Large Language Monkeys: Scaling Inference Compute with Repeated Sampling]-AI论文
    • OpenIAo1原理解读:Q*强化学习与启发式搜索推理框架[Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning]-AI论文
    • OpenAIo1原理解读:基于蒙特卡罗树搜索的自我博弈互相推理[Self-play Mutual Reasoning]-AI论文
    • openAIo1原理解读:推理增加计算量提高大模型效果[Scaling LLM Test-Time Compute Optimally can be More Effective]-AI论文
    • OpenAI o1大模型原理解读:自博弈Self-play强化学习方法[A Survey on Self-play Methods in Reinforcement Learning]-AI论文
    • OpenAI o1大模型原理解读:Quiet-STaR 推理思维链[Language Models Can Teach Themselves to Think Before Speaking]-AI论文
    • OpenAI o1大模型原理论文汇总[Awesome LLM Strawberry]-AI论文
  • AI应用
    •  Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具-AI应用
    • AI Scientist:用于全自动科学发现的写论文应用-AI应用
    • ai-data-analysis-MulitAgent:一种用于自动化复杂研究过程的先进多智能体系统-AI应用
    • Aider:最好的免费开源 AI 编码助手,自动git提交代码!-AI应用
    • AIHawk:你的 AI 求职助手,自动化申请、获得个性化推荐,更快找到您梦想的工作-AI应用
  • 加入会员社区
  • About Us
No Result
View All Result
欢迎来到ClaudeAI博客社区
No Result
View All Result
Home AI论文

OpenAIo1原理解读:蒙特卡洛树搜索引导大模型进行自我训练[ReST-MCTS∗: LLM Self-Training via Process Reward Guided Tree Search]-AI论文

小远 by 小远
2024-11-04
in AI论文
0

这篇论文的标题是《ReST-MCTS∗: LLM Self-Training via Process Reward Guided Tree Search》,论文的主要内容涉及使用蒙特卡洛树搜索(MCTS)算法引导大型语言模型(LLM)进行自我训练。


目录

Toggle
  • 1. 介绍 (Introduction)
  • 2. 推理与自我训练的背景 (Background on Reasoning & Self-Training)
    • 2.1. LLM推理策略
    • 2.2. LLM自我训练方法
    • 2.3. 现有工作的局限性
    • 2.4. ReST-MCTS∗方法的创新
  • 3. ReST-MCTS∗ 方法 (The ReST-MCTS∗ Method)
    • 3.1 基于搜索的LLM推理策略 (Search-based Reasoning Policy for LLM)
  • 6. 结论 (Conclusion)

1. 介绍 (Introduction)

在论文的介绍部分,作者首先讨论了当前大型语言模型(LLM)自我训练的背景和局限性。现有的自我训练方法大多依赖于让LLM生成多个答案,并从中筛选出正确答案,将其作为进一步微调的训练数据。然而,作者指出这种方法存在一些显著的问题:

  1. 低质量的训练数据集

:大多数自我训练方法通过筛选正确答案来构建训练集,但这并不能保证训练集中的推理过程都是正确的。换句话说,虽然模型可能在一些问题上得到了正确的最终答案,但中间推理步骤可能是错误的或无用的。这种情况会导致训练集包含大量错误的中间推理步骤,影响最终模型的推理能力。

  1. 人工标注的缺乏

:许多推理步骤的正确性验证依赖于人工标注(如过程奖励模型中的每一步推理都需要人为标记),而这种方式显然难以扩展,因为手动标注既耗时又昂贵。

为了解决这些问题,作者提出了ReST-MCTS∗(Reinforced Self-Training with Monte Carlo Tree Search),这是一种基于强化学习的自我训练方法,通过树搜索结合过程奖励的引导来提高训练数据的质量。以下是ReST-MCTS∗方法的关键点:

  1. 过程奖励(Process Reward)引导

:与传统的强化学习不同,ReST-MCTS∗通过自动推导出正确的过程奖励,而不再依赖每一步人工标注。具体来说,ReST-MCTS∗可以在给定最终正确答案的情况下,推测每个推理步骤是否有助于最终正确答案的生成。这些推导出的奖励可以用作两个目的:

  1. 蒙特卡洛树搜索(MCTS∗)的应用

:ReST-MCTS∗通过集成树搜索算法,在同样的搜索预算下,相比于现有的推理基线(如Best-of-N或Tree-of-Thought),能够找到更高质量的推理路径。

  1. 多轮次迭代训练

:ReST-MCTS∗不仅通过树搜索策略提高推理路径的质量,而且还能够通过反复迭代,不断使用这些推理路径作为训练数据,逐步增强模型。这种迭代的过程允许模型在每次训练后自我改进,超越其他自我训练算法(如ReSTEM和Self-Rewarding LM)。

作者还展示了该方法的实验结果,表明ReST-MCTS∗在多种推理任务中,尤其是数学推理和科学推理任务中,显著优于现有的自我训练方法。最后,作者将代码开源,供社区研究使用【5†source】。


总结:

  • 现有问题:LLM自我训练方法容易导致低质量的推理路径,且过于依赖人工标注。
  • ReST-MCTS∗的贡献:通过引入树搜索和自动推导的过程奖励,避免人工标注,并筛选高质量的推理路径,从而实现更高效的模型自我训练。

2. 推理与自我训练的背景 (Background on Reasoning & Self-Training)

在本节中,作者对大型语言模型(LLM)推理和自我训练的背景进行了详细讨论,介绍了现有推理方法的关键概念以及自我训练中的挑战。

2.1. LLM推理策略

LLM推理的基本方法是从一个问题输入开始,逐步生成推理路径,直到得出最终答案。该过程类似于自动回归模型生成下一步内容。推理路径中的每一步(称为推理步骤)可以通过模型预测生成。

推理策略可以通过各种方法进行优化,以下是几种常见的推理策略:

1.链式推理 (Chain-of-Thought, CoT):

– 这种方法旨在通过让模型生成每一步的推理过程,从而提高模型的推理能力。每个推理步骤是一句话,这种链式结构让模型能够模拟人类的思维过程,从而更好地回答复杂问题。

– CoT方法不仅考虑最终答案的正确性,还重视生成推理路径的质量。

2.自我一致性 (Self-Consistency, SC):

– 自我一致性是一种常用的推理策略,它通过对同一个问题生成多个推理路径,并选择其中出现最频繁的答案作为最终答案。这种方法能够有效提高模型的可靠性。

– SC依赖于模型生成多个推理路径,并通过对比多个路径来选择最优解,从而提高推理的稳定性和一致性。

3.树搜索与价值函数 (Tree-Search & Value Function):

– 树搜索是一种探索性更强的推理策略,它允许模型在推理过程中分支和扩展不同的推理路径。为了应对庞大的搜索空间,树搜索算法通常需要一个价值函数来指导搜索过程,帮助模型找到最优的推理路径。

– 有两类常用的价值函数:

– 结果奖励模型 (Outcome Reward Model, ORM):这种模型只对最终答案的正确性进行打分,忽略推理路径的中间步骤。

– 过程奖励模型 (Process Reward Model, PRM):这种模型会对每个推理步骤进行评分,根据推理过程中的每一步是否正确来引导模型。

– 这些模型通过结合价值函数,能有效评估和筛选出高质量的推理路径。

4.Best-of-N:

– 该策略与自我一致性相似,但它依赖于通过预先训练的价值函数(如ORM或PRM)来从N个生成的推理路径中选择得分最高的那条路径。这种方法通过机器学习模型的评分机制来选择最优路径。

2.2. LLM自我训练方法

LLM自我训练的高层流程主要包括两个步骤:

1.生成步骤:

– 在生成步骤中,模型根据输入问题生成多个推理路径。每个路径代表了一条可能的解答途径。在ReST-MCTS∗中,推理路径是通过树搜索生成的结构化推理路径。

2.改进步骤:

– 生成推理路径后,下一步就是改进模型。通过对比生成的推理路径,构造一个学习信号来帮助模型自我提升。在ReST-MCTS∗中,这个过程是通过训练奖励模型和策略模型来完成的,模型会根据生成的推理路径进行微调,并在多个迭代中不断改进。

2.3. 现有工作的局限性

作者指出,现有的自我训练方法在构建有效的学习信号时面临着很大的挑战。以下是几种常见的局限性:

1.稀疏的学习信号:

– 理想情况下,模型希望获得关于每个推理步骤是否正确的密集学习信号。然而,由于缺乏细粒度的标注,大多数方法只能依赖稀疏的学习信号(如最终答案的正确性)。这类似于强化学习中的“信用分配问题”,即难以将奖励正确地分配到中间推理步骤。

2.人工标注的依赖:

– 许多过程奖励模型需要依赖人工标注来为每一步推理生成正确与否的标签,这显然无法扩展。获取大规模的人工标注不仅耗时耗力,还难以覆盖所有任务的多样性。

2.4. ReST-MCTS∗方法的创新

作者强调,ReST-MCTS∗方法旨在解决上述局限性。通过使用自动化的奖励模型,ReST-MCTS∗能够在无需人工标注的情况下生成高质量的推理路径,并且通过树搜索算法有效地筛选最优路径。这种方法不仅能生成更好的学习信号,还能在多个迭代中不断改进模型的推理能力。


总结:

  • 推理策略:作者讨论了现有的推理方法,如链式推理、自我一致性、树搜索等。
  • 自我训练方法:自我训练包含生成和改进两个步骤。生成推理路径后,模型通过不断微调,逐步改进推理能力。
  • 现有方法的局限性:现有方法面临学习信号稀疏和依赖人工标注等问题,难以大规模应用。
  • ReST-MCTS∗的贡献:该方法通过树搜索结合自动化奖励模型,有效解决了这些问题,能够在没有人工标注的情况下生成高质量推理路径。

3. ReST-MCTS∗ 方法 (The ReST-MCTS∗ Method)

在这一章节,作者详细介绍了ReST-MCTS∗方法的结构和关键技术细节。该方法旨在通过结合蒙特卡洛树搜索(MCTS∗)和过程奖励模型,改进大型语言模型(LLM)的自我训练流程。整个方法的核心在于自动生成高质量的推理路径,并将这些路径用于持续改进LLM的推理能力。


3.1 基于搜索的LLM推理策略 (Search-based Reasoning Policy for LLM)

这一节介绍了ReST-MCTS∗的推理策略,它结合了树搜索与过程奖励模型,旨在生成高质量的推理路径。

此内容仅限注册用户查看,请先登录
加微信:tianming608,加入大模型学习交流群,获取最新技术和创业经验。

6. 结论 (Conclusion)

在结论部分,作者总结了ReST-MCTS∗方法的贡献与优越性,并展望了未来可能的改进方向。

1. 方法总结

ReST-MCTS∗是一个基于蒙特卡洛树搜索(MCTS)和过程奖励模型的自我训练框架,旨在通过自动化生成高质量的推理路径,提升大型语言模型(LLM)的推理能力。该方法有以下几个关键贡献:

  • 过程奖励指导的树搜索:通过MCTS∗的搜索策略,ReST-MCTS∗能够根据推理路径的过程奖励自动生成高质量的推理路径。这使得推理过程不再依赖人工标注,节省了大量的人力成本。
  • 高质量的推理路径生成:ReST-MCTS∗能够自动标注推理路径的质量,并通过过程奖励模型选择最优路径用于训练,从而显著提高推理准确性。
  • 多轮次的自我训练:通过反复迭代使用树搜索生成的推理路径,ReST-MCTS∗实现了持续的自我改进,能够在多个推理任务上超越现有的自我训练方法(如ReSTEM和Self-Rewarding LM)。

2. 实验结果总结

在多个实验中,ReST-MCTS∗在数学推理和科学推理任务上表现优异,尤其是在SciBench和MATH等基准测试中展现了卓越的性能。实验结果显示,ReST-MCTS∗能够在相同的搜索预算下,生成比其他推理方法(如Best-of-N和Self-Consistency)更高质量的推理路径,并且随着自我训练的迭代次数增加,模型的性能不断提升。

3. 未来工作与局限性

作者在结论部分还指出了ReST-MCTS∗的一些局限性以及未来可以改进的方向:

  1. 扩展到其他推理任务

:目前,ReST-MCTS∗主要在数学和科学推理任务中展示了其优势,未来工作可以将该方法推广到其他推理任务,如编码、对话等领域,特别是那些没有明确地面真值(ground truth)的任务(如对话生成和软件工程任务)。

  1. 任务泛化能力的提升

:尽管ReST-MCTS∗在数学和科学领域表现优异,作者建议未来的研究应探讨该方法是否能够在其他领域中具有同样强的泛化能力。

  1. 模型的规模化与在线RL算法

:未来研究可以进一步扩展ReST-MCTS∗的规模,使其能处理更大规模的数据集和模型。此外,在线强化学习算法的引入可能有助于提高价值模型和策略模型的自我训练能力。

  1. 数据筛选技术的改进

:目前的自我训练流程依赖于树搜索生成的推理路径,未来的研究可以进一步改进数据筛选技术,使模型能够更高效地过滤低质量路径,进一步提高模型的推理效率。


结论总结

ReST-MCTS∗通过结合过程奖励模型和蒙特卡洛树搜索,在大型语言模型的自我训练领域做出了创新。该方法不仅能够生成高质量的推理路径,而且通过多轮次的迭代训练,实现了LLM推理能力的持续提升。实验结果证明了该方法在数学和科学推理任务上的优越性。尽管ReST-MCTS∗表现出色,作者也指出了该方法在任务扩展、泛化能力和在线强化学习等方面的改进方向,表明未来仍有许多潜在的优化空间。

Tags: openAIo1OpenAIo1原理解读ReST-MCTS大模型蒙特卡洛树搜索
Previous Post

AIHawk:你的 AI 求职助手,自动化申请、获得个性化推荐,更快找到您梦想的工作-AI应用

Next Post

OpenAIo1原理解读:偏好链优化:改进LLMs中的思维链推理[Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs]-AI论文

小远

小远

大家好,我是小远,毕业于华南理工大学。作为一名AI算法工程师,我创立了个人博客,旨在成为连接AI技术前沿与广大爱好者的桥梁。宗旨是:记录并分享关于AI大模型的最新知识、研究成果及行业动态,致力于普及AI知识,降低技术门槛,让更多人能够了解并参与到这场科技革命中来。

Related Posts

Slow Perception: Let’s Perceive Geometric Figures Step-by-step[缓慢感知:让我们逐步感知几何图形]-AI论文
AI论文

Slow Perception: Let’s Perceive Geometric Figures Step-by-step[缓慢感知:让我们逐步感知几何图形]-AI论文

2025-01-12
Large Concept Models:Language Modeling in a Sentence Representation Space[大型概念模型:在句子表示空间中的语言建模]-AI论文
AI论文

Large Concept Models:Language Modeling in a Sentence Representation Space[大型概念模型:在句子表示空间中的语言建模]-AI论文

2025-01-06
Cultural Evolution of Cooperation among LLM Agents[大型语言模型代理间合作的文化演化]-AI论文
AI论文

Cultural Evolution of Cooperation among LLM Agents[大型语言模型代理间合作的文化演化]-AI论文

2025-01-06
Load More
Next Post
OpenAIo1原理解读:偏好链优化:改进LLMs中的思维链推理[Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs]-AI论文

OpenAIo1原理解读:偏好链优化:改进LLMs中的思维链推理[Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs]-AI论文

Please login to join discussion
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs[不要过度思考2+3等于几 在类LLM的过度思考上]-AI论文
claude

Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs[不要过度思考2+3等于几 在类LLM的过度思考上]-AI论文

by 小远
2025-01-12
0

图1:在图(a)中过度思考问题的示意图:...

Read more
Slow Perception: Let’s Perceive Geometric Figures Step-by-step[缓慢感知:让我们逐步感知几何图形]-AI论文
AI论文

Slow Perception: Let’s Perceive Geometric Figures Step-by-step[缓慢感知:让我们逐步感知几何图形]-AI论文

by 小远
2025-01-12
0

摘要 近期,“视觉感知”开始进入人们的视...

Read more
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning[结合大型语言模型与过程奖励引导的树搜索以提升复杂推理能力]-AI论文
claude

Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning[结合大型语言模型与过程奖励引导的树搜索以提升复杂推理能力]-AI论文

by 小远
2025-01-12
0

摘要 尽管大型语言模型近期取得了显著进展...

Read more
Large Concept Models:Language Modeling in a Sentence Representation Space[大型概念模型:在句子表示空间中的语言建模]-AI论文
AI论文

Large Concept Models:Language Modeling in a Sentence Representation Space[大型概念模型:在句子表示空间中的语言建模]-AI论文

by 小远
2025-01-06
0

大型语言模型(LLMs)已经彻底改变了人...

Read more

Claude大模型学习社区

希望成为中国第一个大模型教程和AI论文的分享乐园!帮助每一位同学快速上入门大模型!

分类

  • AIRAG
  • AI应用
  • AI提示库
  • AI论文
  • artifacts
  • chatgpt
  • claude
  • claude教程
  • Cursor
  • gemini
  • llama
  • ollama
  • openAIo1
  • prompt工程
  • 文心一言

标签

Agent Agents AI工具 AI应用 AI提示库 AI论文 API chatgpt claude Claude3.5 Sonnet COT css Cursor CursorAI ernie html IDE Llama 3 llama3.1 llama3.2 LLM meta o1 o1-preview ollama OpenAI openAIo1 OpenAI o1 openAIo1原理 prompt rag Reasoning Swarm web 函数构建 原理解读 合成数据 多智能体 大模型 强化学习 思维链 接码平台 提示词 智能体 检索增强
  • Home
  • AI教程
  • AI大模型
  • AI论文
  • AI应用
  • 加入会员社区
  • About Us

© 2024 ClaudeAI大模型学习社区 所有属于ICP备案:豫ICP备2024068873号-1号.

No Result
View All Result
  • Home
  • AI教程
    • 大模型应用实践课程
      • 大型语言模型课程介绍
      • 第1-1章:使用 OpenAI 创建您的第一个聊天机器人-大模型应用实践教程
      • 第1-2章:使用 OpenAI 创建简单的自然语言到 SQL-大模型应用实践教程
    • Claude应用开发教程
      • 第1章:基本提示结构-Claude应用开发教程
      • 第 2 章:基本函数构建-Claude开发应用教程
      • 第3章:角色扮演提示-Claude应用开发教程
      • 第4章 分离数据和指令-Claude开发应用教程
      • 第 5 章:格式化输出-Claude应用开发教程
      • 第6章:预知(Thinking Step by Step)-Claude应用开发教程
    • Claude提示词教程
      • 第 1 课:基本提​​示词技术-Claude提示词工程课程
      • 第 2 课:医疗病例摘要助手[XML-JSON格式化输出]-Claude提示词工程教程
      • 第 3 课:提示工程迭代流程-Claude提示词工程课程
      • 第 4 课:客服聊天记录总结生成器-Claude提示词课程
    • Claude函数/工具调用教程
      • 第3章:使用工具调用强制 JSON结构输出[以提取维基百科页面文章为例]-Claude工具调用教程
      • 第2章:ClaudeAPI如何构建工具并调用[以计算器工具调用为例]-Claude工具调用教程
      • 第1章:工具使用/函数调用介绍和概述-Claude函数工具调用教程
    • ClaudeAPI基础入门教程
      • 第2章:构建简单的多轮聊天机器人-ClaudeAPI基础入门教程
      • 第1章:Claude SDK安装和使用-CLaudeAPI基础入门教程
      • Claude API基础知识课程简介
  • AI大模型
    • chatgpt
      • OpenAI o1-preview 简介和如何使用
      • 如何设置使用新的 ChatGPT o1 模型
      • OpenAI o1 性能评估和学习推理思维链介绍
      • OpenAI o1-mini和gpt4o性能对比介绍
      • OpenAI o1 模型与GPT-4o模型使用区别和场景
    • Claude
      • Claude的project介绍和创建
      • Claude Sonnet 3.5 API 教程
      • Claude 3 最新注册使用教程!(国内版)-性能完爆GPT4o!
      • Claude3.5 vs GPT4 谁才是最强大模型?
      • Claude国内无法登录的解决办法
      • Claude3.5 Sonnet的详细介绍
      • Claude如何写好提示词
      • Claude快速入门指南
    • Llama3
      • Llama3.2最新90b 11b 3b 1b模型介绍-AI大模型
      •  Llama Stack入门安装指南[结合Ollama]-AI大模型
      • Llama 3.2介绍最全技术报告-AI大模型
      • Llama 3.1技术报告:Meta推出最强开源大模型
      • Meta 的 Llama 3.1 405B工作原理、用例等
      • 如何在本地安装和运行 Meta Llama 3.1
      • 使用 Ollama和租用GPU 运行 Llama 3.1 405B:分步指南
      • Llama3.1 Colab 微调指南
  • AI论文
    • OpenAIo1原理解读:重复采样扩展推理计算[Large Language Monkeys: Scaling Inference Compute with Repeated Sampling]-AI论文
    • OpenIAo1原理解读:Q*强化学习与启发式搜索推理框架[Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning]-AI论文
    • OpenAIo1原理解读:基于蒙特卡罗树搜索的自我博弈互相推理[Self-play Mutual Reasoning]-AI论文
    • openAIo1原理解读:推理增加计算量提高大模型效果[Scaling LLM Test-Time Compute Optimally can be More Effective]-AI论文
    • OpenAI o1大模型原理解读:自博弈Self-play强化学习方法[A Survey on Self-play Methods in Reinforcement Learning]-AI论文
    • OpenAI o1大模型原理解读:Quiet-STaR 推理思维链[Language Models Can Teach Themselves to Think Before Speaking]-AI论文
    • OpenAI o1大模型原理论文汇总[Awesome LLM Strawberry]-AI论文
  • AI应用
    •  Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具-AI应用
    • AI Scientist:用于全自动科学发现的写论文应用-AI应用
    • ai-data-analysis-MulitAgent:一种用于自动化复杂研究过程的先进多智能体系统-AI应用
    • Aider:最好的免费开源 AI 编码助手,自动git提交代码!-AI应用
    • AIHawk:你的 AI 求职助手,自动化申请、获得个性化推荐,更快找到您梦想的工作-AI应用
  • 加入会员社区
  • About Us

© 2024 ClaudeAI大模型学习社区 所有属于ICP备案:豫ICP备2024068873号-1号.

Welcome Back!

Login to your account below

Forgotten Password? Sign Up

Create New Account!

Fill the forms below to register

All fields are required. Log In

Retrieve your password

Please enter your username or email address to reset your password.

Log In