• Privacy & Policy
  • Contact
2025-05-21 02:47:15
  • Login
  • Register
欢迎来到ClaudeAI博客社区
  • Home
  • AI教程
    • 大模型应用实践课程
      • 大型语言模型课程介绍
      • 第1-1章:使用 OpenAI 创建您的第一个聊天机器人-大模型应用实践教程
      • 第1-2章:使用 OpenAI 创建简单的自然语言到 SQL-大模型应用实践教程
    • Claude应用开发教程
      • 第1章:基本提示结构-Claude应用开发教程
      • 第 2 章:基本函数构建-Claude开发应用教程
      • 第3章:角色扮演提示-Claude应用开发教程
      • 第4章 分离数据和指令-Claude开发应用教程
      • 第 5 章:格式化输出-Claude应用开发教程
      • 第6章:预知(Thinking Step by Step)-Claude应用开发教程
    • Claude提示词教程
      • 第 1 课:基本提​​示词技术-Claude提示词工程课程
      • 第 2 课:医疗病例摘要助手[XML-JSON格式化输出]-Claude提示词工程教程
      • 第 3 课:提示工程迭代流程-Claude提示词工程课程
      • 第 4 课:客服聊天记录总结生成器-Claude提示词课程
    • Claude函数/工具调用教程
      • 第3章:使用工具调用强制 JSON结构输出[以提取维基百科页面文章为例]-Claude工具调用教程
      • 第2章:ClaudeAPI如何构建工具并调用[以计算器工具调用为例]-Claude工具调用教程
      • 第1章:工具使用/函数调用介绍和概述-Claude函数工具调用教程
    • ClaudeAPI基础入门教程
      • 第2章:构建简单的多轮聊天机器人-ClaudeAPI基础入门教程
      • 第1章:Claude SDK安装和使用-CLaudeAPI基础入门教程
      • Claude API基础知识课程简介
  • AI大模型
    • chatgpt
      • OpenAI o1-preview 简介和如何使用
      • 如何设置使用新的 ChatGPT o1 模型
      • OpenAI o1 性能评估和学习推理思维链介绍
      • OpenAI o1-mini和gpt4o性能对比介绍
      • OpenAI o1 模型与GPT-4o模型使用区别和场景
    • Claude
      • Claude的project介绍和创建
      • Claude Sonnet 3.5 API 教程
      • Claude 3 最新注册使用教程!(国内版)-性能完爆GPT4o!
      • Claude3.5 vs GPT4 谁才是最强大模型?
      • Claude国内无法登录的解决办法
      • Claude3.5 Sonnet的详细介绍
      • Claude如何写好提示词
      • Claude快速入门指南
    • Llama3
      • Llama3.2最新90b 11b 3b 1b模型介绍-AI大模型
      •  Llama Stack入门安装指南[结合Ollama]-AI大模型
      • Llama 3.2介绍最全技术报告-AI大模型
      • Llama 3.1技术报告:Meta推出最强开源大模型
      • Meta 的 Llama 3.1 405B工作原理、用例等
      • 如何在本地安装和运行 Meta Llama 3.1
      • 使用 Ollama和租用GPU 运行 Llama 3.1 405B:分步指南
      • Llama3.1 Colab 微调指南
  • AI论文
    • OpenAIo1原理解读:重复采样扩展推理计算[Large Language Monkeys: Scaling Inference Compute with Repeated Sampling]-AI论文
    • OpenIAo1原理解读:Q*强化学习与启发式搜索推理框架[Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning]-AI论文
    • OpenAIo1原理解读:基于蒙特卡罗树搜索的自我博弈互相推理[Self-play Mutual Reasoning]-AI论文
    • openAIo1原理解读:推理增加计算量提高大模型效果[Scaling LLM Test-Time Compute Optimally can be More Effective]-AI论文
    • OpenAI o1大模型原理解读:自博弈Self-play强化学习方法[A Survey on Self-play Methods in Reinforcement Learning]-AI论文
    • OpenAI o1大模型原理解读:Quiet-STaR 推理思维链[Language Models Can Teach Themselves to Think Before Speaking]-AI论文
    • OpenAI o1大模型原理论文汇总[Awesome LLM Strawberry]-AI论文
  • AI应用
    •  Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具-AI应用
    • AI Scientist:用于全自动科学发现的写论文应用-AI应用
    • ai-data-analysis-MulitAgent:一种用于自动化复杂研究过程的先进多智能体系统-AI应用
    • Aider:最好的免费开源 AI 编码助手,自动git提交代码!-AI应用
    • AIHawk:你的 AI 求职助手,自动化申请、获得个性化推荐,更快找到您梦想的工作-AI应用
  • 加入会员社区
  • About Us
No Result
View All Result
  • Home
  • AI教程
    • 大模型应用实践课程
      • 大型语言模型课程介绍
      • 第1-1章:使用 OpenAI 创建您的第一个聊天机器人-大模型应用实践教程
      • 第1-2章:使用 OpenAI 创建简单的自然语言到 SQL-大模型应用实践教程
    • Claude应用开发教程
      • 第1章:基本提示结构-Claude应用开发教程
      • 第 2 章:基本函数构建-Claude开发应用教程
      • 第3章:角色扮演提示-Claude应用开发教程
      • 第4章 分离数据和指令-Claude开发应用教程
      • 第 5 章:格式化输出-Claude应用开发教程
      • 第6章:预知(Thinking Step by Step)-Claude应用开发教程
    • Claude提示词教程
      • 第 1 课:基本提​​示词技术-Claude提示词工程课程
      • 第 2 课:医疗病例摘要助手[XML-JSON格式化输出]-Claude提示词工程教程
      • 第 3 课:提示工程迭代流程-Claude提示词工程课程
      • 第 4 课:客服聊天记录总结生成器-Claude提示词课程
    • Claude函数/工具调用教程
      • 第3章:使用工具调用强制 JSON结构输出[以提取维基百科页面文章为例]-Claude工具调用教程
      • 第2章:ClaudeAPI如何构建工具并调用[以计算器工具调用为例]-Claude工具调用教程
      • 第1章:工具使用/函数调用介绍和概述-Claude函数工具调用教程
    • ClaudeAPI基础入门教程
      • 第2章:构建简单的多轮聊天机器人-ClaudeAPI基础入门教程
      • 第1章:Claude SDK安装和使用-CLaudeAPI基础入门教程
      • Claude API基础知识课程简介
  • AI大模型
    • chatgpt
      • OpenAI o1-preview 简介和如何使用
      • 如何设置使用新的 ChatGPT o1 模型
      • OpenAI o1 性能评估和学习推理思维链介绍
      • OpenAI o1-mini和gpt4o性能对比介绍
      • OpenAI o1 模型与GPT-4o模型使用区别和场景
    • Claude
      • Claude的project介绍和创建
      • Claude Sonnet 3.5 API 教程
      • Claude 3 最新注册使用教程!(国内版)-性能完爆GPT4o!
      • Claude3.5 vs GPT4 谁才是最强大模型?
      • Claude国内无法登录的解决办法
      • Claude3.5 Sonnet的详细介绍
      • Claude如何写好提示词
      • Claude快速入门指南
    • Llama3
      • Llama3.2最新90b 11b 3b 1b模型介绍-AI大模型
      •  Llama Stack入门安装指南[结合Ollama]-AI大模型
      • Llama 3.2介绍最全技术报告-AI大模型
      • Llama 3.1技术报告:Meta推出最强开源大模型
      • Meta 的 Llama 3.1 405B工作原理、用例等
      • 如何在本地安装和运行 Meta Llama 3.1
      • 使用 Ollama和租用GPU 运行 Llama 3.1 405B:分步指南
      • Llama3.1 Colab 微调指南
  • AI论文
    • OpenAIo1原理解读:重复采样扩展推理计算[Large Language Monkeys: Scaling Inference Compute with Repeated Sampling]-AI论文
    • OpenIAo1原理解读:Q*强化学习与启发式搜索推理框架[Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning]-AI论文
    • OpenAIo1原理解读:基于蒙特卡罗树搜索的自我博弈互相推理[Self-play Mutual Reasoning]-AI论文
    • openAIo1原理解读:推理增加计算量提高大模型效果[Scaling LLM Test-Time Compute Optimally can be More Effective]-AI论文
    • OpenAI o1大模型原理解读:自博弈Self-play强化学习方法[A Survey on Self-play Methods in Reinforcement Learning]-AI论文
    • OpenAI o1大模型原理解读:Quiet-STaR 推理思维链[Language Models Can Teach Themselves to Think Before Speaking]-AI论文
    • OpenAI o1大模型原理论文汇总[Awesome LLM Strawberry]-AI论文
  • AI应用
    •  Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具-AI应用
    • AI Scientist:用于全自动科学发现的写论文应用-AI应用
    • ai-data-analysis-MulitAgent:一种用于自动化复杂研究过程的先进多智能体系统-AI应用
    • Aider:最好的免费开源 AI 编码助手,自动git提交代码!-AI应用
    • AIHawk:你的 AI 求职助手,自动化申请、获得个性化推荐,更快找到您梦想的工作-AI应用
  • 加入会员社区
  • About Us
No Result
View All Result
欢迎来到ClaudeAI博客社区
No Result
View All Result
Home AI论文

OpenIAo1原理解读:Q*强化学习与启发式搜索推理框架[Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning]-AI论文

小远 by 小远
2024-09-27
in AI论文
0

目录

Toggle
  • 1. 引言 (Introduction)
  • 2. 相关工作 (Related Works)
  • 3. 预备知识 (Preliminary)
    • 将LLMs的多步骤推理形式化为马尔可夫决策过程 (Formulate the Multi-step Reasoning of LLMs as an MDP)
    • A搜索 (A Search)
  • 4. Q*:一种通用、灵活的审慎规划框架 (Q*: A General, Versatile and Agile Deliberation Framework for LLMs)
  • 5. 实验 (Experiments)
    • 实验设置 (Experimental Settings)
    • 实验结果 (Experimental Results)
  • 6. 结论 (Conclusion)

1. 引言 (Introduction)

大型语言模型(LLMs)在许多自然语言任务中展现了令人印象深刻的能力。然而,LLMs的自回归生成过程使得它们在进行多步骤推理时容易产生错误、幻觉以及不一致的陈述。在本文中,我们将LLMs的多步骤推理问题转化为一个启发式搜索问题,并提出了一种名为Q的通用、灵活且敏捷的框架,通过审慎的规划来引导LLMs的解码过程。我们通过学习一个即插即用的Q值模型作为启发函数,估计预期的未来奖励,Q能够有效地指导LLMs选择最具前景的下一步推理步骤,而无需针对当前任务对LLMs进行微调,从而避免了巨大的计算开销以及在其他任务中性能下降的潜在风险。在GSM8K、MATH和MBPP数据集上的大量实验表明,我们的方法在现有开源LLMs的基础上显著提高了推理性能。

鉴于此,我们提出了Q*,一个用于通过深思熟虑规划来提高LLMs多步推理能力的通用、多功能和敏捷的框架。与现有的深思熟虑方法不同, 我们的方法不依赖领域知识来设计启发式函数。此外,通过利用即插即用的Q值模型作为启发式函数,我们的Q可以有效地解决各种任务,引导LLMs选择最有前途的下一步,而无需预先对LLMs进行微调,从而避免了显著的计算开销和在其他任务上可能出现性能下降的风险。最后,Q在执行深思熟虑时只考虑单个步骤,这比MCTS中完成模拟的成本要低得多。


2. 相关工作 (Related Works)

LLMs的对齐已成为防止模型输出偏离人类期望的重要技术。监督微调(SFT)可能是最基本的对齐方法,直接通过最小化输出与真实标签之间的交叉熵损失来进行模型调整。另一方面,通过人类反馈的强化学习(RLHF)首先通过人类偏好学习奖励模型(RM),然后使用强化学习算法优化SFT模型,以最大化从RM中获得的累积奖励。直接偏好优化(DPO)通过人类反馈中的排序信息直接对齐LLMs,而无需显式学习RM。最近,Aligner作为一种模型无关的对齐方法提出,通过学习重写LLMs的输出。与这些方法相比,Q具有不同的优点。与SFT和Aligner不同,Q不依赖于大规模的人工标注偏好对,这些对非常昂贵;与RLHF和DPO不同,Q*不修改LLMs的参数,避免了在其他任务中性能下降的风险。

通过规划增强LLMs的能力。Tree-of-thoughts(ToT)通过基本的树搜索算法(如宽度优先搜索或深度优先搜索)探索问题解决的中间步骤,以提高LLMs的推理能力。同样,A搜索和蒙特卡洛树搜索(MCTS)被应用于作为一种规划技术,帮助LLMs在解决复杂的推理问题时提高性能。不幸的是,这些方法中使用的效用函数通常需要为每个具体任务进行复杂的设计,难以推广到新的场景中。此外,使用MCTS进行规划通常需要大量的回合来找到高质量的答案,这大大降低了整体解码过程的速度。为了解决这些问题,我们提出了Q框架,它使用即插即用的Q值模型作为启发函数,通过不修改LLMs参数的方式有效地引导它们选择最有前途的推理步骤,适用于各种推理任务。

LLMs用于数学推理和代码生成:

数学推理和代码生成要求LLMs对关系、数量和逻辑进行多步推理,这本质上具有挑战性。当前的技术包括:

1)提示工程,通过复杂的提示触发LLMs的潜在能力。然而,构建这样的提示需要广泛的专业知识和逐案调整,难以推广到不同的任务;

2)使用大量数学/代码语料库对LLMs进行微调,这通常以巨大的计算负担为代价,并可能损害其他任务的性能;

3)训练RM/验证器来对候选解决方案进行排名,而不提供中间步骤的任何指导。

与之不同,我们的Q*利用即插即用的Q值模型来指导LLMs的深思熟虑过程,有效地为每个中间步骤提供指导,而无需修改LLMs的参数。此外,通过将LLMs的多步推理建模为启发式搜索问题,我们的方法可以推广到各种推理任务,而无需繁琐的提示工程。


3. 预备知识 (Preliminary)

将LLMs的多步骤推理形式化为马尔可夫决策过程 (Formulate the Multi-step Reasoning of LLMs as an MDP)

将问题q作为输入,LLMs的答案生成过程可以分解为多个推理步骤,其中最终答案序列a可以看作是这些T个单步推理步骤的连接,公式为a = [a1; a2; …; aT]。每个步骤可以是LLMs输出的单行或固定数量的token。在此视角下,我们可以将LLMs的多步骤推理过程概念化为一个马尔可夫决策过程(MDP)⟨S,A,T,R,γ⟩,其中状态st ∈ S表示输入问题和前面生成的推理步骤的连接,动作at ∈ A表示LLMs生成的下一个推理步骤,状态转移T通过简单的连接操作将当前状态st转换为下一个状态st+1,奖励函数R用于衡量问题解决得有多好,γ是折扣因子。奖励函数通常基于结果给出。也就是说,它通过将最终结果与真实值进行比较来给予奖励:

A搜索 (A Search)

A是一种重要的启发式搜索算法,广泛应用于审慎规划、多智能体路径规划和约束推理。最初,A是为在路径规划问题中从源点s到目标点g寻找最短路径而提出的。它为每个前沿顶点n关联一个值f(n) = g(n) + h(n),其中g(n)是从源点s累积的路径成本,h(n)是估算从n到目标g的最短路径成本的启发值。该算法采用最优优先搜索策略,即每次迭代总是选择f值最小的顶点进行扩展,直到到达目标。当启发式h(·)是可接受的时,A*保证找到最优路径。


4. Q*:一种通用、灵活的审慎规划框架 (Q*: A General, Versatile and Agile Deliberation Framework for LLMs)

现代LLMs以自回归方式生成自然语言,即在给定先前生成的token序列的情况下预测下一个token。因此,当LLMs应用于多步骤推理问题时,任何先前步骤中的错误都可能导致后续推理路径中引入错误、幻觉和不一致,最终未能解决当前问题。鉴于LLMs生成每个token的计算资源有限,无法在解决难题时投入更多的计算资源。简而言之,LLMs无法执行深入的审慎思考,这是解决复杂多步骤推理问题所必需的。

我们提出了Q框架,这是一种通用、灵活且敏捷的框架,基于A启发式搜索算法,在不对LLMs进行任务特定微调的前提下,有效地引导LLMs选择最具前景的下一步推理步骤。更具体地说,我们将为给定问题找到最优推理序列的过程转化为启发式搜索问题,其中每个状态st都关联一个f值,用以估计如果我们扩展st所能获得的效用值:

[ f(st) = g(st) + λh(st), ]

其中g(st)表示从初始状态s1到当前状态st的累积效用,h(st)是从st推导出正确答案的可能性估计的启发值,λ是平衡g(st)和h(st)重要性的系数。

我们提出使用基于过程的奖励函数RP,该函数编码了推理任务的先验知识或偏好来计算累积效用g(st):

[ g(st) = Agg(RP(s1), …, RP(si), …, RP(st)), ]

其中Agg ∈ {min,max,∑,[−1]}表示聚合函数,用于总结从s1到st路径中的奖励。我们使用状态st的最优Q值作为启发值h(st),即:

[ f(st) = g(st) + λmax_{at ∈ A} Q∗(st, at). ]

在实际操作中,由于枚举所有可能的下一步推理步骤是不可行的,我们限制备选步骤为LLM返回的top-K候选,并将公式表示为:

[ f(st) = g(st) + λmax_{at ∈ top-K(πθ(·|st))} Q∗(st, at). ]


5. 实验 (Experiments)

实验设置 (Experimental Settings)

我们在两个数学推理任务和一个代码生成任务上验证了Q*框架的有效性,数据集的

统计如表所示。

1) GSM8K是一个包含小学数学问题的数据集,解决方案以逐步格式给出,最后一行是精确的数值答案;

2) MATH是一个包含高中数学竞赛问题的数据集,解决方案以LaTeX代码和自然语言混合格式给出;

3) MBPP是一个入门级的Python编程数据集,其中问题是编码挑战,每个问题都有一个测试用例。

实验结果 (Experimental Results)

在GSM8K、MATH和MBPP数据集上的实验结果表明,Q框架能够显著提升现有LLMs的多步骤推理能力,尤其是在无需微调模型参数的情况下,取得了更好的推理效果。具体实验结果如表所示,Q方法与其他验证方法相比,表现出更好的性能,特别是在规划方法的比较中,Q*框架在累积效用的帮助下表现优于其他方法。


6. 结论 (Conclusion)

解决具有挑战性的多步骤推理问题需要LLMs超越自回归的token生成方式,进行更深入的审慎推理。本文提出了Q*,一种通用、灵活且敏捷的审慎推理框架。与现有的审慎推理方法不同,Q不需要为每个具体任务设计复杂的效用函数,它仅依赖于真实值来训练Q值模型,能够轻松应用于各种推理任务。此外,通过使用即插即用的Q值模型作为启发函数,Q可以有效地指导LLMs解决不同任务,而无需提前对LLMs进行微调,这避免了在其他任务中性能下降的风险。最后,我们的Q*框架具有敏捷性,因为它每次仅考虑一个步骤,而不是像蒙特卡洛树搜索(MCTS)那样需要完整的回合推理。在数学推理和代码生成任务上的广泛实验验证了我们方法的优越性。

Tags: OpenIAo1Reasoning原理解读强化学习推理框架
Previous Post

Llama3.2最新90b 11b 3b 1b模型介绍-AI大模型

Next Post

OpenAIo1原理解读:重复采样扩展推理计算[Large Language Monkeys: Scaling Inference Compute with Repeated Sampling]-AI论文

小远

小远

大家好,我是小远,毕业于华南理工大学。作为一名AI算法工程师,我创立了个人博客,旨在成为连接AI技术前沿与广大爱好者的桥梁。宗旨是:记录并分享关于AI大模型的最新知识、研究成果及行业动态,致力于普及AI知识,降低技术门槛,让更多人能够了解并参与到这场科技革命中来。

Related Posts

Slow Perception: Let’s Perceive Geometric Figures Step-by-step[缓慢感知:让我们逐步感知几何图形]-AI论文
AI论文

Slow Perception: Let’s Perceive Geometric Figures Step-by-step[缓慢感知:让我们逐步感知几何图形]-AI论文

2025-01-12
Large Concept Models:Language Modeling in a Sentence Representation Space[大型概念模型:在句子表示空间中的语言建模]-AI论文
AI论文

Large Concept Models:Language Modeling in a Sentence Representation Space[大型概念模型:在句子表示空间中的语言建模]-AI论文

2025-01-06
Cultural Evolution of Cooperation among LLM Agents[大型语言模型代理间合作的文化演化]-AI论文
AI论文

Cultural Evolution of Cooperation among LLM Agents[大型语言模型代理间合作的文化演化]-AI论文

2025-01-06
Load More
Next Post
OpenAIo1原理解读:重复采样扩展推理计算[Large Language Monkeys: Scaling Inference Compute with Repeated Sampling]-AI论文

OpenAIo1原理解读:重复采样扩展推理计算[Large Language Monkeys: Scaling Inference Compute with Repeated Sampling]-AI论文

Please login to join discussion
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs[不要过度思考2+3等于几 在类LLM的过度思考上]-AI论文
claude

Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs[不要过度思考2+3等于几 在类LLM的过度思考上]-AI论文

by 小远
2025-01-12
0

图1:在图(a)中过度思考问题的示意图:...

Read more
Slow Perception: Let’s Perceive Geometric Figures Step-by-step[缓慢感知:让我们逐步感知几何图形]-AI论文
AI论文

Slow Perception: Let’s Perceive Geometric Figures Step-by-step[缓慢感知:让我们逐步感知几何图形]-AI论文

by 小远
2025-01-12
0

摘要 近期,“视觉感知”开始进入人们的视...

Read more
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning[结合大型语言模型与过程奖励引导的树搜索以提升复杂推理能力]-AI论文
claude

Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning[结合大型语言模型与过程奖励引导的树搜索以提升复杂推理能力]-AI论文

by 小远
2025-01-12
0

摘要 尽管大型语言模型近期取得了显著进展...

Read more
Large Concept Models:Language Modeling in a Sentence Representation Space[大型概念模型:在句子表示空间中的语言建模]-AI论文
AI论文

Large Concept Models:Language Modeling in a Sentence Representation Space[大型概念模型:在句子表示空间中的语言建模]-AI论文

by 小远
2025-01-06
0

大型语言模型(LLMs)已经彻底改变了人...

Read more

Claude大模型学习社区

希望成为中国第一个大模型教程和AI论文的分享乐园!帮助每一位同学快速上入门大模型!

分类

  • AIRAG
  • AI应用
  • AI提示库
  • AI论文
  • artifacts
  • chatgpt
  • claude
  • claude教程
  • Cursor
  • gemini
  • llama
  • ollama
  • openAIo1
  • prompt工程
  • 文心一言

标签

Agent Agents AI工具 AI应用 AI提示库 AI论文 API chatgpt claude Claude3.5 Sonnet COT css Cursor CursorAI ernie html IDE Llama 3 llama3.1 llama3.2 LLM meta o1 o1-preview ollama OpenAI openAIo1 OpenAI o1 openAIo1原理 prompt rag Reasoning Swarm web 函数构建 原理解读 合成数据 多智能体 大模型 强化学习 思维链 接码平台 提示词 智能体 检索增强
  • Home
  • AI教程
  • AI大模型
  • AI论文
  • AI应用
  • 加入会员社区
  • About Us

© 2024 ClaudeAI大模型学习社区 所有属于ICP备案:豫ICP备2024068873号-1号.

No Result
View All Result
  • Home
  • AI教程
    • 大模型应用实践课程
      • 大型语言模型课程介绍
      • 第1-1章:使用 OpenAI 创建您的第一个聊天机器人-大模型应用实践教程
      • 第1-2章:使用 OpenAI 创建简单的自然语言到 SQL-大模型应用实践教程
    • Claude应用开发教程
      • 第1章:基本提示结构-Claude应用开发教程
      • 第 2 章:基本函数构建-Claude开发应用教程
      • 第3章:角色扮演提示-Claude应用开发教程
      • 第4章 分离数据和指令-Claude开发应用教程
      • 第 5 章:格式化输出-Claude应用开发教程
      • 第6章:预知(Thinking Step by Step)-Claude应用开发教程
    • Claude提示词教程
      • 第 1 课:基本提​​示词技术-Claude提示词工程课程
      • 第 2 课:医疗病例摘要助手[XML-JSON格式化输出]-Claude提示词工程教程
      • 第 3 课:提示工程迭代流程-Claude提示词工程课程
      • 第 4 课:客服聊天记录总结生成器-Claude提示词课程
    • Claude函数/工具调用教程
      • 第3章:使用工具调用强制 JSON结构输出[以提取维基百科页面文章为例]-Claude工具调用教程
      • 第2章:ClaudeAPI如何构建工具并调用[以计算器工具调用为例]-Claude工具调用教程
      • 第1章:工具使用/函数调用介绍和概述-Claude函数工具调用教程
    • ClaudeAPI基础入门教程
      • 第2章:构建简单的多轮聊天机器人-ClaudeAPI基础入门教程
      • 第1章:Claude SDK安装和使用-CLaudeAPI基础入门教程
      • Claude API基础知识课程简介
  • AI大模型
    • chatgpt
      • OpenAI o1-preview 简介和如何使用
      • 如何设置使用新的 ChatGPT o1 模型
      • OpenAI o1 性能评估和学习推理思维链介绍
      • OpenAI o1-mini和gpt4o性能对比介绍
      • OpenAI o1 模型与GPT-4o模型使用区别和场景
    • Claude
      • Claude的project介绍和创建
      • Claude Sonnet 3.5 API 教程
      • Claude 3 最新注册使用教程!(国内版)-性能完爆GPT4o!
      • Claude3.5 vs GPT4 谁才是最强大模型?
      • Claude国内无法登录的解决办法
      • Claude3.5 Sonnet的详细介绍
      • Claude如何写好提示词
      • Claude快速入门指南
    • Llama3
      • Llama3.2最新90b 11b 3b 1b模型介绍-AI大模型
      •  Llama Stack入门安装指南[结合Ollama]-AI大模型
      • Llama 3.2介绍最全技术报告-AI大模型
      • Llama 3.1技术报告:Meta推出最强开源大模型
      • Meta 的 Llama 3.1 405B工作原理、用例等
      • 如何在本地安装和运行 Meta Llama 3.1
      • 使用 Ollama和租用GPU 运行 Llama 3.1 405B:分步指南
      • Llama3.1 Colab 微调指南
  • AI论文
    • OpenAIo1原理解读:重复采样扩展推理计算[Large Language Monkeys: Scaling Inference Compute with Repeated Sampling]-AI论文
    • OpenIAo1原理解读:Q*强化学习与启发式搜索推理框架[Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning]-AI论文
    • OpenAIo1原理解读:基于蒙特卡罗树搜索的自我博弈互相推理[Self-play Mutual Reasoning]-AI论文
    • openAIo1原理解读:推理增加计算量提高大模型效果[Scaling LLM Test-Time Compute Optimally can be More Effective]-AI论文
    • OpenAI o1大模型原理解读:自博弈Self-play强化学习方法[A Survey on Self-play Methods in Reinforcement Learning]-AI论文
    • OpenAI o1大模型原理解读:Quiet-STaR 推理思维链[Language Models Can Teach Themselves to Think Before Speaking]-AI论文
    • OpenAI o1大模型原理论文汇总[Awesome LLM Strawberry]-AI论文
  • AI应用
    •  Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具-AI应用
    • AI Scientist:用于全自动科学发现的写论文应用-AI应用
    • ai-data-analysis-MulitAgent:一种用于自动化复杂研究过程的先进多智能体系统-AI应用
    • Aider:最好的免费开源 AI 编码助手,自动git提交代码!-AI应用
    • AIHawk:你的 AI 求职助手,自动化申请、获得个性化推荐,更快找到您梦想的工作-AI应用
  • 加入会员社区
  • About Us

© 2024 ClaudeAI大模型学习社区 所有属于ICP备案:豫ICP备2024068873号-1号.

Welcome Back!

Login to your account below

Forgotten Password? Sign Up

Create New Account!

Fill the forms below to register

All fields are required. Log In

Retrieve your password

Please enter your username or email address to reset your password.

Log In