1. 引言 (Introduction)
这篇论文的引言部分首先从信息搜集的重要性入手,阐述了在面临不确定性时,主动获取关键信息的能力对许多实际应用场景至关重要。这包括诸如医疗诊断和故障排查等任务,常常需要决策者主动提问以获取更多的背景信息。例如,在医疗诊断中,医生通常会通过询问病人未主动报告的症状来做出准确的判断。这就引出了一种需求:大语言模型(LLM)需要具备主动搜集信息的能力。
1.1信息搜集的背景
作者指出,当前的大部分研究工作主要集中在提高大语言模型基于现有信息进行推理或规划的能力,而如何高效地搜集信息却鲜有涉及。大多数现有的LLM,比如通过“Chain-of-Thought(CoT)”和“Tree-of-Thought(ToT)”等方法,虽然能够表现出一定的推理能力,但它们主要侧重于在模型内部生成“中间思想”,而非主动提出问题,来主动搜集任务所需的信息。
在很多应用场景中,模型无法在一开始就获得所有必要的信息,必须通过对话或交互主动提问以获取新的信息。典型的例子包括医生与病人间的对话,医生通过持续提问来逐步揭示与诊断相关的关键信息(如图1所示,患者一开始只是提到头痛,后来通过医生询问,逐步揭示出光敏感和头部受伤的信息,从而得出准确的诊断——脑震荡综合征)。
1.2Uncertainty of Thoughts(UoT)算法的提出
为了解决这个问题,作者提出了Uncertainty of Thoughts(UoT)算法。这一算法的核心在于增强大语言模型主动提问以减少不确定性的能力。UoT结合了以下几个关键点:
- 不确定性感知的模拟方法:该方法使得模型能够模拟未来可能出现的场景,以及这些场景发生的概率。
- 基于信息增益的奖励机制:通过给模型设置奖励,激励其主动提出问题以获取能够减少不确定性的信息。
- 奖励传播机制:通过传播和累积奖励,模型能够选择最优的问题以最大化预期收益。
1.3 实验与结果
为了验证UoT算法的有效性,作者在多个任务上进行了实验,包括医疗诊断、故障排查以及经典的20问游戏。结果表明,UoT显著提高了LLMs在任务完成率上的表现,相较于直接提示,任务成功率平均提升了38.1%。此外,UoT还提高了任务的效率,减少了模型完成任务所需的提问次数。
1.4 现有问题的局限
尽管之前的技术,如CoT和ToT,在某种程度上提升了大语言模型的推理能力,但它们并没有充分考虑模型如何通过主动提问来减少自身的不确定性。因此,这些方法缺乏有效的信号来指引模型提出能够减少不确定性、获取关键信息的问题。
1..5 UoT算法的贡献
引言部分总结了UoT的几项主要贡献:
- 提出了UoT算法,使得大语言模型能够通过建模自身的不确定性,主动提出有效问题以减少不确定性。
- 提供了一个包括3项任务和5个数据集的基准测试,专门用于评估模型提问获取信息的能力。
- 实验结果表明,UoT能够显著提高多种大语言模型的成功率和效率。特别是在复杂的交互环境中,如医疗诊断和故障排查,UoT展现了卓越的性能。
1.6 总结
引言部分的核心在于阐述了信息搜集在不确定性情境中的重要性,特别是在大语言模型的应用中。通过提出UoT算法,作者希望解决模型在任务完成过程中主动搜集信息的难题,并通过多个实验验证了该方法的有效性。
2. 方法论 (Methodology)
在“方法论”部分,作者详细介绍了**Uncertainty of Thoughts(UoT)**算法的技术细节和工作流程。UoT的目的是通过引导大语言模型(LLMs)在对话中提出问题,主动减少模型对环境或任务的不确定性,从而提高模型在信息搜集任务中的表现。此部分可以分为几个关键小节来逐步解读。
2.1 问题表述 (Problem Formulation)
作者首先提出了UoT算法解决的问题框架。这个问题框架包括两个核心角色:
- 提问者(Questioner):由大语言模型(LLM)扮演,负责通过一系列问题来减少对环境或任务的不确定性,最终找到所需的答案。
- 回答者(Answerer):由人类或模拟器扮演,负责根据提问者的问题给出相应答案。
为了清晰地描述这一互动过程,作者引入了一个可能性空间(Possibility Space),用符号 Ω 表示所有可能的选项。在每个给定场景中,存在一个“真实选项” ω,而提问者的目标就是通过不断提问,逐渐缩小可能性空间,最终锁定这个真实选项。例如,在医疗诊断场景中,Ω 可能是所有可能的疾病(如支气管炎、流感等),而 ω 就是患者实际患有的疾病。
2.2 Uncertainty of Thoughts:概述 (Uncertainty of Thoughts: Overview)
在概述中,作者进一步详细解释了UoT的基本思路。UoT的核心任务是帮助大语言模型通过提出问题来主动减少不确定性,从而提高任务完成率。
UoT的流程可以分为以下几个主要步骤:
- 问题生成与模拟:模型生成若干候选问题,并对每个问题的回答进行模拟,以构建未来可能场景的决策树。
- 基于不确定性的奖励计算:模型根据回答减少不确定性的程度来计算奖励。信息增益越大,奖励越高。
- 奖励传播机制:通过奖励传播机制,模型能够从树状结构中的每个问题节点获得累积奖励,最终选择具有最高预期奖励的问题进行提问。
2.3 问题生成与模拟 (Question Generation and Simulation)
在这一部分,作者详细描述了如何生成问题并进行模拟。
- 问题生成
:提问者在每个互动步骤中,根据当前的对话历史和可能性空间,生成多个候选问题。例如,在医疗诊断中,提问者可能会生成类似“你有发烧吗?”或“你是否呕吐?”的问题。这些问题由大语言模型生成,并根据历史互动信息进行定制。
- 多步模拟
:对于每个生成的候选问题,模型通过树状结构模拟未来的几步互动。决策树的节点有两类:
通过模拟这些节点,模型能够构建出未来的多种可能场景,并逐步计算不确定性。
2.4 基于不确定性的奖励计算 (Uncertainty-Based Reward Calculation)
为了评估每个问题的有效性,作者使用了基于信息增益的奖励机制。信息增益是一种衡量不确定性减少的标准,源自信息论中的熵(Entropy)概念。
熵衡量了某一随机变量的不确定性,熵值越高,表示变量的未知程度越大。在UoT中,提问者的目标是通过问题的回答减少可能性空间的熵值,从而降低不确定性。每个回答节点都有两个可能的分支:“是”或“否”,每个分支对应一个概率,通过这些概率,模型能够计算出信息增益,并将其作为该问题的奖励。
公式方面,信息增益的计算可以用以下方法表示:
- H(X) 表示初始状态下的熵。
- pA 和 pN 表示回答“是”和“否”的概率。
- HA(X) 和 HN(X) 表示给出“是”或“否”回答后,剩余的熵值。
通过这些参数,作者能够计算出信息增益并用其来指导问题选择。
2.5 通过奖励传播选择问题 (Question Selection Via Reward Propagation)
为了提高问题选择的效果,作者引入了奖励传播机制,它通过累积多个步骤的奖励来帮助模型做出更优的决策。具体地,模型不仅仅考虑单个问题的直接信息增益,而是通过对未来可能互动步骤进行模拟,计算出每条路径上的累积奖励。
在决策树中,每个节点都会获得一个累积奖励,这个奖励是该节点及其父节点的所有奖励之和。通过这种方式,模型能够评估未来几步中可能的总信息增益,并选择带来最高期望收益的候选问题。
2.6 UoT总结 (UoT Summary)
在这一小节,作者对UoT算法的核心步骤进行了总结:
- 生成多个候选问题,并模拟未来场景。
- 计算基于不确定性的奖励。
- 通过奖励传播选择最优问题。
这一过程使得大语言模型能够主动提出问题来减少不确定性,而不是单纯依赖于现有的信息进行推理。
2.7 扩展与讨论 (Extensions and Discussion)
最后,作者讨论了UoT的扩展应用和未来发展方向。
- 开放集问题
:在某些实际应用中,提问者一开始并不知道可能性空间的大小(即“开放集”问题)。为了解决这个问题,作者提出了一种扩展方法:在互动过程中,提问者逐步构建可能性空间,并通过动态调整问题的生成和选择来减少不确定性。
- 优化效率的剪枝技术
:为了提高UoT的效率,作者提出了类似于**束搜索(Beam Search)**的剪枝技术,用来限制决策树中的路径数量,从而减少计算开销。
总结
方法论部分详细介绍了UoT算法的技术细节和实现步骤。通过问题生成与模拟、信息增益奖励机制和奖励传播机制,UoT能够帮助大语言模型在复杂任务中主动提问,以减少不确定性,提高任务完成的效率和成功率。
3. 实验 (Experiments)
在这一章节,作者通过详细的实验设计与结果展示,评估了Uncertainty of Thoughts(UoT)算法的性能。该部分主要分为三部分内容:实验设置、性能评估和分析。
3.1 实验设置 (Experimental Setup)
为了验证UoT算法的有效性,作者在不同任务和数据集上对UoT进行了一系列实验。以下是实验设置的主要内容:
实验对象:
- LLMs(大语言模型):为了评估UoT的普适性,实验中测试了多种大语言模型。这些模型包括Llama-3-70B-Instruct、Mistral-Large、Gemini-1.5-Pro、Claude-3-Opus和GPT-4。此外,还验证了一些早期发布的LLMs,如Llama 2-70B-Chat、GPT-3.5-turbo等。
基线方法:
作者选择了多种不同的基线方法,旨在与UoT进行对比,具体如下:
- Direct Prompting (DP):通过直接提示生成模型响应,属于传统的LLM任务完成方法。
- Planning Prompting (PP):受启发于规划型提示方法,让另一模型规划未来并生成相应问题。
- Chain-of-Thought (CoT):引导LLMs通过中间推理步骤来提升推理能力。
- Tree-of-Thoughts (ToT):通过构建决策树让模型进行多条推理路径探索。该方法有两种配置:原始ToT和经过改进的Adapted-ToT,后者侧重于通过启发式经验选择能减少搜索空间的提问。
任务与数据集:
实验设计了3个任务和5个数据集来评估UoT的性能:
- 20问游戏(20 Questions):提问者通过最多20个“是”或“否”的问题来猜测回答者想到的对象。这项任务用于评估模型通过提问来获取关键信息的能力。
- 简化医疗诊断任务(Medical Diagnosis):医生通过询问病人症状,试图确定病人的疾病。数据集包括DX和MedDG,前者包含104个医生与病人对话,后者包含17K对话。
- 故障排查任务(Troubleshooting):技术人员与客户互动,帮助客户排查设备或系统故障,使用了名为FloDial的数据集。
评价指标:
为了全面评估模型的表现,作者引入了以下三个评价指标:
- 成功率(Success Rate, SR):即模型成功完成任务的比例。
- 成功案例的平均对话长度(Mean Conversation Length in Successful Cases, MSC):指在成功完成的任务中,模型所需的平均提问轮数。
- 平均对话长度(Mean Conversation Length, MCL):即在所有任务中模型的平均提问轮数。
3.2 性能 (Performance)
在性能评估部分,作者将UoT算法与基线方法进行对比,展示了UoT在多个任务和数据集中的优势。
20问游戏
在20问游戏任务中,所有大语言模型(LLMs)在应用UoT后,表现均明显优于基线方法。具体表现如下:
- 使用UoT的GPT-4在“开放集”(open set)和“封闭集”(closed set)情况下,成功率分别提升了8.7%和21.5%,远高于基线方法。
- Llama-3-70B在开放集任务中,成功率从基线的34.2%提高到了36.9%;封闭集任务中从51.4%提升到55.9%。
- Claude-3-Opus的表现尤为显著,在开放集中UoT成功率达到了63.1%,相比基线方法有显著提升。
简化医疗诊断任务
在医疗诊断任务中,UoT的表现同样显著提升:
- 在DX数据集上,UoT应用于GPT-4时,成功率达到97.0%,显著高于直接提示方法的91.3%。
- MedDG数据集中,UoT在不同模型上的表现均优于基线,特别是在开放回答场景中,UoT展现了对开放式问答的优异处理能力。
故障排查任务
在故障排查任务中,GPT-4使用UoT后的成功率达到了67.3%,相比于基线的**43.7%**有大幅提升,且所需的提问轮数更少。
综合表现
平均而言,UoT在5个数据集和5个不同模型上的成功率提升了38.1%,且大幅提高了效率,显著减少了任务所需的提问次数。
3.3 分析 (Analysis)
在分析部分,作者进一步探索了UoT在不同实验条件下的表现,并对实验结果进行了深入讨论。
相同计算效率下的模型性能比较
为了公平比较不同方法在相似计算开销下的表现,作者采用了**剪枝版UoT(Pruned UoT)**方法,该方法减少了决策树中的探索路径,从而节省计算资源。即便在效率相近的情况下,UoT仍然显著优于其他基线方法。
- 剪枝后的UoT(Pruned UoT)虽然在性能上略低于未剪枝版本,但仍优于传统Tree-of-Thoughts(ToT)。
不确定性奖励的有效性
为了证明UoT中的不确定性奖励机制的有效性,作者还设计了实验来比较传统的自评奖励机制和UoT中的不确定性奖励。结果表明,不确定性奖励显著提升了模型在规划和决策中的表现。
- 与原版ToT相比,使用不确定性奖励的ToT (+UR) 在成功率上平均提升了5.9%。
案例分析
作者通过案例研究进一步验证了UoT在现实场景中的有效性。以20问游戏和医疗诊断为例,UoT能够提出更加有针对性的问题,并逐步减少可能性空间。例如在“雪豹”猜测案例中,UoT能够在合理轮数内精准定位目标。
总结
实验部分通过一系列严谨的实验设置和分析,全面展示了UoT算法的优势。无论是在20问游戏、医疗诊断还是故障排查任务中,UoT都展现了显著的性能提升,成功率和效率均有大幅提高。尤其是UoT的不确定性奖励机制,使得模型能够在面临不确定性时更加智能地提问,有效减少任务中的不确定性。
4. 相关工作 (Related Work)
在“相关工作”这一章节,作者回顾了与Uncertainty of Thoughts(UoT)相关的已有研究,重点讨论了大语言模型(LLMs)在推理、规划和决策等方面的进展。这部分内容涵盖了三大主要方向:
- LLMs的推理与规划能力
- LLMs在决策与信息搜集中的应用
- 其他关键相关研究
通过回顾这些相关工作,作者展示了UoT在这一领域的创新点以及与现有方法的差异。
4.1 LLMs的推理与规划能力 (Planning and Reasoning of LLMs)
大语言模型近年来在推理和规划任务中表现出了强大的能力。以下是几个关键的相关研究:
- Chain-of-Thought (CoT)
:Wei等人(2022)提出了**链式思维(CoT)**提示法,该方法引导大语言模型通过逐步推理来解决复杂问题。在这一框架下,模型能够生成中间推理步骤,使得问题求解过程更具透明性和可解释性。CoT的核心在于通过提供推理路径,帮助模型在回答问题时保持逻辑一致性。
- Tree-of-Thoughts (ToT)
:Yao等人(2023)提出了**思想树(Tree-of-Thoughts, ToT)**方法,这种方法通过决策树结构让模型探索多个推理路径。通过深度优先搜索(DFS)或广度优先搜索(BFS)等算法,ToT能够评估多条路径的可能性,从而选择最优的推理路线。
- Graph of Thoughts (GoT)
:Besta等人(2023)提出了思想图(Graph of Thoughts),这是另一种利用复杂结构进行问题求解的框架。该方法利用图结构表示模型的思维过程,在复杂任务中展现出强大的问题求解能力。
- TS-LLM
:Feng等人(2023)展示了TS-LLM方法,该方法结合了树搜索和大语言模型的推理能力,通过树搜索引导LLM的解码过程,使其能够更好地解决需要推理的任务。
- ReAct
:Yao等人(2022)提出了ReAct方法,这种方法将推理与行动结合起来,通过在推理过程中生成操作性的行动步骤,帮助模型在实际任务中更好地执行。
- Reflexion
:Shinn等人(2023)进一步提出了Reflexion方法,这种方法让模型在进行行动时能够自我评估并反思自己的决策,从而不断调整和优化推理路径。
通过这些研究,我们可以看到,大语言模型已经在推理和规划领域取得了显著进展。然而,这些方法主要侧重于如何基于现有的信息进行有效推理,并没有专注于如何主动提问以搜集关键信息。相比之下,UoT不仅能够推理,还能通过主动提问来获取关键信息,从而减少任务的不确定性。
4.2 LLMs在决策与信息搜集中的应用 (Decision-Making and Information-Seeking by LLMs)
随着大语言模型在任务规划中的广泛应用,一些研究致力于将模型应用于动态决策和信息搜集场景中:
- LLM+P
:Liu等人(2023)提出了LLM+P方法,这种方法将大语言模型与外部规划器结合起来,提升模型在自然语言环境下进行任务规划的能力。该方法展示了如何通过外部工具来增强LLM的推理和规划功能。
- LLM-DP
:Dagan等人(2023)展示了LLM-DP方法,该方法利用动态规划(Dynamic Planning)技术来提升大语言模型的决策能力,尤其是在处理复杂任务时展现出更好的性能。
- RAP
:Hao等人(2023)提出了Reasoning with Action Planning (RAP),这一方法不仅让模型能够进行推理,还能够执行蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)来进行动态决策。该方法将MCTS和LLM结合,用于需要复杂推理和实时决策的任务场景。
- AVIS
:Hu等人(2023)开发了AVIS(Autonomous Visual Information Seeking),这是一种自主视觉信息搜集系统,它通过结合大语言模型和外部工具,增强了模型在视觉场景中的问题求解能力。
这些研究展示了LLM在多步决策和复杂任务中的应用潜力。然而,传统的蒙特卡洛树搜索等方法在处理不确定性时存在局限性,因为它们依赖于确定的终端状态和特定的奖励模块。UoT则通过基于不确定性奖励机制的创新,能够更好地应对信息不确定性的场景。
4.3 其他关键相关研究 (Other Key Related Work)
此外,还有一些研究提出了与UoT类似的框架,试图通过不同的方式增强大语言模型的决策和推理能力:
- Rephrase and Respond
:Deng等人(2023)提出了Rephrase and Respond方法,该方法通过模型自我询问和自我回答的方式来生成更好的问题。这个过程使得模型能够在没有外部干预的情况下,通过调整提问的方式获得更准确的答案。
- KwaiAgents
:Pan等人(2023)提出了KwaiAgents,这是一个基于大语言模型的信息搜集代理系统。该系统可以处理用户查询,遵循特定的指导方针,并通过访问外部文档来提供更准确的信息。
总结
通过回顾相关工作,作者明确了Uncertainty of Thoughts(UoT)在现有研究中的独特性。虽然已有很多研究致力于提升大语言模型的推理、规划和决策能力,但这些方法大多集中于基于已知信息的推理,而不是主动提问来获取关键信息。UoT的创新点在于引入了不确定性感知的提问机制,能够帮助模型通过主动提问来减少不确定性,从而在复杂任务中获得更高的任务成功率。
UoT不仅丰富了LLM的推理能力,还扩展了其在不确定环境下的应用场景,使其能够在医疗诊断、故障排查等任务中表现出色。
5. 结论与讨论 (Conclusion and Discussion)
在这一章节,作者总结了**Uncertainty of Thoughts(UoT)**算法的主要贡献,并对未来的研究方向进行了讨论。UoT通过增强大语言模型(LLMs)的信息搜集能力,使其能够在面临不确定性时,通过主动提问来减少任务中的信息缺口,从而更高效地完成复杂任务。
5.1 结论 (Conclusion)
论文的核心贡献是提出了Uncertainty of Thoughts(UoT)算法,这是一种通过不确定性驱动来增强大语言模型信息搜集能力的方法。UoT的创新之处在于,它能够帮助模型在互动过程中主动提出问题,从而获取能够减少不确定性的信息。这一过程不仅提升了任务的成功率,还提高了效率,使得模型能够以更少的提问完成任务。主要结论包括:
- UoT显著提升了任务完成率和效率
:通过在多个任务和数据集上的实验,UoT方法展示了其在提高模型成功率方面的卓越性能。相比于直接提示和其他基线方法,UoT在任务完成率上平均提升了38.1%。
- UoT是首个专门设计用于主动提问的大语言模型算法
:在面对不确定性时,UoT通过模拟未来场景并利用基于不确定性的奖励机制,帮助模型主动提问,显著提升了信息搜集的效率。与现有的推理和规划方法(如Chain-of-Thought、Tree-of-Thought等)相比,UoT不仅仅依赖已有信息进行推理,还能通过主动提问获取关键信息。
- 多场景适用性
:UoT在多个领域(如医疗诊断、故障排查和20问游戏)中表现优异,特别是在需要主动搜集信息的复杂任务中,UoT大幅提升了模型的表现,表明其具有广泛的适用性。
5.2 未来工作与讨论 (Discussion and Future Work)
尽管UoT在实验中取得了显著的成果,作者也在结论部分讨论了该方法的局限性以及未来的研究方向,主要包括以下几个方面:
1. 更复杂的真实场景应用
作者指出,UoT当前的实验设计主要基于简化的任务和场景,虽然这些任务能够验证UoT在不确定性搜集上的效果,但更复杂的真实场景可能会带来新的挑战。例如:
- 开放式问题和答案的情况:在真实的对话场景中,回答者可能给出更为复杂和不确定的答案,而不是简单的“是”或“否”。因此,如何在面对开放性回答时优化模型的提问方式,将是未来工作的一个重要方向。
- 不完全可能性空间:目前的实验假设模型能够提前获取可能性空间(如医疗诊断中所有可能的疾病集合),但在现实场景中,这样的假设未必成立。因此,UoT需要适应更开放的场景,在互动过程中逐步构建可能性空间。
2. 多步提问中的决策权衡
在UoT的多步提问过程中,模型不仅需要考虑当前问题的回报,还需要考虑未来几步中的长期收益。虽然UoT的奖励传播机制能够一定程度上解决这个问题,但在更复杂的任务中,如何平衡短期信息增益和长期回报仍然是一个需要深入研究的课题。
3. 剪枝与优化
为了提升UoT的效率,作者提出了类似束搜索(Beam Search)的剪枝技术,以限制决策树的搜索深度。然而,在更大的搜索空间中,剪枝的效果和合理性仍然需要进一步优化。此外,未来工作可以尝试结合更多的优化技术,如强化学习或蒙特卡洛树搜索,以减少计算开销并提升问题选择的智能性。
4. 奖励机制的进一步改进
当前的不确定性奖励机制依赖于信息增益作为关键指标,尽管该方法在实验中表现优异,但它仍然存在一些局限性。未来的研究可以探索更丰富的奖励信号,如结合其他任务完成指标或引入更多的动态调整机制,以提升模型的整体表现。
5. 更广泛的数据集和任务
作者建议未来可以在更多样化的数据集上测试UoT,以验证其在不同领域的普适性。例如,除了医疗和故障排查任务,还可以将UoT应用于金融、法律或教育等需要大量信息搜集和复杂推理的场景。
总结
结论与讨论部分对UoT的贡献进行了总结,并提出了该方法的未来研究方向。UoT的创新性在于通过主动提问来减少模型的不确定性,填补了当前大语言模型推理与信息搜集领域的空白。尽管取得了显著的实验效果,UoT仍有一些挑战需要解决,如面对开放性问题、处理复杂的任务场景、优化多步决策过程等。通过解决这些问题,UoT有望在未来的研究中进一步提升模型的表现,并在更多实际应用中发挥作用。