图1:在图(a)中过度思考问题的示意图:o1类模型(右图)使用的标记数量远多于传统的大型语言模型(左图和中间图)。我们的方法在应用于QwQ-32B-Preview时减少了过度思考的问题(见图(b))。
摘要
像OpenAI o1这样的模型之所以表现出色,可以归因于它们在推理过程中模拟类似人类的长时间思考的能力。这些模型采用扩展的思维链(CoT)过程,探索多种策略以提高解决问题的能力。然而,一个关键问题仍然存在:如何在测试期间智能且高效地扩展计算资源。本文首次全面研究了这些模型中普遍存在的过度思考问题,即过多的计算资源被分配给收益最小的简单问题。我们从结果和过程的角度引入新的效率指标,以评估o1类模型合理使用计算资源的情况。通过自训练范式,我们提出策略来减轻过度思考,简化推理过程而不影响准确性。实验结果表明,我们的方法成功降低了计算开销,同时在一系列难度不同的测试集(如GSM8K、MATH500、GPQA和AIME)上保持了模型性能。
1 引言
OpenAI o1模型(OpenAI,2024年)及其复制品(Qwen,2024年;DeepSeek,2024年)代表了人工智能推理领域的最新进展。他们的成功在很大程度上归因于在回答问题之前模仿类似人类的长时间思考。具体来说,o1类模型培养了长长的思维链(CoT),探索多种策略,分解复杂步骤,并进行复查,这最终增强了他们处理复杂推理任务的能力。这种方法被称为“扩展测试时计算”,涉及在模型的推理阶段分配更多的计算资源,通常会产生更准确的回应。
虽然有效,但一个关键而未被充分探索的问题是:我们是否高效且智能地扩展了测试时计算?这项研究提供了对这一问题的初步探索。我们首先观察到o1类模型表现出显著的过度思考问题。具体来说,他们倾向于在非常简单的问题上或答案显而易见的问题上花费过多的计算资源(以标记或思维轮次来衡量)。例如,图1(a)比较了回答“2加3的答案是什么?”这一问题时,o1类模型与传统模型的标记使用情况。平均而言,o1类模型比传统模型多用了1953%的标记来得出相同的答案。图2说明了一个具体的例子,其中o1风格的思考导致为这个极其简单的问题生成了13个解决方案。在对数学基准的广泛分析中,我们发现了这些过度思考的模式:(1) 对提高准确性贡献甚微,(2) 缺乏推理策略的多样性,以及(3) 在简单问题上发生得更频繁。
在类o1模型中观察到的过度思考揭示了推理效率低下,并突显了它们在推理和决策过程中的根本限制。我们认为,推理不仅涉及准确性,还涉及根据问题需求应用适当复杂度层次。这一见解激励我们探索研究和减轻过度思考。为解决这一问题,我们从结果和过程两个角度提出了两个评估类o1模型效率的指标。这些指标有助于全面评估类o1模型的效率,补充常用的有效性指标。
为了在不引入外部信息的情况下减轻过度思考,我们采用了一种自训练范式。利用我们提出的效率指标,通过移除多余解决方案来简化生成的响应,同时保持基本反射性。在不同难度级别的测试集(例如,GSM8K、MATH500、GPQA和AIME)上的实验结果显示了我们方法在缓解过度思考问题方面的有效性和稳健性。例如,如图1(b)所示,我们的方法可以在保持广泛使用的MATH500测试集上针对QwQ-32B-Preview的准确性的同时,减少48.6%的标记输出。
总结来说,我们的贡献有三点:
- 我们首次提出了一项研究,提供了对过度思考问题的明确解释和全面分析,表明类o1大型语言模型往往在最终成果贡献微乎其微的冗余解决方案上投入不必要的计算资源。
- 我们引入指标,同时考虑结果和过程两个视角来评估o1类模型的效率。
- 我们探索了几种策略来解决过度思考的问题,显著减少了令牌生成,同时在难度不同的测试集上保持了模型性能。
2 观察过度思考问题
在本节中,我们对o1类模型生成的输出进行了综合分析。首先,我们提供了这些模型在回应中的解决方案分布的基本示例(§ 2.1)。然后,我们确定了长CoT回应中的两个低效之处:它们对准确性的贡献有限(§ 2.2)和多样性不足(§ 2.3)。为了实证评估这些低效之处,我们基于观察提出了两个效率指标。最后,我们在§2.4中展示了实证结果,并得出结论,o1类模型经常过度思考,尤其是在较简单的数学问题上。
图2:对于包含13个解决方案的QwQ-32B-Preview模型输出响应过度思考的一个例子。我们还列出了其他传统大型语言模型的输出作为参考。
2.1 类o1模型的解决方案分布
实验设置 我们在三个测试集上进行实验:
● ASDIV(苗等人,2020年):一个英语数学单词问题语料库,包含2305个例子,每个例子都标注了其问题类型和年级水平(1到6,表示难度)。该测试集涵盖了三种主要的问题类型(即基本算术运算、聚合运算以及需要额外领域知识的内容),这些通常出现在小学中。
● GSM8K(科贝等人,2021年):由人类问题编写者创建的高质量、语言多样化的初中数学单词问题数据集。测试集包括1319个问题,其解决方案通常涉及一系列使用基本算术运算的基础计算。一名中学生应该能够解决每一个问题。
● MATH500(亨德里克斯等人,2021年):一个具有挑战性的数据集,包含了来自七个科目(例如,预代数、代数、数论)的高中数学竞赛问题,以及基于AoPS的难度等级(从1到5不等)。这些竞赛中的问题难度从1级(最简单,常见于AMC 8考试)到5级(如AIME中的问题)不等。
测试集的整体难度等级为ASDIV < GSM8K < MATH500。
我们主要调查两种被广泛认可的具有明显长上下文窗口(CoT)的类o1模型:Qwen-QwQ-32B-Preview 和 DeepSeek-R1-Preview。QwQ-32B-预览是一个开源模型,而DeepSeek-R1-预览只能通过一个网络界面访问。鉴于DeepSeek-R1-预览的每日消息限制为50条,我们仅在MATH500测试集上评估了这个模型。
在本文中,我们将解决方案定义为完整模型生成的一部分,其中包含了一个明确的答案。例如,在图2中,QwQ生成的每个解决方案都包含了答案5。我们使用Llama-3.3-70B模型来分离解决方案和生成的响应。图3显示了生成响应中解决方案数量的分布情况。通常,o1类模型在大多数情况下会生成2到4轮解决方案,覆盖了76%到85%的案例。
图3:不同测试集和模型(QwQ-32B-预览(“QwQ”)和DeepSeek-R1-预览(“R1”))在生成的回应中解决方案数量的分布。
QwQ-32B-预览在测试集中的分布,以及DeepSeek-R1-预览在MATH500测试集中的74%。关于不同的测试集,QwQ-32B-预览倾向于在较容易的测试集中生成更多解决方案。例如,QwQ模型在最简单的ASDIV测试集上的平均解决方案数量为3.6个,而在最具挑战性的MATH500测试集上,其数量为2.8个。
图4:(a) QwQ-32B-Preview 和 (b) DeepSeek-R1-Preview 在 MATH500 测试集的不同难度等级下生成的答案轮数(#解决方案)和标记(#标记)的平均值。
为了实证验证这一发现,我们分析了 MATH500 测试集中不同难度等级的数据,如图 4 所示。尽管标记数量随着难度的增加而持续上升,但 QwQ-32B-Preview 和 DeepSeek-R1-Preview 在较容易的难度等级 1-2 上产生的答案轮数更多(例如,分别平均为 3.75 轮和 3.35 轮),而在较难难度等级 4-5 上则较少(例如,分别平均为 3.0 轮和 2.7 轮)。这些结果支持我们的观点,即类 o1 模型倾向于为较简单的数学问题生成更多的答案轮次。
2.2 在准确性提升上的效率
在图 2 所示的例子中,我们观察到第一轮答案就已经得出了正确答案。后续的答案虽然占据了大部分生成的标记,但并未提高准确性。基于这一观察,我们实证调查了
后续答案是否有助于提高准确性。具体来说,对于所有类 o1 模型在响应中给出正确答案的情况,我们计算第一个正确答案出现的次数分布,称之为“首次正确性分布”。如果更多正确答案出现在早期答案中,那么后续答案对准确性提升的贡献就微乎其微,表明效率降低。
观察图5展示了测试集和模型之间的首次正确性分布情况。在超过92%的案例中,首轮解决方案产生了正确答案。值得注意的是,首轮通常只包含不到60%的总令牌生成量,这表明扩展的CoT可能不会显著提高准确性。例如,在ASDIV测试集上,QwQ-32B-Preview的首轮解决方案平均长度为287个令牌,仅占整个响应的38.7%。这些结果表明,后续解决方案对准确性的提升贡献有限。
图5:基于上述观察,我们提出了一个结果效率指标,用于经验性地评估后续解决方案对准确性提升的有效性。结果效率指标,记作 ξO ,由以下公式定义:
ξO=N1∑i=1NσiTiT^i
其中N是给定测试集中的实例数量,Ti 是第i个实例生成的总标记数,T^i 表示有助于得出正确答案的有效标记。
T^i={#tokens to first arrive at correct answer,Ti,σi=1σi=0
σi 表示评估的模型是否能在回应中产生正确答案。
σi={1,0, if at least one solution in response is correct otherwise
直观地说,如果一个模型在早期阶段就正确回答问题,那么此后生成的标记对提高准确性没有贡献,被认为是低效的。以图2为例:第一个解决方案正确地解决了问题,其 T^=39 。因此, ζO=90139=4.3% ,这可以被认为是极其低效的。
2.3 多元思维的效率
直觉上,一些研究人员可能会争辩说,虽然解决一个简单的数学问题可能看起来是直接的,但从不同的角度来处理它,可以加深理解并在数学思维中建立灵活性,这也是有价值的。考虑图2中QwQ-32B-Preview的示例输出:解决方案1陈述了基本事实,即2加3等于5;解决方案2将加法分解为更小的步骤;解决方案3使用计数对象的类比。这三个解决方案提供了不同的视角。然而,解决方案4重复了解决方案3,解决方案5使用类似的视角重复了解决方案2。在本节中,我们将通过实证方法检查响应内解决方案之间的多样性。
观察 为了实证评估后续解决方案是否提供新的视角,我们引入“独特性比率”作为衡量每个数据指标的不同解决方案比率的度量。
考虑 Ri={si1,…,sim,…,siMi} 为第i个实例响应中的 Mi 个解决方案集合。设Sm={s1m,…,skm,…,sKm} 为测试子集中所有实例的响应中第m个解的集合。1 不同性比率定义为:
Dism=K∑k=1Kτkm
哪里
τkm={1,0, ifΦ(skm)⊈{Φ(sk1),…,Φ(skm−1)} otherwise
在此背景下,Φ(skm) 是 skm 的解决视角。我们使用GPT-4o通过类似(叶等人,2024年)的提示将每个实例的解决方案分组。图2中QwQ-32B-预览响应的聚类结果为:
集群1[解决方案1、解决方案6、解决方案11]:陈述或确认基本算术事实,即2加3等于5。集群2[解决方案2、解决方案5]:将加法分解为更小、更简单的步骤以得出结果。集群3[解决方案3、解决方案4]:使用实际计数对象的类比来解释加法。集群4[解决方案7]:使用减法作为反向检验来验证加法结果。集群5[解决方案8]:使用代数操作并解简单方程来确认结果。集群6[解决方案9、解决方案10]:将数字转换为不同系统(二进制和罗马数字)来验证结果。集群7[解决方案12、解决方案13]:考虑特定上下文或框架,如模运算或编程,这些可能会改变传统的加法结果。
图6显示了每个解决指标的独特性比率。直观上,解决方案#1的比率始终为100%,因为它没有前面的解决方案,因此对所有实例而言,τ≡1。通常情况下,随着指标的提高,比率会下降,表明较晚的解决方案常常重复较早的解决方案。例如,解决方案#4在测试集上的独特性比率大多低于30%,低于解决方案#3,后者高于45%。在ASDIV之外的测试集中,方案#2的比例显著下降,表现不如方案#3。通过审查输出结果,我们发现方案#2经常使用相同的视角对方案#1的答案进行复查。随后,方案#3则从新的视角出发。
提出新的视角来解决每个指标的问题。
基于上述观察,我们提出了一种过程效率度量标准,用于实证评估后续解决方案对解决方案多样性的贡献。该过程效率度量标准,记作 ξP,使用以下公式计算:
ξP=N1∑i=1NTiDi
Models | Accuracy | Response | Response | Efficiency | Efficiency |
---|---|---|---|---|---|
Models | Accuracy | #Solution | #Token | Outcome | Process |
ASDIV | ASDIV | ||||
Llama-3.3-70B-Instruct | 95.6 | 1.0 | 167.4 | 95.6% | 100.0% |
Qwen2.5-Math-72B-Instruct | 96.3 | 1.0 | 209.6 | 96.3% | 100.0% |
QwQ−32B−Preview | 96.2 | 3.6 | 714.8 | −41.8% | 66.4% |
GS | GSM8K | ||||
Llama-3.3-70B-Instruct | 92.6 | 1.0 | 235.4 | 92.6% | 100.0% |
Qwen2.5-Math-72B-Instruct | 95.8 | 1.0 | 312.1 | 95.8% | 100.0% |
QwQ−32B−Preview | 94.3 | 3.2 | 745.6 | 50.4% | 67.7% |
MATH500 | MATH500 | ||||
Llama-3.3-70B-Instruct | 75.4 | 1.0 | 575.0 | 75.4% | 100.0% |
Qwen2.5-Math-72B-Instruct | 86.8 | 1.0 | 561.5 | 86.8% | 100.0% |
QwQ−32B−Preview | 92.8 | 3.3 | −2409⋅2 | 52.2% | − −72.4% |
DeepSeek-R1-Preview | 93.4 | 2.8 | 2168.6 | 58.9% | 76.0% |
表1:强大大型语言模型(LLMs)的模型效率结果。
其中,Di 表示有助于解决方案多样性的有效标记数量。这里,我们有意排除因子 σi,以专注于多样性,而不考虑正确性。
设 Tim 表示解决方案 sim 中的标记数量。我们定义:
Di=∑m=1MτimTim
直观上,一个独特解决方案中的标记被视为过程高效的标记。在图2所示的例子中,13个解决方案被归类为7个不同的视角。因此,解决方案1、2、3、7、8、9和12中的标记是高效的,从而得到的过程效率为ζ_P=(39+109+39+29+29+19+59)/901=35.8%。
2.4 实证效率结果
表1展示了模型效率的结果。为了比较,我们包括了两个代表性的传统大型语言模型(LLMs):Llama-3.3-70B-Instruct和Qwen2.5-Math-72B-Instruct。这些传统的LLMs只产生一个解决方案,意味着D_i/T_i=Ŷ_i/T_i=1。因此,在这些情况下,结果效率指标ξ_O=1/N∑_{i=1}^{N}σ_i等于准确率,而过程效率指标ξ_P=1.0。相比之下,o1类模型生成的响应显著更长,这在提高准确率和解决方案多样性方面效率较低。我们将对生成标记的不当使用称为“过度思考问题”。
图7展示了MATH500测试集各个难度级别的详细效率结果。DeepSeek-R1-Preview在难度级别2至5的结果和过程效率方面一致性地优于QwQ-32B-Preview。值得注意的是,两个模型在最简单的第1级问题上表现不佳,结果效率不到50%,这与在易ASDIV测试集观察到的结果模式相对应。这些发现强调,对于类o1模型而言,在较简单的数学问题上过度思考的问题尤为明显。
3 缓解过度思考问题
在本节中,我们探索了几种旨在提高类o1模型效率的策略。我们采用了大型语言模型推理任务的设置,并主要使用自训练策略(Zelikman等人,2022年;何等人,2023年),即模型自身生成训练数据。与……一致
图7:(a) QwQ-32B-Preview 和 (b) DeepSeek-R1-Preview 在MATH500测试集不同难度级别的效率结果。
在以往的研究中,我们采用PRM12K数据集(Lightman等人,2024年)作为训练数据集来生成自训练数据。QwQ-32B-Preview模型作为我们的测试平台,因为它可以在训练后进行使用。
3.1 长度偏好优化
Response | #Solutions | #Tokens | Efficiency | Efficiency |
---|---|---|---|---|
Response | #Solutions | #Tokens | Outcome | Process |
Greedy | 3.1 | 1434.8 | 55.6% | 72.6% |
Shortest | −2.53.1 | −1051.3 | −69.8% | -80.3% |
Longest | 4.1 | 2258.7 | 46.0% | 66.4% |
表2:基于训练数据生成的不同类型响应的统计数据。“贪婪型”表示通过贪婪搜索生成的响应;“最短”和“最长”分别指10个样本中最短和最长的响应。
我们首先评估模型是否能产生更高效的响应。我们在训练数据集的每个实例上生成10个样本,温度设为1.0。我们丢弃未能生成正确答案的样本。表2展示了不同类型生成响应的统计数据。我们对这些抽样响应的分析显示,最短的响应在结果和过程效率方面表现更好,使用的轮数和标记更少。这些发现支持我们通过自我改进来提升模型效率的举措。
我们探索了几种有效的训练后自我改进方法:
● 监督式微调(SFT;魏等人 2022a):该方法涉及使用正向合成数据对预训练模型进行微调。模型通过最小化预测输出和实际输出之间的交叉熵损失来学习将输入映射到首选输出。SFT使模型能够模仿训练示例中展示的行为。
● 直接偏好优化(DPO;拉菲亚洛夫等人 2024):该方法直接在人类偏好的响应上训练模型,以增加偏好响应相对于非偏好响应的可能性。DPO通过使奖励函数与最优策略保持一致来隐式优化目标。
- 推理偏好优化(RPO;庞等人 2024;刘等人)2024年):该方法通过在首选响应上增加负对数似然(NLL)项来修改DPO损失。RPO通过保持生成内容的期望格式并防止所选响应的对数概率下降,增强了DPO训练的稳定性。
- 简单偏好优化(SimPO;孟等人 2024年):该方法解决了其他偏好优化方法中发现的奖励函数与生成指标之间的不一致问题。SimPO将自适应边距和长度正则化等技术纳入DPO训练。
除了仅使用最短采样响应作为训练数据的SFT方法外,其他三种偏好优化方法需要对比实例对(正面、负面)。使用贪婪搜索生成的响应作为负面示例很直接,与实时推理场景相符。然而,在我们的初步实验中,我们发现其效果不如使用最长采样响应作为负面示例。一个可能的原因是,最长采样响应提供了更清晰的对比信号。
3.2 进一步简化响应以提高效率
Positive Example | #Solutions | #Tokens | Efficiency | Efficiency |
---|---|---|---|---|
Positive Example | #Solutions | #Tokens | Outcome | Process |
Shortest Response | 2.5 | 1051.3 | 69.8% | 80.3% |
First-Correct Solutions(FCS) | 1.1 | 681.0 | −99.5% | −99.1% |
FCS+ Reflection | 1.9 | 878.7 | 78.4% | 82.4% |
Greedily Diverse Solutions(GDS) | 1.6 | 856.8 | 86.8% | 94.2% |
表3:基于训练数据生成的不同类型响应的统计数据。“贪婪”表示通过贪婪搜索生成的响应;“最短”和“最长”分别指10个样本中最短和最长的响应。
尽管较短的采样响应提高了o1类模型的效率,但它们仍然受到过度思考问题的困扰。根据第2节的观察,早期在响应中的解决方案更为高效,我们进一步简化响应以提高效率。我们提出了三种简化策略,它们在如何从开始处截断响应上有所不同:
- 第一正确解决方案(FCS):该策略保留最早到达正确答案的解决方案。
● FCS+反思:由于大多数响应在第一个解决方案时就得到了正确答案(见图5),仅保留第一正确解决方案可能会导致o1类模型回到传统的LLM行为。为了应对这一问题,我们将方法扩展为包括第二个也得到正确答案的正例,在保持效率的同时回忆模型的长远反思能力。
● 贪婪多样化解决方案(GDS):图6显示,解决方案#2的独特性显著降低,因为第二个解决方案经常使用相同的视角对第一个解决方案的答案进行复查。因此,FCS+反思可能会降低效率。为解决这一问题,我们提出了一个简单的启发式方法,它贪婪地扩展提供新视角的解决方案。此外,当第二种解决方案不重复第一种时,该策略包含更多解决方案,从而增加多样性。
对于每个实例,我们从10个样本集中选择每种类型的最短结果。因此,三种简化响应可能源自不同的原始响应。
表3展示了这三种简化响应的统计数据。值得注意的是,与最短采样响应相比,所有三种简化响应都提高了效率。“FCS”在结果和过程方面都是最有效的,使用的解决方案轮数和标记最少。“FCS+反思”包含了反思,需要大约一个额外的解决方案轮次,这降低了结果和过程的效率。“贪婪多样化解决方案”作为一种折衷,平衡了解决方案和标记的数量,并实现了中等到高效的水平。图8显示了简化响应中解决方案计数的分布情况。
图8:训练数据中三种简化响应类型下解决方案数量的分布。
3.3 实验结果
表4展示了所提出的效率提升方法的结果。
长度偏好优化方法SFT的性能仅略微减少了方案轮数和标记数量,与普通的QwQ-32B-预览模型相比表现不佳,不及偏好优化方法。在这些方法中,SimPO取得了最佳效果,在ASDIV、GSM8K和MATH500上分别减少了31.1%、21.8%和22.3%的生成标记数量。因此,在后续实验中SimPO被作为默认的训练后方法使用。
如预期,首修正方案策略在长度上实现了最大的减少。然而,这种方法在难度较大的MATH500测试集上性能下降,可能需要更多轮次的反思。采用“FCS+反思”的方法缓解了这一问题,并且通过增加一轮反思,以1.4%的优势超越了FCS方法。“贪婪多样化解决方案”策略在性能和生成标记数量之间取得了平衡。然而,与“FCS+反思”相比,其表现显著不佳,这加强了我们的观点,即难度较大的MATH500测试集需要o1类模型提供的深度推理。因此,我们采用“FCS+反思”作为默认的响应简化方法。
图9:在不同难度等级下MATH500测试集上的详细对比结果。
图9展示了在不同难度等级下MATH500测试集的详细结果。有趣的是,我们的方法将最简单的一级准确率从97.7%提升到了100.0%,而仅使用了63.6%的标记(与原始方法相比)。
Methods | Accuracy | Response | Response | Efficiency | Efficiency |
---|---|---|---|---|---|
Methods | Accuracy | #Solution | #Token | Outcome | Process |
ASL’IV | IV | ||||
Llama-3.3-70B-Instruct | 95.6 | 1.0 | 167.4 | 95.6% | 100% |
Llama-3.1-405B-Instruct | 95.2 | 1.0 | 127.0 | 95.2% | 100% |
Qwen2.5-Math-72B-Instruct | 96.3 | 1.0 | 209.6 | 96.3% | 100% |
QwQ-32B-Preview | 96.2 | 3.5 | 741.8 | −41.9% | −66.5% |
SFTShortest Response | 96.2 | 3.4 | 725.3 | 44.8% | 68.2% |
+DPOShortest Response | 96.7 | 3.0 | 583.4 | 49.5% | 69.7% |
+RPO Shortest Response | 96.5 | 3.0 | 576.5 | 49.5% | 70.4% |
+SimPOShortest Response | 96.6 | 2.7 | 511.0 | 53.5% | 71.5% |
+SimPOFirst-Correct Solution | 96.7 | 1.2 | 271.3 | 92.8% | −96.4% |
+SimPOFCS+Reflection | 96.6 | 2.0 | 381.6 | 68.5% | 78.3% |
+SimPOGreedily Diverse Solutions | 96.3 | 1.6 | 332.5 | 80.1% | 88.1% |
GSM8K | GSM8K | ||||
Llama-3.3-70B-Instruct | 92.6 | 1.0 | 235.4 | 92.6% | 100% |
Llama-3.1-405B-Instruct | 95.6 | 1.0 | 186.7 | 95.6% | 100% |
Qwen2.5-Math-72B-Instruct | 95.8 | 1.0 | 312.1 | 95.8% | 100% |
QwQ−32B -Preview | 94.3 | 3.1 | 772.8 | 50.7% | −6.7.6% |
SFT Shortest Response | 94.8 | 3.0 | 749.5 | 53.7% | 70.4% |
+DPO Shortest Response | 94.9 | 2.6 | 607.0 | 58.7% | 71.7% |
+RPO Shortest Response | 94.8 | 2.6 | 593.3 | 59.3% | 71.6% |
+ SimPOShortest Response | 94.2 | 2.3 | 554.2 | 63.5% | 74.8% |
+SimPOFirst-Correct Solution | 94.8 | 1.1 | 326.2 | 95.7% | 98.9% |
+SimPOFCS+Reflection | 95.1 | 1.6 | 416.6 | 79.4% | 85.0% |
+SimPOGreedily Diverse Solutions | 94.9 | 1.3 | 368.4 | 90.7% | 95.0% |
Llama-3.3-70B-Instruct | MATH500 75.4 | MATH500 1.0 | 575.0 | 75.4% | 100% |
Llama-3.1-405B-Instruct | 72.0 | 1.0 | 470.3 | 72.0% | 100% |
Qwen2.5-Math-72B-Instruct | 86.8 | 1.0 | 561.5 | 86.8% | 100% |
QwQ−32B−Preview | 92.8 | 3.2 | 24079 | 52.3% | −−1.2% 71.2% |
SFTShortest Response | 92.8 | 3.0 | 2359.5 | 53.4% | 73.2% |
+DPOShortest Response | 93.4 | 2.7 | 1929.5 | 60.2% | 76.4% |
+RPO Shortest Response | 92.0 | 2.8 | 2015.7 | 57.4% | 75.4% |
+SimPOShortest Response | 92.4 | 2.6 | 1871.8 | 60.6% | 77.0% |
+SimPOFirst-Correct Solution | 91.8 | 1.4 | 1016.0 | 1 87.7% | −94.2% |
+SimPOFCS+Reflection | 93.2 | 1.9 | 1330. | 75.8% | 83.4% |
+SimPOGreedily Diverse Solution | 92.2 | 1.6 | 1286.1 | 79.8% | 90.6% |
表4:所提出的效率提升方法的实验结果。
Methods | Accuracy | Response | Response | Efficiency | Efficiency |
---|---|---|---|---|---|
Methods | Accuracy | #Solution | #Token | Outcome | Process |
GPQA | |||||
Llama-3.3-70B-Instruct | 42.4 | 1.0 | 831.5 | 42.4% | 100% |
Llama-3.1-405B-Instruct | 53.5 | 1.0 | 604.3 | 53.5% | 100% |
Qwen2.5-Math-7B-Instruct | 31.8 | 1.0 | 762.0 | 31.8% | 100% |
Qwen2.5-Math-72B-Instruct | 46.5 | 1.0 | 682.7 | 46.5% | 100% |
QwQ-32B-Preview | 58.6 | 2.5 | 3098.1 | 50.9% | 79.5% |
Ours | 59.1 | 2.2 | 2085.7 | 56.2% | 83.6% |
AI | ME90 | ||||
Llama-3.3-70B-Instruct | 26.7 | 1.0 | 956.7 | 26.7% | 100% |
Llama-3.1-405B-Instruct | 22.2 | 1.0 | 1099.9 | 22.2% | 100% |
Qwen2.5-Math-7B-Instruct | 10.0 | 1.0 | 1109.8 | 10.0% | 100% |
Qwen2.5-Math-72B-Instruct | 16.7 | 1.0 | 955.4 | 16.7% | 100 |
QwQ-32B-Preview | 37.8 | 2.6 | 5879.8 | 34.7% | 80.4% |
Ours | 37.8 | 1.6 5070.0 | 1.6 5070.0 | 37.0% 92.2% | 37.0% 92.2% |
表5:在具有挑战性的GPQA和AIME测试集上的结果
这些结果再次证实了o1类模型中存在的过度思考问题,而我们的方法有效地缓解了这些问题。令人鼓舞的是,我们的方法还在更具挑战性的4-5级(即标记较少)上提升了性能,这证明了我们在解决过度思考问题方面的方法和策略的有效性和多样性。
3.4 在具有挑战性的测试集上的结果
为了回应一些研究人员的担忧,即我们的方法可能会削弱类似o1的模型解决需要长期推理的复杂问题的能力,我们使用更具挑战性的测试集来验证我们的方法,具体来说是GPQA和AIME:
● GPQA(Rein等人,2023年):一个研究生级别的数据集,包含物理、化学和生物学子领域的多项选择题。在我们的实验中,我们选择了质量最高的子集,即被称为GPQA钻石(由198个问题组成)。
● AIME90(美国数学竞赛委员会):来自美国数学邀请赛的数据集,该考试涵盖多个领域(例如代数、计数、几何、数论和概率)的数学问题解决能力。由于AIME 2024年仅包含30个例子,我们将AIME 2022-2024年的例子合并成一个更大的集合,即包含90个例子的AIME90。
如表5所列,我们的方法在使用较少标记的同时保持了模型性能,展示了我们方法的鲁棒性和泛化能力。
4 相关工作
4.1 扩展测试时计算
扩展测试时计算已被证明能提升模型性能,特别是在推理和解决复杂任务方面。这种方法可以大致分为两个主要方向:1)扩展搜索空间;2)扩展类似人类的思维模式。
扩展搜索空间 一种观点认为当前的LLM(大型语言模型)已经具备了强大的推理能力(李等人,2024a),因此正确答案通常位于它们的概率分布之内。然而,自回归解码过程通常无法探索所有可能的解决方案,从而限制了模型找到最优结果的能力。通过扩展搜索空间,为模型提供了更多机会,使其能够在概率分布内发现和选择正确答案。这种方法的一个显著例子是自洽性方法(王等人,2023b),其中生成多个响应,并通过多数投票确定最终输出。当配备外部奖励函数或评分器时,此策略可适应于最佳n解码(莱特曼等人,2024)、加权多数投票(李等人,2023;卡诺科夫等人,2024)和最小贝叶斯风险解码(海因曼等人,2024;吴等人,2024)等技术。其他策略,如思维树(姚等人,2024)、思维图(贝斯塔等人,2024)和蒙特卡洛树搜索(罗等人,2024;田等人,2024;万等人,2024),尝试以不同的形式和结构扩展搜索空间。
扩展类似人类的思维模式 LLM(大型语言模型)的推理通常采用自然语言的形式。因此,它自然会按照类似人类的思维方式来进行推理。思维链(Wei等人,2022b;Kojima等人,2022)通过提示大型语言模型逐步思考而不是直接生成最终答案,开创了这个趋势。这种方法被后续的工作扩展,如辩论(Liang等人,2024;Du等人,2024;Xiong等人,2023)、自我纠正(Kumar等人,2024;Kamoi等人,2024)、自我批评(Ke等人,2023;Lin等人,2024;Yu等人,2024)、计划与解决(Wang等人,2023a)等。最近的研究还探索了大型语言模型在潜在空间中的思维,以进一步模拟人类的认知过程(Hao等人,2024;Goyal等人,2024)。与孤立地应用这些思维方式不同,类o1模型在单一回应中集成和扩展这些思维方式,形成可能跨越数分钟甚至数小时的极长思维链。在推理过程中,这些模型关联相关知识,测试各种策略,并在特定方法被证明前景不妙时回溯步骤——这与人类思维非常相似。最近的进展(OpenAI,2024)表明,模型思考的时间越长,其响应往往越准确。
4.2 高效思维
扩展搜索空间和扩展类似人类的思维涉及两个不同的效率方面:高效搜索和高效思维。然而,很少有研究专门关注大型语言模型中的高效思维。赵等人(2024)鼓励模型在问题难以解决时说“我不知道”来终止推理。韩等人(2024年)引入了令牌预算感知的推理,模型被提示一个特定的令牌预算来指导其推理过程。还有几项贡献(Damani等人,2024年;Wang等人,2024年)用于预测计算预算的分布,并根据提示的难度分配计算能力。另一项研究工作强调在推理过程中采用早停策略以节省计算预算(Manvi等人,2024年;Li等人,2024b年)。此外,多代理框架利用大型大型语言模型处理困难任务,而小型大型语言模型则用于简单任务(Kirchner等人,2024年;Damani等人,2024年)。
总之,上述所有工作都考虑了传统模型,而不是具有更长思维链的o1类模型。相比之下,我们的工作首次识别出o1类模型中的过度思考问题。此外,我们不仅限制推理空间,也不让用户指定令牌预算,而是旨在训练模型学会如何高效思考。
5 结论
本研究确定了o1类模型中的一个关键挑战——测试时计算资源的高效和智能扩展。通过突出过度思考现象并提出效率指标,我们加深了对o1类模型中资源利用的理解。我们基于自训练的方法有效缓解了过度思考,减少了不必要的计算,同时保持了性能。本研究不仅提高了模型效率,还为未来优化AI推理任务中计算资源分配的研究奠定了基础。未来的研究方向包括探索能够动态调整以适应问题复杂度的自适应计算策略,以及改进用于更广泛模型泛化的效率指标。
限制
本研究存在以下限制:
● 模型覆盖度:我们对过度思考问题的分析仅基于两个模型:QwQ 32B-Preview 和 DeepSeek-R1-Preview。这些是唯二表现出明显长链式思维(CoT)过程的类o1模型。此外,我们的效率提升方法仅在 QwQ-32B-Preview 上进行了验证,这是唯一可用于进一步训练后的类o1模型。我们计划随着更多类o1模型的可用性,在它们上面验证我们的发现和方法。
● 多样性测量:我们的多样性测量使用了强大的 GPT-4o 来进行聚类解决方案,这既昂贵又难以复制。在即将进行的修订中,我们打算使用更多开源的大型语言模型(LLM)来进行多样性评估,例如 LLama3.3-70B,以便于方法学的复制。
● PRM12K 训练数据中的偏见:我们当前的验证完全依赖于广泛使用的 PRM12K 数据集,这可能会影响我们方法的稳健性。我们打算探索更大的数据集(例如,包含一百万个实例),以解决这一问题。
本研究没有解决类o1模型中的过度思考问题,但为未来的研究奠定了基础。