大语言模型（LLM）是如何思考的？讲讲推动下一代人工智能推理的五种途径

2025-04-08 08:18

译者 | 张哲刚审校 | 重楼大语言模型（LLMs）最早时期只是具备自动完成的功能，迄今为止，进步巨大，与当初已经不可同日而语。然而，仅仅是生成流畅的文本并不足以体现真正的智能——真正的智能是需要推理能力的。这意味着，大语言模型需要能够解决数学问题、能够调试代码、能够得出合乎逻辑的结论，还要能够检查和改正自身的错误。

译者 | 张哲刚

审校 | 重楼

大语言模型（LLMs）最早时期只是具备自动完成的功能，迄今为止，进步巨大，与当初已经不可同日而语。然而，仅仅是生成流畅的文本并不足以体现真正的智能——真正的智能是需要推理能力的。这意味着，大语言模型需要能够解决数学问题、能够调试代码、能够得出合乎逻辑的结论，还要能够检查和改正自身的错误。通常而言，现代大语言模型的训练目标往往是预测下一个词语是什么，而不是去思考。那么，它们是如何突然变得非常擅长推理的呢？

答案是一系列新技术使然——从提示工程到代理工具使用——这些技术推动着、指导着或在一定程度上直接促成着大语言模型日益成为有条不紊的思考者。下面，让我们讲讲五种最具有影响力的策略，正是它们，推动着推理型大语言模型不断迈向新的领域。

1.思维链提示：教大语言模型“逐步思考”

提高大型语言模型推理能力，起步最早且最能打的技术之一异乎寻常地简单：让模型解释自身。

这种方法被称为思维链（Chain-of-Thought，CoT）提示。意指提示模型在给出最终答案之前产生中间推理步骤。例如，不采用直接去问“17乘以24等于多少？”这种简单直接的方式，而是用“让我们一步一步地思考”来提示模型，引导它将问题分解为：17×24=(20×17)+(4×17)，诸如此类，等等。

这一理念最早于2022年正式提出，至今仍然是基础性的指导思想。OpenAI的o1模型就被训练为“在回答之前更多地思考”——其本质就是内化了类似CoT的推理链。它的继任者o3则更进一步，以模拟推理的方式，在推理过程中暂停，用以反思和完善自身响应。

原理呢，则很简单：通过强制实施中间步骤，避免模型草率地、跳跃式地一步得出结论，从而提升多步推理演绎能力。

2.推理时间计算扩展：给每个问题更多的思考时间

如果一个问题难度很大，那就用更多的时间去思考——人类是会这么做的，现在大语言模型也可以。

推理时间计算扩展，是指通过在生成过程中分配更多的计算这一途径，来增强推理能力。模型可能会生成多个推理路径，但最后会选出最佳路径。这种“自洽性”方法已成为推理基准的标准。

OpenAI的o3-mini定义了三种推理程度选项（低、中、高），这些选项决定了模型在回答问题之前内部推理的时间长短。在高推理水平下，o3-mini在数学和编码任务上的表现甚至优于完整的o1模型。

2025年的论文《s1：简单测试时间扩展》中引入了一种相关技术，预算强制（budget forcing），它使用特殊标记来控制推理深度。通过附加重复的“等待”标记，引导模型生成更长的响应、自我验证并自我纠正。使用类似“最终答案”这样的结束思考信号标记何时停止。这种方法在不修改模型权重的情况下扩展推理，从而提高了准确性——这是对经典“逐步思考”提示的现代化升级和改造。

代价也是有的，那就是准确性的延迟。但是如果是面对棘手或艰巨的任务，这通常是值得的，并且是利大于弊的。

3.强化学习和多阶段训练：优秀推理予以奖励

另一个改变游戏规则的因素：不要仅仅局限于预测单词，而是要奖励正确的推理。

OpenAI的o1和DeepSeek-R1这样的模型是通过强化学习（RL）进行训练的，以鼓励优秀的推理模式。这些模型不仅仅是模仿数据，还能够奖励生成有逻辑多步答案的推理。DeepSeek-R1的第一个迭代版本R1-Zero仅仅是使用了RL——并没有监督微调——就开发出了非常强大的推理能力。

然而，仅仅使用强化学习（RL）训练有可能导致语言不稳定的问题出现。所以最终DeepSeek-R1采用了多阶段训练方法：先进行强化学习推理，然后使用监督微调来提高可读性。同样，阿里巴巴的QwQ-32B将强大的基础模型和持续的强化学习扩展相结合，在数学和代码方面体现了出色的性能。

结果如何？这些模型不仅能够给出正确的答案，还能展示出正确答案是如何得到的——甚至学会了自我纠正。

4.自我纠正和回溯：推理，然后倒带

当模型出错时会发生什么情况？它自己能够意识到并改正错误吗？

一直以来，大语言模型都在努力进行自我纠正，但这方面一直有问题存在。2023 年，研究人员发现，仅仅是简单地让模型“再试一次”，对答案鲜有改善——有时甚至会使情况变得更糟。但2025年有了新的进展，回溯——一种经典AI策略，被引入到大语言模型中来。

腾讯AI实验室的王姓工程师等人发现，在o1型模型中存在“思考不足”的问题：模型会在不同的想法之间跳跃，而不是一直坚持一条推理路线。他们的策略是对推理切换进行惩罚，鼓励对每个想法进行深入探索。

与此同时，杨姓工程师等人提出了自回溯——当模型陷入僵局时，让其重新回放，然后探寻更好的替代方案。这一策略与只依赖最优推理解决方案的策略相比，准确率提高了超过四十个百分点。

这些创新有效地增加了推理时的搜索和规划能力，呼应了深度优先搜索等传统AI方法，并将它们叠加在大语言模型的灵活功能之上。

5.工具的使用以及外部知识的整合：超越模型的推理

有时候，推理意味着知道何时该去寻求帮助。

现代大语言模型越来越多地调用外部工具——计算器、代码解释器、各种API甚至网络搜索——来处理复杂的查询。

阿里巴巴的QwQ-32B直接集成了代理功能，使其能够在推理过程中调用函数或访问API。谷歌的Gemini 2.0（Flash Thinking）也支持类似的功能——例如，它可以在推理过程中启用代码执行，允许模型在其推理过程中运行和评估代码。

这一点非常重要，原因在于某些任务——比如验证实时数据、执行符号数学或执行代码——超出了模型内部的能力。将这类子任务转移出去，能够让大语言模型更专注于高阶逻辑，从而显著提高准确性和可靠性。

从本质上讲，外部工具能够让大语言模型发挥超出其自身能耐的潜力——就像是一把数字瑞士军刀，用精密仪器来扩展推理能力。

结论：推理是一个堆栈，而不是一个开关

大语言模型并不是一蹴而就就能“学会推理”——它们是通过一系列分层的技术来获取这种能力的。这些技术包括训练、提示、推理以及与外部世界的互动。思维链提示加强了结构，推理时间扩展增加了深度，强化学习（RL）改善了对齐性，回溯增强了自我意识，外部工具使用增加了覆盖面。

至于像OpenAI的o1和o3、DeepSeek的R1、谷歌的Gemini 2.0 Flash Thinking以及阿里巴巴的QwQ这样的顶级模型，则结合了这些策略中的几种——可以称之为将巧妙设计与认知支架融合在一起的混合方案。

随着该领域的不断发展，可以预见，内部推理过程与外部决策工具之间的耦合将会更加紧密。逐步走近我们的，不是仅仅能够猜测下一个单词，而是还能够真正思考的大语言模型。

译者介绍

张哲刚，51CTO社区编辑，系统运维工程师，国内较早一批硬件评测及互联网从业者，曾入职阿里巴巴。

原文标题：How Do LLMs Think? 5 Approaches Powering the Next Generation of AI Reasoning，作者：Kate Koidan

将大语言模型集成到现有软件系统的完整指南

译者 | 布加迪审校 | 重楼随着最近应用迅速普及开来、人工智能（AI）得到广泛采用，大语言模型（LLM）已变得备受广大公司企业、开发人员和非开发人员的欢迎，因为它们为用户提供了诸多好处。它们帮助开发人员调试代码并生成代码片段，还帮助澄清看似复杂的编程概念和任务，从而提高生产力。只要用于训练的数据集涵盖主题，使用LLM的非开发人员就可以受益于对问题做出快速且定制的响应和答复。

12/2/2024 8:10:31 AM

布加迪