大模型推理时计算：从思维链到自主搜索的技术实现

摘要

2025年以来，AI领域最显著的范式转移之一，是从"快速生成"转向"深度推理"。OpenAI o系列、DeepSeek-R1、Gemini 2.5 Flash Thinking 的相继问世，共同证明了一个反直觉的发现：不增加基座模型参数量，仅仅在推理阶段分配更多计算资源，就能在数学、代码、逻辑等复杂任务上实现数量级的性能飞跃。这一发现颠覆了传统的"预训练Scaling Law"——与其用万亿参数去记忆所有答案，不如让模型在回答问题时"多想一想"。
本文系统梳理了推理时计算（Test-Time Compute）的技术演进路径。从思维链（Chain-of-Thought）的线性推理，到思维树（Tree of Thoughts）的分支搜索，再到蒙特卡洛树搜索（MCTS）与大模型的深度融合，推理时计算正在构建一套全新的AI问题求解范式。文章深入分析了各机制的技术原理、节点评估策略、计算预算分配方法，并以DeepSeek-R1的GRPO训练框架为核心案例，展示了推理时计算在工程系统中的应用。最后，文章讨论了过度思考的边界、System 1/2 混合架构，以及将长推理链蒸馏为高效模型的前沿方向。

第一章：引言——大模型从"快思考"到"慢思考"的范式转移

2022年底发布的GPT-3.5和2023年初的GPT-4，定义了第一代大语言模型的能力边界：在预训练阶段吸收海量文本知识，在推理阶段以"快思考"的方式直接生成答案。这种模式的瓶颈逐渐显现：面对需要多步推导的数学证明、长程规划的任务调度、以及需要回溯修正的程序调试，直接生成模式往往一步错、步步错。

OpenAI在2024年推出的o1模型家族，标志着行业思路的根本性转向。o1不再是一个"看到问题、直接回答"的系统，而是一个"看到问题、先思考、再回答"的系统。在隐藏的思考链（Chain of Thought）中，o1可以进行数十步甚至数百步的内部推理，检查假设、修正错误、尝试不同策略，最终得出一个置信度更高的答案。这一设计带来的效果堪称惊人：在AIME数学竞赛中，o1的得分从GPT-4的约10%跃升至80%以上。

几乎在同时，中国的DeepSeek团队发布了DeepSeek-R1，以极低的训练成本复现并超越了o1的推理能力。DeepSeek-R1的核心创新在于GRPO强化学习框架——不依赖人类标注的推理数据，仅通过规则化的奖励信号，就能驱动模型自发形成长思维链的推理习惯。R1的公开不仅证明了推理时计算的技术价值，还证明了这种能力可以通过高效的强化学习训练范式来获得。

这一范式转移的本质，可以用两个Scaling Law的对比来理解。预训练Scaling Law（经典范式）认为：模型性能与参数量、训练数据量、计算量呈幂律关系。这条曲线正在被边际收益递减所制约——每一代新模型的参数量增长变得越来越昂贵，性能提升却越来越缓慢。推理时计算Scaling Law（新范式）则指出：给定一个固定参数的基座模型，在推理阶段分配更多计算资源，同样可以实现显著的性能提升。这条曲线的起点很低（一个7B参数的模型直接回答数学题的准确率可能不到5%），但增长斜率可以非常陡峭——当计算预算从100个token增加到10000个token时，准确率可能从5%跃升至60%以上。

flowchart LR
    subgraph 标准直接推理
    A1[用户问题] --> B1[LLM直接生成] --> C1[最终答案]
    end
    subgraph 推理时计算
    A2[用户问题] --> B2[生成思维链] --> C2[多步推理验证] --> D2[回溯修正] --> E2[最终答案]
    B2 -.->|消耗更多token| C2
    C2 -.->|消耗更多token| D2
    end

上图对比了标准直接推理与推理时计算的流程差异。左边的直接推理只需要一次前向传播，但缺乏中间验证环节；右边的推理时计算在最终输出前经历了生成、验证、修正的完整链条，消耗了更多token，但输出质量显著提高。这个对比的核心含义是：计算资源从"堆叠模型规模"转移到了"深化推理过程"。

传统的AI系统像是一个记忆力超群但不爱思考的学生——看到题目就凭借记忆写出答案。推理时计算模型则更像一个会解方程的学生——它会打草稿、尝试不同方法、检查计算过程、从错误中修正。真正令人兴奋的是，这种"思考习惯"并非人类程序员手工编写，而是模型在强化学习训练中自发涌现出来的。

第二章：思维链（Chain-of-Thought）——推理时计算的基石

思维链（Chain-of-Thought, CoT）是推理时计算最基础也最核心的方法。它的核心思想极其简单：与其让模型直接输出最终答案，不如让模型先输出一步步的推理过程，最后再给出结论。

2.1 两种驱动方式：Few-Shot与Zero-Shot

Few-Shot CoT通过在提示词中嵌入少量带有推理过程的示例，引导模型模仿这种"先思考、再回答"的模式。一个典型的Few-Shot CoT示例可能长这样：
问题：Roger有5个网球，又买了2罐，每罐3个。他一共有多少个？
思考：Roger原有5个球。2罐每罐3个，新买球数为2x3=6个。总数5+6=11个。
答案：11

问题：一个农场有鸡和兔共35只，脚共94只。鸡和兔各多少只？
思考：设鸡为x只，兔为y只。x+y=35，2x+4y=94。由第一式得x=35-y，代入第二式：70-2y+4y=94，2y=24，y=12，x=23。
答案：鸡23只，兔12只。

问题：[新问题的逐步推理与答案]
Zero-Shot CoT则更加简洁——在问题末尾加上一句"让我们一步步思考"（"Let's think step by step"），就能触发模型的内隐推理能力。这一发现来自Kojima等人2022年的论文，其意义在于：即使不依赖人工编写的示例，模型本身也具备链式推理的潜力，关键在于提示的设计。
两种方法的形式化定义可以表述如下。设输入为x，目标输出为y。直接生成模型的目标是最大化P(y|x)。CoT模型则引入一个推理链z = (z_1, z_2, ..., z_n)，目标是最大化P(y,z|x) = P(z|x) * P(y|x,z)，即先生成完整推理过程，再基于推理过程生成最终答案。

2.2 自洽性：让模型"多试几次"

CoT的一个改进方向是生成多条推理链，然后选择出现频率最高的答案。这就是自洽性（Self-Consistency）方法。具体做法是：对同一个问题，使用不同的解码温度参数生成K条独立的思维链，每条链引导至一个答案，最后对K个答案进行多数投票。
为什么这有效？因为大语言模型的采样过程具有随机性。一条链可能在某一步引入计算错误，但另一条链可能走对了。通过生成足够多的候选路径，正确答案可以通过统计优势脱颖而出。在GSM8K等数学推理基准上，将K从1增加到20，准确率可以提升10-20个百分点。

flowchart LR
    A[问题输入] --> B["生成思维链1\n（采样1）"]
    A --> C["生成思维链2\n（采样2）"]
    A --> D["生成思维链3\n（采样3）"]
    B --> E1[答案A]
    C --> E2[答案A]
    D --> E3[答案B]
    E1 & E2 & E3 --> F{多数投票}
    F --> G[最终答案：A]

上图是自洽性投票机制的可视化。问题输入后，系统并行生成三条独立的思维链。第一条和第二条链都导向答案A，第三条链导向答案B。多数投票选择答案A。这个机制的本质是：用计算换准确性——用生成多个候选路径的额外计算成本，消除单一路径中的随机误差。

2.3 CoT的结构性局限

CoT在结构上存在根本性的约束：推理链是线性的，不能回溯。一旦某一步推理出错，后续所有推导都建立在错误基础上，模型没有机制可以"回到上一步重新想"。这类似于一个人做数学题时，第一步就抄错了数字，后面所有正确的代数操作都只是在传播这个初始错误。
这个局限催生了更复杂的推理结构——将线性链扩展为树（Tree of Thoughts, ToT）和有向图（Graph of Thoughts, GoT），让模型具备"换个思路"的探索能力。

第三章：思维树与思维图——从线性链到结构化搜索

3.1 思维树（ToT）：让推理可以"分叉"和"回溯"

思维树（Tree of Thoughts, ToT）由Yao等人和Long等人分别于2023年独立提出。它的核心创新是将推理空间从一条线性链扩展为一棵搜索树。每个树节点代表一个部分解决方案，边代表思考状态的转换。模型可以在任意节点评估当前进展，决定是继续深入，还是回溯到更早的节点尝试不同方向。

graph TD
    Root["问题：求函数f(x)=x^3-3x^2+2在[0,3]的最大值"]
    Root --> A1["步骤1：求导 f'(x)=3x^2-6x"]
    Root --> A2["步骤1（错误）：直接代入端点漏掉临界点"]
    A1 --> B1["步骤2：令f'(x)=0 得x=0或2"]
    A1 --> B2["步骤2（错误）：f'(x)=3x^2-6x+2 系数错误"]
    B1 --> C1["步骤3：比较f(0)=2, f(2)=-2, f(3)=2\n最大值为2"]
    B1 --> C2["步骤3：只比较f(0)与f(2) 遗漏f(3)"]
    A2 --> D1["步骤2：f(0)=2, f(3)=2 但漏掉临界点x=2"]
    
    classDef correct fill:#90EE90,stroke:#006400
    classDef wrong fill:#FFB6C1,stroke:#8B0000
    class A1,B1,C1 correct
    class A2,B2,C2,D1 wrong

上图展示了一个典型的ToT搜索过程。根节点是问题，第一层分支代表两种初始思路：正确的"求导再分析临界点"和错误的"直接代入端点"。模型通过评估函数对每一步评分，低分路径被剪枝，高分路径被继续探索。正确的推理链最终导向正确答案。
ToT的每一步包含两个核心操作：生成（给定当前节点，LLM提出k个候选下一步）和评估（评估函数对每个候选节点的"前景"评分，判断这个分支是否值得继续探索）。评估函数可以是基于规则的，也可以是另一个LLM（"法官模型"）。一项研究发现，让模型自我评估（"你觉得这个思路对吗？"）的效果出奇地好——LLM对自己的中间推理结果有相当准确的判断能力，这种能力称为"自我批判"（Self-Critique），是ToT可行的关键。

ToT还引入两种搜索策略：广度优先搜索（BFS）适合步骤数较少但每步有多种选择的问题（如创意生成），深度优先搜索（DFS）适合需要深度推理的问题（如数学证明）。

3.2 思维图（GoT）：更灵活的图结构

思维图（Graph of Thoughts, GoT）在ToT基础上更进一步，将推理空间从树扩展为任意有向图。树结构中每个节点只有一个父节点——无法将两个不同分支的洞察合并。GoT允许任意节点间建立边，支持三种关键操作：
聚合（Aggregation）：将多个不同思路节点合并为更全面理解。例如一个分支专注时间复杂度，另一个专注空间复杂度，聚合后得到完整分析。
精炼（Refinement）：对现有节点进行修正和迭代优化。当某个中间结论被发现不严谨时，创建一个新版本替代旧版本。
循环（Cycling）：允许推理过程回到之前的节点重新评估，这在处理动态信息时尤其有用。

graph LR
    A[Step1: 初步分析] --> B[Step2a: 算法A分析]
    A --> C[Step2b: 算法B分析]
    B --> D[Step3a: A的时间复杂度]
    C --> E[Step3b: B的空间复杂度]
    D & E --> F[Step4: 聚合对比]
    F --> G[Step5: 精炼结论]
    G -.->|反馈修正| A
    
    classDef merge fill:#FFD700
    classDef refine fill:#98FB98
    class F merge
    class G refine

上图展示了GoT的核心能力。初步分析后问题被分解为两条并行路径，各自得到部分结论后在"聚合对比"节点合并。最终结论还能反馈回起点进行整体修正——这是树结构所不允许的循环边。GoT的灵活性使其特别适合需要跨领域整合知识、多视角审视的复杂问题。
从链到树到图的演进，本质上是在扩大"推理搜索空间"的维度。CoT只有一条路径；ToT有分支和回溯但结构受限；GoT最灵活但搜索复杂度最高。实际应用需要根据问题类型和计算预算来选择合适结构。

第四章：蒙特卡洛树搜索与大模型融合

4.1 MCTS四阶段循环

蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）在博弈AI（AlphaZero、AlphaGo）中已经证明了其强大的决策能力。当MCTS与大语言模型结合时，一种全新的推理范式正在形成。
MCTS的核心是一个四阶段循环：
选择（Selection）：从根节点出发，根据某种策略（如UCT算法）选择一条路径到达一个叶子节点。UCT公式平衡了"利用"（选择当前评分高的节点）和"探索"（探索访问次数少的节点）。公式如下：
UCT(v_i) = Q(v_i) / N(v_i) + c * sqrt(ln(N_parent) / N(v_i))
其中Q(v_i)是节点v_i的累计奖励，N(v_i)是访问次数，N_parent是父节点的访问次数，c是探索常数。第一项鼓励选择高回报的路径，第二项鼓励探索未被充分访问的分支。
扩展（Expansion）：到达叶子节点后，使用LLM生成k个候选的下一步（新的子节点）。
模拟（Simulation）：从新扩展的节点出发，使用LLM快速生成一条完整的推理链直到到达答案，评估该路径的质量。
反向传播（Backpropagation）：将模拟得到的评估分数沿着路径向上传播，更新树中各节点的统计信息（访问次数和平均得分）。

graph TB
    subgraph MCTS循环
    direction TB
    S1["1 选择\nSelection\n（UCT策略选路径）"] --> S2
    S2["2 扩展\nExpansion\n（LLM生成候选子节点）"] --> S3
    S3["3 模拟\nSimulation\n（LLM快速完成推理评估）"] --> S4
    S4["4 反向传播\nBackpropagation\n（更新路径节点统计）"] --> S1
    end
    
    LLM["LLM Policy Network\n生成候选 + 评估价值"]
    S2 -.->|调用| LLM
    S3 -.->|调用| LLM
    
    Tree["搜索树\n根节点 → 中间推理节点 → 候选答案"]
    S4 -.->|更新| Tree
    S1 -.->|查询| Tree

上图将MCTS四阶段循环与大语言模型的角色进行了映射。循环的每一轮，LLM扮演两个角色：在扩展阶段作为策略网络提出候选动作；在模拟阶段作为价值评估器预判某条路径的前景。搜索树在每次循环后被更新，下一轮选择会利用累积的统计信息做出更优决策。这个架构的本质是：将AlphaGo中用于围棋的搜索决策框架，迁移到语言推理领域。

4.2 AlphaGo到Reasoning模型的桥接

AlphaGo的架构包含两个神经网络：策略网络（Policy Network）负责选择下一步落子位置，价值网络（Value Network）负责评估当前棋盘胜率。在MCTS+LLM架构中，大语言模型同时承担了这两个角色——它可以作为策略网络生成候选推理步骤，也可以作为价值网络评估中间状态的好坏。
这种桥接的意义远超技术移植。AlphaZero通过自我对弈和强化学习，从零开始掌握了围棋、国际象棋、将棋的超人类能力。类似地，MCTS+LLM框架如果与合适的强化学习训练结合，理论上可以让语言模型通过"与问题的对抗"自发提升推理能力——这正是DeepSeek-R1背后的核心思想。
R1的训练框架GRPO可以被看作这种思想的工程实现：给定一个问题，模型生成一组候选解答，根据答案正确性获得奖励，通过策略梯度优化让模型更偏好那些能导向正确答案的推理路径。这种训练不需要人工标注的逐步推理过程，模型自己在探索中学会"如何思考"。

4.3 MCTS vs ToT：何时用哪种搜索

上表对比了三种推理策略的适用场景。CoT适合大部分日常推理任务，开销最小。ToT在需要分支探索时表现更好。MCTS+LLM则适合最深度的推理场景，将博弈AI的搜索框架引入语言模型，代价是更高的计算开销。在实际工程中，一个混合系统可以根据问题特征自动切换策略。

第五章：推理计算的分配策略与效能权衡

推理时计算不是无代价的。每增加一个推理token、一次树搜索扩展、一轮MCTS模拟，都在增加推理延迟和API调用成本。因此，如何智能地分配有限的计算预算，是推理时计算从理论走向工程的关键。

5.1 性能-计算权衡曲线

对于给定的模型和任务，存在一条性能-计算权衡曲线。这条曲线通常具有以下特征：
低预算区（0-500推理token）：性能随计算量线性增长。这是"边际收益最高"的区域，每增加一个思考token都能显著提升准确率。因为模型正在从"不思考"（直接回答）过渡到"有基本逻辑链"（CoT），这个跨越带来了最大的能力跃迁。
中等预算区（500-5000 token）：性能继续增长但斜率放缓。思维链已经足够长，进一步收益来自分支搜索和多条候选路径的评估。这个区域是工程上最"甜蜜"的操作区间。
高预算区（>5000 token）：性能增长趋于饱和，可能出现"过度思考"现象。模型在循环中打转，重复已验证过的步骤，或在无关细节上过度纠结。边际收益接近零甚至为负。

上图展示了不同推理策略在典型计算预算下的性能走势。直接生成模式（无思维链）性能几乎不随计算量变化。CoT和自洽性（SC）在500-1000 token区间快速提升后趋于平缓。深度推理模型（如o1和R1）则可以在数千到一万token的预算上持续爬升，因为它们具备更复杂的内部搜索和修正机制。工程部署时，核心挑战是在给定预算约束下选择最优的推理策略组合。

5.2 计算预算动态分配与代码示例

一个成熟的推理系统不应该对所有问题使用相同的计算预算。简单的数学题可能只需要几十步CoT，而复杂的几何证明可能需要数千步的搜索和回溯。理想的系统应该能根据问题难度预估来动态分配计算预算。
一个可行的实现框架如下：

def adaptive_inference(question, max_budget=8000, confidence_threshold=0.9):
# 阶段1: 快速评估问题难度
difficulty = llm.estimate_difficulty(question) # 简单/中等/困难
if difficulty == "简单":
    return cot_reasoning(question, budget=500)
elif difficulty == "中等":
    return self_consistency_cot(question, n_samples=8, budget=2000)
else:  # 困难
    return tree_of_thoughts(
        question, beam_width=3, max_depth=10,
        budget=max_budget, early_stop_confidence=confidence_threshold
    )

这个伪代码展示了三层计算分配策略。难度评估可以通过让LLM对问题进行快速分类来实现。早停机制是另一个节省计算的关键技巧——当模型对某个中间结论的置信度超过阈值时，可以直接终止搜索并输出结果，避免在"已经足够确定"的答案上继续消耗token。

5.3 早停与置信度校准

早停机制的设计核心在于置信度的准确校准。如果一个模型经常对错误答案给出高置信度，那么早停不仅不能节省计算，反而会输出更多错误结果。
目前改善置信度校准的方法包括三个方向：基于集合的置信度——同一答案被多条独立推理链共同支持时，其置信度才可靠；过程奖励模型（PRM）——训练独立小模型评估中间推理步骤质量，能在更早阶段识别错误路径；验证器（Verifier）——在最终答案输出前，额外调用验证模型检查答案正确性，未通过则触发"回退"机制让模型重新思考。

第六章：实际案例与系统实现

6.1 DeepSeek-R1：GRPO强化学习训练揭秘

DeepSeek-R1是推理时计算领域最重要的开源模型之一。与OpenAI o1的封闭性不同，R1不仅开源了模型权重，还公开了完整的训练方法论。理解R1的训练流程，是理解"如何让模型学会推理"的最佳案例。

graph TB
    A["DeepSeek-V3 Base\n671B参数MoE模型"] --> B["阶段1: 冷启动SFT\n数千条高质量CoT数据"]
    B --> C["阶段2: RL训练\nGRPO优化\n规则奖励驱动"]
    C --> D["阶段3: 拒绝采样\n生成高质量推理数据"]
    D --> E["阶段4: 全场景SFT\n推理+通用能力+安全对齐"]
    E --> F["阶段5: RL对齐\n人类偏好+安全规则"]
    F --> G["DeepSeek-R1\n具备长思维链推理能力"]
    C -.->|中间产物| H["R1-Zero\n纯RL训练版本"]
    
    style A fill:#87CEEB
    style G fill:#90EE90
    style H fill:#FFD700

上图展示了DeepSeek-R1完整五阶段训练流程。冷启动SFT使用数千条人工筛选的高质量思维链数据给模型一个"正确的起步姿势"。然后进入GRPO强化学习训练阶段，这是R1训练的核心创新。
传统强化学习（如PPO）需要与策略模型同等规模的价值模型来评估每一步质量，带来巨大内存和计算开销。GRPO的创新在于去掉了价值模型，改为对每个问题采样一组（如8或16个）候选答案，计算组内相对奖励来估计优势函数：

A_i = (R_i - mean(R_group)) / std(R_group)

候选i的优势等于其奖励减去组内平均奖励，再除以标准差。这种"组内归一化"精妙地解决了不同问题绝对奖励尺度不同的问题。
GRPO的奖励函数简洁至极，只有两个组成部分：准确性奖励（答案正确得1分，错误得0分）和格式奖励（推理过程放在特定标签内、最终答案放在answer标签内，格式合规得1分）。
没有人类偏好标注，没有复杂奖励模型，仅靠这两条规则，GRPO成功驱动模型自发形成长思维链的推理习惯。R1的推理痕迹显示出惊人的复杂性：自我纠正（"等等，让我检查一下"）、多策略尝试（"另一种方法是..."）、验证步骤（"验证：..."）——这些都是在强化学习训练中涌现出来的行为，而非人类预先编程。
拒绝采样阶段从训练好的RL模型中生成大量高质量推理数据，随后用于对基础模型进行全面监督微调，使模型同时具备推理和通用对话能力。最终的RL对齐阶段引入人类偏好，确保模型在有用性、无害性和推理深度间取得平衡。

6.2 在现有API中利用推理模型

对开发者而言，利用推理时计算能力的最直接方式是调用已训练好的推理模型API。主要平台的对比如下：
DeepSeek API的特别优势是推理链可见——开发者可以获取模型完整的推理过程，这提供了两个工程价值：可以调试模型"在哪里犯了什么错误"，可以将这些高质量推理数据用于蒸馏自己的专用模型。

6.3 自建推理时计算系统参考架构

对需要在自有基础设施中部署推理时计算的团队，参考架构如下：

graph TB
    User[用户请求] --> Router{问题复杂度评估}
    Router -->|简单| Fast[快速路径\n直接LLM生成]
    Router -->|中等| CoT[CoT推理 + 自洽性投票]
    Router -->|困难| Deep[深度路径\nToT搜索 / MCTS]
    
    Fast --> Cache[结果缓存]
    CoT --> Cache
    Deep --> Cache
    
    Cache --> Monitor[成本监控与日志]
    Monitor --> Output[最终答案 + 推理过程]
    
    Deep -.->|预算预警| Budget["计算预算控制器\n(token/成本/超时阈值)"]
    Budget -.->|触发早停| Deep
    
    style Router fill:#FFD700
    style Monitor fill:#87CEEB
    style Budget fill:#FFB6C1

上图展示了混合推理系统的架构。用户请求首先通过问题复杂度评估路由层——这可以是轻量级分类模型或LLM自身快速判断。简单问题走快速路径直接生成；中等复杂问题使用CoT加自洽性投票；困难问题启动ToT搜索或MCTS深度推理。计算预算控制器监控实时token消耗和成本，超阈值时触发早停。结果缓存层存储常见问题推理结果，重复查询直接返回缓存。最后，监控模块记录每次查询的推理路径、token消耗和成本，为后续优化提供数据支持。

第七章：未来趋势与挑战

7.1 过度思考的边界

推理时计算并非越多越好。当思考链长度超过某个阈值后，模型可能进入"思维漩涡"——在同一问题上反复检查已验证过的步骤，或在无关细节上过度分析。这种现象被称为"过度思考"（Overthinking）。
过度思考有两个触发条件：问题本身不够明确，导致模型无法确定何时"思考已经足够"；以及奖励函数过度奖励"彻底性"，导致模型倾向输出更长的推理链以获取更高评估分数，即便这些额外步骤没有信息增益。
解决思路包括三个方向：设计基于信息增益的更好停止准则——新步骤是否提供了之前步骤中没有的新见解；在训练阶段引入对推理链长度的惩罚；允许模型主动声明"我已足够确定"，类似于自信的人类解题者在验证完结果后放下笔。

7.2 System 1 / System 2 混合架构

诺贝尔经济学奖得主Kahneman提出的"双系统思维"理论，正在成为推理时计算的架构设计蓝图。System 1是快速、直觉、自动的思考模式，对应CoT之前的直接LLM生成。System 2是缓慢、逻辑、有意识的思考模式，对应推理时计算的深度搜索。一个理想的AI系统应该同时具备两种模式，并能根据问题特征自动切换。

graph TB
    Input[用户输入] --> Classifier{快速分类器}
    Classifier -->|事实检索/简单问答| S1["System 1\n直接生成\n< 100ms"]
    Classifier -->|多步推理/数学/代码| S2["System 2\n推理时计算\n1-10s"]
    Classifier -->|需要创造力/开放探索| S2X["System 2+\nToT/GoT搜索\n10-60s"]
    
    S1 & S2 & S2X --> Verifier[结果验证器]
    Verifier -->|通过| Output[输出结果]
    Verifier -->|可疑| S2Y["回退System 2\n深度验证"]
    S2Y --> Verifier
    
    style Classifier fill:#FFD700
    style Verifier fill:#87CEEB

上图展示了混合推理决策框架。输入先经过轻量级快速分类器，判断应该走哪条路径。对于事实检索和简单问答，System 1直接生成答案在百毫秒内返回；对于需要多步推理的问题，转交System 2进行数秒深度思考；对于需要创造性探索的开放问题，启动更复杂的搜索。结果验证器对所有输出进行最终检查，对可疑结果触发回退验证。这个架构的目标是在响应速度和答案质量间取得最优平衡——像人类一样，简单问题直觉回答，复杂问题深思熟虑。

7.3 可解释性与审计

推理时计算模型的重大优势是可解释性：与黑盒式直接生成模型不同，推理模型提供了完整的"思考过程"。当模型给出错误答案时，可以检查它的推理链，发现"第三步的公式推导错了"，而不是面对完全不可解释的错误。
但这种可解释性也带来了新挑战：当推理链长达数千token时，人类审计者如何高效检查每一步的正确性？自动化审计工具正在成为一个重要研究方向——例如训练"推理验证器"来检查每一步数学推导的正确性，或使用形式化验证工具来证明推理链中的逻辑步骤没有违反基本规则。

7.4 蒸馏长推理模型

推理时计算的自然延伸是将一个"老师"模型的长推理能力，蒸馏给一个更小的"学生"模型。DeepSeek-R1发布的同时，还发布了基于Qwen和Llama架构的蒸馏版本（如DeepSeek-R1-Distill-Qwen-32B、-Llama-70B等）。这些蒸馏模型在远小于原始模型的参数下，通过模仿R1的高质量推理链，获得了接近甚至超越GPT-4的推理能力。
蒸馏有两条路径：知识蒸馏让小模型学习大模型的推理分布，即在给定问题的条件下学习大模型生成推理链的概率分布；数据蒸馏则用大模型生成大量高质量推理数据，用这些数据直接对小模型进行监督微调。
未来可能出现一个"推理即服务"（Reasoning as a Service）的生态系统：云端运行超大参数的推理模型，为边缘设备上的小模型持续生成高质量推理训练数据。小模型不需要进行复杂搜索，只需要在训练阶段"记住"多种推理模式，在部署时直接复现这些模式。
参考文献与扩展阅读

Kojima et al. (2022). Large Language Models are Zero-Shot Reasoners. NeurIPS 2022. https://arxiv.org/abs/2205.11916 —— Zero-Shot CoT开创性论文
Yao et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. NeurIPS 2023. https://arxiv.org/abs/2305.10601 —— ToT方法原始论文
DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.https://github.com/deepseek-ai/DeepSeek-R1 —— R1技术报告与开源代码
Shao et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.https://arxiv.org/abs/2402.03300 —— GRPO框架来源
Besta & Blusch (2024). Graph of Thoughts: Solving Elaborate Problems with Large Language Models.https://arxiv.org/abs/2308.09687 —— GoT方法
OpenAI (2024). Learning to Reason with LLMs.https://openai.com/index/learning-to-reason-with-llms/ —— o1模型技术介绍
Silver et al. (2016/2017). AlphaGo / AlphaZero. https://deepmind.google/research/highlighted-research/alpha-go/ —— MCTS与深度神经网络融合的开拓者

关键词：

推理时计算 (Test-Time Compute)，思维链 (Chain-of-Thought, CoT)，思维树 (Tree of Thoughts, ToT)，蒙特卡洛树搜索 (MCTS)，GRPO强化学习，DeepSeek-R1，大语言模型推理优化

附录：关键可视化图表

图表1：推理时计算的性能-计算权衡曲线。横轴为推理阶段消耗的Token数量，纵轴为任务准确率。可以看出，直接生成模式性能不随计算量变化；CoT在500-1000 Token区间快速提升后趋平；深度推理模型（o1/R1）可在数千到一万Token预算上持续攀升。绿色区域为边际收益最高区，红色区域为边际收益递减区。
图表2：混合推理系统中System 1 / System 2的响应时间对比。System 1（直接生成）适用于简单问答，响应时间<100ms；System 2（推理时计算）适用于多步推理，响应时间1-10s；System 2+（深度搜索）适用于开放问题，响应时间10-60s。结果验证器对所有输出进行最终审查。
图表3：DeepSeek-R1五阶段训练流程。从DeepSeek-V3基础模型出发，经过冷启动SFT、GRPO强化学习训练、拒绝采样、全场景SFT、最终RL对齐，得到具备长思维链推理能力的DeepSeek-R1。虚线标注了R1-Zero作为纯RL训练的中间产物。