1. 核心定义:从“快思考”到“慢思考”

传统 LLM(如 GPT-4、Claude 3.5)通常采用的是 “直觉式生成”,就像人类的“快思考”,根据概率直接预测下一个词。而推理模型(如 OpenAI o1, DeepSeek-R1)引入了 “思维链”(Chain of Thought, CoT) 的强化。

  • System 1 (快思考): 反应快、基于直觉。传统模型直接给出答案。

  • System 2 (慢思考): 反应慢、有逻辑、会纠错。推理模型在给出答案前,会产生大量的内部推理 Token(Internal Reasoning Tokens)。


2. 它是如何实现的?(关键技术)

推理模型之所以聪明,并不是因为它背了更多书(预训练),而是因为它学会了“如何思考”(后训练)。

  • 强化学习 (Reinforcement Learning, RL): 这是推理模型的灵魂。通过奖励机制,教模型在遇到难题时不要急着给答案,而是先去拆解问题。

  • 推理缩放定律 (Inference-time Scaling Law): 这是一个颠覆性的发现:在模型推理时(即回答问题时)给它更多的计算资源(让它想得久一点),它的表现会持续提升。这不同于以往“堆参数、堆数据”的路径。

  • 自我博弈与反思: 模型在训练中会自己尝试不同的解题路径,如果发现某条路走不通(如代码运行报错或数学结果不匹配),它会学会回溯并尝试新方法。


3. 推理模型 vs 普通模型:有什么不同?

特性普通指令微调模型 (Chat)推理模型 (Reasoning)
生成速度几乎即时开始输出内容会有明显的“Thinking”时间
擅长领域创意写作、总结、日常闲聊数学证明、复杂编程、逻辑谜题
指令遵循对明确的 Prompt 响应极佳对模糊的目标(Goal-oriented)更有韧性
成本较低较高(因为产生了很多不可见的推理 Token)

4. 你应该知道的关键概念

  • 思维链 (CoT): 模型将复杂任务拆解为逻辑连贯的小步骤。

  • 推理 Token (Reasoning Tokens): 这是推理模型特有的,它们在后台运行,帮助模型思考,但最终答案中可能不直接显示。

  • 过程奖励 (Process Reward vs. Outcome Reward): 以前只看结果对不对,现在会对模型中间的每一步推导过程进行打分和奖励。

  • System Prompt 依赖度降低: 推理模型不需要你写繁琐的“请一步步思考”,它天生就会这么做。