Chain-of-Thought 思维链

直观理解与定义 (The “What”)

CoT 的核心在于打破“输入输出”的直接映射，强制模型生成“中间推理步骤”。

核心概念：

理解概念后，需要通过实际 Prompting（提示工程）来掌握两种主要的 CoT 模式。

这是最简单的入门方式，无需提供示例。

这是 CoT 的标准形式，效果通常优于 Zero-Shot。

方法：在 Prompt 中提供 3-5 个 <Question, Rationale, Answer> 的示例（Exemplars），引导模型模仿这种推理格式。
实践技巧：
Demonstration Selection：选择与目标问题多样性互补的示例。
Formatting：保持推理步骤清晰，通常使用换行符或序号。

对比表：不同 Prompting 策略

比“请一步步思考”更稳定

请按以下格式回答：
1) 关键信息提取（已知/未知/约束）
2) 解决思路（分解为若干步）
3) 推导/计算
4) 自检（边界情况、单位、是否满足约束）
5) 最终答案（简洁）

当你掌握了基础 CoT 后，需要了解它是如何演变为更复杂的推理架构的。

概念：单一的 CoT 路径可能是错误的。Self-Consistency 通过让模型生成多条不同的推理路径（Sampling multiple reasoning paths），然后对最终答案进行“投票”（Majority Voting）。
必读论文：Self-Consistency Improves Chain of Thought Reasoning in Language Models (Wang et al., 2022).
理解：这利用了 LLM 的概率性质，用计算量换取准确率。

概念：将 CoT 的线性推理扩展为树状搜索。模型在每一步生成多个可能的“下一步”，并使用广度优先搜索 (BFS) 或深度优先搜索 (DFS) 来寻找最优解，甚至可以回溯。
必读论文：Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023).
图示理解：

如果你想深入理解“为什么 CoT 有效”，建议阅读以下方向的分析材料：

LLM 是基于 Token 预测的。对于复杂问题（如多位数乘法），模型无法在一个 Token 内完成所有计算。CoT 通过生成中间 Token，实际上是为模型争取了额外的“计算时间”和“暂存空间”（Scratchpad）。