LLM 系列 (十):推理模型:大模型如何从回答走向思考
如果说推理服务回答的是“模型如何更快、更便宜地生成 token”,那么推理模型回答的就是另一个更接近能力本质的问题:模型如何在复杂任务中不急着给出结论,而是先分解问题、展开推导、检查约束、验证结果,再输出更可靠的答案。
这里的“推理”不再是 Inference Serving,而是 Reasoning。前者关注系统效率:吞吐、延迟、KV Cache、batch 调度和单位 token 成本;后者关注能力机制:模型为什么愿意多想几步,为什么数学、代码、逻辑和规划任务需要更多 test-time compute,为什么 DeepSeek-R1、OpenAI o 系列、Qwen3 thinking mode 都把“思考过程”和“推理预算”变成核心能力。