LLM 系列 (九):推理服务:大模型如何高效生成 Token
如果说分布式训练回答的是“大模型如何在千卡集群上训练出来”,那么推理服务回答的就是另一个更贴近线上系统的问题:模型训练完成之后,如何在真实业务流量下稳定、快速、低成本地生成答案。
这里的“推理”需要先做一个区分。它既可以指 Inference Serving,也可以指 Reasoning Model。前者关注模型服务系统:请求如何进入模型、token 如何生成、KV Cache 如何管理、延迟和吞吐如何平衡;后者关注模型能力机制:如何通过长链思考、验证器、强化学习和 test-time compute,让模型更擅长数学、代码和复杂推理。
本文讨论的是第一种:推理服务。它不关心模型参数如何继续学习,而关心一个已经训练好的模型,如何在固定参数下被高效调用。换句话说,预训练和后训练决定模型“会什么”,分布式训练决定模型“怎么训出来”,而推理服务决定这些能力能不能以可承受的成本、稳定地交付给真实用户。