LLM 系列 (五):Dense 与 MoE,大模型如何从全量计算走向稀疏激活
过去几年,LLM 能力的提升很大程度上来自 Scaling Law:当模型参数量、训练数据规模和计算量持续扩大时,模型的 loss 往往会呈现较稳定的下降趋势,模型能力也会随之提升。简单来说,规模化训练证明了一件事:更大的模型、更大的数据、更大的算力,通常可以带来更强的模型能力。
但 Scaling Law 也带来了一个现实问题:如果能力提升依赖规模扩展,那么训练成本、推理成本、显存占用和部署复杂度也会同步上升。模型越大,每个 token 需要经过的参数越多;上下文越长,Attention 和 KV Cache 的压力越大;多模态输入又会引入更多 token 和更复杂的计算路径。