LLM 系列 (十二):预训练数据工程:大模型的燃料是如何炼成的
前面几篇我们已经把 LLM 的几条主线串起来了:从 AI 到 LLM,理解大模型为什么会出现;从数学、算法、Transformer 到 Dense/MoE,理解模型结构和学习机制;再到预训练、后训练、分布式训练、推理服务和长上下文,理解一套大模型系统如何被训练出来、部署出去。到了这里,还有一个更底层的问题需要单独展开:模型训练时,究竟吃了什么?
很多人讨论大模型时,容易把注意力放在参数量、GPU 数量、训练框架、Attention 结构、MoE 路由和推理加速上。但如果把大模型训练看成一条生产线,数据才是最早进入系统的原材料。没有好的数据,再大的模型也只是在更大规模地学习噪声;没有合理的数据配比,模型就会偏科;没有去重和去污染,模型可能只是记住了训练集和评测答案;没有隐私、安全、版权和版本治理,模型能力越强,风险也越难控制。
所以这篇文章想讲的,不是“怎么多收集一些文本”,而是预训练数据工程如何把互联网、书籍、代码、论文、百科、问答和合成样本,炼成一个可学习、可控制、可评估的数据分布。它贯穿数据来源、解析抽取、清洗规范化、去重、质量过滤、安全过滤、数据配比、采样、tokenization、packing、评测去污染、合成数据和版本治理,最终决定模型会学到什么、偏向什么、遗漏什么。