LLM 系列 (一)：从 AI 到 LLM

过去几年，大语言模型（LLM）从实验室里的研究成果，迅速变成了普通人每天都能接触到的工具。ChatGPT、Claude、Gemini、DeepSeek 等产品，让很多人第一次直观感受到：机器不只是能搜索信息、识别图片、完成分类任务，它似乎开始能够理解问题、组织语言、代码生成、分析文档，甚至参与复杂决策。

但如果只把 LLM 理解成“一个很会聊天的 AI”，其实会低估它背后的技术演进。今天的 LLM，并不是突然出现的魔法，而是人工智能几十年发展积累后的结果：从早期的符号推理，到机器学习；从神经网络，到深度学习；从词向量、注意力机制，到 Transformer；再到预训练、后训练、分布式训练、推理服务、RAG、Agent 和多模态系统，每一步都在回答同一个问题：机器智能是如何产生并不断演进的？

因此，我打算新开一个 LLM 系列的文章，这个系列会从底层原理出发，逐步拆开 LLM 的关键技术拼图，让读者能够理解 LLM 背后的技术原理，帮助没有 AI 背景的同学建立完整的框架。

作为 LLM 系列的第一篇，我们先回到起点：从 AI 到 LLM，看看大语言模型究竟是如何从几十年的人工智能探索中一步步长出来的。

AI 的终极问题：机器如何获取智能？

在真正进入 LLM 之前，我们先需要理解一个更早的问题：人工智能几十年来到底在追求什么？从早期 AI 到今天的大语言模型，表面上看技术形态变化很大，但背后始终围绕同一个核心问题：机器如何获得智能，如何理解世界，并给出有用的答案。

围绕这个问题，AI 的发展大致可以看成三条重要路线：

路线	核心想法	代表人物	主要贡献	通俗理解
符号主义	智能来自规则和推理	Alan Turing、John McCarthy、Marvin Minsky、Allen Newell、Herbert Simon	图灵测试、AI 学科建立、搜索、逻辑推理、专家系统	像一本很厚的规则手册，人类把知识写进去，机器按规则推理
统计学习	智能来自数据中的规律	Claude Shannon、Vladimir Vapnik、Judea Pearl	信息论、统计学习理论、概率图模型、因果推理	机器不再只靠人写规则，而是从大量数据中总结模式
神经网络	智能来自可学习的表示	Frank Rosenblatt、David Rumelhart、Geoffrey Hinton、Yann LeCun、Yoshua Bengio、Jürgen Schmidhuber、Sepp Hochreiter	感知机、反向传播、卷积网络、深度学习、LSTM、表示学习	机器开始自己学习特征，而不是完全依赖人工设计特征

如果用一句话总结这三条路线：符号主义让机器学会“按规则推理”，统计学习让机器学会“从数据中找规律”，神经网络让机器学会“自己提取特征和表示”。

AI 的三条重要路线

而 LLM 的出现，正是这些路线长期积累后的结果。它继承了 AI 对智能的追问，吸收了统计学习从数据中建模的方法，也依赖神经网络强大的表示学习能力。接下来，我们就从语言这个场景出发，看看机器是如何一步步从“处理文字”，走向今天能够理解、生成和协作的大语言模型。

需要说明的是，LLM 只是从“语言”这条路径出发来逼近智能，并不代表它是通往 AGI 的唯一答案。AI 领域仍然有许多重要探索，例如从视觉、具身智能、世界模型等方向理解和建模现实世界。长期来看，单纯依赖语言可能存在边界，真正通用的智能或许需要语言、感知、行动和世界模型等能力共同组成。

LLM 简史：大语言模型是如何一步步长出来的？

LLM 的历史并不算长，但在这条路上，无数科学家和工程师做过大量探索，也诞生过许多重要的语言模型。本文不会逐一展开每个模型的技术细节，而是重点关注几次关键转折，也就是 LLM 发展过程中的“群星闪烁时刻”。

早期语言模型首先要解决的是“如何表示文字”：Word2Vec 让词语能够被向量化，语义关系开始变得可计算；Transformer 出现后，模型具备了更高效建模上下文关系的能力；BERT 和 GPT 则分别代表了“理解”和“生成”两条重要路线；GPT-3 之后，规模化训练让模型开始展现少样本学习和通用任务能力；而 ChatGPT、GPT-4、Llama、GPT-4o、DeepSeek-R1、Claude 等产品的出现，则进一步把 LLM 从研究模型推向大众应用、开放生态、多模态交互与推理系统。

LLM 发展关键时间轴

下面我们将这段历史分为四个阶段来看：

阶段	时间	核心变化	代表节点	核心改变
LLM 崛起的前夜	2003-2017	从词向量到注意力机制	神经语言模型、Word2Vec、Seq2Seq、Attention	机器开始把语言变成可计算的向量
Transformer 革命与早期探索	2017-2019	Transformer 成为语言模型底座	Transformer、GPT-1、BERT、GPT-2	语言模型开始具备大规模预训练能力
规模化突破，智能开始显现	2020-2022	参数、数据、算力放大，能力涌现	GPT-3、InstructGPT、GPT-3.5、ChatGPT	模型从“会补全文字”走向“会完成任务”
从模型到系统	2023-2026	多模态、长上下文、Agent、推理模型融合	GPT-4、Llama 2、Claude、Gemini、GPT-4o、o1、DeepSeek-R1、GPT-5	LLM 不再只是聊天模型，而是智能系统的核心组件

LLM 崛起的前夜：从词向量到 Transformer（2003-2017）

在 Transformer 出现之前，语言模型已经经历了很长时间的积累。早期的关键问题是：机器如何理解一个词的含义？Word2Vec 给出了一个非常直观的方向：把词变成向量，让语义相近的词在空间中也更接近。

随后，Seq2Seq 和 Attention 让模型开始处理更复杂的语言任务，比如机器翻译。尤其是 Attention，它让模型在生成答案时，可以动态关注输入中最相关的部分。这一步非常关键，因为后来的 Transformer，本质上就是把 Attention 推到了架构中心。

时间	节点	技术意义	通俗解释
2003	神经概率语言模型，Bengio 等	用神经网络学习词表示和语言概率	机器开始把词变成可计算的向量
2013	Word2Vec，Tomas Mikolov 等	词向量大规模普及	“国王 - 男人 + 女人 ≈ 女王”这种语义关系能被计算
2014	Seq2Seq / Attention，Sutskever、Bahdanau 等	机器翻译进入端到端神经网络时代	模型学会在生成时关注输入里最相关的部分
2017	Transformer，Vaswani 等	自注意力架构成为 LLM 底座	模型可以同时看整段文本里词与词的关系

Transformer 革命与早期探索：GPT 与 BERT（2017-2019）

2017 年，Google 发表的《Attention Is All You Need》论文标志着深度学习进入全新纪元。Transformer 架构通过自注意力机制（Self-Attention）显著缓解了 RNN/LSTM 在长距离依赖和并行训练上的瓶颈，也让大规模语言模型训练变得更加可行。

Transformer 架构

Transformer 架构的关键变化是引入了 Self-Attention（自注意力机制）。它让模型在处理一句话时，可以同时观察所有词之间的关系，判断哪些词更重要、哪些词应该彼此关联。这不仅提升了建模能力，也让大规模并行训练成为可能。后来的 GPT、BERT、T5、Llama、Claude、Gemini 等模型，本质上都建立在 Transformer 这条技术路线之上。

可以用一个简单例子理解：

句子：“苹果发布了新手机，它的销量很好。”

模型需要知道“它”指的是“新手机”，而不是“苹果”这个公司。自注意力机制做的事情，就是帮助模型在上下文中找到这种关联关系。

时间	节点	之前的问题	它做了什么	示例理解	关键意义
2017	Transformer	RNN/LSTM 按顺序处理文本，训练慢，长距离依赖弱	用自注意力机制直接建模词与词之间的关系	在一句话里判断“它”到底指代谁	奠定现代 LLM 架构基础
2018	GPT-1	过去很多 NLP 任务需要为每个任务单独训练模型	用 Transformer Decoder 做生成式预训练，再迁移到下游任务	先大量读书学习语言，再去做分类、问答等任务	证明“生成式预训练”路线可行
2018	BERT	单向语言模型理解上下文不够完整	用 Transformer Encoder 做双向预训练，同时看左边和右边上下文	理解“我去银行存钱”和“河边的银行”含义不同	让预训练模型成为 NLP 理解任务的标准范式
2019	GPT-2	小模型生成文本连贯性有限，泛化能力不足	扩大模型和数据规模，展示更强文本生成能力	给一个开头，模型能续写出较长、连贯的段落	让人们看到大规模生成模型的潜力
2019	T5	不同 NLP 任务形式不统一，训练和迁移复杂	把所有 NLP 任务统一成“文本到文本”格式	翻译、摘要、问答都变成输入文本、输出文本	推动统一任务范式，为后续通用模型铺路

规模化突破，智能开始显现：GPT-3 到 ChatGPT（2020-2022）

真正让 LLM 进入大众视野的，是规模化。GPT-3 把模型参数提升到 1750 亿，展示了一个重要现象：当模型、数据和算力扩大到一定程度后，模型不再只是“补全文字”，而是开始表现出少样本学习、任务迁移和复杂文本生成能力。

简单说，以前我们想让模型完成一个新任务，往往需要专门准备数据、重新训练模型；而 GPT-3 之后，用户只需要在提示词里写清楚任务，甚至给几个示例，模型就能“临场学会”如何回答。这就是 few-shot learning 带来的震撼。

但 GPT-3 还不够“听话”。它会生成文本，却不一定理解用户真正想要什么。于是后来的 InstructGPT、GPT-3.5 和 ChatGPT，把重点转向指令理解、对话体验和人类反馈对齐，让模型从“会预测下一个词”，逐渐变成“会按照人的意图完成任务”。

时间	节点	技术突破	解决了什么问题	典型应用
2020	GPT-3	大规模预训练、1750 亿参数、few-shot learning	不再每个任务都单独训练，模型可以通过提示词适配新任务	文本生成、翻译、摘要、问答、代码辅助
2022	InstructGPT	指令微调、RLHF	模型更理解“用户想让我做什么”，回答更符合人类偏好	指令问答、写作助手、客服回复、任务执行
2022	GPT-3.5	更强对话能力、更好的任务泛化	从单轮文本生成走向多轮对话和复杂任务处理	编程辅助、文档总结、头脑风暴、学习辅导
2022.11	ChatGPT	对话产品化、低门槛交互界面	让非技术用户也能自然使用 LLM	日常问答、内容创作、代码解释、办公提效

这一时期的应用场景也开始迅速扩展。对普通用户来说，它可以写邮件、改文案、总结文章、解释概念；对开发者来说，它可以生成代码、解释报错、补全文档、辅助测试；对企业来说，它开始进入客服、知识库、营销、办公自动化等场景。

从模型到系统：多模态、长上下文、Agent 与推理模型（2023-2026）

2023 年之后，LLM 的竞争不再只是“谁的参数更多”。这一阶段更重要的变化是：模型开始从单一文本生成器，逐步演化成一个可以理解多模态信息、处理长上下文、调用工具、执行复杂任务的智能系统。

时间	模型 / 产品	模型或系统设计变化	解决了什么问题	典型场景
2023.03	GPT-4	更强的规模化训练与对齐，多模态输入能力开始进入主流视野	GPT-3.5 在复杂推理、代码、专业任务上不够稳定	复杂问答、代码生成、文档分析、专业考试类任务
2023.07	Llama 2	开放权重模型，提供预训练版和对话微调版	闭源模型难以本地部署、私有化微调和研究复现	企业私有部署、垂直领域微调、开源生态应用
2023.12	Gemini	强调原生多模态，从设计上支持文本、图像、音频、视频等输入	过去多模态常依赖多个模型拼接，理解链路割裂	图片理解、视频理解、跨模态推理、移动端/云端模型
2024.03	Claude 3	长上下文、视觉理解、不同能力档位模型组合	模型难以处理超长文档和复杂资料	长文档阅读、合同分析、研究报告总结、企业知识处理
2024.05	GPT-4o	更统一的文本、视觉、语音交互能力，降低实时交互延迟	语音助手常依赖“语音识别 + LLM + 语音合成”多段链路，响应不自然	实时语音对话、看图问答、会议助手、教育陪练
2024.09	o1	引入更明确的推理模型路线，让模型在回答前投入更多计算	普通聊天模型在数学、代码、科学推理上容易快速但不深入	数学推理、竞赛题、复杂代码问题、科学分析
2024.10	Claude Computer Use	让模型可以观察屏幕、点击、输入，开始操作软件界面	LLM 只能“说”，不能真正执行跨应用任务	自动填表、网页操作、办公流程自动化、UI Agent
2025.01	DeepSeek-R1	通过强化学习激发推理能力，并开放模型与蒸馏版本	高水平推理模型成本高、封闭、难以复现	开放推理模型、低成本部署、数学和代码推理
2025.08	GPT-5	统一快速回答模型、深度推理模型和实时路由系统	用户需要手动选择模型，不知道什么时候该“快答”或“深度思考”	Agent 工作流、复杂编程、工具调用、多步骤任务
2026	Claude Fable 5	前沿模型继续向高自治、长程任务和复杂协作推进	模型不仅要回答问题，还要在长任务中保持目标和上下文	高自治任务、复杂项目协作、企业级工作流

LLM 整体流程

前面我们回顾了 LLM 的发展历史，接下来换一个视角：一个大语言模型到底是如何被训练出来，并最终变成 ChatGPT 这类产品的？如果把整个过程拆开看，它并不是一个单点技术，而是一条从数据、表示、训练、对齐到产品化的工程链路。

LLM 整体流程

这条链路可以简单理解为：先让模型读大量文本，学会语言规律；再让它理解人类指令，学会更好地回答问题；最后把它包装成可交互、可调用工具、可处理复杂任务的智能系统。

模块	核心原理	做了什么	核心技术	核心难点
文本数据	模型从数据中学习语言规律	收集、清洗、过滤、去重训练语料	数据清洗、质量过滤、去重、数据配比	数据质量、版权、安全、有害内容过滤
Tokenization	把文本切成模型能处理的基本单位	将句子拆成 token 序列	BPE、SentencePiece、Tokenizer 词表	多语言支持、长文本效率、特殊符号处理
Embedding 表示	把 token 映射成向量	让文字变成可计算的数字表示	词向量、位置编码、向量空间表示	如何保留语义、位置和上下文信息
Transformer 预训练	通过预测下一个 token 学习语言模式	在海量文本上训练基础模型	Self-Attention、Decoder-only、分布式训练	算力成本、训练稳定性、数据规模和模型规模匹配
指令微调	让模型学会按照人类指令回答	用指令数据优化模型行为	SFT、指令数据集、多任务样本	指令质量、任务覆盖度、回答风格一致性
RLHF / 对齐	让模型输出更符合人类偏好	根据人类反馈优化回答质量	奖励模型、PPO、偏好数据、DPO	偏好难定义、过度对齐、幻觉和安全问题
ChatGPT 类产品	把模型变成用户可用的应用	提供对话界面、上下文管理、工具入口	Prompt 工程、上下文窗口、推理服务、模型路由	低延迟、低成本、稳定性、用户体验
多模态 / Agent / 推理模型	扩展模型的感知、行动和思考能力	处理图像、语音、工具调用、复杂推理任务	多模态编码、Function Calling、RAG、Agent、推理模型	长程任务可靠性、工具错误、安全边界、成本控制

这一节我们先对 LLM 整体流程有一个大概的了解。后面的系列文章会沿着这条链路逐步展开：先讲文本如何变成 token 和向量，再讲 Transformer 如何完成预训练，接着讲后训练、分布式训练、推理服务、RAG、Agent、多模态和推理模型等内容。也就是说，LLM 不是一个单独的模型名，而是一整套从数据到系统的技术工程。

LLM 不是终点，而是一条技术主线的开始

回到文章最开始的问题：LLM 为什么会在这几年突然崛起？

现在我们可以给出一个更清晰的答案：它不是单一技术的偶然爆发，而是 AI 几十年探索之后，多条技术路线汇合的结果。符号主义提出了“机器如何推理”的问题，统计学习让机器开始从数据中寻找规律，神经网络让模型具备了学习表示的能力；而词向量、Attention、Transformer、预训练、后训练和对齐，则一步步把这些能力推向了今天的大语言模型。

从历史上看，LLM 的发展经历了几个关键阶段：早期模型解决了语言表示问题，Transformer 提供了可扩展的架构，GPT-3 验证了规模化路线，ChatGPT 让大模型真正进入大众视野，而多模态、长上下文、Agent 和推理模型，则正在把 LLM 从“会回答问题的模型”推向“能完成任务的智能系统”。

当然，LLM 并不是通往通用人工智能的唯一道路。语言是一条非常重要的路径，但真正理解世界，可能还需要视觉、行动、记忆、环境交互和世界模型等能力共同参与。我们今天看到的 LLM，更像是通向未来智能系统的一块关键拼图，而不是故事的终点。

这一篇文章只是整个系列的起点。我们先从宏观上理解了 AI 到 LLM 的演进脉络，也初步看到了一个大语言模型从数据、Tokenization、Embedding、预训练、后训练到产品化的大致流程。接下来的文章，我们会开始拆开这些关键模块：先从最基础的数学概念讲起，看看向量、矩阵、概率和梯度这些工具，为什么会成为理解大语言模型的底层语言。

LLM 系列 (一)：从 AI 到 LLM

LLM 系列 (一)：从 AI 到 LLM

AI 的终极问题：机器如何获取智能？

LLM 简史：大语言模型是如何一步步长出来的？

LLM 崛起的前夜：从词向量到 Transformer（2003-2017）

Transformer 革命与早期探索：GPT 与 BERT（2017-2019）

规模化突破，智能开始显现：GPT-3 到 ChatGPT（2020-2022）

从模型到系统：多模态、长上下文、Agent 与推理模型（2023-2026）

LLM 整体流程

LLM 不是终点，而是一条技术主线的开始

版权说明

公众号