LLM 系列 (三):算法原理篇:机器是如何学会语言的
前两篇文章分别介绍了大模型的发展脉络和基础数学知识。到了第三篇,我们还需要补上一块很关键的地基:基本的算法原理。不过,这里的“算法原理”并不是一堂严肃的算法课。本文会尽量站在非算法同学的视角,用更通俗、直观的方式,把语言模型背后那些看起来复杂、晦涩的概念拆开讲清楚。
我们不追求推导公式,也不会一上来就深入 Transformer 的细节。本文更希望回答一个核心问题:
- 机器到底是如何一步步学会处理语言的?
理解这个问题之后,再去看 LLM、Transformer、Attention、预训练、微调这些概念,就不会只是记住一堆名词,而是能知道它们分别解决了什么问题,为什么会一步步演进到今天的大语言模型。
读完这篇文章,希望你能清晰回答下面几个问题:
- 为什么要把文本变成 token 和向量?
- 为什么模型可以从数据中学习?
- 为什么神经网络比手写规则更强?
- 为什么传统序列模型不够用?
- 为什么 Transformer 会成为大模型的核心架构?