核心架构(Transformer)
LLM 的基石是 Transformer 架构。对于开发者来说,理解其如何实现并行化计算和处理长程依赖是关键。
-
Self-Attention(自注意力机制):这是 LLM 的“灵魂”。你需要理解 Query ()、Key ()、Value () 的数学本质及其通过点积计算相关性的过程:
-
Positional Encoding & RoPE:由于 Transformer 是并行处理的,模型本身没有位置感。你需要了解主流模型(如 Llama)如何使用 RoPE (Rotary Positional Embedding) 来处理位置信息。
-
Decoder-Only 架构:现代主流模型(GPT 系列、Llama、Mistral)基本都采用了 Decoder-only 架构。你需要搞清楚它与原始 Transformer (Encoder-Decoder) 的区别,以及为什么它在生成任务中表现更好。
数据处理与表征
在模型“读懂”文字之前,需要将离散的字符转化为高维向量。
-
Tokenization(分词):掌握 BPE (Byte Pair Encoding) 算法。理解 Token 并不是单词,而是子词(Subwords)。
-
Embeddings:理解如何将 Token 映射到高维空间中的稠密向量。
-
Scaling Laws:了解模型参数、训练数据量与性能之间的幂律关系,这决定了为什么 LLM 需要“大”。
全生命周期(从预训练到对齐)
了解一个模型是如何从一堆乱码变成可以对话的助手的。
-
Pre-training(预训练):在数万亿 Token 上进行的无监督预测下一个词(Next Token Prediction)。这是模型获取“常识”和“推理能力”的阶段。
-
SFT (Supervised Fine-Tuning):使用高质量的问答对进行指令微调,让模型学会按照指令回答问题。
-
RLHF & DPO(对齐):
现代模型变体与工程挑战
以下概念是现代 LLM 实现的精髓:
-
MoE (Mixture of Experts, 混合专家模型):GPT-4 和 DeepSeek 等模型的核心。模型不再是一个巨大的整体,而是由多个小专家组成,每次只激活其中一部分(稀疏性),从而在降低推理成本的同时保持高性能。
-
Flash Attention:通过 IO 感知优化内存读写,显著提升长文本处理速度。
-
KV Cache:推理优化的关键。理解为什么生成每个词都要缓存之前的 Key 和 Value,以及它是如何节省计算量的。
-
Quantization(量化):如 GPTQ, AWQ, GGUF。了解如何将 FP16 的模型压缩到 INT8 或 INT4,以便在消费级显卡上运行。
学习路径
-
精读论文: 《Attention is All You Need》 、 《Llama 3 Technical Report》。
-
代码:参考 Andrej Karpathy 的
minGPT或llm.c仓库。