这一篇不再整理成问答，而是把前面所有概念压成一张知识地图。读完前 12 篇之后，可以用它来检查自己脑子里有没有形成一条完整链路。第 14 篇会用 Olmo 3 这个公开度很高的开源模型案例，把这条链路再走一遍。

一、主线地图#

这套笔记最终要能回答五个核心问题：

问题	一句话答案	主要对应章节
预训练学什么	学的是"给定上下文预测下一个 token"的通用语言建模能力，能力沉淀在 embedding、attention、FFN/MLP、Norm、LM Head 等参数里。	01、02
为什么需要中训练	预训练太泛，SFT 数据太少；中训练用领域/专项语料继续做 Language Modeling loss，让 base model 先熟悉代码、数学、长上下文或行业分布。	01、03
后训练有哪些阶段	常见链路是 SFT 先教指令跟随，再用 DPO、RLHF/PPO、GRPO/RLVR、Agentic RL、安全对齐等方法优化偏好、可验证任务和工具行为。	04、05、06、07、08、09
评估体系怎么分层	从通用 benchmark 到领域评估、RAG/Agent 评估、安全评估、人工评审和线上 A/B；越往后越接近真实用户效果。	10
数据飞轮怎么闭环	线上日志、badcase 和用户反馈经过归因、清洗、脱敏、标注和分流后，一部分进入训练，一部分进入评估/回归集，再推动下一轮上线验证。	11、12

如果能把这五个问题串起来，就说明已经不只是背概念，而是理解了大模型从训练到上线的基本生命周期。

大模型从数据到上线，可以拆成五个连续阶段：

1
Pretraining
2
-> Continued Pretraining
3
-> Post-training
4
-> Evaluation
5
-> Data Flywheel

每个阶段都对应不同的数据、目标函数和风险。

阶段	数据	优化信号	主要改变	主要风险
预训练	海量通用语料	next token loss	建立通用语言建模能力	数据污染、成本巨大、不可控记忆
中训练	领域/专项语料	LM loss（Language Modeling loss）	增强代码、数学、长上下文、领域能力	灾难性遗忘、领域过拟合
SFT	指令-回答数据	assistant token CE loss	学会对话格式、指令跟随、任务流程	模板化、复制错误数据
DPO	chosen/rejected 偏好对	preference loss	提升相对偏好	长度偏差、偏好噪声、探索弱
RLHF/PPO	偏好数据 + reward model	reward + KL + PPO	优化复杂人类偏好	reward hacking、训练不稳定
GRPO/RLVR	可验证任务采样	组内 reward	提升数学、代码、工具等可验证任务	verifier 偏差、采样成本
Agentic RL	工具轨迹和环境反馈	任务成功 reward	学会多步行动和纠错	安全风险、环境成本、长程归因
评估	benchmark、领域集、线上指标	指标体系	判断是否真的变好	评估污染、指标片面
数据飞轮	用户日志、badcase、反馈	数据闭环	持续修复真实问题	隐私、权限、数据质量

二、参数视角#

从参数更新角度看，训练管线并不是每一步都在"灌知识"。

1. 预训练#

更新几乎所有参数：

1
token embedding
2
positional mechanism
3
attention weights
4
MLP weights
5
norm weights
6
LM head

模型通过 next token loss 学会把上下文映射成下一个 token 的概率分布。

2. 中训练#

通常仍然更新模型参数，但数据分布更聚焦。它不是教模型"怎么回答"，而是让模型更熟悉某类语料和能力分布。

3. SFT#

仍然可以全参数更新，也可以 LoRA/QLoRA。关键是 loss 只对 assistant answer 生效，system/user 更多是条件。

1
messages -> chat template -> token ids -> label mask -> CE loss

4. DPO / RLHF / GRPO#

这些方法不只是模仿答案，而是在改变模型对不同输出的相对概率：

1
DPO: chosen 概率相对 rejected 上升
2
RLHF: 高 reward 输出概率上升
3
GRPO: 组内高 reward 采样概率上升

三、数据视角#

不同阶段需要的数据形态完全不同。

数据形态	用途
原始网页、书籍、代码、论文	预训练
高质量领域文档、代码库、数学题解	中训练
instruction-response、多轮 messages	SFT
prompt + chosen + rejected	DPO
prompt + response + reward	RLHF / RLVR
prompt + 多条采样 + verifier score	GRPO
task + action/observation trajectory + final reward	Agentic RL
benchmark、领域测试、回归 badcase	评估
线上日志、用户反馈、人工修正	数据飞轮

学习时最重要的是不要把这些数据混成一类。比如领域文档适合中训练或 RAG，未必适合直接做 SFT；用户点踩是反馈信号，但不能直接当成 rejected；Agent 轨迹可以做 SFT，也可以做 RL，但前提是工具返回和成功状态要完整。

四、损失函数和奖励视角#

可以把这些训练方法统一理解成"优化信号越来越接近真实任务"。

1
预训练：预测下一个 token
2
SFT：预测人工写好的 assistant token
3
DPO：让 chosen 相对 rejected 更可能
4
RLHF：让 reward model 高分回答更可能
5
GRPO：让组内 reward 更高的回答更可能
6
Agentic RL：让整条轨迹更可能完成任务

越往后，目标越贴近用户使用；同时也越难训练、越依赖评估和数据治理。

五、评估视角#

任何训练都要配评估，否则只能看 loss 猜效果。

评估体系可以先按"离真实用户有多近"分成五层：

评估层次	关注点	典型方式
通用能力评估	基础知识、推理、数学、代码等底层能力有没有退化或提升	MMLU、C-Eval、GSM8K、MATH、HumanEval
领域能力评估	模型是否适合具体行业或业务场景	金融、法律、医疗、教育、内部业务测试集
产品能力评估	模型在产品工作流里能不能稳定完成任务	指令跟随、格式约束、RAG、Agent、工具调用
安全能力评估	是否存在越狱、有害输出、隐私泄露、过度拒答	红队集、安全分类器、人工审核
线上效果评估	真实用户是否更满意，业务指标是否更好	灰度、A/B 实验、满意度、留存、badcase rate

越靠前越适合快速离线对比，越靠后越接近真实上线效果。一个模型 benchmark 分数高，只能说明它在某些标准题上强；能不能上线，还要看领域、产品、安全和线上指标。

最小评估矩阵可以这样设计：

模型能力	评估方式
通用知识	MMLU、C-Eval、CMMLU
数学	GSM8K、MATH、内部题集
代码	HumanEval、单元测试、仓库任务
指令跟随	IFEval、格式约束测试
RAG	Recall@k、MRR、faithfulness、引用准确率
Agent	任务成功率、工具准确率、步数、成本
安全	红队、越狱、隐私泄露、过度拒答
业务	人工评审、A/B、满意度、badcase rate

评估集也要像训练数据一样管理版本。否则模型变好了还是题变简单了，很难判断。

六、数据安全视角#

训练数据进入模型前，要过几道门：

1
来源是否合法
2
质量是否足够
3
是否重复
4
是否含隐私
5
是否含 benchmark
6
是否含投毒样本
7
是否有权限进入训练

数据安全不是单独一章的附属内容，而是贯穿所有阶段：

预训练怕大规模污染和版权风险。
中训练怕企业文档泄露。
SFT 怕错误答案被模仿。
DPO 怕偏好标签噪声。
RL 怕 reward 被钻空子。
评估怕测试集污染。
数据飞轮怕用户日志未脱敏。

七、学习顺序#

如果从零复习，建议按这个顺序走：

先看预训练，理解 tokenizer、embedding、Transformer、LM head 和 next token loss。
再看中训练，理解为什么需要在领域语料上继续补能力。
看 SFT，搞清楚 messages、chat template、label mask 和监督学习。
看 DPO，理解 preference pair 如何直接改变 policy 概率。
看 RLHF/PPO，理解 reward model、rollout、advantage、KL。
看 GRPO/RLVR，理解可验证 reward 和组内相对优势。
看 Agentic RL，把工具调用、环境反馈和任务成功率串起来。
最后看评估、数据飞轮和数据安全，因为它们决定模型能否真实迭代。
再看 Olmo 3 案例，把预训练、中训练、后训练、评估、发布和数据闭环放进一个真实开源模型项目里复盘。

八、最后的一张压缩表#

概念	抓手
Tokenizer	字符串到 token id 的离散映射
Embedding	token id 到 hidden vector 的可训练查表
Transformer	上下文混合和特征变换的主体
LM Head	hidden state 到词表 logits 的输出层
Pretraining	自监督语言建模
Continued Pretraining	在专项分布上继续语言建模
SFT	用标准回答塑造指令行为
DPO	用偏好对塑造相对概率
RLHF	用 reward model 表达人类偏好
PPO	用受约束的策略更新优化 reward
GRPO	用组内相对 reward 替代 critic
RLVR	用规则或 verifier 给奖励
Agentic RL	用环境反馈训练多步任务
Evaluation	用多层指标判断真实变化
Data Flywheel	用线上反馈反哺训练和评估