把预训练、中训练、后训练、SFT、DPO、RLHF/PPO、GRPO、Agentic RL、评估体系和数据飞轮串成一张学习地图。
这一篇不再整理成问答,而是把前面所有概念压成一张知识地图。读完前 12 篇之后,可以用它来检查自己脑子里有没有形成一条完整链路。第 14 篇会用 Olmo 3 这个公开度很高的开源模型案例,把这条链路再走一遍。
一、主线地图
这套笔记最终要能回答五个核心问题:
| 问题 | 一句话答案 | 主要对应章节 |
|---|---|---|
| 预训练学什么 | 学的是"给定上下文预测下一个 token"的通用语言建模能力,能力沉淀在 embedding、attention、FFN/MLP、Norm、LM Head 等参数里。 | 01、02 |
| 为什么需要中训练 | 预训练太泛,SFT 数据太少;中训练用领域/专项语料继续做 Language Modeling loss,让 base model 先熟悉代码、数学、长上下文或行业分布。 | 01、03 |
| 后训练有哪些阶段 | 常见链路是 SFT 先教指令跟随,再用 DPO、RLHF/PPO、GRPO/RLVR、Agentic RL、安全对齐等方法优化偏好、可验证任务和工具行为。 | 04、05、06、07、08、09 |
| 评估体系怎么分层 | 从通用 benchmark 到领域评估、RAG/Agent 评估、安全评估、人工评审和线上 A/B;越往后越接近真实用户效果。 | 10 |
| 数据飞轮怎么闭环 | 线上日志、badcase 和用户反馈经过归因、清洗、脱敏、标注和分流后,一部分进入训练,一部分进入评估/回归集,再推动下一轮上线验证。 | 11、12 |
如果能把这五个问题串起来,就说明已经不只是背概念,而是理解了大模型从训练到上线的基本生命周期。
大模型从数据到上线,可以拆成五个连续阶段:
Pretraining-> Continued Pretraining-> Post-training-> Evaluation-> Data Flywheel每个阶段都对应不同的数据、目标函数和风险。
| 阶段 | 数据 | 优化信号 | 主要改变 | 主要风险 |
|---|---|---|---|---|
| 预训练 | 海量通用语料 | next token loss | 建立通用语言建模能力 | 数据污染、成本巨大、不可控记忆 |
| 中训练 | 领域/专项语料 | LM loss(Language Modeling loss) | 增强代码、数学、长上下文、领域能力 | 灾难性遗忘、领域过拟合 |
| SFT | 指令-回答数据 | assistant token CE loss | 学会对话格式、指令跟随、任务流程 | 模板化、复制错误数据 |
| DPO | chosen/rejected 偏好对 | preference loss | 提升相对偏好 | 长度偏差、偏好噪声、探索弱 |
| RLHF/PPO | 偏好数据 + reward model | reward + KL + PPO | 优化复杂人类偏好 | reward hacking、训练不稳定 |
| GRPO/RLVR | 可验证任务采样 | 组内 reward | 提升数学、代码、工具等可验证任务 | verifier 偏差、采样成本 |
| Agentic RL | 工具轨迹和环境反馈 | 任务成功 reward | 学会多步行动和纠错 | 安全风险、环境成本、长程归因 |
| 评估 | benchmark、领域集、线上指标 | 指标体系 | 判断是否真的变好 | 评估污染、指标片面 |
| 数据飞轮 | 用户日志、badcase、反馈 | 数据闭环 | 持续修复真实问题 | 隐私、权限、数据质量 |
二、参数视角
从参数更新角度看,训练管线并不是每一步都在"灌知识"。
1. 预训练
更新几乎所有参数:
token embeddingpositional mechanismattention weightsMLP weightsnorm weightsLM head模型通过 next token loss 学会把上下文映射成下一个 token 的概率分布。
2. 中训练
通常仍然更新模型参数,但数据分布更聚焦。它不是教模型"怎么回答",而是让模型更熟悉某类语料和能力分布。
3. SFT
仍然可以全参数更新,也可以 LoRA/QLoRA。关键是 loss 只对 assistant answer 生效,system/user 更多是条件。
messages -> chat template -> token ids -> label mask -> CE loss4. DPO / RLHF / GRPO
这些方法不只是模仿答案,而是在改变模型对不同输出的相对概率:
DPO: chosen 概率相对 rejected 上升RLHF: 高 reward 输出概率上升GRPO: 组内高 reward 采样概率上升三、数据视角
不同阶段需要的数据形态完全不同。
| 数据形态 | 用途 |
|---|---|
| 原始网页、书籍、代码、论文 | 预训练 |
| 高质量领域文档、代码库、数学题解 | 中训练 |
| instruction-response、多轮 messages | SFT |
| prompt + chosen + rejected | DPO |
| prompt + response + reward | RLHF / RLVR |
| prompt + 多条采样 + verifier score | GRPO |
| task + action/observation trajectory + final reward | Agentic RL |
| benchmark、领域测试、回归 badcase | 评估 |
| 线上日志、用户反馈、人工修正 | 数据飞轮 |
学习时最重要的是不要把这些数据混成一类。比如领域文档适合中训练或 RAG,未必适合直接做 SFT;用户点踩是反馈信号,但不能直接当成 rejected;Agent 轨迹可以做 SFT,也可以做 RL,但前提是工具返回和成功状态要完整。
四、损失函数和奖励视角
可以把这些训练方法统一理解成"优化信号越来越接近真实任务"。
预训练:预测下一个 tokenSFT:预测人工写好的 assistant tokenDPO:让 chosen 相对 rejected 更可能RLHF:让 reward model 高分回答更可能GRPO:让组内 reward 更高的回答更可能Agentic RL:让整条轨迹更可能完成任务越往后,目标越贴近用户使用;同时也越难训练、越依赖评估和数据治理。
五、评估视角
任何训练都要配评估,否则只能看 loss 猜效果。
评估体系可以先按"离真实用户有多近"分成五层:
| 评估层次 | 关注点 | 典型方式 |
|---|---|---|
| 通用能力评估 | 基础知识、推理、数学、代码等底层能力有没有退化或提升 | MMLU、C-Eval、GSM8K、MATH、HumanEval |
| 领域能力评估 | 模型是否适合具体行业或业务场景 | 金融、法律、医疗、教育、内部业务测试集 |
| 产品能力评估 | 模型在产品工作流里能不能稳定完成任务 | 指令跟随、格式约束、RAG、Agent、工具调用 |
| 安全能力评估 | 是否存在越狱、有害输出、隐私泄露、过度拒答 | 红队集、安全分类器、人工审核 |
| 线上效果评估 | 真实用户是否更满意,业务指标是否更好 | 灰度、A/B 实验、满意度、留存、badcase rate |
越靠前越适合快速离线对比,越靠后越接近真实上线效果。一个模型 benchmark 分数高,只能说明它在某些标准题上强;能不能上线,还要看领域、产品、安全和线上指标。
最小评估矩阵可以这样设计:
| 模型能力 | 评估方式 |
|---|---|
| 通用知识 | MMLU、C-Eval、CMMLU |
| 数学 | GSM8K、MATH、内部题集 |
| 代码 | HumanEval、单元测试、仓库任务 |
| 指令跟随 | IFEval、格式约束测试 |
| RAG | Recall@k、MRR、faithfulness、引用准确率 |
| Agent | 任务成功率、工具准确率、步数、成本 |
| 安全 | 红队、越狱、隐私泄露、过度拒答 |
| 业务 | 人工评审、A/B、满意度、badcase rate |
评估集也要像训练数据一样管理版本。否则模型变好了还是题变简单了,很难判断。
六、数据安全视角
训练数据进入模型前,要过几道门:
来源是否合法质量是否足够是否重复是否含隐私是否含 benchmark是否含投毒样本是否有权限进入训练数据安全不是单独一章的附属内容,而是贯穿所有阶段:
- 预训练怕大规模污染和版权风险。
- 中训练怕企业文档泄露。
- SFT 怕错误答案被模仿。
- DPO 怕偏好标签噪声。
- RL 怕 reward 被钻空子。
- 评估怕测试集污染。
- 数据飞轮怕用户日志未脱敏。
七、学习顺序
如果从零复习,建议按这个顺序走:
- 先看预训练,理解 tokenizer、embedding、Transformer、LM head 和 next token loss。
- 再看中训练,理解为什么需要在领域语料上继续补能力。
- 看 SFT,搞清楚 messages、chat template、label mask 和监督学习。
- 看 DPO,理解 preference pair 如何直接改变 policy 概率。
- 看 RLHF/PPO,理解 reward model、rollout、advantage、KL。
- 看 GRPO/RLVR,理解可验证 reward 和组内相对优势。
- 看 Agentic RL,把工具调用、环境反馈和任务成功率串起来。
- 最后看评估、数据飞轮和数据安全,因为它们决定模型能否真实迭代。
- 再看 Olmo 3 案例,把预训练、中训练、后训练、评估、发布和数据闭环放进一个真实开源模型项目里复盘。
八、最后的一张压缩表
| 概念 | 抓手 |
|---|---|
| Tokenizer | 字符串到 token id 的离散映射 |
| Embedding | token id 到 hidden vector 的可训练查表 |
| Transformer | 上下文混合和特征变换的主体 |
| LM Head | hidden state 到词表 logits 的输出层 |
| Pretraining | 自监督语言建模 |
| Continued Pretraining | 在专项分布上继续语言建模 |
| SFT | 用标准回答塑造指令行为 |
| DPO | 用偏好对塑造相对概率 |
| RLHF | 用 reward model 表达人类偏好 |
| PPO | 用受约束的策略更新优化 reward |
| GRPO | 用组内相对 reward 替代 critic |
| RLVR | 用规则或 verifier 给奖励 |
| Agentic RL | 用环境反馈训练多步任务 |
| Evaluation | 用多层指标判断真实变化 |
| Data Flywheel | 用线上反馈反哺训练和评估 |
专题阅读
LLM Base
这篇文章属于同一条阅读链。你可以直接在这里切换,不用再回到列表页重新找。
部分信息可能已经过时
留言区
留言
欢迎纠错、补充、交流。昵称和评论内容必填;如果你愿意,也可以留下联系方式,仅站主可见。