2402 字
7 分钟
LLM Basellm base
大模型训练管线知识索引与学习地图

把预训练、中训练、后训练、SFT、DPO、RLHF/PPO、GRPO、Agentic RL、评估体系和数据飞轮串成一张学习地图。

这一篇不再整理成问答,而是把前面所有概念压成一张知识地图。读完前 12 篇之后,可以用它来检查自己脑子里有没有形成一条完整链路。第 14 篇会用 Olmo 3 这个公开度很高的开源模型案例,把这条链路再走一遍。

一、主线地图#

这套笔记最终要能回答五个核心问题:

问题一句话答案主要对应章节
预训练学什么学的是"给定上下文预测下一个 token"的通用语言建模能力,能力沉淀在 embedding、attention、FFN/MLP、Norm、LM Head 等参数里。01、02
为什么需要中训练预训练太泛,SFT 数据太少;中训练用领域/专项语料继续做 Language Modeling loss,让 base model 先熟悉代码、数学、长上下文或行业分布。01、03
后训练有哪些阶段常见链路是 SFT 先教指令跟随,再用 DPO、RLHF/PPO、GRPO/RLVR、Agentic RL、安全对齐等方法优化偏好、可验证任务和工具行为。04、05、06、07、08、09
评估体系怎么分层从通用 benchmark 到领域评估、RAG/Agent 评估、安全评估、人工评审和线上 A/B;越往后越接近真实用户效果。10
数据飞轮怎么闭环线上日志、badcase 和用户反馈经过归因、清洗、脱敏、标注和分流后,一部分进入训练,一部分进入评估/回归集,再推动下一轮上线验证。11、12

如果能把这五个问题串起来,就说明已经不只是背概念,而是理解了大模型从训练到上线的基本生命周期。

大模型从数据到上线,可以拆成五个连续阶段:

Pretraining
-> Continued Pretraining
-> Post-training
-> Evaluation
-> Data Flywheel

每个阶段都对应不同的数据、目标函数和风险。

阶段数据优化信号主要改变主要风险
预训练海量通用语料next token loss建立通用语言建模能力数据污染、成本巨大、不可控记忆
中训练领域/专项语料LM loss(Language Modeling loss)增强代码、数学、长上下文、领域能力灾难性遗忘、领域过拟合
SFT指令-回答数据assistant token CE loss学会对话格式、指令跟随、任务流程模板化、复制错误数据
DPOchosen/rejected 偏好对preference loss提升相对偏好长度偏差、偏好噪声、探索弱
RLHF/PPO偏好数据 + reward modelreward + KL + PPO优化复杂人类偏好reward hacking、训练不稳定
GRPO/RLVR可验证任务采样组内 reward提升数学、代码、工具等可验证任务verifier 偏差、采样成本
Agentic RL工具轨迹和环境反馈任务成功 reward学会多步行动和纠错安全风险、环境成本、长程归因
评估benchmark、领域集、线上指标指标体系判断是否真的变好评估污染、指标片面
数据飞轮用户日志、badcase、反馈数据闭环持续修复真实问题隐私、权限、数据质量

二、参数视角#

从参数更新角度看,训练管线并不是每一步都在"灌知识"。

1. 预训练#

更新几乎所有参数:

token embedding
positional mechanism
attention weights
MLP weights
norm weights
LM head

模型通过 next token loss 学会把上下文映射成下一个 token 的概率分布。

2. 中训练#

通常仍然更新模型参数,但数据分布更聚焦。它不是教模型"怎么回答",而是让模型更熟悉某类语料和能力分布。

3. SFT#

仍然可以全参数更新,也可以 LoRA/QLoRA。关键是 loss 只对 assistant answer 生效,system/user 更多是条件。

messages -> chat template -> token ids -> label mask -> CE loss

4. DPO / RLHF / GRPO#

这些方法不只是模仿答案,而是在改变模型对不同输出的相对概率:

DPO: chosen 概率相对 rejected 上升
RLHF: 高 reward 输出概率上升
GRPO: 组内高 reward 采样概率上升

三、数据视角#

不同阶段需要的数据形态完全不同。

数据形态用途
原始网页、书籍、代码、论文预训练
高质量领域文档、代码库、数学题解中训练
instruction-response、多轮 messagesSFT
prompt + chosen + rejectedDPO
prompt + response + rewardRLHF / RLVR
prompt + 多条采样 + verifier scoreGRPO
task + action/observation trajectory + final rewardAgentic RL
benchmark、领域测试、回归 badcase评估
线上日志、用户反馈、人工修正数据飞轮

学习时最重要的是不要把这些数据混成一类。比如领域文档适合中训练或 RAG,未必适合直接做 SFT;用户点踩是反馈信号,但不能直接当成 rejected;Agent 轨迹可以做 SFT,也可以做 RL,但前提是工具返回和成功状态要完整。

四、损失函数和奖励视角#

可以把这些训练方法统一理解成"优化信号越来越接近真实任务"。

预训练:预测下一个 token
SFT:预测人工写好的 assistant token
DPO:让 chosen 相对 rejected 更可能
RLHF:让 reward model 高分回答更可能
GRPO:让组内 reward 更高的回答更可能
Agentic RL:让整条轨迹更可能完成任务

越往后,目标越贴近用户使用;同时也越难训练、越依赖评估和数据治理。

五、评估视角#

任何训练都要配评估,否则只能看 loss 猜效果。

评估体系可以先按"离真实用户有多近"分成五层:

评估层次关注点典型方式
通用能力评估基础知识、推理、数学、代码等底层能力有没有退化或提升MMLU、C-Eval、GSM8K、MATH、HumanEval
领域能力评估模型是否适合具体行业或业务场景金融、法律、医疗、教育、内部业务测试集
产品能力评估模型在产品工作流里能不能稳定完成任务指令跟随、格式约束、RAG、Agent、工具调用
安全能力评估是否存在越狱、有害输出、隐私泄露、过度拒答红队集、安全分类器、人工审核
线上效果评估真实用户是否更满意,业务指标是否更好灰度、A/B 实验、满意度、留存、badcase rate

越靠前越适合快速离线对比,越靠后越接近真实上线效果。一个模型 benchmark 分数高,只能说明它在某些标准题上强;能不能上线,还要看领域、产品、安全和线上指标。

最小评估矩阵可以这样设计:

模型能力评估方式
通用知识MMLU、C-Eval、CMMLU
数学GSM8K、MATH、内部题集
代码HumanEval、单元测试、仓库任务
指令跟随IFEval、格式约束测试
RAGRecall@k、MRR、faithfulness、引用准确率
Agent任务成功率、工具准确率、步数、成本
安全红队、越狱、隐私泄露、过度拒答
业务人工评审、A/B、满意度、badcase rate

评估集也要像训练数据一样管理版本。否则模型变好了还是题变简单了,很难判断。

六、数据安全视角#

训练数据进入模型前,要过几道门:

来源是否合法
质量是否足够
是否重复
是否含隐私
是否含 benchmark
是否含投毒样本
是否有权限进入训练

数据安全不是单独一章的附属内容,而是贯穿所有阶段:

  • 预训练怕大规模污染和版权风险。
  • 中训练怕企业文档泄露。
  • SFT 怕错误答案被模仿。
  • DPO 怕偏好标签噪声。
  • RL 怕 reward 被钻空子。
  • 评估怕测试集污染。
  • 数据飞轮怕用户日志未脱敏。

七、学习顺序#

如果从零复习,建议按这个顺序走:

  1. 先看预训练,理解 tokenizer、embedding、Transformer、LM head 和 next token loss。
  2. 再看中训练,理解为什么需要在领域语料上继续补能力。
  3. 看 SFT,搞清楚 messages、chat template、label mask 和监督学习。
  4. 看 DPO,理解 preference pair 如何直接改变 policy 概率。
  5. 看 RLHF/PPO,理解 reward model、rollout、advantage、KL。
  6. 看 GRPO/RLVR,理解可验证 reward 和组内相对优势。
  7. 看 Agentic RL,把工具调用、环境反馈和任务成功率串起来。
  8. 最后看评估、数据飞轮和数据安全,因为它们决定模型能否真实迭代。
  9. 再看 Olmo 3 案例,把预训练、中训练、后训练、评估、发布和数据闭环放进一个真实开源模型项目里复盘。

八、最后的一张压缩表#

概念抓手
Tokenizer字符串到 token id 的离散映射
Embeddingtoken id 到 hidden vector 的可训练查表
Transformer上下文混合和特征变换的主体
LM Headhidden state 到词表 logits 的输出层
Pretraining自监督语言建模
Continued Pretraining在专项分布上继续语言建模
SFT用标准回答塑造指令行为
DPO用偏好对塑造相对概率
RLHF用 reward model 表达人类偏好
PPO用受约束的策略更新优化 reward
GRPO用组内相对 reward 替代 critic
RLVR用规则或 verifier 给奖励
Agentic RL用环境反馈训练多步任务
Evaluation用多层指标判断真实变化
Data Flywheel用线上反馈反哺训练和评估

专题阅读

LLM Base

这篇文章属于同一条阅读链。你可以直接在这里切换,不用再回到列表页重新找。

当前进度13 / 14

留言区

留言

欢迎纠错、补充、交流。昵称和评论内容必填;如果你愿意,也可以留下联系方式,仅站主可见。

0

正在加载评论...

0 / 2000

阅读导航

文章目录

当前阅读位置将在这里显示

0 节