把「微调模型」这组笔记重排成一条更适合连续学习的路线:先理解微调与量化,再进入数据集、LoRA、LLaMA-Factory 和一次完整的多模态微调复盘。
这组内容来自我在 Obsidian 里连续整理的「微调模型」笔记。原笔记本身覆盖面已经很完整了,但阅读顺序更像"边学边补",因此会同时出现基础概念、数据集格式、LoRA 原理、LLaMA-Factory 参数和一次实际训练复盘。
整理进博客时,我把它改成了更适合连续学习的 6 篇:
-
微调入门:为什么需要微调、学习范式与参数更新范围先建立最小心智:为什么仅靠长上下文或知识库有时不够,微调到底在解决什么问题,以及全参数微调、冻结微调、PEFT 之间的差别。 -
量化入门:为什么要量化、量化怎么做、常见方法有哪些这一篇把原笔记里混在一起的量化部分单独抽出来,方便把"微调"和"量化"分开理解,再在后面重新合流到 QLoRA。 -
微调数据集:Alpaca、ShareGPT、多模态格式与 LLaMA-Factory 接入如果说微调的上限由模型决定,那下限很大程度上就由数据决定。这一篇重点是数据格式、切分方式,以及 LLaMA-Factory 的dataset_info怎么配。 -
LoRA、QLoRA 与 Qwen2.5-VL:从理论到参数选择这一篇先回答"LoRA 为什么可行",再把 LoRA / QLoRA / Qwen2.5-VL 放在一条线上理解,最后落到几个最常调的参数。 -
小样本多模态微调实战:可视化标注、训练参数与第一次训练这一篇开始进入真正的实践:数据怎么标、第一轮参数怎么选、Loss 曲线怎么看、为什么模型虽然学到了一点,但还远远不够。 -
失败复盘与二次优化:system、描述重写与 agent 配合最后一篇不是"完美收官",而是一次更像真实项目的复盘:先承认第一次微调不理想,再重构数据、改 system 思路、引入 agent,把问题拆清楚。
这条路线的目的不是把 Fine Tuning 讲成一堆分散名词,而是尽量把它还原成一条真实工作流:
- 先判断为什么要微调
- 再理解量化和参数高效微调的约束
- 然后进入数据、格式和工具链
- 最后落到一次真实的训练与复盘
如果是第一次系统学这块,建议按这里的顺序读下去。
专题阅读
Fine Tuning
这篇文章属于同一条阅读链。你可以直接在这里切换,不用再回到列表页重新找。
部分信息可能已经过时