546 字
1 分钟
Fine Tuningfine tuning
Fine Tuning 学习路线图:从微调基础到多模态实战复盘

把「微调模型」这组笔记重排成一条更适合连续学习的路线:先理解微调与量化,再进入数据集、LoRA、LLaMA-Factory 和一次完整的多模态微调复盘。

这组内容来自我在 Obsidian 里连续整理的「微调模型」笔记。原笔记本身覆盖面已经很完整了,但阅读顺序更像"边学边补",因此会同时出现基础概念、数据集格式、LoRA 原理、LLaMA-Factory 参数和一次实际训练复盘。

整理进博客时,我把它改成了更适合连续学习的 6 篇:

  1. 微调入门:为什么需要微调、学习范式与参数更新范围 先建立最小心智:为什么仅靠长上下文或知识库有时不够,微调到底在解决什么问题,以及全参数微调、冻结微调、PEFT 之间的差别。

  2. 量化入门:为什么要量化、量化怎么做、常见方法有哪些 这一篇把原笔记里混在一起的量化部分单独抽出来,方便把"微调"和"量化"分开理解,再在后面重新合流到 QLoRA。

  3. 微调数据集:Alpaca、ShareGPT、多模态格式与 LLaMA-Factory 接入 如果说微调的上限由模型决定,那下限很大程度上就由数据决定。这一篇重点是数据格式、切分方式,以及 LLaMA-Factory 的 dataset_info 怎么配。

  4. LoRA、QLoRA 与 Qwen2.5-VL:从理论到参数选择 这一篇先回答"LoRA 为什么可行",再把 LoRA / QLoRA / Qwen2.5-VL 放在一条线上理解,最后落到几个最常调的参数。

  5. 小样本多模态微调实战:可视化标注、训练参数与第一次训练 这一篇开始进入真正的实践:数据怎么标、第一轮参数怎么选、Loss 曲线怎么看、为什么模型虽然学到了一点,但还远远不够。

  6. 失败复盘与二次优化:system、描述重写与 agent 配合 最后一篇不是"完美收官",而是一次更像真实项目的复盘:先承认第一次微调不理想,再重构数据、改 system 思路、引入 agent,把问题拆清楚。

这条路线的目的不是把 Fine Tuning 讲成一堆分散名词,而是尽量把它还原成一条真实工作流:

  • 先判断为什么要微调
  • 再理解量化和参数高效微调的约束
  • 然后进入数据、格式和工具链
  • 最后落到一次真实的训练与复盘

如果是第一次系统学这块,建议按这里的顺序读下去。

专题阅读

Fine Tuning

这篇文章属于同一条阅读链。你可以直接在这里切换,不用再回到列表页重新找。

当前进度1 / 7