Study
Study 是我的学习博客分区
把知识点串成星图,再落到真正可回看的学习文章。
这里汇总算法、模型与工程学习笔记。上方知识星点图对应不同主题,下面可以直接筛选并进入文章。
Knowledge Constellation
Reading Index
Study 全部文章
这里是 Study 的唯一文章列表。你可以直接点上面的知识星点,或者在下面切换筛选器,只看某一个主题目录。
当前筛选: 全部文章
85 篇文章
Docker 学习路线图:镜像到 Compose 的一条主线
先把“镜像 -> 容器 -> 数据卷 -> 网络 -> Dockerfile -> Compose”的主线打通,再补细节命令。
Docker 入门:镜像、容器、数据卷、网络到 Compose
从概念到实操的完整主线,先把镜像与容器的关系理顺,再走到 Dockerfile 与 Compose。
LangChain 学习路线图:先组件,后 Agents,再回看 Middleware
把原本偏“查询式”的官方文档重排成一条更适合系统学习的路径,先建立基础心智,再回到 Agents 与 Middleware。
LangChain 前置:OpenAI API 调用基线
在正式进入 LangChain 之前,先建立最小调用心智:同步、异步、流式和常见参数到底是什么。
LangChain 入门:安装、Quick Start 与设计哲学
先跑通一个最小 LangChain Agent,再回头看它的设计哲学、生态关系和为什么它不是简单的模型调用封装。
LangChain 核心组件 02:Messages
理清 LangChain 里最核心的数据单位:不同消息类型、内容块、多模态输入,以及它们为什么是模型上下文的基础。
LangChain 核心组件 03:Tools
从静态工具到运行时上下文,让模型开始真正“做事”;这一篇也是理解 Agent 为什么不只是一个普通聊天模型的关键。
LangChain 核心组件 04:Short-term Memory
把对话线程里的状态和历史真正留住,并学会在上下文有限时修剪、删除、总结消息。
LangChain 核心组件 05:Streaming
当模型和 Agent 真正跑起来时,如何把 tokens、工具执行进度和自定义状态实时流出来。
LangChain 核心组件 06:Structured Output
当你不想只拿一段自然语言,而是想拿稳定可解析的数据结构时,应该如何在 LangChain 中设计响应格式。
LangChain 核心组件 07:Agents
把模型、消息、工具、记忆、流式与结构化输出重新装回一台真正能工作的机器里,再看 Agent 就会顺很多。
LangChain 进阶:Middleware
把 LangChain 的 Middleware 放回 Agent Loop 里理解:它到底拦在哪、能做什么,以及哪些 built-in middleware 最值得先掌握。
LangGraph 学习路线图:先建图,再进入持久化与中断
这组笔记从 LangGraph 入门开始,沿着 StateGraph、持久化、durable execution、流式与 interrupts 走主线,再补上 time-travel、memory、subgraphs 与典型 agent 模式。
LangGraph 入门:StateGraph、工具调用与记忆初探
从一个最小聊天图开始,把 StateGraph、节点、边、ToolNode、记忆与 time-travel 的直觉先搭起来。
LangGraph 核心能力 01:Persistence、线程、检查点与 Store
把 LangGraph 的持久化层拆开看:thread、checkpoint、state history、replay、update_state 和 Store 分别解决什么问题。
LangGraph 核心能力 02:Durable Execution 与 task 封装
理解 LangGraph 为什么强调 durable execution,以及为什么把副作用包进 task 会比直接写在 node 里更稳。
LangGraph 核心能力 03:Streaming 与 v2 事件格式
把 LangGraph 的流式输出拆成 values、updates、messages、custom 等几种事件,看清 v2 StreamPart 到底统一了什么。
LangGraph 核心能力 04:Interrupt、恢复执行与 Human-in-the-loop
把 interrupt 放回真实工作流里看:单中断、多中断、审批流、审核编辑和恢复执行到底分别意味着什么。
LangGraph 核心能力 05:Time-travel 重放与分叉
用检查点做时间旅行:重放历史、从旧状态分叉新路径,以及如何清理越来越多的 checkpoint。
LangGraph 核心能力 06:Memory 短期与长期记忆
短期记忆通过 checkpoint 让图“记住”,长期记忆通过 Store 跨线程保存用户信息与语义检索。
LangGraph 核心能力 07:Subgraphs 子图与复用
子图如何作为节点复用、如何共享 state、如何流式查看子图执行与持久化模式选择。
LangGraph 应用思路 02:典型工作流与 Agent 模式
Prompt Chaining、Parallelization、Routing、Orchestrator-worker 与 Evaluator-optimizer 的结构化落地。
RAG 学习路线图:从基础管线到进阶检索与评估
把当前 1 到 13 篇 RAG 笔记重排成一条更适合学习的路径:先搭基础管线,再进入检索优化、查询优化与评估。
RAG 入门:概念、优势与演进路线
先建立 RAG 的最小心智:它解决什么问题、相对微调的边界在哪里,以及 Naive / Advanced / Modular RAG 如何演进。
Milvus 入门:集合、索引与检索流程
把 Milvus 里最常用的对象和流程串起来:部署、schema、collection、index、load 与 search。
Naive-RAG 端到端实战:从文档入库到 FastAPI 服务
把前面的 RAG 基础真正串起来,做一个最小可运行的 Naive-RAG demo:文档切分、向量入库、本地 QA、FastAPI 服务与 Docker 化。
RAG 索引优化:上下文拓展与结构化索引
从 LlamaIndex 提炼出两个很有价值的思路:检索粒度和生成粒度不必相同,以及知识库变大后要学会先过滤、再检索。
RAG 混合检索:稀疏、密集与 Milvus 实现
把混合检索拆成三层来理解:稀疏向量在做什么、密集向量在补什么,以及 Milvus 里怎样真正把两者并行召回并融合。
RAG 查询构建:从元数据过滤到 Text2SQL
当知识源不再只是纯文本时,RAG 不能只做语义匹配,还要学会把自然语言问题翻成过滤器、Cypher 或 SQL。
RAG 查询翻译:重写、分解与路由
用户问题往往不是最优检索输入,所以这一篇把查询翻译和查询路由放到一起,理解重写、拆分、HyDE 与路由各在解决什么问题。
RAG 检索进阶:重排、压缩与校正
当召回已经有了以后,真正的生产级优化往往发生在后半程:重排、压缩和 corrective retrieval 都是在控制“给模型什么上下文”。
FastAPI 学习路线图:把教程式切分重新排成一条主线
FastAPI 官方教程很适合查文档,但连续学习时会显得碎。我把目前的 1-21 份笔记和官方重点章节重新排成一条更适合入门的路径。
FastAPI 起步:应用入口、fastapi dev、entrypoint 与 uvicorn
从第一个 FastAPI 应用开始,把 app 实例、fastapi dev、pyproject entrypoint、uvicorn 以及 async 并发直觉一次串起来。
FastAPI 请求体:Pydantic 模型、多参数与嵌套结构
当输入不再只是 URL 参数,而是一整个 JSON 请求体时,FastAPI 如何借助 Pydantic 做解析、校验、嵌套和文档生成。
FastAPI 参数校验:Query、Path、Body、Cookie、Header
把 Query、Path、Body、Cookie、Header 统一进一个心智模型:参数从哪里来,以及怎样利用 Annotated 和 Pydantic 做精细校验。
FastAPI 输出层:响应模型、状态码与数据更新
从 response_model 开始,把输出约束、状态码、路径操作配置、jsonable_encoder、PUT/PATCH 更新语义一起收进一层。
FastAPI 请求编码切换:表单、文件上传与 UploadFile
从 JSON 切到 multipart/form-data,把 Form、File、UploadFile、表单模型和多文件上传一并收进请求编码这一层。
FastAPI 组织逻辑:Depends、yield、错误处理与安全起步
从 Depends 开始,把共享逻辑、yield 资源清理、HTTPException、自定义异常处理和 OAuth2PasswordBearer 串成一层。
FastAPI Bigger Applications:APIRouter、多文件应用与生命周期
当单文件应用开始变大,把 APIRouter、include_router、多文件结构和 lifespan 放到同一条工程化路径里看。
FastAPI 验证与运行:Testing、CLI、Uvicorn 与 Workers
把测试、调试、fastapi CLI、uvicorn、手动运行和 workers 收到一起,形成一条更完整的“本地开发到部署”的路径。
Fine Tuning 学习路线图:从微调基础到多模态实战复盘
把「微调模型」这组笔记重排成一条更适合连续学习的路线:先理解微调与量化,再进入数据集、LoRA、LLaMA-Factory 和一次完整的多模态微调复盘。
微调入门:为什么需要微调、学习范式与参数更新范围
从最基础的问题开始:什么场景下需要微调,微调的一般流程是什么,以及全参数微调、冻结微调、PEFT 分别在解决什么问题。
量化入门:为什么要量化、量化怎么做、常见方法有哪些
把原笔记里和量化相关的部分单独抽出来:先讲目的,再讲原理、分类和常用方法,最后把它和 QLoRA 重新连回到微调主线里。
微调数据集:Alpaca、ShareGPT、多模态格式与 LLaMA-Factory 接入
先把数据组织方式搞清楚:Alpaca 和 ShareGPT 有什么差别,多模态样本通常怎么写,以及 LLaMA-Factory 的 dataset_info 如何接入自己的数据。
LoRA、QLoRA 与 Qwen2.5-VL:从理论到参数选择
先回答 LoRA 为什么可行,再把 QLoRA 和 Qwen2.5-VL 放到同一条理解线上,最后落到几个真正会影响训练结果的超参数上。
小样本多模态微调实战:第一次训练、Loss 曲线与结果复盘
把第一次真正落地的多模态微调实验完整记下来:任务是什么,数据怎么标,参数怎么设,训练结果怎么看,以及为什么它只算“有进展但还远不够好”。
失败复盘与二次优化:system、数据重构与 agent 配合
第一次训练没有达到预期后,真正重要的不是继续堆轮数,而是重构数据、重新定义任务边界,再判断哪些能力应该交给模型,哪些应该交给 agent。
PyTorch 学习路线图:从张量到 Transformer
把三套不同来源的 PyTorch 笔记和代码重新整理成一条循序渐进的学习路线,先建立训练心智,再进入 CNN、RNN 和手写 Transformer。
PyTorch Tensor、Autograd 与动态计算图
真正把 PyTorch 和 NumPy 区分开的,是 Tensor 和自动微分。把形状操作、requires_grad 和动态计算图一次理顺。
PyTorch 分类任务、Dataset / DataLoader 与训练循环
从逻辑回归、二分类、多分类一路串到 Dataset、DataLoader 和小作业,把真正训练一个分类模型需要的元素放到一条线上。
PyTorch 工具箱:Module、functional、optim 与初始化
把容易散落在不同笔记里的 PyTorch 常用工具收成一篇:nn.Module、nn.functional、optim、初始化与常见工程辅助接口。
PyTorch CNN:从 LeNet 到经典卷积架构
从卷积和池化的基础直觉开始,先理解 LeNet,再顺着 GoogLeNet、ResNet 和 DenseNet 看卷积网络的发展脉络。
PyTorch RNN:序列建模与 LSTM 入门
从为什么需要序列模型讲起,把 one-hot、embedding、RNN、LSTM 和一个名字-国家分类任务串起来。
PyTorch 手写 Transformer:从模块拆解到 toy task
不直接调用 nn.Transformer,而是手写位置编码、多头注意力、Encoder / Decoder,并用一个反转序列的 toy task 跑通训练与解码。
强化学习学习路线图:从 RL 基础到对齐训练
把当前这组强化学习笔记收成一条更适合系统学习的路径,从 MDP、DQN、策略梯度一路走到 RLHF、DPO 与 RLVR。
强化学习入门:为什么需要 RL、术语与 MDP
从对齐鸿沟切入,先建立强化学习的基本术语、MRP / MDP 与 Bellman 视角。
免模型强化学习:DP、MC、TD、SARSA 与 Q-learning
当环境模型未知时,强化学习如何从动态规划走向 Monte Carlo、TD、SARSA 与 Q-learning。
从表格到函数:DQN 与 Value-Based 深度强化学习
把表格型 Q 学习推进到深度网络近似,并串起 DQN、DDQN、PER 等常见改进。
策略梯度入门:从定理到 REINFORCE
从 value-based 转向 policy-based,理解策略梯度定理、baseline 与 REINFORCE 的核心直觉。
Actor-Critic 主线:优势函数、GAE、TRPO 与 PPO
把优势函数、GAE、A2C/A3C、TRPO 与 PPO 放回一条 Actor-Critic 主线里理解。
LLM 对齐训练:RLHF、奖励模型与规则化分支
从 RLHF 基础流程出发,串起奖励模型、PPO 在 LLM 中的应用,以及 Constitutional AI 等分支。
Off-Policy 偏好优化:DPO 与新分支
从 PPO 的最优解视角回看偏好优化,理解 DPO 为什么能绕过显式奖励模型与强化学习流程。
可验证强化学习:RLVR 与 Tülu 3
从 Tülu 3 出发理解 RLVR,看看当奖励可以被规则直接验证时,强化学习会如何变化。
RLHF 奠基论文:Helpful & Harmless Assistant 速记
回看 Anthropic 早期 RLHF 代表作,把 Helpful / Harmless 助手训练流程和数据路径梳理一遍。
claude-code的源码拆解学习
2026 年 3 月底,Claude Code 在一次 npm 发布中因打包配置错误,将一个 约 57MB 的 cli.js.map 文件意外公开,包含 1906 个 TypeScript/TSX 核心文件、总计 51.2 万行源码。这些内容涉及 Agent 循环引擎、工具系统、记忆与上下文压缩、安全机制等核心实现,以及部分未发布功能(如 AI 宠物、反蒸馏、多 Agent 协作等)。
这个主题下还没有文章
先在对应目录里写 Markdown,保存后这里就会自动出现。