Study

Study 是我的学习博客分区

把知识点串成星图,再落到真正可回看的学习文章。

这里汇总算法、模型与工程学习笔记。上方知识星点图对应不同主题,下面可以直接筛选并进入文章。

已发布文章 124
累计字数 436,897
浏览量 同步中
Knowledge Constellation
Latest Study Post SQL 学习路线图:从表查询到 AI 应用里的结构化数据
Currently Learning 强化学习与 Agent 工作流

这里可以直接写你最近在啃的主题、课程、书或者项目状态。

Reading Index

Study 全部文章

这里是 Study 的唯一文章列表。你可以直接点上面的知识星点,或者在下面切换筛选器,只看某一个主题目录。

124 Posts

当前筛选: 全部文章

124 篇文章

科大讯飞AI研发工程师三面
2026-06-04
5788 字
科大讯飞AI研发工程师三面,教育BG,飞Young计划复试。整体偏综合面,围绕 Agent 比赛项目、AI Coding、Skill、Harness 工程和学习方向展开。
# 面经
开源模型案例:Olmo 3 如何从训练走到上线
2026-05-28
3350 字
以 AI2 的 Olmo 3 为案例,把预训练、中训练、长上下文扩展、后训练、评估、发布和数据闭环串成一条真实的开源模型流水线。
# LLM # Olmo # OpenModel # TrainingPipeline
同花顺金融中心算法工程师一面
2026-05-28
8187 字
同花顺金融中心算法工程师一面。岗位名是算法实习生,但核心业务偏金融场景 Agent、用户画像、主动投资助手,以及部分 SFT/RL 训练。
# 面经
字节跳动seed一面-PART2
2026-05-28
7085 字
字节跳动seed一面第二部分,围绕课后作业继续追问:大模型训练管线、Tokenizer、SFT/DPO、Transformer、幻觉,以及轻量 Graph RAG 实现。
# 面经
大模型数据安全:清洗、去重、污染与隐私
2026-05-27
2411 字
从训练数据安全角度梳理隐私、版权、数据投毒、测试集污染、PII 脱敏和企业数据治理这些核心问题。
# LLM # 数据安全 # 数据清洗 # 隐私
大模型训练管线知识索引与学习地图
2026-05-27
2402 字
把预训练、中训练、后训练、SFT、DPO、RLHF/PPO、GRPO、Agentic RL、评估体系和数据飞轮串成一张学习地图。
# LLM # 学习地图 # 训练管线
大模型训练管线总览:从预训练到数据飞轮
2026-05-27
2968 字
用一条生命周期主线理解大模型如何从 base model 变成可上线的 assistant model:预训练、中训练、后训练、评估和数据飞轮。
# LLM # 预训练 # 后训练 # 数据飞轮
后训练总览:Post-training、SFT、RLHF、DPO 与 GRPO
2026-05-27
2806 字
从 base model 到 assistant model,梳理后训练要解决的问题,以及 SFT、RLHF/PPO、DPO、GRPO、安全对齐和工具训练之间的关系。
# LLM # PostTraining # SFT # RLHF # DPO # GRPO
偏好学习 DPO:从 RLHF 到直接偏好优化
2026-05-27
2161 字
用 prompt、chosen、rejected、reference model 和 beta 这几个核心概念理解 DPO 为什么能绕过显式奖励模型,直接优化人类偏好。
# LLM # DPO # RLHF # 偏好优化
评估体系:从 Benchmark 到线上 A/B 实验
2026-05-27
2632 字
从离线 benchmark、领域评估、RAG/Agent 评估、安全评估到线上 A/B,搭建一套更接近真实业务的大模型评估体系。
# LLM # Evaluation # Benchmark # ABTest
数据飞轮:从用户反馈到下一轮训练
2026-05-27
2330 字
梳理大模型上线后的数据闭环:日志采集、badcase 挖掘、清洗脱敏、标注、训练、评估和灰度上线。
# LLM # 数据飞轮 # Badcase # 数据闭环
预训练 Pretraining:模型如何学到通用能力
2026-05-27
7618 字
按照语料准备、tokenizer 训练、文本编码、embedding、Transformer、Language Modeling Head、next token loss 和反向传播的顺序,拆开看 GPT 类大模型预训练流程。
# LLM # Pretraining # Tokenizer # BaseModel
中训练 Continued Pretraining:领域增强与能力注入
2026-05-27
2468 字
解释中训练为什么介于预训练和后训练之间,以及它如何用于代码、数学、长上下文、多语言和垂直领域能力增强。
# LLM # ContinuedPretraining # MidTraining
字节跳动seed二面
2026-05-27
4756 字
字节跳动seed二面,AI研发实习生-AI数据与安全方向。现场手撕跳跃游戏II,随后围绕 LangChain/LangGraph、Agent 上下文压缩、校验机制和多模态 RAG 项目展开。
# 面经
字节跳动seed一面-PART1
2026-05-27
8779 字
字节跳动seed一面,AI研发实习生-AI数据与安全方向。围绕后训练、Agent范式、多模态RAG、评测集和课后作业展开。
# 面经
Agentic RL:工具调用与长程任务训练
2026-05-27
2369 字
从工具调用轨迹、环境反馈、任务成功率和奖励设计出发,理解 Agentic RL 如何训练模型完成多步任务。
# LLM # Agent # AgenticRL # ToolUse
GRPO:组内相对优势与可验证奖励
2026-05-27
2071 字
解释 GRPO 为什么可以不训练 critic/value model,以及它如何用同一 prompt 下多条回答的组内相对奖励优化模型。
# LLM # GRPO # RLVR # 强化学习
RLHF 与 PPO:奖励模型、策略优化和 KL 约束
2026-05-27
2323 字
梳理 RLHF 的三阶段流程:SFT、Reward Model 和 PPO,并解释为什么 KL 约束对大模型对齐训练很重要。
# LLM # RLHF # PPO # RewardModel
SFT 监督微调:指令跟随与格式对齐
2026-05-27
3170 字
从数据格式、训练目标、能学到什么和局限出发,理解 SFT 为什么是后训练的第一步,但不是对齐训练的终点。
# LLM # SFT # InstructionTuning
科大讯飞AI研发工程师二面
2026-05-20
7166 字
科大讯飞AI研发工程师二面,教育BG,飞Young计划复试。围绕多模态RAG Agent、上下文管理、模型微调、工程化和行业趋势展开。
# 面经
数据库 & SQL 八股:MySQL 常见问题速记
2026-05-17
7078 字
用面试题的方式复盘数据库基础:范式、约束、事务、隔离级别、MVCC、锁、日志、索引、慢查询、主从复制和分库分表。
# SQL # MySQL # 数据库 # 八股
SQL 查询基础:SELECT、WHERE、ORDER BY 与 LIMIT
2026-05-17
1645 字
掌握最常用的数据读取方式:选择列、过滤行、排序结果和限制返回数量。
# SQL # SELECT # 查询
SQL 多表查询:JOIN、外键与关系建模
2026-05-17
2130 字
理解为什么数据要拆成多张表,以及如何用 INNER JOIN、LEFT JOIN 把关系重新查询出来。
# SQL # JOIN # 关系建模
SQL 进阶查询:子查询、CTE 与窗口函数入门
2026-05-17
1532 字
当查询开始变复杂,用子查询、CTE 和窗口函数把问题拆开,让 SQL 更可读、更适合迭代。
# SQL # CTE # 窗口函数
SQL 聚合分组:COUNT、GROUP BY 与 HAVING
2026-05-17
1159 字
从明细查询进入统计查询,理解 COUNT、SUM、AVG、GROUP BY 和 HAVING 的使用方式。
# SQL # GROUP BY # 聚合
SQL 入门:关系模型、表、行、列与主键
2026-05-17
2001 字
从数据库最基本的对象开始:表、行、列、字段类型、主键、外键和 NULL,先把结构化数据的心智搭起来。
# SQL # Database # 关系模型
SQL 写入与可靠性:INSERT、UPDATE、DELETE、事务与约束
2026-05-17
2206 字
查询是读数据,写入会改变数据。这一篇整理 INSERT、UPDATE、DELETE、事务、ACID 和约束的基础直觉。
# SQL # Transaction # ACID # 数据可靠性
SQL 性能直觉:索引、执行计划与慢查询
2026-05-17
3136 字
不追求一次学完数据库优化,先理解索引为什么能加速、为什么不是越多越好,以及执行计划能告诉我们什么。
# SQL # Index # 性能优化
SQL 学习路线图:从表查询到 AI 应用里的结构化数据
2026-05-17
996 字
先把 SELECT、过滤、聚合、JOIN、子查询、事务和索引这些基础打通,再看它们在 RAG、Text2SQL 和 Agent 工具调用里的位置。
# SQL # 学习路线 # Database # AI
SQL 与 AI 开发:Text2SQL、RAG 过滤与 Agent 数据工具
2026-05-17
1955 字
回到最初的学习动机:SQL 为什么会出现在 AI 应用里,以及开发者需要怎样给模型提供 schema、权限和执行边界。
# SQL # Text2SQL # RAG # Agent
科大讯飞AI研发工程师一面
2026-05-14
10062 字
科大讯飞AI研发工程师一面,教育BG。面试官风格偏架构设计,追问工程基础、设计模式、团队协作。
# 面经
ASGI 协议与请求生命周期:从网络包到路由函数的完整旅程
2026-05-13
1424 字
追一条 HTTP 请求在 Python Web 栈里的完整旅行:socket → HTTP 解析 → ASGI 三要素 (scope/receive/send) → Starlette 路由匹配 → 装饰器 handler → 响应返回。FastAPI 那条 `@app.post` 装饰器到底做了什么,这篇文章讲清楚。
# PythonWeb # ASGI # Starlette # Uvicorn # 面试
Docker Compose 编排实战:用你的项目拆解服务编排与健康检查
2026-05-13
753 字
从写 docker run 到写 compose.yaml,用你项目中真实的 Milvus + etcd + MinIO + Redis 编排案例,讲清楚多服务依赖、健康检查、数据卷持久化和启动顺序控制。
# PythonWeb # Docker # Docker Compose # DevOps # 实战
HTTP 基础:请求-响应模型、报文结构与状态码
2026-05-13
1025 字
在写任何 Web 框架之前,先理解 HTTP 本身:请求-响应模型、报文结构、方法语义、状态码分类和常见 Header。这是 Python Web 和 Java Web 共同的地基。
# PythonWeb # HTTP # Backend # 基础
Python Web 部署链路:systemd + Uvicorn + Caddy 反向代理
2026-05-13
1004 字
把你的 FastAPI 应用从本地开发变成生产可用的服务:systemd 管理进程生命周期、Uvicorn 跑 ASGI、Caddy 做反向代理和 HTTPS。用你项目里真实跑的部署拓扑讲清楚每一层的职责。
# PythonWeb # Deployment # systemd # Uvicorn # Caddy # 实战
WSGI → ASGI:Python Web 从同步到异步的演进
2026-05-13
2304 字
为什么 Python Web 生态要从 WSGI 走向 ASGI?同步模型的瓶颈在哪里,async/await 解决了什么,以及这跟 Java Servlet 3.1 异步化有什么相似之处。
# PythonWeb # ASGI # WSGI # Async # 架构
阿里AI研发工程师一面
2026-05-02
9261 字
阿里AI研发工程师一面,阿里巴巴控股集团-平台技术-研发基础设施。
# 面经
Docker 入门:镜像、容器、数据卷、网络到 Compose
2026-04-06
2839 字
从概念到实操的完整主线,先把镜像与容器的关系理顺,再走到 Dockerfile 与 Compose。
# Docker # 容器 # DevOps
Docker 学习路线图:镜像到 Compose 的一条主线
2026-04-06
103 字
先把“镜像 -> 容器 -> 数据卷 -> 网络 -> Dockerfile -> Compose”的主线打通,再补细节命令。
# Docker # 学习路线 # DevOps
LangGraph 学习路线图:先建图,再进入持久化与中断
2026-04-05
538 字
这组笔记从 LangGraph 入门开始,沿着 StateGraph、持久化、durable execution、流式与 interrupts 走主线,再补上 time-travel、memory、subgraphs 与典型 agent 模式。
# LangGraph # 学习路线 # Agent
Fine Tuning 学习路线图:从微调基础到多模态实战复盘
2026-04-04
546 字
把「微调模型」这组笔记重排成一条更适合连续学习的路线:先理解微调与量化,再进入数据集、LoRA、LLaMA-Factory 和一次完整的多模态微调复盘。
# FineTuning # LoRA # QLoRA # 学习路线
LangGraph 入门:StateGraph、工具调用与记忆初探
2026-04-04
2589 字
从一个最小聊天图开始,把 StateGraph、节点、边、ToolNode、记忆与 time-travel 的直觉先搭起来。
# LangGraph # StateGraph # Tools
设计模式
2026-04-03
14275 字
被专家说了为了长远发展,自己的设计模式和操作系统部分需要提升,虽然我也不是软工的,但是设计模式应该是以后指挥AI学习的很重要的部分。
# 设计模式
微调入门:为什么需要微调、学习范式与参数更新范围
2026-04-03
2011 字
从最基础的问题开始:什么场景下需要微调,微调的一般流程是什么,以及全参数微调、冻结微调、PEFT 分别在解决什么问题。
# FineTuning # PEFT # SFT # QLoRA
小龙虾的前世今生
2026-04-03
7508 字
OpenClaw的前世今生。
# 小龙虾 # openclaw
claude-code的源码拆解学习
2026-04-03
24011 字
2026 年 3 月底,Claude Code 在一次 npm 发布中因打包配置错误,将一个 约 57MB 的 cli.js.map 文件意外公开,包含 1906 个 TypeScript/TSX 核心文件、总计 51.2 万行源码。这些内容涉及 Agent 循环引擎、工具系统、记忆与上下文压缩、安全机制等核心实现,以及部分未发布功能(如 AI 宠物、反蒸馏、多 Agent 协作等)。
# harness # claude-code # agent
LangGraph 核心能力 01:Persistence、线程、检查点与 Store
2026-04-03
2108 字
把 LangGraph 的持久化层拆开看:thread、checkpoint、state history、replay、update_state 和 Store 分别解决什么问题。
# LangGraph # Persistence # Memory
MCP和A2A--Agent的横向与纵向沟通
2026-04-03
7379 字
MCP与A2A协议的横向与纵向沟通机制对比分析
# MCP # A2A # Agent # SKILL
Python Web 学习路线:从 HTTP 请求到生产部署
2026-04-03
625 字
把 Python Web 的核心知识重新排成一条主线:协议层 → 框架层 → 工程化 → 部署,FastAPI 作为框架层的主线贯穿,但每一站背后是 Web 通用原理。
# PythonWeb # FastAPI # 学习路线 # Backend
Redis原理的学习
2026-04-03
15308 字
Redis作为高效的NoSQL数据库,在LLM模型也很有用处,现在学习它的原理。
# Redis
量化入门:为什么要量化、量化怎么做、常见方法有哪些
2026-04-02
1129 字
把原笔记里和量化相关的部分单独抽出来:先讲目的,再讲原理、分类和常用方法,最后把它和 QLoRA 重新连回到微调主线里。
# Quantization # QLoRA # FineTuning
FastAPI 起步:应用入口、fastapi dev、entrypoint 与 uvicorn
2026-04-02
1285 字
从第一个 FastAPI 应用开始,把 app 实例、fastapi dev、pyproject entrypoint、uvicorn 以及 async 并发直觉一次串起来。
# PythonWeb # FastAPI # FastAPI CLI # Uvicorn
LangGraph 核心能力 02:Durable Execution 与 task 封装
2026-04-02
1003 字
理解 LangGraph 为什么强调 durable execution,以及为什么把副作用包进 task 会比直接写在 node 里更稳。
# LangGraph # Durable Execution # Task
强化学习学习路线图:从 RL 基础到对齐训练
2026-04-01
565 字
把当前这组强化学习笔记收成一条更适合系统学习的路径,从 MDP、DQN、策略梯度一路走到 RLHF、DPO 与 RLVR。
# 强化学习 # 学习路线 # RLHF
微调数据集:Alpaca、ShareGPT、多模态格式与 LLaMA-Factory 接入
2026-04-01
1200 字
先把数据组织方式搞清楚:Alpaca 和 ShareGPT 有什么差别,多模态样本通常怎么写,以及 LLaMA-Factory 的 dataset_info 如何接入自己的数据。
# Dataset # Alpaca # ShareGPT # LLaMAFactory # FineTuning
FastAPI 输入基础:路径参数与查询参数
2026-04-01
560 字
把 URL 上最常见的两类输入拆开:路径参数负责定位资源,查询参数负责表达筛选和附加条件。
# PythonWeb # FastAPI # Path Params # Query Params
LangGraph 核心能力 03:Streaming 与 v2 事件格式
2026-04-01
1003 字
把 LangGraph 的流式输出拆成 values、updates、messages、custom 等几种事件,看清 v2 StreamPart 到底统一了什么。
# LangGraph # Streaming
PyTorch 学习路线图:从张量到 Transformer
2026-04-01
585 字
把三套不同来源的 PyTorch 笔记和代码重新整理成一条循序渐进的学习路线,先建立训练心智,再进入 CNN、RNN 和手写 Transformer。
# PyTorch # 学习路线 # DeepLearning
强化学习入门:为什么需要 RL、术语与 MDP
2026-03-31
8604 字
从对齐鸿沟切入,先建立强化学习的基本术语、MRP / MDP 与 Bellman 视角。
# 强化学习 # RL # MDP # Bellman
FastAPI 请求体:Pydantic 模型、多参数与嵌套结构
2026-03-31
546 字
当输入不再只是 URL 参数,而是一整个 JSON 请求体时,FastAPI 如何借助 Pydantic 做解析、校验、嵌套和文档生成。
# PythonWeb # FastAPI # Pydantic # Request Body
LangGraph 核心能力 04:Interrupt、恢复执行与 Human-in-the-loop
2026-03-31
1617 字
把 interrupt 放回真实工作流里看:单中断、多中断、审批流、审核编辑和恢复执行到底分别意味着什么。
# LangGraph # Interrupt # Human-in-the-loop
LoRA、QLoRA 与 Qwen2.5-VL:从理论到参数选择
2026-03-31
1345 字
先回答 LoRA 为什么可行,再把 QLoRA 和 Qwen2.5-VL 放到同一条理解线上,最后落到几个真正会影响训练结果的超参数上。
# LoRA # QLoRA # Qwen2.5-VL # PEFT
PyTorch 线性回归:梯度下降与训练四步
2026-03-31
791 字
从最简单的线性回归开始,把 PyTorch 训练模型的四步走清楚:数据、模型、损失函数和优化器。
# PyTorch # 线性回归 # GradientDescent
免模型强化学习:DP、MC、TD、SARSA 与 Q-learning
2026-03-30
3684 字
当环境模型未知时,强化学习如何从动态规划走向 Monte Carlo、TD、SARSA 与 Q-learning。
# 强化学习 # Model-Free # TD # Q-learning
小样本多模态微调实战:第一次训练、Loss 曲线与结果复盘
2026-03-30
1416 字
把第一次真正落地的多模态微调实验完整记下来:任务是什么,数据怎么标,参数怎么设,训练结果怎么看,以及为什么它只算“有进展但还远不够好”。
# FineTuning # LLaMAFactory # Qwen2.5-VL # 多模态微调
FastAPI 参数校验:Query、Path、Body、Cookie、Header
2026-03-30
643 字
把 Query、Path、Body、Cookie、Header 统一进一个心智模型:参数从哪里来,以及怎样利用 Annotated 和 Pydantic 做精细校验。
# PythonWeb # FastAPI # Validation # Query # Header
LangGraph 核心能力 05:Time-travel 重放与分叉
2026-03-30
751 字
用检查点做时间旅行:重放历史、从旧状态分叉新路径,以及如何清理越来越多的 checkpoint。
# LangGraph # Time-travel # Checkpoint
PyTorch Tensor、Autograd 与动态计算图
2026-03-30
942 字
真正把 PyTorch 和 NumPy 区分开的,是 Tensor 和自动微分。把形状操作、requires_grad 和动态计算图一次理顺。
# PyTorch # Tensor # Autograd
RAG 学习路线图:从基础管线到进阶检索与评估
2026-03-30
908 字
把当前 1 到 13 篇 RAG 笔记重排成一条更适合学习的路径:先搭基础管线,再进入检索优化、查询优化与评估。
# RAG # 学习路线 # 检索增强生成
从表格到函数:DQN 与 Value-Based 深度强化学习
2026-03-29
3764 字
把表格型 Q 学习推进到深度网络近似,并串起 DQN、DDQN、PER 等常见改进。
# 强化学习 # DQN # DDQN # PER
失败复盘与二次优化:system、数据重构与 agent 配合
2026-03-29
1517 字
第一次训练没有达到预期后,真正重要的不是继续堆轮数,而是重构数据、重新定义任务边界,再判断哪些能力应该交给模型,哪些应该交给 agent。
# FineTuning # Agent # SystemPrompt # 多模态微调
FastAPI 输出层:响应模型、状态码与数据更新
2026-03-29
989 字
从 response_model 开始,把输出约束、状态码、路径操作配置、jsonable_encoder、PUT/PATCH 更新语义一起收进一层。
# PythonWeb # FastAPI # Response Model # Status Code
LangChain 学习路线图:先组件,后 Agents,再回看 Middleware
2026-03-29
668 字
把原本偏“查询式”的官方文档重排成一条更适合系统学习的路径,先建立基础心智,再回到 Agents 与 Middleware。
# LangChain # 学习路线 # Agent
LangGraph 核心能力 06:Memory 短期与长期记忆
2026-03-29
1217 字
短期记忆通过 checkpoint 让图“记住”,长期记忆通过 Store 跨线程保存用户信息与语义检索。
# LangGraph # Memory # Store
PyTorch 分类任务、Dataset / DataLoader 与训练循环
2026-03-29
892 字
从逻辑回归、二分类、多分类一路串到 Dataset、DataLoader 和小作业,把真正训练一个分类模型需要的元素放到一条线上。
# PyTorch # Dataset # DataLoader # Classification
RAG 入门:概念、优势与演进路线
2026-03-29
1540 字
先建立 RAG 的最小心智:它解决什么问题、相对微调的边界在哪里,以及 Naive / Advanced / Modular RAG 如何演进。
# RAG # 检索增强生成 # 学习路线
策略梯度入门:从定理到 REINFORCE
2026-03-28
2901 字
从 value-based 转向 policy-based,理解策略梯度定理、baseline 与 REINFORCE 的核心直觉。
# 强化学习 # Policy Gradient # REINFORCE
FastAPI 请求编码切换:表单、文件上传与 UploadFile
2026-03-28
752 字
从 JSON 切到 multipart/form-data,把 Form、File、UploadFile、表单模型和多文件上传一并收进请求编码这一层。
# PythonWeb # FastAPI # Form # UploadFile
LangChain 前置:OpenAI API 调用基线
2026-03-28
878 字
在正式进入 LangChain 之前,先建立最小调用心智:同步、异步、流式和常见参数到底是什么。
# LangChain # OpenAI # SDK
LangGraph 核心能力 07:Subgraphs 子图与复用
2026-03-28
1004 字
子图如何作为节点复用、如何共享 state、如何流式查看子图执行与持久化模式选择。
# LangGraph # Subgraphs # Graph
PyTorch 工具箱:Module、functional、optim 与初始化
2026-03-28
795 字
把容易散落在不同笔记里的 PyTorch 常用工具收成一篇:nn.Module、nn.functional、optim、初始化与常见工程辅助接口。
# PyTorch # nn.Module # optim # 工具箱
RAG 数据加载:文档解析与预处理入口
2026-03-28
1385 字
从文档加载器开始,理解非结构化数据如何被抽取成可切分、可嵌入、可检索的标准化语料。
# RAG # 数据加载 # Unstructured
Actor-Critic 主线:优势函数、GAE、TRPO 与 PPO
2026-03-27
7930 字
把优势函数、GAE、A2C/A3C、TRPO 与 PPO 放回一条 Actor-Critic 主线里理解。
# 强化学习 # Actor-Critic # GAE # PPO
FastAPI 组织逻辑:Depends、yield、错误处理与安全起步
2026-03-27
1015 字
从 Depends 开始,把共享逻辑、yield 资源清理、HTTPException、自定义异常处理和 OAuth2PasswordBearer 串成一层。
# PythonWeb # FastAPI # Depends # Security
LangChain 入门:安装、Quick Start 与设计哲学
2026-03-27
3121 字
先跑通一个最小 LangChain Agent,再回头看它的设计哲学、生态关系和为什么它不是简单的模型调用封装。
# LangChain # Quick Start # Agent
LangGraph 应用思路 01:从流程到 Agent 架构
2026-03-27
914 字
先画流程,再拆成节点、定义 state、补齐错误处理,最后再落到可运行的图。
# LangGraph # Agent # Workflow
PyTorch CNN:从 LeNet 到经典卷积架构
2026-03-27
809 字
从卷积和池化的基础直觉开始,先理解 LeNet,再顺着 GoogLeNet、ResNet 和 DenseNet 看卷积网络的发展脉络。
# PyTorch # CNN # LeNet # ResNet
RAG 文本分块:为什么切、怎么切、怎么权衡
2026-03-27
5490 字
理解分块在 RAG 中的地位,以及固定大小、递归分块、语义分块和结构化分块各自适合什么场景。
# RAG # 文本分块 # Chunking
FastAPI Bigger Applications:APIRouter、多文件应用与生命周期
2026-03-26
558 字
当单文件应用开始变大,把 APIRouter、include_router、多文件结构和 lifespan 放到同一条工程化路径里看。
# PythonWeb # FastAPI # APIRouter # Lifespan
LangChain 核心组件 01:Models
2026-03-26
2944 字
先把模型对象本身看明白:如何初始化、调用、流式输出,以及模型层负责什么、不负责什么。
# LangChain # Models
LangGraph 应用思路 02:典型工作流与 Agent 模式
2026-03-26
1009 字
Prompt Chaining、Parallelization、Routing、Orchestrator-worker 与 Evaluator-optimizer 的结构化落地。
# LangGraph # Workflow # Agent
LLM 对齐训练:RLHF、奖励模型与规则化分支
2026-03-26
5521 字
从 RLHF 基础流程出发,串起奖励模型、PPO 在 LLM 中的应用,以及 Constitutional AI 等分支。
# RLHF # 强化学习 # Reward Model # PPO
PyTorch RNN:序列建模与 LSTM 入门
2026-03-26
916 字
从为什么需要序列模型讲起,把 one-hot、embedding、RNN、LSTM 和一个名字-国家分类任务串起来。
# PyTorch # RNN # LSTM # 序列建模
RAG 索引基础:向量嵌入、相似度与向量数据库
2026-03-26
3234 字
从向量嵌入讲到相似度度量与向量数据库,把 RAG 检索层最关键的基础概念连成一条线。
# RAG # Embedding # Vector Database
FastAPI 扩展层:中间件、CORS 与后台任务
2026-03-25
673 字
把路由之外那层请求包裹逻辑收起来:中间件、CORS 配置,以及请求结束后再执行的后台任务。
# PythonWeb # FastAPI # Middleware # CORS
Hot100的ACM模式题解
2026-03-25
27245 字
把这份模板复制后改成你的 Hot 100 题解文章。
# 算法 # 题解
LangChain 核心组件 02:Messages
2026-03-25
2012 字
理清 LangChain 里最核心的数据单位:不同消息类型、内容块、多模态输入,以及它们为什么是模型上下文的基础。
# LangChain # Messages
Milvus 入门:集合、索引与检索流程
2026-03-25
9538 字
把 Milvus 里最常用的对象和流程串起来:部署、schema、collection、index、load 与 search。
# RAG # Milvus # Vector Database
Off-Policy 偏好优化:DPO 与新分支
2026-03-25
1035 字
从 PPO 的最优解视角回看偏好优化,理解 DPO 为什么能绕过显式奖励模型与强化学习流程。
# DPO # RLHF # 偏好优化
PyTorch 手写 Transformer:从模块拆解到 toy task
2026-03-25
901 字
不直接调用 nn.Transformer,而是手写位置编码、多头注意力、Encoder / Decoder,并用一个反转序列的 toy task 跑通训练与解码。
# PyTorch # Transformer # Attention
可验证强化学习:RLVR 与 Tülu 3
2026-03-24
1431 字
从 Tülu 3 出发理解 RLVR,看看当奖励可以被规则直接验证时,强化学习会如何变化。
# RLVR # 强化学习 # Tulu3
FastAPI 验证与运行:Testing、CLI、Uvicorn 与 Workers
2026-03-24
928 字
把测试、调试、fastapi CLI、uvicorn、手动运行和 workers 收到一起,形成一条更完整的“本地开发到部署”的路径。
# PythonWeb # FastAPI # Testing # Uvicorn # Deployment
LangChain 核心组件 03:Tools
2026-03-24
1859 字
从静态工具到运行时上下文,让模型开始真正“做事”;这一篇也是理解 Agent 为什么不只是一个普通聊天模型的关键。
# LangChain # Tools # Runtime
Milvus 多模态实践:图文嵌入到检索闭环
2026-03-24
1099 字
用一个多模态例子把编码、建库、建索引、检索和可视化串成完整闭环,更接近真正落地的 RAG 实践。
# RAG # Milvus # 多模态
LangChain 核心组件 04:Short-term Memory
2026-03-23
1443 字
把对话线程里的状态和历史真正留住,并学会在上下文有限时修剪、删除、总结消息。
# LangChain # Memory
Naive-RAG 端到端实战:从文档入库到 FastAPI 服务
2026-03-23
2324 字
把前面的 RAG 基础真正串起来,做一个最小可运行的 Naive-RAG demo:文档切分、向量入库、本地 QA、FastAPI 服务与 Docker 化。
# RAG # Naive-RAG # FastAPI # Milvus
RLHF 奠基论文:Helpful & Harmless Assistant 速记
2026-03-23
796 字
回看 Anthropic 早期 RLHF 代表作,把 Helpful / Harmless 助手训练流程和数据路径梳理一遍。
# RLHF # 论文速记 # PPO
LangChain 核心组件 05:Streaming
2026-03-22
1381 字
当模型和 Agent 真正跑起来时,如何把 tokens、工具执行进度和自定义状态实时流出来。
# LangChain # Streaming
RAG 索引优化:上下文拓展与结构化索引
2026-03-22
2706 字
从 LlamaIndex 提炼出两个很有价值的思路:检索粒度和生成粒度不必相同,以及知识库变大后要学会先过滤、再检索。
# RAG # 索引优化 # LlamaIndex
算法总结-递归
2026-03-21
12103 字
总结汇总一下递归技巧。
# 算法
算法总结-动态规划
2026-03-21
13313 字
总结汇总一下动态规划技巧。
# 算法
算法总结-双指针技巧
2026-03-21
6151 字
总结汇总一下双指针技巧。
# 算法
算法总结-搜索与遍历
2026-03-21
7494 字
总结汇总一下搜索与遍历题型。
# 算法
算法总结-栈与队列
2026-03-21
7867 字
总结汇总一下栈与队列题型。
# 算法
LangChain 核心组件 06:Structured Output
2026-03-21
825 字
当你不想只拿一段自然语言,而是想拿稳定可解析的数据结构时,应该如何在 LangChain 中设计响应格式。
# LangChain # Structured Output
Python的ACM模式基础
2026-03-21
565 字
练习ACM模式的几种情况。
# 算法
RAG 混合检索:稀疏、密集与 Milvus 实现
2026-03-21
1995 字
把混合检索拆成三层来理解:稀疏向量在做什么、密集向量在补什么,以及 Milvus 里怎样真正把两者并行召回并融合。
# RAG # Hybrid Search # Milvus # BM25
Study 栏写作说明
2026-03-21
479 字
Study 分区会自动扫描一级目录,并把它们接到知识星点与文章筛选里。
# Study # 指南
LangChain 核心组件 07:Agents
2026-03-20
4498 字
把模型、消息、工具、记忆、流式与结构化输出重新装回一台真正能工作的机器里,再看 Agent 就会顺很多。
# LangChain # Agents
RAG 查询构建:从元数据过滤到 Text2SQL
2026-03-20
1163 字
当知识源不再只是纯文本时,RAG 不能只做语义匹配,还要学会把自然语言问题翻成过滤器、Cypher 或 SQL。
# RAG # Query Construction # Metadata Filter # Text2SQL
LangChain 进阶:Middleware
2026-03-19
1821 字
把 LangChain 的 Middleware 放回 Agent Loop 里理解:它到底拦在哪、能做什么,以及哪些 built-in middleware 最值得先掌握。
# LangChain # Middleware # Agent
RAG 查询翻译:重写、分解与路由
2026-03-19
2258 字
用户问题往往不是最优检索输入,所以这一篇把查询翻译和查询路由放到一起,理解重写、拆分、HyDE 与路由各在解决什么问题。
# RAG # Query Translation # Routing # HyDE
RAG 检索进阶:重排、压缩与校正
2026-03-18
2923 字
当召回已经有了以后,真正的生产级优化往往发生在后半程:重排、压缩和 corrective retrieval 都是在控制“给模型什么上下文”。
# RAG # Rerank # Compression # Corrective RAG
RAG 评估:指标、工作流与工具
2026-03-17
2653 字
把 RAG 评估拆成一条清晰的工作流:先看检索,再看生成,再看工具;这样系统效果出问题时,才知道到底是哪一段出了偏差。
# RAG # Evaluation # RAGAS # Phoenix