从心出发：从架构原本到训推工坊

作者：袖梨 2026-07-02

2022 年的上海，发生了很多事情。

因为固有工作较难找出新的增长点，那时候也是在大模型爆发的前夜，传统技术如何做出新的花样？团队和个人如何有新的发展？

在工作的间隙，想写一个架构原本的公众号。这个名字的意思，是想回到架构的原本：不只讲某一个技术点，也不只讲某一个漂亮方案，而是去找技术背后的内核。

这个内核既包括技术本身，也包括一个架构师、高阶技术人员应该具备的判断力、表达能力、协同能力和交付能力。

那篇发刊词里，我写过一个想法：最好的投资，是投资自己。

这句话听起来很朴素，但越往后越觉得重要。无论外部环境怎么变，逼出更好的自己，长期看都是最稳的投资。写文章就是其中一种方式。因为写作会逼你重新组织知识，逼你分辨自己到底是真懂，还是只是听过。

后来因为工作变化，这个公众号没有持续写下去。

这是遗憾。但现在，我想从新开始。

这一次，名字从“架构原本”变成“训推工坊”。

关注点也从更宽泛的架构设计，收束到 AI 时代最核心的一条工程链路：训练和推理如何组成一个可持续生产模型能力的系统。

为什么是现在

过去几年，AI 行业的叙事变得很快。

一开始大家看模型参数，看 benchmark，看 demo。模型越大、分数越高、回答越惊艳，似乎就越能代表技术先进性。

但到了今天，这已经不够了。

模型能力还在继续上升，但能力本身不再是唯一问题。一个 AI 系统能不能被持续训练，能不能稳定评估，能不能低成本推理，能不能把业务反馈重新变成训练信号，能不能在真实环境里支撑 Agent 多轮交互，这些问题越来越重要。

换句话说，AI 的竞争正在从“模型中心”进入“系统中心”。

如果只看模型，我们会问：

模型多大？数据多少？榜单多少分？

但如果看系统，我们要问的问题会变成：

训练系统能不能支撑反复试错？推理系统能不能承受真实流量？后训练能不能把 reward、rollout、policy update 串成稳定闭环？多轮 Agent 的轨迹能不能精确还原到 token 级别？GPU 时间到底花在有效计算上，还是花在等待、通信、搬数据和空转上？

这些问题听起来更工程，也更琐碎。

但真正能把 AI 能力持续生产出来的，恰恰是这些工程问题。

为什么是训推

传统理解里，训练和推理是两个阶段。

训练是离线的，负责更新模型权重。

推理是在线的，负责服务用户请求。

但在 RLHF、PPO、GRPO、DAPO、Agentic RL 这些后训练场景里，这个边界正在消失。

推理不再只是训练结束后的部署结果。它会进入训练循环，成为训练样本的生产过程。

模型先 rollout，生成回答、代码、工具调用或行动轨迹；

系统再根据规则、reward model、sandbox、搜索工具、环境反馈或人工偏好给轨迹打分；

训练引擎根据 reward、logprob、value、advantage、KL 等信号更新 actor；

更新后的权重再同步回 rollout engine；

然后开始下一轮生成。

这就是“训推”两个字真正合在一起的地方。

它不是训练加推理两个模块的简单拼接，而是一条从数据到轨迹、从轨迹到 reward、从 reward 到梯度、从梯度到新权重、再从新权重回到推理生成的闭环。

如果把这条链路展开，它至少包括 8 个环节。

第一，数据进入系统。

原始题目、对话、偏好样本、代码任务、工具任务、多模态样本，要先被整理成训练框架能消费的格式。这里会涉及 dataset、parquet、prompt schema、chat template、tokenization、max prompt length、truncation、multi-modal inputs。很多训练问题不是从模型开始坏的，而是从数据字段、模板和 token 边界开始偏掉的。

第二，构造 rollout 请求。

系统从训练集中取出一批 prompt，把它们变成推理引擎可以生成的输入。对于 GRPO、DAPO 这类算法，一个 prompt 往往会生成多个 response，形成 group sampling。这里会涉及 rollout batch、generation batch、temperature、top-p、response length、rollout.n、request scheduling。

第三，推理引擎生成轨迹。

模型通过 vLLM、SGLang、TensorRT-LLM 或 HF rollout 生成 token。单轮任务里，轨迹主要是 prompt 和 response；Agentic RL 里，轨迹还会包含多轮对话、工具调用、环境返回、sandbox 执行结果、tool reward、response mask。推理在这里不是终点，而是训练样本的生产机。

第四，reward 或环境反馈。

生成结果出来后，系统要给轨迹打分。分数可能来自 rule-based reward，比如数学答案匹配；也可能来自 reward model；还可能来自代码 sandbox、搜索工具、真实环境或人工偏好。这里会涉及 reward function、reward model、verifiable reward、process reward、outcome reward、overlong penalty、format reward、tool reward。

第五，把生成轨迹转成训练信号。

有了 response 和 reward 还不够。训练侧通常还要计算 old logprob、reference logprob、value、KL、token-level reward、advantage、returns 等字段。PPO 会依赖 critic 和 GAE；GRPO 依赖组内相对 reward；DAPO 还会引入 dynamic sampling、clip higher、token-level loss、overlong reward shaping。算法论文里的公式，到了系统里会变成一批必须精确对齐的数据字段。

第六，更新 actor 和 critic。

训练引擎拿到整理好的 batch 后，才真正进入 forward、backward、optimizer step。这里会出现 FSDP、FSDP2、Megatron、tensor parallel、pipeline parallel、expert parallel、micro batch、gradient checkpointing、activation offload、sequence parallel、dynamic batch size 等训练系统问题。后训练不是不训练，而是训练只占闭环中的一段。

第七，把新权重同步回推理侧。

actor 更新以后，rollout engine 必须用新策略继续生成下一批轨迹。于是系统要处理 checkpoint、weight sync、weight resharding、parameter broadcast、sleep/resume、KV cache 管理。模型越大，推理副本越多，训练和推理资源越分离，这一步越容易成为关键瓶颈。

第八，评测、观测和故障处理。

系统还要定期 validation，记录 reward、response length、KL、entropy、MFU、throughput、GPU memory、rollout latency、trainer idle ratio、rollouter idle ratio 等指标。否则你很难判断模型是在学习、在发散，还是只是因为 rollout 长尾、reward 噪声、batch 不均衡或权重同步拖慢了整个系统。

后续这个系列会逐篇拆这些环节。

哪些属于算法，哪些属于系统；

哪些是论文里的目标函数，哪些是工程里的数据字段；

哪些是训练瓶颈，哪些是推理瓶颈；

哪些问题表面上看是模型效果，背后其实是数据、调度、显存、通信或可观测性。

我会尽量讲清楚。

为什么用 verl 作为参照

这次系列，我们会以 verl 代码库为参照。

不是因为 verl 是唯一值得学习的框架，而是因为它足够适合作为一个“解剖标本”。

verl 来自 HybridFlow 论文，是一个面向大语言模型后训练的 RL 训练框架。它把 PPO、GRPO 等算法流程，放进一个可以连接 FSDP、FSDP2、Megatron-LM、vLLM、SGLang、HF Transformers 等训练和推理组件的系统里。

这件事的价值不只是“支持很多后端”。

真正有意思的是：verl 把 LLM 后训练这件事拆成了一个可以观察的系统。

在 verl 里，我们能看到一轮 RL step 是怎样发生的：

数据从 dataset 进入 DataProto；

controller 通过 Ray 调度不同角色的 worker；

rollout engine 生成 response；

reward function 或 reward model 给轨迹打分；

actor 重新计算 old logprob；

reference policy 计算 KL 相关约束；

critic 估计 value；

driver 计算 advantage；

actor 和 critic 分别更新；

训练权重再同步给 rollout engine。

这条链路里，每一步都对应一个真实的 AI infra 问题。

算法问题会变成数据流问题。

数据流问题会变成分布式调度问题。

分布式调度问题会变成显存、通信、batch、checkpoint、profiling 和 fault tolerance 问题。

这就是我们想讲清楚的东西。

从“架构原本”的道与术，到“训推工坊”的系统地图

当年我想写“架构原本”，是因为一直觉得架构有“道”和“术”。

设计模式、架构原则、模块边界、抽象能力、演进判断，这些更接近道。

业务架构、搜索推荐、云原生、可观测、数据湖、工程平台、组织协同，这些更接近术。

道太抽象，需要术来支撑。

术太具体，也需要道来校准。

好的架构设计，往往不是一开始就画出一张漂亮图，而是在约束、目标、团队能力、业务阶段和外部变量之间做取舍。

AI infra 也是一样。

FSDP、Megatron、vLLM、SGLang、checkpoint engine、TransferQueue、Agent Loop、reward model，这些都是术。

但它们背后也有道：

控制流和计算流如何分离？

训练和推理如何复用资源？

数据协议如何让复杂轨迹可流动？

算法灵活性和系统效率如何取舍？

同步训练和异步训练如何权衡新鲜度与吞吐？

可观测性如何帮助我们判断系统是真的在学习，还是只是在消耗 GPU？

如果只看术，很容易陷入配置和参数。

如果只谈道，又容易变成空泛的原则。

“训推工坊”想做的，是用真实代码把两者接起来。

这个系列写给谁

最重要的，写给自己。

然后，这个系列首先写给工程师。

如果你在做训练、推理、RLHF、Agent、GPU 集群、模型平台，verl 是一个很好的入口。它能帮你把很多平时散落在不同项目里的概念连起来：FSDP、Megatron、vLLM、SGLang、reward、rollout、advantage、KL、checkpoint、sequence packing、dynamic batch size、profiling。

这个系列也写给 PM 和技术管理者。

很多 AI 产品的瓶颈，表面上是“模型效果不稳定”，背后其实是数据闭环、后训练能力、推理成本和系统可观测性的问题。如果不理解训推链路，就很难判断一个功能到底是模型问题、数据问题、系统问题，还是成本结构问题。

这个系列还写给行业分析师和技术观察者。

AI 行业的下一阶段，不能只看模型发布会。真正决定格局的，是谁能把模型能力持续生产出来，谁能把训练、推理、数据、反馈、工具、环境和成本管起来。开源框架不是全部答案，但它们给了我们观察产业能力的窗口。

我会怎么写（你要怎么读）

我们计划用 36 篇文章，分六组讲清楚这件事。

第一组，建立全局地图：HybridFlow、Single Controller、WorkerGroup、DataProto，以及一轮 PPO/GRPO step 到底发生了什么。

第二组，讲算法如何落到工程：PPO、GRPO、DAPO、KL、reward、数据准备，以及为什么算法配置经常会变成系统配置。

第三组，讲推理如何嵌入训练：rollout、vLLM、SGLang、KV cache、sleep/resume、多轮 Agent、工具调用和长尾请求。

第四组，讲训练引擎和分布式核心：FSDP/FSDP2、Megatron、EngineRegistry、micro-batch、dynamic batch size、sequence parallel、checkpoint engine。

第五组，讲性能、规模和生产化：profiling、吞吐瓶颈、data movement、TransferQueue、Fully Async Policy，以及 671B/MoE 级别训练暴露出来的问题。

第六组，写给更广泛的 AI infra 读者：成本账、异构硬件、可观测性、Agentic RL、后训练瓶颈地图，以及 AI infra 的长期演进。

每篇文章会尽量遵守三个原则。

第一，代码优先。

我会尽量从真实文件、真实函数、真实数据流出发，而不是只画概念图。

第二，人话解释。

复杂概念可以讲深，但不能讲玄。能用一个工程场景讲清楚的，就不要堆名词。

第三，区分事实、推断和观点。

代码里能验证的，我们说清楚位置；论文和文档里有依据的，我们标出来源；属于我们的判断，就明确说这是判断。

从新开始

回到 2022 年那篇发刊词，我当时写到一半，最后说要去吃饭，吃完饭陪女儿玩“谁是卧底”。

那是一段很真实的生活。

技术人写文章，不能只有宏大叙事，也要承认生活、工作、家庭、环境都会影响节奏。

所以这一次重启，我不想把话说得太满。

这个系列不会承诺每篇都完美，也不会假装自己已经掌握所有答案。

我们只是从一个真实代码库开始，把一条复杂链路拆开，逐段看懂。

看懂数据在哪里；

看懂权重在哪里；

看懂 reward 在哪里；

看懂 token 边界在哪里；

看懂瓶颈在哪里；

看懂风险在哪里；

看懂成本在哪里。

如果这些文章能帮一些工程师少绕一点路，帮一些 PM 更准确地判断 AI 产品背后的系统代价，帮一些行业观察者从发布会走到真实工程里看问题，那就已经值得。

重要参考

Stanford HAI, The 2026 AI Index Report: https://hai.stanford.edu/ai-index/2026-ai-index-report

Stanford HAI, Inside the AI Index: 12 Takeaways from the 2026 Report: https://hai.stanford.edu/news/inside-the-ai-index-12-takeaways-from-the-2026-report

HybridFlow: A Flexible and Efficient RLHF Framework: https://arxiv.org/abs/2409.19256

verl GitHub README: https://github.com/verl-project/verl

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2026-05-17，如有侵权请联系[email protected] 删除