Drive-KD 提出多教师蒸馏框架，缩小自动驾驶 VLM 小模型能力差距

作者：袖梨 2026-06-21

Drive-KD 是一项针对自动驾驶视觉语言模型（VLM，指能同时理解图像和文字的模型）的多教师蒸馏框架，其核心目标是通过多个教师模型的知识传递，缩小小模型与大模型之间的能力差距。该框架将自动驾驶任务拆解为“感知—推理—规划”三个环节，并利用多个教师模型分别蒸馏对应能力，使小模型能以更低的计算资源接近大模型性能。传统监督微调（SFT，即基于标注数据直接训练小模型的方法）往往难以让小型 VLM 达到理想水平，而 Drive-KD 提供了一种更高效的弥补方案。

框架核心：感知—推理—规划三元组

Drive-KD 把复杂的自动驾驶流程分解为三个子任务。感知环节负责识别道路、车辆、行人等环境信息；推理环节则基于感知结果判断意图与风险；规划环节最终生成行驶轨迹或决策。每个子任务对应一个专门的教师模型，这些教师模型可以是基于大语言模型或大型 VLM 的版本。小模型同时从多个教师模型那里学习，通过蒸馏损失函数吸收不同维度的知识，从而在整体上缩小与全规模模型的差距。

与传统方法的对比

传统监督微调（SFT）在训练小模型时，往往只依赖单一教师模型的输出或固定标注数据，容易导致小模型在边缘场景下表现不足。Drive-KD 的多教师策略有两个明显优势：

知识互补——不同教师擅长不同环节，小模型能同时获得感知、推理、规划三方面的指导。
减少过拟合——多教师动态调整蒸馏权重，避免小模型在单一数据集上过于固化。

这种设计使得训练后的小模型在推理延迟和 GPU 内存需求上仍保持轻量特性，但决策准确率更接近大模型。

实际应用价值

自动驾驶系统对实时性要求极高，大模型虽然能力突出，但其高昂的 GPU 内存占用和推理延迟难以在车载设备上落地。Drive-KD 框架有条件帮助车企在低成本硬件上部署更聪明的 VLM，从而在不牺牲太多安全性的前提下降低总部署成本。目前该框架已通过论文形式公开，相关代码和实验结果可在 arXiv 上查阅（编号 2601.21288）。

行业意义与后续方向

多教师蒸馏并非全新概念，但将其系统化地应用到自动驾驶 VLM 的“感知—推理—规划”三元组上，是 Drive-KD 的主要贡献。它让小型模型不仅模仿大模型的输出，还能习得不同专家模型的思考路径。后续研究方向可能包括进一步优化蒸馏损失函数、适应更多场景的教师组合，以及实车验证等。对于正在寻找轻量化 VLM 方案的工程师来说，Drive-KD 提供了一个清晰的参考框架。

Drive-KD 提出多教师蒸馏框架，缩小自动驾驶 VLM 小模型能力差距

相关文章

精彩推荐