Drive-KD 提出多教师蒸馏框架,缩小自动驾驶 VLM 小模型能力差距

作者:袖梨 2026-06-21

Drive-KD 是一项针对自动驾驶视觉语言模型(VLM,指能同时理解图像和文字的模型)的多教师蒸馏框架,其核心目标是通过多个教师模型的知识传递,缩小小模型与大模型之间的能力差距。该框架将自动驾驶任务拆解为“感知—推理—规划”三个环节,并利用多个教师模型分别蒸馏对应能力,使小模型能以更低的计算资源接近大模型性能。传统监督微调(SFT,即基于标注数据直接训练小模型的方法)往往难以让小型 VLM 达到理想水平,而 Drive-KD 提供了一种更高效的弥补方案。

框架核心:感知—推理—规划三元组

Drive-KD 把复杂的自动驾驶流程分解为三个子任务。感知环节负责识别道路、车辆、行人等环境信息;推理环节则基于感知结果判断意图与风险;规划环节最终生成行驶轨迹或决策。每个子任务对应一个专门的教师模型,这些教师模型可以是基于大语言模型或大型 VLM 的版本。小模型同时从多个教师模型那里学习,通过蒸馏损失函数吸收不同维度的知识,从而在整体上缩小与全规模模型的差距。

与传统方法的对比

传统监督微调(SFT)在训练小模型时,往往只依赖单一教师模型的输出或固定标注数据,容易导致小模型在边缘场景下表现不足。Drive-KD 的多教师策略有两个明显优势:

  • 知识互补——不同教师擅长不同环节,小模型能同时获得感知、推理、规划三方面的指导。
  • 减少过拟合——多教师动态调整蒸馏权重,避免小模型在单一数据集上过于固化。

这种设计使得训练后的小模型在推理延迟和 GPU 内存需求上仍保持轻量特性,但决策准确率更接近大模型。

实际应用价值

自动驾驶系统对实时性要求极高,大模型虽然能力突出,但其高昂的 GPU 内存占用和推理延迟难以在车载设备上落地。Drive-KD 框架有条件帮助车企在低成本硬件上部署更聪明的 VLM,从而在不牺牲太多安全性的前提下降低总部署成本。目前该框架已通过论文形式公开,相关代码和实验结果可在 arXiv 上查阅(编号 2601.21288)。

行业意义与后续方向

多教师蒸馏并非全新概念,但将其系统化地应用到自动驾驶 VLM 的“感知—推理—规划”三元组上,是 Drive-KD 的主要贡献。它让小型模型不仅模仿大模型的输出,还能习得不同专家模型的思考路径。后续研究方向可能包括进一步优化蒸馏损失函数、适应更多场景的教师组合,以及实车验证等。对于正在寻找轻量化 VLM 方案的工程师来说,Drive-KD 提供了一个清晰的参考框架。

相关文章

精彩推荐