Drive-KD 是一项针对自动驾驶视觉语言模型(VLM,指能同时理解图像和文字的模型)的多教师蒸馏框架,其核心目标是通过多个教师模型的知识传递,缩小小模型与大模型之间的能力差距。该框架将自动驾驶任务拆解为“感知—推理—规划”三个环节,并利用多个教师模型分别蒸馏对应能力,使小模型能以更低的计算资源接近大模型性能。传统监督微调(SFT,即基于标注数据直接训练小模型的方法)往往难以让小型 VLM 达到理想水平,而 Drive-KD 提供了一种更高效的弥补方案。
框架核心:感知—推理—规划三元组

Drive-KD 把复杂的自动驾驶流程分解为三个子任务。感知环节负责识别道路、车辆、行人等环境信息;推理环节则基于感知结果判断意图与风险;规划环节最终生成行驶轨迹或决策。每个子任务对应一个专门的教师模型,这些教师模型可以是基于大语言模型或大型 VLM 的版本。小模型同时从多个教师模型那里学习,通过蒸馏损失函数吸收不同维度的知识,从而在整体上缩小与全规模模型的差距。
与传统方法的对比
传统监督微调(SFT)在训练小模型时,往往只依赖单一教师模型的输出或固定标注数据,容易导致小模型在边缘场景下表现不足。Drive-KD 的多教师策略有两个明显优势:
这种设计使得训练后的小模型在推理延迟和 GPU 内存需求上仍保持轻量特性,但决策准确率更接近大模型。
实际应用价值
自动驾驶系统对实时性要求极高,大模型虽然能力突出,但其高昂的 GPU 内存占用和推理延迟难以在车载设备上落地。Drive-KD 框架有条件帮助车企在低成本硬件上部署更聪明的 VLM,从而在不牺牲太多安全性的前提下降低总部署成本。目前该框架已通过论文形式公开,相关代码和实验结果可在 arXiv 上查阅(编号 2601.21288)。
行业意义与后续方向
多教师蒸馏并非全新概念,但将其系统化地应用到自动驾驶 VLM 的“感知—推理—规划”三元组上,是 Drive-KD 的主要贡献。它让小型模型不仅模仿大模型的输出,还能习得不同专家模型的思考路径。后续研究方向可能包括进一步优化蒸馏损失函数、适应更多场景的教师组合,以及实车验证等。对于正在寻找轻量化 VLM 方案的工程师来说,Drive-KD 提供了一个清晰的参考框架。