VLA模型持续强化学习：简单顺序微调即可有效避免灾难性遗忘

作者：袖梨 2026-06-03

arXiv上的一项新研究彻底颠覆了业界对VLA模型微调的认知——简单顺序微调就能有效避免灾难性遗忘。这篇名为《Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learner》的预印本，直接挑战了持续学习领域的传统智慧。它发现，那些被认为会导致灾难性遗忘的常规微调方式，对大规模预训练的VLA模型来说，其实并没有那么可怕。

传统认知被推翻，该怎么办？

以往做持续强化学习（CRL），开发者总得精心设计各种复杂策略，生怕模型学新东西时把老的忘光。但这项来自arXiv:2603.11653v2的研究，在多种终身强化学习基准上做了系统实验，结果让ren大跌眼镜：VLA模型本身就挺适合做持续学习的。简单顺序微调（就是一步步教会它新任务），效果居然不比那些花哨的CRL方法差。这真的很让人意外吧？

为什么简单微调就能行？ 关键或许在于VLA模型“先天”的优势。它们在大规模视觉、语言、动作数据上预训练后，脑袋里已经装了一个很稳固的基础知识库。后续的微调就像在已经装满硬件的电脑上装新软件，系统不容易崩溃。
这对开发者意味着什么？ 以后做模型持续学习，不用再一上来就猛堆复杂算法。先试试最朴素的顺序微调，成本低，效果还说不定更好。这不就是一个巨大的效率提升吗？

这对实际应用是个好消息