几何与谱分析揭示低秩预训练泛化能力的本质差异

作者：袖梨 2026-05-31

一项来自arXiv:2605.13652的预印本研究，通过几何与谱分析，揭示了低秩预训练与全秩训练在泛化能力上的本质差异。这其实是个挺关键的问题，因为低秩预训练方法虽然能大幅节省内存，但它的模型到底能不能跟全秩模型一样好呢？现有研究几乎只盯着验证困惑度这一项指标，而且往往只跑一次实验就下结论，这确实不够严谨。

几何与谱分析带来了什么新视角？研究者不再只关心困惑度数值，而是深入分析模型在参数空间中的几何结构，以及模型权重矩阵的谱分布。他们发现，低秩训练出来的模型，其隐藏表示的几何流形往往更“扁平”，而全秩模型的流形则更“丰富”。这种差异直接影响了模型对新数据的泛化能力，凭什么说低秩模型就一定差呢？其实，在某些任务上，低秩模型的泛化表现还真不一定输给全秩模型。