2-bit量化使推理模型陷入冗长无效推理链

作者:袖梨 2026-06-03

日前,一项来自arXiv的预印本研究(论文编号2606.02011)揭示了AI领域的重大隐患:2-bit量化不仅没有加速推理,反而让模型陷入冗长且无效的推理链中。

核心发现:2-bit量化导致“反向加速”

研究团队对Qwen3推理模型进行了详细测试,结果让ren大跌眼镜。本来指望用2-bit这种极低比特位的量化手段来降低每次解码的计算成本,并最终实现端到端的加速。可实际效果呢?模型生成的推理链反而变得更长了。这就好比你想给汽车减轻重量来跑得更快,结果却发现发动机因为减配变得不稳定,导致车子在路上反复绕圈、走回头路,总里程反而比原来多出好几倍。这哪里算得上是加速?

到底出了什么问题?

问题的根源在于量化后的推理过程出现了“稳定性崩溃”。具体表现有四种,而且会互相叠加,咱们一桩桩来看:

  • 变得爱钻牛角尖:模型会对一个问题反复进行重复性循环思考,明明已经有了答案,却始终在同一个点上打转。
  • 预算耗尽式死磕:模型会无节制地消耗它预先设定的token预算,把所有的计算资源都浪费在无意义的推理步骤上。
  • 迟迟不决的延迟承诺:模型在面临选择时变得犹豫不决,迟迟不做出最终的判断,导致推理链被人为地越拉越长。
  • 推理链碎片化:完整的推理逻辑在中间断裂,模型无法有效地收尾,留下大量未闭合的逻辑片段。

这对成本意味着什么?

2-bit量化确实让每个token的代价变低了,但由于总token数暴涨,总成本不仅没降,反而水涨船高。为什么会出现这种被业内称为“无效智能”的现象?说白了,就是极端的量化虽然强行压缩了模型参数,却破坏了模型维持稳定长程推理所必需的内在结构。模型不是在“思考”,而是在“胡言乱语”中挣扎。这种变慢,可以说是一种得不偿失的“变慢”。

行业警示:精度与效用的平衡

这项研究无疑给追逐极低量化比特的AI行业泼了一盆冷水。大家一窝蜂地追求极致的效率,可曾想过稳定性才是推理模型的生命线?对于商业落地而言,这确实是个两难的选择:是选择牺牲速度来保证推理链的准确性,还是接受这种冗长且不可控的推理结果?看来,2-bit量化的路,真的还很长。

相关文章

精彩推荐