日前,一项来自arXiv的预印本研究(论文编号2606.02011)揭示了AI领域的重大隐患:2-bit量化不仅没有加速推理,反而让模型陷入冗长且无效的推理链中。
核心发现:2-bit量化导致“反向加速”

研究团队对Qwen3推理模型进行了详细测试,结果让ren大跌眼镜。本来指望用2-bit这种极低比特位的量化手段来降低每次解码的计算成本,并最终实现端到端的加速。可实际效果呢?模型生成的推理链反而变得更长了。这就好比你想给汽车减轻重量来跑得更快,结果却发现发动机因为减配变得不稳定,导致车子在路上反复绕圈、走回头路,总里程反而比原来多出好几倍。这哪里算得上是加速?
到底出了什么问题?

问题的根源在于量化后的推理过程出现了“稳定性崩溃”。具体表现有四种,而且会互相叠加,咱们一桩桩来看:
这对成本意味着什么?
2-bit量化确实让每个token的代价变低了,但由于总token数暴涨,总成本不仅没降,反而水涨船高。为什么会出现这种被业内称为“无效智能”的现象?说白了,就是极端的量化虽然强行压缩了模型参数,却破坏了模型维持稳定长程推理所必需的内在结构。模型不是在“思考”,而是在“胡言乱语”中挣扎。这种变慢,可以说是一种得不偿失的“变慢”。
行业警示:精度与效用的平衡
这项研究无疑给追逐极低量化比特的AI行业泼了一盆冷水。大家一窝蜂地追求极致的效率,可曾想过稳定性才是推理模型的生命线?对于商业落地而言,这确实是个两难的选择:是选择牺牲速度来保证推理链的准确性,还是接受这种冗长且不可控的推理结果?看来,2-bit量化的路,真的还很长。