llama.cpp CUDA实现快速沃尔什-哈达玛变换

作者：袖梨 2026-05-30

开源AI推理框架llama.cpp的开发者于日前合并了拉取请求#23615，正式为项目引入基于CUDA的快速沃尔什-哈达玛变换（FWHT）实现。这一变更由核心开发者直接提交，代码已进入主分支，意味着用户现在可直接通过官方渠道获取该优化功能。

这个变换到底在干嘛？其实，快速沃尔什-哈达玛变换算是一个挺基础的计算工具，主要用于信号处理和特征变换。在AI推理的场景下，它位于注意力机制的计算流程中，能把某些矩阵运算效率提升不少。llama.cpp的CUDA分支拿到这个加速后，对于处理长序列数据的模型来说，推理速度有望得到优化。

为什么非得在CUDA里单独整一个实现呢？原因很简单：传统CPU上跑FWHT虽然稳，但碰上大规模模型，算力瓶颈立马显现。GPU天生适合做这类并行计算，直接把计算任务丢给CUDA核心，延迟能降下去一大截。这就让llama.cpp在支持本地大模型推理时，更贴近实用的标准了。

没错，llama.cpp一直靠兼容性吃饭，从CPU到GPU，从AMD到NVIDIA，能跑的地方基本都覆盖了。但这次CUDA版本的FWHT补上后，意味着在NVIDIA显卡上跑模型时，注意力这部分计算不再绕弯路，算是把硬件的潜力给压榨出来了。开发者可以手动编译带CUDA支持的版本，然后直接在配置里启用这个新变换，代码改动量极小。

不少社区成员已经测试过合并后的性能表现，结果反馈挺积极的。虽然官方没给出具体的加速倍数，但多数用户表示在中等规模模型上，推理时的显存占用和响应时间都有优化。这确实是个好迹象：开源社区在推动基础设施层面的优化，而不是只盯着上层模型参数。

当然了，普通用户不用自己编译也能等到官方预编译包。按照llama.cpp的更新节奏，Windows和Linux的二进制版本很快就会附带这个CUDA加速。咱们只需要注意自己的显卡驱动版本别太老就行，毕竟CUDA的功能依赖它。这么一来，本地跑大模型的门槛，其实又降了点吧？