如何在Python中利用NumPy的unique函数统计元素出现频率

作者:袖梨 2026-06-24
np.unique需加return_counts=True才能统计频率,因默认仅返回去重数组;开启后返回唯一值与对应频次两个对齐数组,二维时可指定axis按行/列统计。

直接用 np.uniquereturn_counts=True 参数,就能一步拿到唯一值和对应频次,不需要手动遍历或配合 collections.Counter

为什么 np.unique 要加 return_counts=True 才能统计频率?

np.unique 默认只返回去重后的数组,不带任何计数信息。只有显式开启 return_counts=True,它才会额外返回一个同长度的整数数组,每个位置对应前一个返回值中对应元素的出现次数。

  • 不加该参数 → 只返回 array([1, 2, 3])
  • 加了 → 返回两个数组:array([1, 2, 3])array([3, 1, 2])

注意:两个返回值顺序严格对齐,counts[i] 就是 unique_vals[i] 的出现次数。

np.unique 统计频率时的常见错误现象

最常踩的坑是误以为返回的是字典或 (value, count) 元组列表,结果直接解包出错:

立即学习“Python免费学习笔记(深入)”;

values, counts = np.unique(arr)  # ❌ 少写了 return_counts=True,counts 实际是 None

另一个典型问题是忽略默认排序行为——np.unique 总是按升序返回唯一值,如果你需要保持原始出现顺序,它做不到;此时得换 scipy.stats.mode 或手写逻辑。

  • 输入 arr = [3, 1, 1, 2, 1] → 返回 values=[1,2,3],不是 [3,1,2]
  • 想按首次出现顺序?不行,这不是 np.unique 的设计目标

二维数组怎么用 np.unique 统计频率?

默认展平统计(axis=None),但你可以指定 axis=0axis=1 沿某维度找“唯一行”或“唯一列”,此时 return_counts=True 依然有效,只是返回的 counts 对应的是该维度上的重复次数。

  • np.unique(arr_2d, axis=0, return_counts=True) → 统计重复的行
  • np.unique(arr_2d, axis=1, return_counts=True) → 统计重复的列
  • 注意:此时 counts 是一维数组,长度等于该轴上唯一切片的数量

示例:

arr = np.array([[1,2], [3,4], [1,2]])<br>vals, cnts = np.unique(arr, axis=0, return_counts=True)<br># vals = array([[1, 2], [3, 4]]), cnts = array([2, 1])

多维场景下容易忽略 axis 参数的语义,误以为它能按元素逐个统计——其实只要用了 axis,就不再是标量元素统计,而是子数组级别的唯一性判断。

相关文章

精彩推荐