SQL如何计算每个分组内非空值的比例与分布情况

作者：袖梨 2026-07-01

COUNT(列名)统计非NULL行数，但空字符串、纯空格等仍被计入，故需结合CASE或WHERE过滤才能准确统计业务意义上的非空值比例。

用 COUNT 和 CASE 统计非空值比例

直接用 COUNT(*) 和 COUNT(column_name) 就能算出非空占比，因为 COUNT() 天然忽略 NULL。但要注意：不能用 COUNT(column_name IS NOT NULL) —— 这会把布尔结果当整数统计（TRUE 是 1，FALSE 是 0），全算进去了，结果永远等于总行数。

实操建议：

写法：ROUND(COUNT(column_name) * 100.0 / COUNT(*), 2) 得到百分比，乘 100.0 避免整除截断
如果字段是字符串，''（空字符串）不等于 NULL，仍会被 COUNT() 计入，需额外用 CASE WHEN column_name IS NOT NULL AND column_name != '' 过滤
GROUP BY 后直接跟该表达式，无需子查询

按分组看非空值的分布形态（不只是比例）

比例只反映“有多少”，分布要看“值长什么样”。比如 status 字段非空时有哪些取值、各自频次多少，这就得结合 GROUP BY 嵌套或窗口函数。

常见场景和做法：

想同时看到每个分组的非空值种类及出现次数：在主分组（如 category）内，再对 status 分组，加 HAVING status IS NOT NULL 或用 WHERE 预过滤
想保留空值分组（比如展示“该 category 下 status 为空的有 5 条，为 'active' 的有 12 条”）：用 CASE WHEN status IS NULL THEN 'NULL' ELSE status END 统一转为分类字段再聚合
PostgreSQL/MySQL 8.0+ 可用 COUNT(*) FILTER (WHERE column_name IS NOT NULL)（PG）或 SUM(IF(column_name IS NOT NULL, 1, 0))（MySQL），语义更清晰

NULL 和空字符串混杂时容易踩的坑

很多业务数据里，NULL、''、' '（纯空格）并存，但它们在 COUNT()、IS NULL、= '' 中行为完全不同。

关键区别：

COUNT(col) 忽略 NULL，但计入 '' 和 ' '
col IS NULL 只匹配真正 NULL，不匹配空字符串
TRIM(col) = '' 能捕获空格和空字符串，但注意 TRIM(NULL) 返回 NULL，需先判空
推荐预处理写法：CASE WHEN col IS NULL THEN 'NULL' WHEN TRIM(col) = '' THEN 'EMPTY' ELSE 'VALID' END

性能与兼容性提醒

大表上频繁计算非空分布，别在 SELECT 里反复写 COUNT(CASE ...) 多次扫描；能用一次聚合搞定就别拆成多个子查询。

注意事项：

SQLite 不支持 FILTER，必须用 SUM(CASE WHEN ... THEN 1 ELSE 0 END)
Oracle 对 '' 视为 NULL，行为和其他数据库不一致，迁移时要特别验逻辑
如果字段类型是 JSON 或数组（如 PostgreSQL 的 jsonb），IS NULL 判的是整个字段是否为 null，不是内容是否为空，得用 jsonb_typeof(col) = 'null' 或 col ? 'key' 等专用判断