GROUP BY多字段分组本质是归并而非删重,每组仅返回一行且非聚合字段须在GROUP BY中或用聚合函数处理;需避免分组过细,并根据需求选择聚合函数、窗口函数等方案。
GROUP BY 本身不删除数据,它只是把相同值的行归到同一组,每组返回一行结果。所以当你写 SELECT a, b FROM t GROUP BY a, b,看起来像“去重”,其实只是按 a 和 b 的组合切分组,再从每组里挑出一行——但挑哪一行,MySQL 默认不保证。
常见错误现象:执行 SELECT code, cdate, ctotal FROM tt GROUP BY code 报错 Expression #2 of SELECT list is not in GROUP BY clause,这是 MySQL 8.0+ 默认开启 ONLY_FULL_GROUP_BY 模式导致的。
code 分组,又想带出 cdate 和 ctotal,就得用聚合函数包裹它们,比如 MAX(cdate)、ANY_VALUE(ctotal)
ANY_VALUE() 是 MySQL 提供的“我明确知道这组值一样/无所谓选哪个”的绕过方式,但它不承诺稳定性,不同版本或执行计划下可能返回不同行当你要保留每组中某个字段值最小或最大的那条记录(比如最早时间、最小 ID),MIN() 和 MAX() 是最常用也最可控的方式。
例如,要对 students 表按 name 和 class 去重,并保留每组 id 最小的那条完整记录:
SELECT MIN(id) AS id, name, classFROM studentsGROUP BY name, class;
注意:这里 name 和 class 是分组字段,MIN(id) 是聚合结果;不能写成 SELECT id, name, class GROUP BY name, class,因为 id 未聚合也未分组。
created_at 字段,想留最新的一条,就用 MAX(created_at),再配合子查询或 JOIN 拿回对应整行email、phone),若需保留,得用窗口函数或关联子查询GROUP BY 在有复合索引(如 (name, class, id))时能走索引,避免临时表和文件排序当你需要“每个 code 只取 cdate 最大的那条,并带上整行所有字段”,GROUP BY + MIN/MAX 就不够用了——它只能返回聚合后的值,无法原样返回某一行的全部列。
这时窗口函数是唯一干净解法:
WITH ranked AS ( SELECT *, ROW_NUMBER() OVER (PARTITION BY code ORDER BY cdate DESC, id ASC) AS rn FROM tt)SELECT code, cdate, ctotal, other_colFROM rankedWHERE rn = 1;
ROW_NUMBER() 保证每组内严格编号,PARTITION BY code 定义分组粒度,ORDER BY cdate DESC, id ASC 决定优先级(先按日期倒序,日期相同时按 ID 升序防歧义)。
id),否则同 cdate 下的行顺序不可控other_col,但别在 SELECT * 后盲目删列,容易漏掉业务关键字段一个常被忽略但致命的问题:在 GROUP BY 子句里误加唯一或近似唯一的字段(如 order_id、created_at、uuid),会导致分组过细,结果看似“没去重”。
比如写 SELECT user_id, COUNT(DISTINCT product_id) FROM orders GROUP BY user_id, order_id,由于每条订单 order_id 都不同,实际是按每一行分组,COUNT(DISTINCT product_id) 永远是 1。
user_id、date、region)SELECT COUNT(*) 和 COUNT(DISTINCT target_col) 对比,如果两者接近,大概率是分组太细了真正难的不是语法,而是厘清“我要按什么逻辑定义重复”——字段组合语义不清,再漂亮的 SQL 也救不回来。