ROW_NUMBER() 是默认首选,因其严格保证每行唯一序号,确保 Top-K 精确返回恰好 K 条记录;RANK() 和 DENSE_RANK() 在并列时会跳号或不跳号,易致漏取或超量。
直接说结论:用 ROW_NUMBER() 配合多字段 ORDER BY 是最稳妥的解法,RANK() 和 DENSE_RANK() 在存在并列时行为不同,容易漏数据或超量 —— 别图省事只按单字段排序。
ROW_NUMBER() 是默认首选?Top-K 要的是“恰好 K 条记录”,不是“排名 ≤ K 的所有记录”。ROW_NUMBER() 严格保证每行唯一序号,哪怕多字段排序后值完全相同,也会强制分出先后(按物理顺序或主键隐式补位)。
常见错误是误用 RANK():比如按销售额+时间双排序,若两条记录销售额相同、时间也相同,RANK() 给它们都打 1,下一条直接变 3,结果取 RANK() 可能只返回 2 行;而 <code>ROW_NUMBER() 会标为 1/2/3,稳稳拿满 3 条。
实操建议:
id、created_at)放在 ORDER BY 最末位ORDER BY 中使用无索引字段,否则窗口函数性能会断崖下跌ROW_NUMBER(),不支持 QUALIFY
比如“每个部门薪资最高的 3 人,同薪时按工龄降序,工龄相同时按姓名升序”——这是典型的 PARTITION BY + 多级 ORDER BY 场景。
关键点在于:窗口函数的 ORDER BY 只影响序号生成,不影响最终结果行数;真正控制“每组几条”的是外层过滤。
示例(兼容多数数据库):
SELECT dept, name, salary, years_of_serviceFROM ( SELECT dept, name, salary, years_of_service, ROW_NUMBER() OVER ( PARTITION BY dept ORDER BY salary DESC, years_of_service DESC, name ASC ) AS rn FROM employees) tWHERE rn <= 3;
注意:
PARTITION BY dept 必须写在 OVER 内,不能写成 GROUP BY
rn 仍只返回这 2 条,不会补空
QUALIFY rn 省一层子查询,但 Hive/Spark SQL 不支持 <code>QUALIFY
默认行为因数据库而异:NULLS FIRST 或 NULLS LAST 才是可控解法。不显式声明,PostgreSQL 默认 NULLS FIRST(升序时排最前),MySQL 8.0+ 默认 NULLS LAST(升序时排最后),SQL Server 直接报错。
多条件排序中一个字段为 NULL 就可能让整行掉出 Top-K,必须明确控制:
NULLS LAST
NULLS FIRST
ORDER BY performance DESC NULLS LAST
真正难的不是写出语法,而是想清楚“并列是否允许”“NULL 代表什么语义”“K 是硬上限还是软门槛”——这些业务逻辑一旦定错,窗口函数再准也没用。