存储过程JOIN前须明确主表与驱动顺序:以业务锚点(如customers或orders)为FROM首位,避免优化器误判导致全表扫描或临时表;多表JOIN应拆分临时表分步处理,并确保关联字段及常用WHERE条件字段均有索引。
报表导出常要拼 4–5 张表,但存储过程不是 SQL 脚本粘贴区——它执行一次就固定计划,JOIN 顺序直接影响性能和结果正确性。别从 SELECT 开始写,先想清楚哪张表是“锚点”:是按客户汇总?那就以 customers 为主表;按订单时间切片?orders 才该放最左。MySQL 的 JOIN 优化器不保证重排,尤其多表时,FROM a JOIN b JOIN c 和 FROM b JOIN a JOIN c 可能走不同索引,甚至触发临时表。
EXPLAIN 看执行计划,重点盯 type 列:出现 ALL 或 range 且没走索引,说明关联字段没建对LEFT JOIN 后接 INNER JOIN 容易丢数据:比如 customers LEFT JOIN orders 再 INNER JOIN order_items,那些没下单的客户会因 order_items 的非空约束被过滤掉CREATE TEMPORARY TABLE),再分步 JOIN,方便调试和加索引报表常要支持“查某时间段+某区域+某产品线”,这些条件不能硬编码进 JOIN,得靠参数驱动。但直接把 WHERE date BETWEEN in_start_date AND in_end_date 塞进 JOIN 子句,容易让优化器放弃使用索引;更糟的是,参数为空时(比如不限制区域),AND region = in_region 会让整条 JOIN 变成全表扫描。
IFNULL(in_region, region) 或 COALESCE(in_region, region) 替代裸字段比较,但注意:这会让索引失效,只适合低频小表CONCAT 构建 SQL 字符串,再用 PREPARE + EXECUTE 执行,虽然麻烦,但能精准控制 WHERE 条件是否生效BETWEEN:它包含边界,而业务常要“当天 00:00 到次日 00:00”,直接写 created_at >= in_start AND created_at 更安全,也更容易走索引
导出报表时,一查客户订单数+商品明细数,COUNT(order_id) 和 COUNT(product_name) 对不上,甚至比实际值大几倍——这是典型的笛卡尔积陷阱。当一个客户有 3 笔订单、每笔订单含 2 种商品,customers LEFT JOIN orders LEFT JOIN order_items 会产生 6 行,COUNT(*) 就是 6,不是客户数或订单数。
SELECT customer_id, COUNT(*) FROM orders GROUP BY customer_id),再 JOIN 回主表DISTINCT 救火:COUNT(DISTINCT order_id) 能修数量,但无法解决 SUM 金额重复计算问题COUNT(*) OVER (PARTITION BY c.id) 可在不打散行的前提下计数,但 MySQL 8.0+ 才支持报表导出动辄百万行,存储过程默认在内存里攒结果,没流式返回机制。一旦 SELECT 结果超过 max_allowed_packet 或撑爆 buffer pool,就会报错 MySQL server has gone away 或直接卡死。
LIMIT 和 OFFSET 分页导出,但注意:深分页(如 OFFSET 100000)性能极差,改用基于游标的分页,比如 WHERE id > last_seen_id ORDER BY id LIMIT 1000
CONCAT 拼 CSV 字段,留到应用层处理;数据库只管吐结构化数据WHERE 条件字段(如 status, created_at)也要覆盖,否则每次都是全表扫真正难的不是写完 JOIN,而是让 JOIN 在存储过程里稳定、可预期地跑通——索引是否覆盖、NULL 怎么处理、聚合是否失真、结果集会不会爆炸,这些细节堆在一起,才决定报表能不能按时发出去。