如何解决MySQL中因大事务导致Binlog文件暴增:及IO压力问题？

作者：袖梨 2026-06-19

应先通过SHOW STATUS LIKE 'Binlog_cache%'确认Binlog_cache_disk_use/ Binlog_cache_use>5%及错误日志中ERROR 1197，再定位高产binlog事务并分批拆解，而非盲目调大binlog_cache_size。

直接调大 binlog_cache_size 不仅治标不治本，还可能引发内存雪崩；真正要解决 Binlog 暴增和 IO 压力，得先定位“谁在产巨量 event”，再分层干预。

别一看到 COMMIT 慢就改参数。先查运行时指标：

执行 SHOW VARIABLES LIKE 'binlog_cache_size';，确认当前值（5.7 默认 32KB，8.0 默认 128KB）
立刻执行 SHOW STATUS LIKE 'Binlog_cache%';，重点看两个值：Binlog_cache_use（总使用次数）和 Binlog_cache_disk_use（落磁盘次数）
如果 Binlog_cache_disk_use / Binlog_cache_use > 5%，说明大量事务被迫写临时文件，且这个磁盘写是串行的——后续所有 COMMIT 都在排队
错误日志里搜 ERROR 1197 或 Failed to write to binlog cache，这是最硬的证据

这个参数是每个连接独占的内存，不是全局共享池：

设成 64MB 后，100 个空闲连接就吃掉 6.4GB 内存，云数据库（如阿里云 RDS）通常锁死该参数，改了也无效
max_binlog_cache_size 是熔断阀值，不是性能参数；默认 4GB 已足够，调太高反而让一个事务拖垮整实例
autocommit=1 的单条语句走的是 binlog_stmt_cache_size，排查时混淆这两者会误判瓶颈
ROW 格式下，一条 UPDATE t SET c=1 WHERE id BETWEEN 1 AND 1000000 可能生成百万级 event，缓存再大也扛不住——它卡在逻辑层，不是内存层

参数只是兜底手段，以下动作对生产稳定性影响更大：

开启慢日志捕获长事务：SET GLOBAL long_query_time = 0.1; + SET GLOBAL log_slow_admin_statements = ON;，重点盯 COMMIT 耗时异常的线程
用 SQL 定位高产 binlog 的事务：SELECT trx_id, trx_started, trx_rows_modified FROM information_schema.INNODB_TRX ORDER BY trx_rows_modified DESC LIMIT 5;，再关联 performance_schema.events_statements_current 查原始 SQL
推动业务拆分事务：把 100 万行更新改成每批 5000 行，用 WHERE id BETWEEN x AND y + LIMIT 5000 控制粒度，既降锁时间，也自然规避缓存压力
同步检查 expire_logs_days 是否设为 0（永不清理），max_binlog_size 是否过大（如 2GB），避免单个 binlog 文件过大导致 mysqlbinlog 解析失败或磁盘打满

常见报错是 Error writing file '/tmp/xxx' (Errcode: 28 - No space left on device)，这不是 MySQL 配置问题，而是 mysqlbinlog 自己在 /tmp 生成临时文件撑爆磁盘：

不要改 MySQL 的 tmpdir，mysqlbinlog 不读这个参数；它用的是系统 gettempdir() 或环境变量 TMPDIR
临时解决：执行前设置 TMPDIR=/data/tmp mysqlbinlog -v mysql-bin.003300 > out.sql，确保目标路径有足够空间
根本解法：用 --base64-output=DECODE-ROWS 避免解码膨胀；或加 --start-position/--stop-position 分段解析，避开大事务所在区间
注意：ROW 格式下，一个大事务可能占整个 binlog 文件 90% 以上，直接解析全量毫无必要