怎么通过 $http_referer 变量在访问日志中追踪高频 404 状态码路径的上游触发源头

作者:袖梨 2026-06-24
通过配置 Nginx 自定义日志格式记录 $http_referer 和 $status,可精准追踪 404 请求来源;需显式启用 referer 字段,用 awk 等工具过滤空值及本站域名后分析高频 referer,并结合业务识别搜索引擎、第三方平台、App WebView 等典型异常模式,进阶可接入 ELK 或 Prometheus 实现实时监控与告警。

直接用 $http_referer 配合 Nginx 日志格式,就能把 404 请求的“从哪点过来的”记录清楚,关键在日志字段设计和后续分析逻辑。

确保日志格式包含 referer 和状态码

Nginx 默认 access_log 不强制记录 $http_referer,需显式配置。推荐在 httpserver 块中定义带 referer 的日志格式:

  • 添加自定义日志格式,例如:
    log_format referer_404 '$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent"';
  • 在对应 server 或 location 中启用该格式:
    access_log /var/log/nginx/404-referer.log referer_404;
  • 注意:$http_referer 是客户端发来的原始 Referer 头,可能为空(如直接输入 URL、HTTPS→HTTP 跳转、隐私策略屏蔽),日志中会显示 -,需在分析时过滤或标注。

用 awk + sort + uniq 快速定位高频 404 源头页面

假设日志已持续记录,可对 404-referer.log 执行单行分析,聚焦真实有效的上游来源:

  • 提取所有 404 行中的 referer(第 7 字段),排除空值和本站自身域名(避免误计内部跳转):
    awk '$9 == 404 && $7 != "-" && $7 !~ /^https?://[^/]*.yourdomain.com// {print $7}' /var/log/nginx/404-referer.log | sort | uniq -c | sort -nr | head -20
  • 说明:这里用 $9 对应 status 字段(取决于 log_format 中字段顺序,请按实际调整索引),$7 是 referer;正则排除本站子域可减少噪音;head -20 输出前 20 个高频来源。
  • 若需统计具体 404 路径及其 referer 组合,可输出三元组:
    awk '$9 == 404 && $7 != "-" {print $7, $3}' ... | sort | uniq -c | sort -nr($3 是 request,如 "GET /old-page.html HTTP/1.1",可进一步用 awk '{print $2}' 提取路径)

识别典型 referer 异常模式,辅助归因

高频 referer 并不都代表“有效入口”,需结合业务判断是否属于问题源头:

  • 站外搜索引擎快照链接:referer 含 google.com/url?baidu.com/link? —— 说明旧页面被收录未更新,需提交死链或设置 301
  • 第三方聚合平台或 CMS 后台:如 notion.sitewordpress.commedium.com —— 检查这些平台内嵌链接是否指向已下线资源
  • 移动端 App 内 WebView:referer 为自定义 scheme(如 myapp://page?id=123)或空白 —— 需与客户端团队协同修复跳转逻辑
  • Referer 为本站但路径异常:如 https://yoursite.com/blog/ → 404 /2023/post-abc.html,说明栏目页未同步更新归档逻辑

进阶:用 Logstash 或 Prometheus+Grafana 做实时监控

当 404 量级上升或需长期追踪趋势时,静态日志分析效率下降,建议引入轻量可观测链路:

  • 用 Filebeat 抓取 access_log,Logstash 过滤 status == 404 AND http_referer != "-",解析 referer 域名、路径、来源页面关键词,写入 Elasticsearch
  • 在 Kibana 建立看板:按 referer 域名 TOPN、referer + request_uri 联合去重、404 突增告警(如 5 分钟内同比涨 300%)
  • 若已用 Prometheus,可用 nginx_exporter 的 nginx_http_requests_total{status="404"} 指标做总量预警,再结合日志下钻分析 referer 细节

相关文章

精彩推荐