Prometheus方案选择取决于环境规模、团队能力、云架构和告警闭环要求:中小自建推荐Server+Exporter+Alertmanager+Grafana组合;多云场景宜用托管服务+全局聚合;短期任务需Pushgateway中转;AI/高频服务应客户端埋点、降采样并物理隔离监控。
选 Prometheus 方案,关键不是“用不用”,而是“怎么用”——得看你的环境规模、团队能力、云架构类型和告警闭环要求。没有一刀切的最优解,只有更匹配的组合。
适合 500 节点以内、有基础运维人力、追求可控性和定制化的企业。
scrape_configs 和服务发现机制——Kubernetes 环境优先用 kubernetes_sd_configs,静态环境用 file_sd当集群分散在阿里云、AWS、IDC 或边缘节点时,自建易出现数据孤岛、维护成本高、存储单点等问题。
region、env、cluster_id 标签)Pull 模型无法覆盖的场景,比如 CI/CD 构建脚本、定时备份、离线训练任务等。
build_success{job="ci-test", branch="main"} 1)time() - timestamp() 判断是否超时失效毫秒级延迟、高基数标签(如 user_id、request_id)会迅速拖垮 Prometheus 存储和查询性能。
histogram(延迟)、counter(请求数)等指标,避免全量日志转指标service 和 status 统计,而不是保留每个 trace_id