关键在于区分业务与控制面路由并建立生命周期管理机制:系统保留路由(如直连、BGP/OSPF生成、健康检查路由)属底层契约,禁止人工覆盖;须严格隔离作用域,禁用指向127.0.0.0/8、设备管理网段等的静态路由;云环境中避开Azure自动维护的VNet内网及对等连接路由;动态扩缩容需API校验、命名空间限定和SDN统一注入;每次变更后须验证基础连通性,并通过eBPF和Prometheus实现影响面实时感知。
避免在动态扩展负载均衡拓扑时覆盖系统保留路由,关键在于明确区分“业务流量路径”和“系统控制面路径”,并建立路由生命周期管理机制。系统保留路由(如直连路由、本地环回路由、BGP/OSPF协议自动生成的路由、健康检查探测路由等)不是配置对象,而是网络设备运行所依赖的底层契约。一旦被手动静态路由或策略路由误覆盖,会导致控制面失联、健康检查失败、会话中断、甚至负载均衡器自身不可达——这正是所谓“业务认知断层”的根源:运维人员看到的是业务503,却查不到故障点在负载均衡器自身的路由表里。
系统保留路由必须由协议或平台自动产生,禁止人工干预其前缀、掩码或出接口:
127.0.0.0/8、::1/128、设备管理网段(如192.168.254.0/24)、服务网格控制平面地址(如Istio Pilot的10.96.0.0/12)的静态路由配置;ip route show table local或ip rule确认其归属local或main表,且优先级高于普通策略路由;0.0.0.0/0默认路由、VNet内网路由及对等连接路由,这些由Azure平台自动维护,覆盖即导致跨子网通信失效。动态扩缩容场景下,路由更新必须携带上下文校验,而非无差别推送:
route_type: "business"标签,并在负载均衡器控制器中设置准入校验(Admission Webhook),拒绝任何匹配系统保留网段前缀的route_type: "system"以外的请求;allowedRoutes字段限定Ingress Controller仅能为指定命名空间和服务注入路由,避免影响kube-system等系统命名空间;ip route add命令。每次路由表更新后,必须验证其是否破坏了系统基础连通性:
ip route get 127.0.0.1、ip route get <LB-management-IP>、ip route get <health-check-target>,确保返回结果始终指向dev lo或预期接口,而非被新静态路由劫持;bpftool)在内核态捕获路由查找失败事件,当出现RTN_UNICAST未命中且目标为本地网段时,立即触发告警并回滚上一版本路由配置;node_network_route_table_entries指标,并对{route_type="system"}和{route_type="business"}分别建模,若系统路由条目数突降,即视为高危变更。本质上,这不是配置技巧问题,而是架构分层意识问题。把系统保留路由当作“操作系统内核空间”,把业务路由当作“用户空间进程”,两者之间必须有明确的边界墙和系统调用接口。动态扩展只允许操作后者,且所有操作需经前者授权与审计。