腾讯WAF(Web应用防护系统)应用层实现的架构漫谈

作者：袖梨 2022-06-30

前言

作为腾讯公司级webserver的漏洞防护系统，目前腾讯门神系统(以下简称门神)已经涵盖了近万台webserver服务器，日均处理HTTP数据包达数百亿。

WAF 的实现有很多种，详情见《主流WAF架构分析与探索》。根据公司的业务特点，我们采用了文中提到的“服务器模块+检测云模式”。

本文主要讲解我们实现此类WAF的后端整体架构与相关技术方案、在具体实现过程中遇到的种种难点问题，以及此类WAF的优劣势分析。

门神整体框架

图一、门神整体框架图

整体框架分为在线、离线部分。

在线部分串联在用户访问腾讯网站的整体环节中，门神模块(蓝色部分)包括将http数据转发给门神后端的门神agent、判定http请求是否恶意的门神判定server;

离线部分主要为判定server生成恶意/非恶意规则，以及数据统计、异常数据告警等。

接下来，将对其中最主要的三大模块进行详细介绍：

用户请求数据转发模块——门神agent

我们在业务webserver程序中添加了一个门神agent模块，当用户请求页面时，业务webserver解析完http请求包后首先调用门神 agent已注册的入口api，agent会按照一定的负载均衡算法获取处理srv ip、port，再将http请求头、请求body、用户ip等数据通过udp、tcp的方式转发给门神判定server。

此模块的难点问题在于：公司业务webserver种类繁多，难道我们需要为每一种webserver做一个适配的agent模块?

我们的方案是为主流webserver提供统一的agent模块，例如apache、nginx;为自研的websrv提供协议解包封包api，由业务完成socket通信;在非主流webserver在前端添加一个nginx代理转发，代理层添加门神agent模块。

此模块实现的难点在于：相对于apache的多进程同步机制，nginx的异步机制决定了agent模块要复杂得多，它要求模块必须也是异步的，包括获取body数据的异步以及门神处理srv的异步。

Nginx 开源模块中并没有现成的样例，经过了我们对nginx源码研究以及多次版本(包括前期使用开源mtask模块，到最后自研)迭代才解决全异步问题。具体实现方式可见后续文章《门神-nginx模块的实现及遇到的困难》

用户恶意数据的识别模块——门神判定server

判定server收到用户数据之后，解析http请求数据，划分为uri、args、host、clientip等等字段，进行一些预处理，然后用单个字段或者组合字段匹配恶意规则来判断是否是恶意内容。

【用户请求数据转发模块】与【用户恶意数据的识别模块】为系统在线部分，一旦出现故障将直接影响业务。因此除了功能性的需求，还需要满足后台架构海量服务的一般性需求：

稳定性

程序无core、无死循环。

容灾

一旦后端某些判定server出现故障，门神agent可自动切换连接可用的判定server。

性能