1.
概述:事件背景与响应原则
- 背景:客户位于东南亚的业务,使用高防新加坡服务器(带有防护供应商的流量清洗能力),遭遇大规模DDoS与部分应用层攻击。
- 响应原则:优先保障可用性—快速识别→隔离异常流量→请求清洗→验证恢复→取证复盘;所有操作记录时间和证据,便于后续索赔与规则固化。
2.
第一步:立即识别与初步告警确认
- 检查监控:登录监控面板(Prometheus/Grafana/云厂商控制台),查看流量、连接数、CPU/内存、I/O 突增时间点。
- 本地检查命令:Linux 上运行 netstat -anp | grep :80 / ss -s / top / iostat 查看异常连接和资源占用;若是 HTTP,可查看 NGINX 状态 nginx -s status 或 stub_status。记录时间戳和异常指标。
3.
第二步:快速抓包与流量样本收集
- 抓包命令:tcpdump -n -s0 -c 2000 -w /tmp/attack_sample.pcap 'tcp or udp',如需只抓目的端口:tcpdump -n -s0 -c 2000 -w /tmp/sample.pcap dst port 80。
- 样本要求:抓取至少几百到几千个包,包含攻击高峰期,保存 pcap 文件并备份到安全位置(避免在受影响主机上删除)。
4.
第三步:本地流量分析与溯源
- 使用 tshark 或 Wireshark:tshark -r /tmp/sample.pcap -q -z io,stat,0,COUNT 可以看流量分布;tshark -r sample.pcap -T fields -e ip.src | sort | uniq -c | sort -nr 查看来源IP分布。
- 判断攻击类型:源IP是否伪造(TCP三次握手数量 vs SYN Flood)、是否存在大量相同 User-Agent(Layer7)、是否为放大类 UDP(NTP/DNS/CLDAP)。
5.
第四步:立即联系高防厂商并提交工单
- 提交信息清单:受影响 IP、时间窗口(UTC)、流量峰值、pCap 样本(或样本摘要)、攻击类型猜测、客户业务影响(页面不可用/响应慢/连接超时)。
- 联系方式与紧急通道:通过厂商紧急电话+控制台工单双渠道提交,尽量要求开设应急线路(Emergency Hotline)并获取工单ID。
6.
第五步:请求并核对清洗策略
- 常见策略:黑名单/白名单、速率限制(rate-limit)、连接数限制、Geo-IP 阻断、协议异常过滤(SYN cookies、UDP限制)、应用层验证码或WAF规则(拦截特定URI/参数)。
- 提供建议:若为SYN/UDP Flood,建议在清洗端开SYN cookies与UDP阈值;若为HTTP层,建议先做全部 403/503 测试再上线严格规则,以免误杀正常用户。
7.
第六步:下发本地临时防护与黑白名单
- 本地防护命令示例:使用 iptables 限流(示例)iptables -A INPUT -p tcp --dport 80 -m connlimit --connlimit-above 200 -j DROP;或 nftables 配置更灵活。
- 应用层补救:在 NGINX 上启用 limit_req_zone 与 limit_req,示例:limit_req_zone $binary_remote_addr zone=one:10m rate=10r/s;limit_req zone=one burst=20;并临时开启简单验证码页面或 503 页面。
8.
第七步:验证防护效果与分阶段恢复业务
- 验证方法:在多地(或用在线检测工具)发起正常请求并观察响应码,使用 curl -I -X GET http://your.host 检查是否返回200或预期错误码。
- 分阶段恢复:(1)清洗规则全开确认流量下降;(2)逐步放宽本地限流阈值;(3)恢复业务流向并密切监控30-60分钟无回弹再完全恢复。
9.
第八步:取证与日志保存的标准步骤
- 必保存内容:原始 pcap、Nginx/Apache 访问与错误日志、系统网络连接快照(ss -tunap)、防火墙/ACL 变更记录、监控告警截图。
- 时间同步与备份:确保所有设备时间走 UTC 并开启 NTP,所有证据导出后计算 MD5/SHA256 并写入证据清单,便于合规与仲裁使用。
10.
第九步:临时容灾与DNS/路由切换流程
- DNS 操作:将 DNS TTL 预先调低(如 60s),攻击期间将流量切到清洗IP或 CDN,操作步骤示例:将域名 CNAME 指向 CDN 提供的清洗域名或修改 A 记录为高防IP。
- 负载/备份:启用备用机房或仅开放静态资源到 CDN,动态请求走限流网关,确保核心服务降级但可用。
11.
第十步:事件复盘、规则固化与SLA申诉
- 复盘模板要点:事件起止时间线、影响范围、攻击流量与类型、采取的每一步措施、效果验证截图、后续改进清单。
- 规则固化:把有效的防护策略写入安全白皮书和运维 SOP,和防护厂商协商将临时规则转为长期自动化策略;若符合 SLA 条件,按工单提交索赔材料。
12.
常见误区与注意事项
- 切忌全部封锁:盲目封禁大量IP或整个国家可能导致误伤业务用户。
- 注意证据保全:在受影响主机上直接删除日志或抓包会丢失关键证据,应先复制到安全存储。
- 保持沟通记录:与厂商、客户支持、DNS 提供商的每次沟通都应保存为邮件或工单记录,便于后续追责。
13.
问:在新加坡高防环境中,如果攻击是短时爆发的SYN Flood,应当优先做什么?
- 答:优先触发流量告警后立即抓取 SYN 报文样本(tcpdump 捕获),同时请求高防厂商开启 TCP 层清洗(SYN cookies、连接数阈值)并在本地启用 iptables 或 nftables 的 connlimit 与 SYN_RECV 增强策略;确认清洗生效后再逐步恢复。
14.
问:提交给高防厂商的工单里哪些信息最关键?
- 答:最关键的是:受影响IP、攻击开始与结束的精确UTC时间、峰值流量(如果有监控数据)、pCap 或流量摘要、怀疑的攻击类型(SYN/UDP/HTTP)、以及业务影响描述(页面不可用/延迟)。这些信息能加速厂商响应与策略下发。
15.
问:事后如何把这次攻击的经验固化到运维流程中?
- 答:按事件复盘模板整理时间线与措施、保存所有证据与规则变更、将有效的临时防护策略转入长期 WAF/ACL 策略、更新应急联系人清单与供货商 SLA 要求,并定期做演练(Tabletop 或实战演练)。
来源:客户案例展示高防新加坡服务器在实际攻击事件中的响应流程