1) 明确业务SLA目标与可接受的最大RTO/RPO,通常SLA目标至少99.95%。
2) 在租用前做基线性能测试,包括带宽、最大并发、磁盘IOPS和延迟,建议使用wrk、iperf3等工具。
3) 测量到主要用户群的延迟,示例:新加坡到东南亚平均RTT 20-40ms,到中国大陆 100-150ms。
4) 确定攻击承受能力,询问提供商清洗阈值(例如 200Gbps 或 10M PPS)。
5) 确立监控接入点和日志采集方式,提前配置SNMP/Prometheus/ELK接入。
1) 在评估时用表格对比不同配置的吞吐与成本,下面为示例配置与测得值。
2) 表格展示CPU、内存、带宽和清洗能力等关键指标。
3) 实测吞吐与并发基线用于容量规划和伸缩策略。
4) 表中数据为示例测得值,实际以租用商提供SLA为准。
5) 表格居中并且内容居中显示,便于对比阅读。
| 型号 | vCPU | 内存 | 带宽 | 清洗能力 | 估测并发 |
|---|---|---|---|---|---|
| SG-STD-4 | 4 | 16GB | 1Gbps | 50Gbps | ~5,000 RPS |
| SG-HIGH-8 | 8 | 32GB | 2Gbps | 200Gbps | ~25,000 RPS |
| SG-EDGE-16 | 16 | 64GB | 10Gbps | 500Gbps+ | ~120,000 RPS |
1) 与供应商确认清洗模式(边缘清洗 vs 机房内清洗)与清洗触发阈值。
2) 建立分层防护:边缘CDN清洗 + 机房高防链路清洗 + 本机WAF/ACL。
3) 配置流量白名单/黑名单和速率限制,HTTP限速建议按IP 50-200 RPS。
4) 配置基于SYN、UDP、ICMP的防护规则,PPS攻击设置PPS阈值并自动丢弃异常流。
5) 定期演练“流量突增”场景,验证自动化规则是否误伤正常用户。
1) 建议采用Anycast BGP与多节点CDN结合,降低单点故障风险。
2) 在新加坡节点外添加邻近POP(如香港、吉隆坡)以覆盖亚太流量。
3) 将静态资源通过CDN缓存,降低源站带宽压力,一般缓存命中率目标80%以上。
4) 对需要回源的接口做速率控制和连接池优化,避免突发回源风暴。
5) 配置健康检查与路由权重,自动将流量导流到活跃可用节点。
1) 监控要覆盖网络(带宽、丢包、延迟)、主机(CPU、内存、磁盘IO)、应用(响应时间、错误率)。
2) 设置分级告警:P0(页面不可用)、P1(高延迟或高错误率)、P2(资源阈值接近)。
3) 使用Prometheus+Alertmanager或云厂商监控,告警触达多通道(短信、钉钉、工单)。
4) 保持至少90天的关键日志,安全事件保留建议365天以便取证。
5) 定期审核告警阈值以减少噪音,采用自动化故障恢复脚本降低人工介入时间。
1) 制定RPO/RTO并实现定期备份,数据库建议最少每日热备与实时Binlog同步。
2) 建立异地冷备或热备,示例:主站新加坡,热备香港,RTO < 10 分钟。
3) 自动化切换流程与DNS TTL策略(建议 TTL 60-300 秒),与CDN/Anycast协同降低切换延迟。
4) 演练恢复流程每季度至少一次,验证备份可用性与数据一致性。
5) 对关键配置进行版本化管理(Ansible/Git),并保存变更记录便于回滚。
1) 制定补丁窗口与回滚计划,非紧急补丁可月度批量更新,紧急安全补丁24小时内处理。
2) 关闭不必要端口与服务,使用iptables/nftables及云安全组严格控制入站规则。
3) 部署WAF并保持规则更新,针对常见Web漏洞如SQLi/XSS做专门规则。
4) 定期做漏洞扫描与渗透测试,生成整改清单并跟踪闭环。
5) 启用两步验证与密钥管理,SSH禁止密码登录并限制登录来源IP。
1) 案例:某电商在新加坡租用SG-HIGH-8,业务高峰日均带宽峰值 1.2Gbps。
2) 遭遇DDoS:攻击峰值 320Gbps、70Mpps,边缘CDN吸收 180Gbps,机房清洗清理 140Gbps,业务端无宕机。
3) 经过清洗后页面响应恢复到基线:P95 响应时间由 1.6s 恢复到 400ms。
4) 年度可用性统计:12个月内累计不可用总计 12 分钟,可用率 99.998%。
5) 教训:提前签署更高清洗阈值合同并优化回源限流,最终将成本下降15%同时提高稳定性。