首先检查网络延迟和丢包率,使用 ping/traceroute 测试到目标 IP 的往返时间与路径跳数;再用 mtr 或者 smokeping 做持续监控,确认是否为 ISP 或国际链路问题。
若发现是链路问题,可立即联系机房/带宽提供商申请路由优化或备用链路;短期内可临时切换到就近 POP 或使用 CDN 加速来缓解用户访问感知的延迟。
使用 iftop、nload、vnstat 或云厂商控制台流量监控查看实时带宽使用情况,并排序出吞吐量大的进程或 IP,确认是否为单一进程、高并发请求或外部流量峰值。
当确认为带宽拥塞时,可临时限制非关键服务的带宽、启用流量整形或 QoS、添加临时带宽包或开启 CDN 缓存以分担源站流量压力。
用 top、htop、vmstat 或 sar 检查 CPU、内存、交换分区使用情况,定位耗资源的进程(如 PHP-FPM、Java、数据库进程),并查看是否存在内存泄漏或过多并发连接。
对高占用进程可先重启服务释放资源,临时降低并发或连接数限制;如常见于应用层,建议短期使用更大规格实例或增加缓存(如 Redis、Memcached)来缓解CPU/内存压力。
使用 iostat、iotop 或 sar -d 检查磁盘 IO 延迟和吞吐,查看是否有大量随机写/读或长时间等待(await);数据库可查看慢查询日志与锁等待情况。
若是磁盘IO成为瓶颈,可短期迁移到更高 IOPS 的云盘或开启本地缓存,优化或杀掉占用过高的 IO 任务;数据库方面临时使用读写分离、增加索引或提高连接池设置。
检查流量峰值来源、单一 IP 的连接数、异常大量的 SYN/UDP 包或请求频次;使用 netstat、ss、tcpdump 分析异常会话并结合防火墙/IDS 报告判断是否为DDoS或爬虫攻击。
若确认为攻击,立即在边界启用黑洞或清洗服务、在机房或云控台启用 DDoS 防护策略、临时封禁恶意 IP 段并使用 WAF 规则过滤可疑请求,同时将真实流量引导至清洗中心处理。