1.
概述与适用范围
1) 本文针对托管或云VPS位于新加坡的数据中心的服务器维护与故障排查。
2) 涵盖主机、域名解析、CDN加速与DDoS防护相关的排查流程。
3) 适用于Linux(Ubuntu/CentOS)与常见Web栈(Nginx/Apache/MySQL)。
4) 强调可量化指标:RTT、丢包率、带宽利用率、连接数、CPU/内存负载。
5) 假设已具备远程控制权限(SSH)与控制台访问权限。
6) 目标:快速定位故障根因并提供恢复与防护建议。
2.
第一步:外部连通性与域名解析检查
1) 检查域名解析:使用 nslookup/ dig 查询A/AAAA/CNAME/NS,注意TTL与指定解析节点。
2) 测试连通性:ping 到
新加坡服务器公网IP,记录RTT与丢包(示例:ping 10包,丢包0/10,平均RTT=35ms)。
3) 路由跟踪:traceroute/tracepath 查看经过的跳数与延迟突增点(如果第6跳延迟跳变,可能是骨干链路问题)。
4) DNS异常:若DNS解析不一致,检查域名服务商与注册信息,确认域名未被误解析或被篡改。
5) WHOIS与RBL:确认IP或域名未被列入黑名单,会影响邮件与部分CDN服务。
3.
第二步:主机与服务层面快速排查
1) 系统负载:查看 uptime 与 load average(例如:load 1min=4.2, 5min=3.8, 15min=2.1,4核CPU且1min高于4需关注)。
2) CPU/内存:top 或 htop 检查占用最高的进程,free -m 查看内存交换区使用(示例:RAM 8GB,used 7.2GB,swap 1GB 已使用0.6GB)。
3) 磁盘与inode:df -h 与 df -i,若根分区剩余<5%或inode耗尽会导致服务异常。
4) 网络连接:ss -s 与 ss -tuap 检查TCP连接数(示例:ESTABLISHED=12,000)与TIME_WAIT堆积。
5) 日志检查:/var/log/nginx/error.log、/var/log/messages、应用日志中查找错误码、OOM、segfault等关键字。
4.
第三步:网络设备、带宽与CDN/DDoS防护排查
1) 带宽监控:使用 iftop/nload 或监控平台查看带宽峰值(示例:带宽上限1Gbps,瞬时流量峰值达650Mbps)。
2) 包速率与并发:通过 iptables conntrack 或 netstat 查看并发连接数与每秒包数(示例:pps=120k,连接速率远高于正常值)。
3) CDN 状态:检查 CDN 后端回源状态、缓存命中率(示例:缓存命中率=78%),若命中率低导致回源压力。
4) DDoS 特征识别:典型特征为单源或分布式SYN/UDP洪泛、短时高并发连接、异常User-Agent。
5) 缓解措施:启用云端清洗(scrubbing)、速率限制、WAF规则、BGP黑洞或更改回源IP到DDoS保护层。
5.
第四步:配置示例与数据展示
1) 以下为示例服务器配置(新加坡机房),用于定位资源瓶颈与制定扩容策略。
2) 表格展示了典型VPS规格与监控瞬态数据,便于对比与决策。
3) 建议配置阈值:CPU>80%持续5分钟报警;带宽>70%报警;连接数>100k需扩容或缓存优化。
4) 示例命令记录:ss -s、sar -n DEV 1 3、dstat -cdn 5 12、tcpdump -nn -c 200 host x.x.x.x。
5) 配置管理:将变更记录写入CMDB并在变更窗口执行,便于回滚与审计。
| 项 |
值(示例) |
| CPU |
4 vCPU |
| 内存 |
8 GB |
| 磁盘 |
120 GB SSD |
| 带宽上限 |
1 Gbps |
| 典型并发连接 |
12,000 - 200,000 |
6.
第五步:真实案例与恢复流程(电商促销期DDoS示例)
1) 背景:某电商平台在新加坡机房促销期间突遭流量峰值与SYN洪泛,用户抱怨页面超时。
2) 监测数据:外网流量瞬时峰值720Mbps,pps≈250k,后端回源CPU=95%,established连接数≈180k。
3) 排查过程:确认为分布式SYN+HTTP GET混合攻击,CDN回源流量激增,主要攻击源为多个僵尸网段。
4) 处置措施:立即启用云清洗服务并切换BGP黑洞策略;在Nginx端启用limit_conn与limit_req,WAF屏蔽异常UA与IP段。
5) 恢复结果:30分钟内回源压力下降至正常范围,页面响应恢复到平均RTT=120ms,缓存命中率提升至92%。
6) 后续优化:增加CDN策略(分路径缓存)、调整keepalive与timeout、在防火墙侧做SYN cookies与连接追踪调优。
7.
结论与运维建议
1) 建立告警阈值与自动化脚本以便在异常时快速切换防护策略。
2) 定期演练:进行DDOS演练与故障恢复演习,确保SOP有效。
3) 日志与指标长期保存,便于回溯攻击源与容量规划。
4) 与新加坡本地ISP、机房及CDN保持联络通道,以便紧急时刻快速协调。
5) 推荐:生产环境至少保留20%-30%的带宽冗余与自动化扩容策略。
来源:运维工程师必读 新加坡服务器维护 的故障排查流程