常见原因包括物理机房或运营商链路故障、实例操作系统或网卡异常、安全组与网络ACL策略误配置、EIP或弹性网卡异常、路由表或NAT规则错误、以及DNS解析问题。跨境访问时还可能受制于国际链路抖动或带宽拥塞。
在排查时应当先区分是“整机不可达”(通常为网络或机房故障)还是“服务不可达”(可能为应用或本机防火墙)。同时注意阿里云发布的运维通知与故障告警,避免重复排查。
使用控制台查看实例状态是否为“运行中”,检查监控指标(网络丢包、出入流量突变、CPU/内存使用率)以及最近是否有系统事件或快照、镜像操作。
排查过程中请关注并记录 安全组、路由表、子网、EIP、镜像/快照操作、以及控制台告警时间点,便于后续定位。
先从外部到内部按层级排查:先用本地或第三方工具对目标IP做 ping、traceroute(tracert)来判断是否能到达新加坡机房或在哪一跳丢包;若能到达机房但到实例超时,问题多半在实例网络或防火墙。
如果外部无法到达,使用阿里云控制台的远程登录(控制台VNC/Serial Console)或“实例诊断”和“流日志”功能,确认实例网卡是否处于UP状态、路由是否存在、以及内核是否抛出错误。
示例:ping -c 4 目标IP,traceroute 目标IP,ss -tlnp / netstat -tulpen,iptables -L -n,ip route show,ethtool eth0。
通过控制台查看EIP绑定、弹性网卡状态、VPC路由表、子网网关以及云企业网(CEN)或NAT网关的配置是否发生变更。
先检查安全组入方向和出方向规则,确保目标端口(如TCP 80/443/22)已放行且优先级允许访问。确认是否存在来源限制(只允许特定IP段),如果有临时访问需求可临时放宽来源为0.0.0.0/0进行验证。
如果使用VPC网络ACL(Network ACL),确认子网层面的规则没有覆盖或拒绝相关流量。同时检查是否有负载均衡器、NAT网关或网关型防火墙在中间。
登录实例后检查iptables/ufw/firewalld规则,并确认应用进程在监听对应端口。必要时临时关闭防火墙(sudo systemctl stop firewalld 或 sudo ufw disable)以验证是否为防火墙阻断。
开启或查看安全组流日志、操作审计日志与主机系统日志(/var/log/messages、/var/log/syslog、应用日志),通过时间戳比对定位阻断点。
常用且风险较低的操作包括:重启实例(有时能恢复内核或网卡异常)、解绑并重新绑定EIP、重置网络(重装网卡驱动或使用控制台网络重置功能)、以及修改安全组规则临时测试。
若怀疑系统盘或配置被破坏,可通过“创建快照并挂载到救援实例”方式检查磁盘数据,或直接使用快照回滚/重装系统镜像来恢复服务。
使用控制台的“实例诊断”自动分析网络和系统问题,根据诊断结果执行推荐的修复项;必要时使用“重置密码/Serial Console”进入实例做进一步检查。
在进行系统重装或磁盘替换前,先做磁盘快照或将数据盘卸载并挂载到另一个实例备份,确保数据安全。
当无法通过自查修复时,可立即提交工单并提供诊断信息(traceroute、ping、控制台截图、流日志、事件时间),申请阿里云工程师介入快速定位。
首先验证DNS解析是否正确:使用dig/nslookup确认域名解析到的IP是否为期望的EIP或负载均衡器地址,检查TTL值并排除DNS污染或缓存问题。若使用阿里云解析(阿里云DNS),确认解析记录未误指向其他地域。
跨国访问经常因国际出口链路或ISP问题导致高延迟或丢包,建议使用阿里云提供的全球加速产品(Global Accelerator)、CDN或专线(云企业网/Express Connect)来规避不稳定的公网路径。
1) 开启HTTP/2或TLS会话复用减少握手。2) 使用CDN缓存静态资源减少直连流量。3) 调整MTU与TCP窗口,优化传输性能。4) 对动态服务考虑使用跨地域备份与就近访问。
定期用ping/traceroute和第三方监测(如Pingdom、Uptrends)监控跨国访问质量,结合阿里云监控设置告警,及时发现链路异常。