1.
概述与适用范围
适用对象:华为云香港数据中心的物理服务器与裸金属实例运维人员。
目标:提供标准化故障排查流程与日常维护规范,降低故障恢复时间(MTTR)。
覆盖内容:硬件检测、网络链路、存储阵列、系统内核、服务与安全防护(含CDN与DDoS)。
前提准备:持有服务器控制台与IPMI(远程管理)权限、SSH账号、运维权限与变更审批。
输出成果:形成事件记录、Root Cause Analysis(RCA)和预防清单,目标MTTR≤2小时(一般故障)。
注意事项:在处理影响业务的操作前,必须通知相关业务方并做好备份与快照策略。
2.
常见硬件故障排查步骤(电源、风扇、RAID)
检查电源:确认前面板电源灯与PDU上电状态,若双电源,逐个断电测试。
风扇与温度:查看IPMI传感器温度(示例命令:ipmitool sdr),温度阈值设定为85°C报警。
RAID与磁盘:使用MegaCli或storcli查看阵列状态,常见状态为Optimal、Degraded、Rebuild。
磁盘SMART:smartctl -a /dev/sdX 查看Reallocated_Sector_Ct、Pending_Sector,>=10需预警。
故障替换:热插拔磁盘更换顺序记录,替换后触发阵列重建并监控重建速度(示例:70GB/h)。
3.
网络链路与延迟排查(含域名与路由问题)
链路排查:从香港机房内执行ping、traceroute到业务节点,记录丢包与跳数。
延迟阈值:本地到内网节点延迟<1ms,跨境到大陆常规延迟35-150ms,丢包应低于0.1%。
网卡与驱动:检查ethtool -S eth0查看错误计数,若RX_errors持续上升考虑更换网口或升级驱动。
域名解析:nslookup/ dig 域名看A记录是否指向正确公网IP;TTL过长可影响切换。
路由策略:查看路由表(ip route)与防火墙策略,若使用BGP或SD-WAN,确认AS路径与社区策略。
4.
系统资源与性能问题定位(CPU、内存、IO)
CPU负载:使用top或uptime观察load average,单核负载>4或整体CPU使用率持续>80%需排查。
内存与交换:free -m查看内存使用,Swap使用>30%可能导致性能抖动,考虑优化应用或扩容。
磁盘IO:iostat -x 1 3 查看await与util,磁盘util>90%或await>20ms代表IO瓶颈。
网络吞吐:iftop或nload监控带宽,若带宽占满确认是否为DDoS或大流量备份任务。
进程分析:ps aux --sort=-%mem/-%cpu 定位占用高的进程,并结合应用日志排查内存泄露或线程阻塞。
5.
DDoS与流量异常防护策略(含华为云产品)
检测手段:结合iptables conntrack、netstat 查看并发连接数,阈值参考并发连接>50000需告警。
防护产品:推荐启用华为云Anti-DDoS基础/增值服务并与WAF结合,对高流量做清洗与速率限制。
黑白名单:临时在边界ACL上封禁源IP段,配合流量分析工具恢复正常后解除。
限流规则:nginx限速、tcp_syn_cookies启用、iptables限连接策略(示例:iptables -A INPUT -p tcp --syn -m limit --limit 10/s -j ACCEPT)。
预案演练:定期做流量洪泛演练并记录清洗时延(目标清洗时间<5分钟)。
6.
CDN与域名切换操作规范
CDN缓存策略:合理设置Cache-Control、Expires头,动态资源走回源,静态资源走CDN缓存。
切换流程:DNS切换应先缩短TTL(例如3600→300),切换后再恢复TTL以减少DNS放大误差。
回源验证:在切换后使用curl -I 查看X-Cache或Via头验证是否命中CDN节点。
突发回退:保持原始回源IP可达,必要时通过BGP/负载均衡或DNS回退进行流量回流。
流量分摊:对大型流量可采用分段切换策略(逐区域或逐POP)以降低风险。
7.
日志与监控规范(告警阈值与示例数据)
日志集中:建议使用ELK/EFK或华为云日志服务集中采集并建立索引和搜索仪表盘。
关键告警:CPU>85%持续5分钟、磁盘util>90%、内存Swap>30%、丢包率>0.5%应触发P1或P2告警。
示例监控数据表格:下面为某香港物理机在故障窗口的关键指标(采样间隔1分钟)。
| 时间 | CPU% | 内存%(使用) | 磁盘await(ms) | 丢包% |
| 2026-03-10 10:01 | 92 | 78 | 18 | 0.8 |
| 2026-03-10 10:02 | 95 | 80 | 24 | 1.2 |
| 2026-03-10 10:03 | 88 | 79 | 20 | 0.9 |
定期审查:每月评估阈值并根据业务峰值调整告警策略以减少误报。
8.
真实案例:香港机房网卡故障导致服务异常
案例背景:2025-12-05 03:40 某电商在促销期间出现订单延迟,用户报告卡顿与页面超时。
初步定位:监控告警显示eth0 RX_errors激增、丢包率上升到2.5%,CPU与IO正常。
排查过程:登录IPMI检查硬件状态,发现网卡通道1链路Down;Linux层使用ethtool eth0显示Link detected: no。
处理措施:切换到冗余网口eth1并更新路由表(ip route replace),恢复业务用时15分钟,随后更换故障网卡并在维护窗口完成驱动升级。
结论与改进:引入链路聚合(LACP)与健康探测,并在SOP中加入网口热切换流程,避免单点网口失效。
9.
配置示例:香港物理服务器基础配置清单
服务器型号:Huawei RH2288H V3(示例)。
CPU与内存:2 x Intel Xeon Silver 4214R(24核/48线程), 内存 256GB DDR4。
存储配置:RAID10, 4 x 1.92TB NVMe,阵列可用IOPS 最高 150k,吞吐理论 6GB/s。
网络与带宽:双万兆网卡绑定(LACP),公网带宽保底 1Gbps,按需扩展至10Gbps。
管理与备份:IPMI远程KVM,周期快照每日一次,异地备份至华为云对象存储(OBS)。
10.
维护与变更管理规范(流程与检查清单)
变更审批:所有影响公网或业务的变更需提前提交工单并获得业务负责人批准。
维护窗口:建议在香港时段低峰(00:00-06:00 HKT)执行有风险的操作,并提前通知用户。
回滚策略:所有变更需制定回滚步骤并准备回滚脚本与快照。
变更验证:变更后进行流量与功能验证(10分钟内),并写入变更记录。
文档与培训:每次故障处理后产出RCA,并更新运维手册与操作脚本,定期培训值班团队。
11.
附录:常用命令与快速检查清单
网络检查:ping -c 10 IP、traceroute IP、ethtool eth0、ip addr show。
磁盘与IO:lsblk、smartctl -a /dev/sdX、iostat -x 1 5。
系统与进程:uname -a、dmesg | tail -n 100、top/htop、ps aux。
安全与防护:iptables -L -n、netstat -anp | grep ESTABLISHED、查看Anti-DDoS控制台事件。
联系清单:列出华为云工单通道、机房现场工程师联系方式、备用带宽与互联服务商电话。
来源:华为云香港物理服务器常见故障排查与维护规范手册