1.
概述:什么是“香港 CN2 晚上抽风”及其影响
1) 定义:晚上抽风通常指夜间(21:00–03:00)CN2 路径抖动、丢包或延迟突增。
2) 影响:网站访问慢、丢包、VPN/游戏/语音中断;对电商、实时业务影响特别大。
3) 关键点:要证明服务商责任必须有连续、可复现的证据(traceroute/mtr/tcping/流量抓包/运营侧告警时间线)。
2.
准备工作:在故障时间前准备的工具与信息
1) 工具:Windows 下使用 tracert、pathping、TCPing;Linux/macOS 用 traceroute、mtr、tcpdump、iptables、ss。推荐安装 mtr/tcping 并准备脚本。
2) 信息:记录客户端公网 IP、目标 IP(服务器/代理/香港出口 IP)、服务合同编号与 SLA 条款、最近的流量峰值时段。
3) 日志策略:确保服务器启用系统日志(/var/log/syslog、/var/log/messages)、nginx/应用日志并开启 tcpdump 保存 pcap(环大小建议 100MB)。
3.
实操步骤一:故障发生时立即取证(时间越早越好)
1) 建议频率:每 1 分钟一次的 mtr(例如 mtr -r -c 100 目标IP),保留结果文件(mtr_时间戳.txt)。
2) traceroute:同时在不同地点做(本地、香港云、第三方监测点),命令:traceroute -I 目标IP,或 Windows 下 tracert -d。保存输出。
3) tcping/TCP连接测试:tcping -t 目标IP 80/443,记录丢包率与 RTT。Windows 可用 tcping.exe,Linux 用 tcptraceroute。保存为 tcping_时间戳.txt。
4.
实操步骤二:抓包与路由证明
1) 本地抓包:tcpdump -i any host 目标IP and (port 80 or port 443) -w dump_时间.pcap,持续抓取 10–30 分钟(视故障时长)。
2) 抓取 ICMP/TCP 三次握手失败样本以证明丢包/重传;保存 pcap 并用 Wireshark 导出统计(IO 图、丢包、RST)。
3) 路由证据:在影响时间段内从对端香港交换节点或云主机做 BGP 路由查看(如果无权限,要求服务商提供 BGP 历史数据或 MRT 文件)。
5.
实操步骤三:整理证据并按 SLA 指标对照
1) 汇总文件:把 mtr/traceroute/tcping/pcap/应用错误日志按时间排序,生成一个时间线(例如 CSV 或表格),标注丢包开始/结束时间与影响的 RTT。
2) 对照 SLA:查合同中“可用率”、“延迟上限”、“单次影响阈值”与“赔偿计算方式”(例如可用率 < 99.9% 每小时赔偿 X)。明确计算周期(按天/按月)。
3) 计算样例:若 SLA 要求丢包 < 1% 且当晚 2 小时内丢包 10%,根据合同公式计算应得补偿并写出计算过程。
6.
实操步骤四:提交工单与 escalation(升级)流程
1) 首封工单:在服务商工单系统提交,主题写清“香港 CN2 夜间抽风 — 证据已附”,正文附时间线和关键证据链接(或压缩包)。
2) 工单内容建议格式:1) 故障时间段;2) 受影响服务和业务影响;3) 附证据列表(文件名+摘要);4) 要求(例如立即排查、提供路由表/链路状态、SLA 赔偿)。
3) Escalation:24 小时内无响应,根据合同联系方式逐级抄送运营/技术/销售/客户经理;保留所有邮件与通话记录作为后续凭证。
7.
实操步骤五:与服务商沟通时的要点与证据要求
1) 要求项:路由路径变化日志、交换节点(POP)告警、链路利用率报告、BGP 更新记录、对端流量快照。
2) 技术核对:与对方工程师一起看 mtr/traceroute 输出,确认是哪一跳出现丢包或延迟,再要求对方提供该跳对应的设备日志。
3) 时间同步:所有证据的时间须使用 UTC 或明确时区,建议双方至少用同一时钟源(NTP),以免时间偏差导致证据异议。
8.
实操步骤六:申请赔偿与证据模板
1) 赔偿申请:按合同格式填写赔偿申请表,附上证据包(压缩并注明目录结构)与赔偿计算表。
2) 样板邮件:在邮件中列出事实、证据链接、SLA 条款引用与计算明细,礼貌但坚定要求按合同给出书面处理意见与赔偿时间表。
3) 后续跟进:若服务商承认问题,要求书面承诺改进计划(Root Cause Analysis,RCA)并约定改进时间节点。
9.
预防与监控:避免未来夜间抽风的操作建议
1) 持续监控:部署外部监控(如 UptimeRobot、PingPlotter、Datadog)对香港出口与关键服务做 1 分钟周期监测并保留历史 90 天。
2) 多线路冗余:在可能情况下配置两条不同运营商或不同出口(CN2 + 直连国际链路)并实现自动切换。
3) 合同条款:在续约时加入明确的 SLA 指标、RCA 要求、赔偿公式与定期路测条款。
10.
沟通模板示例:提交工单的最小必备字段(复制粘贴)
1) 标题:香港 CN2 夜间抽风 — [起始时间 UTC] 至 [结束时间 UTC] — 影响服务:XXX。
2) 正文要点列举:故障描述、影响范围、证据列表(文件名+说明)、SLA 引用、期望回合时间(如 48 小时内回复)。
3) 附件:mtr_*.txt、traceroute_*.txt、tcping_*.txt、dump_*.pcap、应用错误日志。压缩包命名建议:SLA_evidence_公司名_日期.zip。
11.
问1:如何证明晚上抽风是服务商责任而不是我方问题?
答1:同时提供多点证据:1) 从用户侧与第三方监测点同步的 mtr/traceroute/tcping,显示丢包集中在运营商某一跳;2) tcpdump/pcap 记录出现链路层或网络层重传;3) 若可能,从云端或合作伙伴处取得相同时间段的路由变化或交换设备告警。时间线一致且问题集中在对端设备或链路,则可初步判定为服务商责任。
12.
问2:如果服务商不同意赔偿,我可以怎样争取权益?
答2:先按合同内争议解决流程(仲裁或法律途径)走内部协商并保存证据;同时可要求第三方权威检测(如 ISP 互联监测平台)出具报告作为仲裁材料。必要时通过行业监管投诉或法律诉讼,合同与证据是关键,故务必完整保留原始日志与邮件往来。
13.
问3:短期与长期我该优先做哪几项以减少夜间抽风影响?
答3:短期优先:立即部署外部分钟级监控并按步骤取证,多点 traceroute/mtr 并配置自动告警;同时启用临时备用出口或 CDN 缓解业务。长期优先:在合约中强化 SLA 与 RCA 条款,建立多线路冗余,定期做夜间路测并要求服务商提供改进计划与验证。
来源:服务商责任与SLA在香港cn2 晚上 抽风事件中的体现