1. 明确目标(可用性、响应时间、恢复能力、合规性等);2. 制定评分表:每项按0-5分量化(人员资质、值班制度、SLA兑现、故障演练、备件库、监控透明度);3. 列出需厂商提供的文档清单(SLA、运维手册、组织架构、报警流程、最近12个月的运维报告与事件记录)。
1. 核验证书(ISO27001、ISO22301、TIA-942等)是否有效与现场范围匹配;2. 审查运维手册:是否有值班表、交接记录模板、应急预案、故障单流程与升级路径;3. 要求查看近12个月重要事件日志与问题整改证明,核实SLA扣款或补偿历史。
1. 与供应商预约带队负责人并出示证件;2. 检查物理安全(门禁、生物识别、访客登记、安保巡检记录);3. 检查电力与备份(UPS、发电机燃油记录、自动切换测试记录);4. 检查制冷与环境监控(告警阈值、历史超温记录);5. 核对备件库存及替换响应时间证明。
1. 要求见值班团队并查看当班交接记录;2. 核查人员背景与培训证书,了解值班与应急轮班制度;3. 要求现场演示一次故障上报到升级的流程(可用模拟故障),记录响应时间与沟通渠道。
1. 获取测试公网IP/回程链路,执行ping、mtr/traceroute并记录丢包与时延;2. 测试BGP路由公告(若有),检查多线冗余与黑洞策略;3. 测试远程管理路径(KVM/IPMI、控制台跳板):请求临时测试账号并验证访问日志;4. 验证监控API/SNMP或Prometheus接入能力,能否实时拉取指标。
1. 与厂商约定一次小范围故障演练(生产分区外或预先做好快照备份);2. 事前制定恢复步骤并计时:断电切换、数据恢复、应用重启;3. 测量RTO/RPO是否达标,记录每一步实际耗时并和承诺对比;4. 要求演练后的复盘报告与改进项清单。
1. 在合同中写明KPI指标(可用率、响应时间、修复时间)与罚金/服务信用;2. 明确报告频率与内容(每月运维报告、事件根因分析);3. 约定访问日志、监控数据的保留期与导出权限;4. 加入变更管理(CHG)审批流程与紧急变更通知时限。
1. 将前面各项折算成权重分(例如:可用性30%、响应与修复25%、文档与合规15%、现场能力15%、网络与监控15%);2. 按实测数据与文档得分打分,生成总分与分项报告;3. 列出最低可接受阈值,低于阈值则列为风险需整改或替换供应商。
9. 答:采用灰度或隔离环境进行演练,先在测试机或低峰时段执行;使用快照/备份恢复机制,并与厂商签署事前演练计划与回滚方案;演练前通知相关业务部门并保留回滚点,记录每一步以便事后复盘。
10. 答:把关键数据请求纳入合同(如事件日志、运维报告与监控导出权限),在谈判阶段以法律条款或服务信用作担保;必要时要求第三方审计或现场监督权限,作为签约前的先决条件。
11. 答:易忽视项包括备件供应链(同城备件)、发电机燃油供给记录、关键人员替补计划、厂商的跨时区支持能力、监控数据的可导出性与历史保留、现场应急照明与消防演练记录,这些都会直接影响故障恢复速度。