多门店运维值班交接实战:交的不是工单状态,应该是排障上下文
多门店 IT 运维里值班交接每天都在做记录也都会提交。但做了几年以后你会发现排障效率的差距经常不在排障本身而在接班人打开记录的那一刻手里到底有多少上下文。这篇从一次交接断层引发的排障延误讲起讲清楚一件事值班交接该交出来的到底是什么。一、一次典型的交接断层白班同事在系统里提交了交接记录三行。前两行是各区域正常第三行“华南3区47号门店出口链路偶尔抖动暂时没影响。”夜班扫了一眼监控没有红色告警点了已读接班。晚上七点多47号门店主链路完全掉了备链状态显示未接管。夜班开始从零排查确认出口设备状态、查运营商链路是否在维护、翻备链接管配置。四十分钟后确认问题在主链路联系运营商运营商说区域设备在排查再等了一段时间最后发现备链接管策略有个参数没生效手动切过去才恢复。复盘时白班同事说“其实我下午三点多就看到主链路丢包率在走高了趋势有点不对。我联系了运营商他们说在排查区域设备给了个工单号。我还顺手确认了一下备链接管发现策略没生效打算第二天再跟。”这三件事——趋势性退化、运营商在跟的工单号、备链接管未生效——交接记录里一件都没有。夜班收到的是偶尔抖动暂时没影响按普通备注处理了。如果这三件事在交接时写清楚主链路一掉夜班的第一个动作应该是直接手动切备链而不是重新走一遍排查流程。二、核心判断交接失效通常不是没交而是压缩过头了这类问题在多门店运维里很常见。不是交接的人不认真是到交班那一刻信息会被下意识压缩。值班的人一天下来脑子里装着十几家门店的状态、好几个供应商的进度、几张还没关的工单。到交班时他会做一次筛选这个影响业务了吗值得单独写吗没影响的东西很容易被缩成一句话。接班人拿到的是压缩后的版本。他不知道上一班已经做过哪些判断不知道哪些外部流程在跑不知道哪些异常还在观察期。当天无事则已一旦有情况他得从零开始还原上下文。交接失效的本质不是态度问题是信息压缩问题。只要这个筛选动作交给个人判断就一定会漏。三、我后来改的交接流程那次之后我没有去写一份很长的交接规范。那种东西写完放在 Wiki 里基本没人翻。我做了一件更小的事在交接记录里加了一个固定框架不管当天有没有异常交班的人必须按这个结构过一遍。框架很短只有五项1. 当前有没有正在发展的异常不是问有没有告警而是问有没有你觉得在变坏、但还没到出事程度的东西。这一条最容易被跳过也最关键。47号门店那次就是典型——白班看到了退化趋势但因为还没影响业务就没当成异常来交。后来我们统一了一条口径只要你觉得这个东西值得多看一眼就按异常交不按正常交。宁可接班的人多看一次什么事都没有也不要等出了事才发现上一班其实早就注意到了。2. 本班次已经做过什么动作如果上一班已经联系过运营商、已经排查过某台设备、已经调整过某条策略交出来。不然接班的人会把这些动作再做一遍浪费的不只是时间还有运营商那边的耐心。3. 还差什么没做完这条看起来简单但以前的交接记录里几乎从来不写。大家习惯写做了什么很少写还差一步没收尾。那些还在观察期的工单、还没确认恢复的设备、还没验证的配置变更都容易在这个环节消失。4. 哪些门店需要重点关注不一定是出了大问题的门店。有时候只是某台设备指标在走高或者某家店最近反复出过同类故障。交一句提醒接班的人就能多留个心眼。这类信息不写在交接里它就只存在于上一班的脑子里下一班看不到。5. 有没有外部流程在等回复运营商工单、供应商维修、客户侧确认——这些不在自己系统里的东西最容易断在交接处。白班联系了夜班不知道流程就卡住了。47号门店那次运营商其实一直在排查白班已经有了工单号但夜班不知道联系运营商又从头来了一遍。这五条填完大概两三分钟不长但信息密度比原来的各区域正常高了很多。四、有几种信息特别容易在交接时被吃掉跑了一段时间之后我发现有几种信息特别容易在交接时被压缩掉值得单独说一下。第一种正在退化但还没出事的异常。这类最难交。因为交班的人自己也没法确定它会不会恶化写重了怕吓着人写轻了又怕漏掉。47号门店就是这种。后来统一口径之后好了很多但隔一段时间还是会有人不自觉地把正在退化交成偶尔抖动。提醒一次有用一阵子说明这不是制度能完全解决的需要反复校准。第二种已经联系了外部但还没有回复的事项。运营商说在排查供应商说明天来客户说回头确认。这些事如果不交出来接班的人完全不知道有一条线在跑更不知道什么时候应该追一下。很多时候外部流程不是对方不配合是我们自己在交接时把线索弄丢了。第三种处理到一半、还没关的工单。有些工单白班已经做了临时处置但根因还没确认观察期还没过。如果交接时只看没有未关闭的紧急工单这类半成品工单就会从视野里消失。到下一班再发现的时候往往已经恶化了。五、落地时容易踩的几个坑1. 交接模板太长变成形式交接不是写日报。如果模板太长、字段太多最后大家会复制上一次的内容改两个字交差。五项以内两三分钟能填完才能真正跑起来。2. 只写了干了什么没写观察到了什么很多交接记录写的是操作日志——几点巡了哪几家店、几点处理了哪张工单。这些当然有用但操作记录系统里都有真正只有人能交出来的是你在操作过程中观察到的判断和信号。交接要交的是判断不只是流水。3. 口头交接替代了书面记录面对面交接可以补充很多细节语气和表情带的信息量也大。但如果只口头说了、系统里没留痕下下班的人再接手这些信息就又断了。口头可以补充不能替代。六、改完之后变化最明显的一件事改了交接流程之后最大的变化不是排障速度——当然确实变快了——而是夜班同事不再经常给白班打电话追问了。以前经常出现一种情况夜班接到某家门店的异常不确定是新问题还是白天遗留的就打电话问白班同事。白班可能已经在地铁上了说话不方便回忆也不完整两个人在电话里来回确认半天排障还没正式开始。后来交接记录里该写的都写了夜班打开记录先看有没有正在发展的异常再看哪些门店重点关注心里就有底了。不需要再打那通电话。好的交接不是交班的人辛苦写了很多而是接班的人打开记录就能接上。七、附交接记录最小字段上线前建议先把这几个字段配好可以省掉很多磨合时间。如果现在的交接记录里没有当前异常和外部待回复这两项优先补上效果提升最快。如果准备把新的交接流程正式推下去建议先试运行一周过这四个验证项接班人是否能在不打电话的情况下了解上一班的核心状态正在发展的异常是否被准确交出而不是被压缩成暂时没影响外部流程运营商、供应商是否在交接时有留痕半成品工单是否在交接记录中被显式提到这四项跑顺了交接流程基本就能接住日常了。