告警触发 60 秒内,自动采集 5 类服务的真实监控数据,调用 Claude 生成深入根因分析报告存入 S3,同时推送精简版到 IM 群并附完整报告链接。前言痛点运维收到告警后的标准动作:登录 Console → 查指标 → 查日志 → 查服务状态 → 判断原因,耗时 10-30 分钟。夜间告警更慢,且依赖个人经验。本文实现告警触发 → 自动采集真实数据 → Claude 深入分析 → S3 存完整报告 → IM 推精简版 + 链接运维收到的不是干巴巴的告警,而是一份有数据支撑的分析报告,点击链接还能看完整版。核心设计基于真实数据分析,不是让 AI 猜异步不阻塞,不影响现有告警通知跨账号隔离,AI 在独立账号,主账号只读双版本报告,IM 精简版 + S3 详细版一、架构CloudWatch 告警 → SNS → 告警通知 Lambda(主账号,原有不动) → IM / 电话通知(原有,不变) → 异步调用