根据提供的 Cloudflare 官方博客内容,以下是 2025 年 11 月 18 日服务中断事件的总结:
事件概述
- 发生时间:2025 年 11 月 18 日 11:20 UTC
- 影响范围:Cloudflare 核心网络流量出现严重故障,用户访问客户网站时遇到错误页面
- 根本原因:非网络攻击,而是由数据库权限变更引发的连锁反应
- 恢复时间:
- 核心流量在 14:30 基本恢复正常
- 所有系统在 17:06 完全恢复正常
事件根本原因链
- 触发点:数据库系统权限变更
- 直接后果:数据库在 Bot Management 系统的特征文件中输出重复条目
- 关键变化:特征文件体积翻倍
- 系统限制:网络路由软件对特征文件大小存在限制,超出后导致软件崩溃
- 错误判断:初期误判为超大规模 DDoS 攻击
解决过程
- 正确识别核心问题后:
- 停止传播过大的特征文件
- 回滚到早期版本的文件
- 处理流量恢复后的网络负载激增
官方表态
- 对客户和互联网社区表示歉意
- 承认 Cloudflare 在互联网生态中的重要性,任何中断都不可接受
- 承诺深入分析事件原因和流程缺陷
- 表示将采取措施确保类似事件不再发生
技术指标
- 通过 5xx HTTP 状态码数量图表显示:
- 11:20 前处于正常基线水平
- 故障期间出现显著峰值和波动
- 证实了错误特征文件加载导致的系统故障
这是一个典型的由配置变更引发、通过系统依赖链放大、最终因缺乏足够安全限制而导致的服务中断案例。
评论 (0)