DMIT 网络事故报告:LAX & HKG
除非出现需要更新的重大事件,这是最后一次更新。

以下是本次网络不稳定事件的综合技术复盘(postmortem)。

**总结LAX(CN2 GIA):IPv4 已恢复并做了临时缓解;根因是 前缀上限被错设为 300(应为 1k) 导致 BGP 被自动 idle,且 LACP 聚合被错当成单 10G 造成切换后拥塞丢包;最终修正要等中国“网络冻结”结束(12/15)后 CTG 才能改。

**HKG:遭遇新型“地毯式轰炸”DDoS,当前 99.9% 流量已成功过滤,攻击仍在(约 10Mpps),清洗设备修复进行中并持续监控。

补偿:今天所有服务流量重置一次,并在 2026/5 前再额外给一次免费的流量重置机会(之后通过网站功能提供)。****

🇺🇸 LAX CN2 GIA 事件

**当前状态:**所有即时缓解措施已部署完成。由于中国范围的“网络冻结(Network Freeze)”(将于 12 月 15 日结束),CTG 的最终修正仍在等待中。

  1. 根因:前缀限制(Prefix Limit)超出

**配置不一致:**DMIT 下单要求前缀上限为 1k,但供应商(CTG)仍保持默认值 300。该参数在服务交付后无法通过测试验证,因此我们信任了对方配置已按要求完成。

**触发因素:**两位客户增加了路由宣告数量,同时多条 DDoS 的 RTBH(远端黑洞)路由被推送,使前缀数超过 300。

**结果:**当超过限制后,AS4809(CN2)立即将 BGP 会话置为 idle(自动停用/断开会话)。

  1. 为什么故障切换(failover)会导致丢包?

**设计说明:**备份会话(CoreSite)按设计保持 UP(同时会过滤 DDoS 路由以节省前缀空间)。

关键故障:运营商的 LACP 配置错误。
CTG 将我们的链路聚合(link aggregation)配置成了单接口容量,忽略了我们有多条物理 10G 连接。

**影响:**当流量切换到 CoreSite 时,流量超过了“逻辑上的 10G 上限”,因此出现严重拥塞与丢包,尽管物理层实际上仍有可用带宽。

  1. 为什么恢复时间这么长?

**管理限制:**由于“网络冻结”,路由器的 CLI 访问权限被暂停。

**审批原因:**CTA/CTG 需要从集团层面申请紧急访问批准。由于当时正值中国的非工作时间,获得该授权耗费了大量时间。

🇭🇰 HKG 事件

**当前状态:**99.9% 的流量已成功被过滤。当前处于主动监控状态,攻击仍在持续,规模约 10Mpps。

  1. 根因:“地毯式轰炸(Carpet Bombing)”

**攻击类型:**一次大规模的 Carpet Bombing 攻击针对了 3 个特定子网。

**攻击向量:**混合流量,包括 TCP-SYN、TCP-ACK(Zero/Empty)、SYN-ACK、TCP Null、FIN、RST。

  1. 为什么初期清洗/缓解失败?

**泄漏点:**绕行(detour)规则配置错误叠加硬件故障,导致流量绕过本地清洗设备。恶意流量通过骨干网(LAX IP Transit)直接进入。

**“误导线索(Red Herring)”:**我们最初把重点放在优化规则上,没有意识到清洗设备本身存在硬件/软件故障。这误导了诊断方向并延迟了修复。

  1. 资源争用

LAX 同时发生的关键故障需要持续协调,分散了工程资源,导致 HKG 的排查不可避免地被放慢。

🛡️ 未来预防与承诺

**更严格的审计:**我们将增加一道人工审核流程,逐项检查供应商订单中的每个文本字段,确保交付配置(例如前缀限制、LACP 速率)与我们的要求完全一致。

**现实情况:**DDoS 向量变化很快。虽然我们无法保证零事故,但 DMIT 承诺会动用一切资源,在合理成本下保持稳定并保护你的业务。

赔付/补偿(Reimbursement)

无论地点或网络档位如何,所有服务将在今天进行流量重置(traffic reset);并且在 2026 年 5 月之前,所有服务都会额外获得一次免费的流量重置机会(将来会通过网站功能提供)。