一次数据库权限的小变更,让全球20%的网站陷入长达6小时的瘫痪,AI工具集体失灵,这或许是2025年足以载入史册的网络故障事件。

2025年11月18日晚上,全球互联网发生了一次奇特的分裂:当海外用户在社交平台上哀嚎无法使用X、ChatGPT、Spotify等服务时,国内网民却依旧顺畅地刷着短视频、网购、聊天。这场事件的中心是Cloudflare——一家支撑着全球约20%网站流量的基础设施服务商,被国内开发者/站长戏称为“赛博菩萨”的互联网基石服务。


01 事件全回顾,半个互联网陷入停滞

北京时间11月18日19:20左右,全球互联网开始出现异常。最初是X用户发现时间线无法刷新,接着ChatGPT抛出500错误,随后Spotify、Discord、League of Legends等主流服务相继出现访问问题。

颇具讽刺意味的是,专门追踪网站宕机的Downdetector自身也因为此次故障一度无法访问。 Cloudflare的状态页面在19:48亮起红色警报,确认出现“全球性内部服务降级”。

受影响的服务名单几乎涵盖了海外互联网的半壁江山:

  • 社交与通信:X(原Twitter)、Discord、Microsoft Teams
  • AI服务:OpenAI ChatGPT、Anthropic Claude
  • 娱乐与游戏:Spotify、League of Legends、Roblox
  • 电商与工具:Shopify、Canva、Grindr

直到北京时间11月19日01:06,所有服务才完全恢复正常,整个事件持续近6小时,核心流量不可用时间约3小时10分钟。

02 技术解读,小权限引发的大崩溃

Cloudflare官方在事件解决后迅速发布了详细的事后分析,指出根本原因并非外部攻击,而是一次内部的数据库权限变更引发的连锁反应。

问题的核心在于Cloudflare的Bot Management系统。该系统负责区分合法用户与恶意爬虫,依赖一个每5分钟自动生成的“威胁情报配置文件”。

UTC时间11:05,Cloudflare对ClickHouse数据库集群进行了权限变更。然而,这一变更产生了一个意想不到的副作用:它扩大了生成配置文件的查询语句的访问权限,使其能够看到底层分片表(r0)的元数据。这直接造成查询结果中每个条目都出现了重复,使得配置文件中的特征数量从正常的约60条激增至120多条,文件大小翻倍 。而当这个异常庞大的文件被分发到Cloudflare全球边缘节点并尝试加载时,触发了系统的内存限制,导致核心代理软件崩溃。

特别是Cloudflare新一代代理引擎(FL2)中,代码对特征数量设置了200个的上限,当实际特征数超过这一限制时,Rust代码触发未处理错误,直接返回HTTP 5xx错误。

03 六小时故障时间线,从误判到解决的曲折过程

根据Cloudflare官方发布的时间线,事件处理过程充满了挑战和误判:

  • UTC 11:05:部署数据库访问控制变更。
  • UTC 11:20:故障开始,异常配置文件开始分发,首次观测到HTTP错误。
  • UTC 11:48:Cloudflare状态页面首次确认“广泛的500错误”。

故障初期Cloudflare团队误判为超大规模DDoS攻击。 这是因为配置文件每5分钟生成一次,且只在部分已更新权限的数据库节点上会生成“坏文件”,导致系统在恢复和崩溃间反复,呈现出类似波动的攻击模式。

  • UTC 13:05:实施部分缓解,为Workers KV和Cloudflare Access实施绕过措施。
  • UTC 13:37:锁定根因,确认为Bot Management配置文件问题。
  • UTC 14:24:停止生成和传播有问题的配置文件。
  • UTC 14:30:核心流量基本恢复正常。
  • UTC 17:06:所有系统完全恢复。

整个事件处理过程中,Cloudflare通过状态页面更新了20多条进度,CTO也亲自在X平台上道歉并承诺发布完整复盘报告。

04 历史对比,互联网的“心脏病”周期性发作

Cloudflare的此次故障并非孤例,而是互联网基础设施集中化背景下周期性发作的“心脏病”的最新表现。

回顾历史,类似的大规模中断事件屡见不鲜:

  • 2024年11月:CrowdStrike错误的内核更新导致全球数百万台设备崩溃,引发航空、银行、医疗等多行业混乱。
  • 2025年初:AWS us-east-1区域拥塞导致依赖该区域的数千项服务中断。
  • 2022年6月:Cloudflare因网络配置错误导致19个数据中心异常,持续约一个半小时。
  • 2020年7月:Cloudflare因软件漏洞导致全球数千网站离线长达30分钟。

这些事件共同揭示了一个严峻现实:互联网表面去中心化,实则依赖少数核心节点。 Cloudflare、AWS、谷歌云等少数几家基础设施提供商,已成为全球互联网的“单一故障点”。

05 从故障看互联网基础设施的集中化风险

这次故障暴露了一个深刻问题:现代互联网架构已经形成了新的中心化风险。 当Cloudflare、AWS和Azure等少数公司承载全球大部分网络流量时,单一故障点的影响范围被无限放大。

这种集中化趋势与互联网最初的去中心化设计理念背道而驰。 早期互联网被设计成即使部分节点失效,整体网络仍能运行的分布式系统。而今天,我们却创造了一批“太大而不能倒”的数字巨头。

根据W3Techs在事件后发布的统计数据,Cloudflare一家公司就处理了全球81.5%的网站反向代理流量,这使其成为互联网基础架构中一个至关重要的枢纽。

正如诺贝尔经济学奖得主约瑟夫·施蒂格利茨反复警示的,数字经济的发展已导致市场权力高度集中于少数科技巨头。这种集中化态势使得众多企业和消费者在事实上“很少有其他选择”,不得不深度依赖这些平台。当这些关键节点公司出现问题时,整个构建于其上的数字生态系统便会遭受严重冲击。

06 集中化背后的经济学:企业为何愿意承担风险

从经济学角度看,企业接受这种集中化风险并非偶然,而是成本效益权衡的理性选择。

集中化战略的主要优势在于:企业可以集中使用自身资源和力量,更好地服务于某一特定市场;可以避开行业中的各种竞争力量,针对竞争对手最薄弱的环节采取行动;战略目标集中明确,经济成果易于评价,战略管理过程易于控制。

云计算集中化带来的规模效应确实显著。对于绝大多数企业来说,自建全球分布式网络既不经济也不现实。Cloudflare等厂商通过共享基础设施模式,将固定成本分摊给海量客户,使得中小企业也能以极低成本获得世界级的基础设施服务。

然而,这种效率追求也带来了系统性风险。当企业将全部力量和资源都投入一种产品、服务或一个特定的市场,当顾客偏好发生变化、技术出现创新或有新的替代品出现时,企业就会受到很大冲击。

在美股SaaS公司的估值体系里,毛利率是核心指标。如果公司要搞多云策略,同时购买多个云服务提供商的服务,成本会翻倍。CFO(Chief Financial Officer 首席财务官)通常会否决这种方案,因为这会拉低财报表现,且可能几年都用不上一次。 绝大多数企业实际上是在赌概率,赌Cloudflare不会挂。

07 国内网站为何幸免于难?

与海外互联网的大范围瘫痪形成鲜明对比的是,国内主流互联网服务在此次事件中基本保持正常。 这一现象背后的原因值得深入探讨。

首先,国内拥有相对独立的互联网基础设施和高度成熟的本地化云生态。根据2025年9月的市场报告,前五大本土云服务商(阿里云、火山引擎、华为云、腾讯云、百度智能云)已共同占据国内超过77%的市场份额,形成了不依赖Cloudflare等国外服务商的产业格局 。此外,运营商背景的云服务(如天翼云、移动云)也在政企市场占据重要地位,进一步强化了国内互联网服务的自主性。

其次,国内严格的网络安全法规要求关键信息基础设施必须使用本土服务。 国内的“信创”(信息技术应用创新)和金融行业规定,强制要求关键业务必须在国内有独立的灾备系统。

此外,国内互联网企业主要服务本土市场,技术架构多以国内云服务为基础。即便是有海外业务的企业,也多采用多云部署策略,不会将全部流量寄托于单一海外服务商。

不过,从事跨境电商、出海游戏和Web3开发的业务则未能幸免。这些深度依赖Cloudflare安全加速能力的海外业务,在此次事件中遭受了直接打击。

08 从架构设计角度,如何避免类似问题?

此次事件为高度依赖云服务的现代互联网架构敲响了警钟。从技术角度,以下几点值得所有架构师考虑:

避免单点依赖是关键。对于关键业务路径(如登录、支付),应考虑多CDN或多云部署策略。例如,DNS层可以设置Cloudflare+Route53冗余,CDN层可以采用Cloudflare+自建Nginx+另一家CDN服务商的组合。

实施优雅降级比硬性失败更重要。当Cloudflare的Bot Management特征文件异常时,系统选择panic而非降级(如忽略超额特征、使用默认模型),导致服务完全中断。理想做法应是记录告警、使用缓存配置、继续提供基础服务。

加强配置变更的监控与告警。对关键配置的尺寸、哈希值、生成频率设置异常检测,即使是由内部系统生成的配置文件,也应像处理用户输入一样进行严格校验。

然而,在实践层面,多供应商容灾面临现实挑战。 一位云计算领域的从业者曾一针见血地指出:“绝大多数企业实际上是在‘裸奔’。它们赌一个小概率事件,赌定像Cloudflare、AWS这样的核心服务商不会出现全局性故障。因为一旦公司要实施真正可靠的多云策略,同时采购AWS和Google Cloud的服务,并再配置一个备用CDN,成本可能会翻倍,这个方案通常会在CFO那里被否决。”

09 拥抱“古法编程”,在AI时代保持技术韧性

当ChatGPT因Cloudflare故障而无法访问时,开发者们在社交媒体上调侃:“今晚我们回归古法编程——手写代码。” 这一调侃背后,折射出当代软件开发面临的深层困境。

所谓“古法编程”,是对过度依赖AI工具和云服务的一种反思。在现代软件开发中,开发者习惯用ChatGPT直接生成代码,依赖Cloudflare等平台提供的基础设施,却逐渐丧失了对手工编程和理解底层原理的能力。

此次故障事件揭示了一个悖论:追求极致效率的同时,也创造了极致的脆弱性。 Cloudflare接入的网站越多,其数据就越多,防御能力越强,成本也越低。对企业来说,使用它是最经济高效的选择,但这种集中化也带来了系统性风险。

有分析指出,互联网的架构在本质上存在一种“再中心化”的趋势。表面上去中心化的网状结构,在实际演进中形成了类似“漏斗”的形态,关键资源和控制权向少数超级节点集中。

在AI编程工具日益强大的今天,保持对技术栈的深入理解和掌控能力,或许是我们应对不确定数字未来的唯一途径。AI可以帮我写代码,但不能帮我们理解系统为何故障。

Cloudflare的此次故障,正是数字时代效率与风险并存的一个缩影。我们享受着集中化带来的红利,也必须正视其伴随的系统性脆性。在AI编程工具日益强大的今天,保持对技术栈的深入理解和掌控能力,或许是我们应对不确定数字未来的重要基石

相关链接

  1. 核心事件与数据来源

  2. 历史事件参考

  3. 宏观分析与行业观点

  4. 延伸阅读

本文基于Cloudflare官方报告、技术社区分析和公开资料整理而成,旨在为技术从业者提供深入的事件分析和架构思考。