赛博菩萨Cloudflare意外崩溃，让全世界回归“古法编程”

一次数据库权限的小变更，让全球20%的网站陷入长达6小时的瘫痪，AI工具集体失灵，这或许是2025年足以载入史册的网络故障事件。

2025年11月18日晚上，全球互联网发生了一次奇特的分裂：当海外用户在社交平台上哀嚎无法使用X、ChatGPT、Spotify等服务时，国内网民却依旧顺畅地刷着短视频、网购、聊天。这场事件的中心是Cloudflare——一家支撑着全球约20%网站流量的基础设施服务商，被国内开发者/站长戏称为“赛博菩萨”的互联网基石服务。

01 事件全回顾，半个互联网陷入停滞

北京时间11月18日19:20左右，全球互联网开始出现异常。最初是X用户发现时间线无法刷新，接着ChatGPT抛出500错误，随后Spotify、Discord、League of Legends等主流服务相继出现访问问题。

颇具讽刺意味的是，专门追踪网站宕机的Downdetector自身也因为此次故障一度无法访问。 Cloudflare的状态页面在19:48亮起红色警报，确认出现“全球性内部服务降级”。

受影响的服务名单几乎涵盖了海外互联网的半壁江山：

社交与通信：X（原Twitter）、Discord、Microsoft Teams
AI服务：OpenAI ChatGPT、Anthropic Claude
娱乐与游戏：Spotify、League of Legends、Roblox
电商与工具：Shopify、Canva、Grindr

直到北京时间11月19日01:06，所有服务才完全恢复正常，整个事件持续近6小时，核心流量不可用时间约3小时10分钟。

02 技术解读，小权限引发的大崩溃

Cloudflare官方在事件解决后迅速发布了详细的事后分析，指出根本原因并非外部攻击，而是一次内部的数据库权限变更引发的连锁反应。

问题的核心在于Cloudflare的Bot Management系统。该系统负责区分合法用户与恶意爬虫，依赖一个每5分钟自动生成的“威胁情报配置文件”。

UTC时间11:05，Cloudflare对ClickHouse数据库集群进行了权限变更。然而，这一变更产生了一个意想不到的副作用：它扩大了生成配置文件的查询语句的访问权限，使其能够看到底层分片表(r0)的元数据。这直接造成查询结果中每个条目都出现了重复，使得配置文件中的特征数量从正常的约60条激增至120多条，文件大小翻倍。而当这个异常庞大的文件被分发到Cloudflare全球边缘节点并尝试加载时，触发了系统的内存限制，导致核心代理软件崩溃。

特别是Cloudflare新一代代理引擎（FL2）中，代码对特征数量设置了200个的上限，当实际特征数超过这一限制时，Rust代码触发未处理错误，直接返回HTTP 5xx错误。

03 六小时故障时间线，从误判到解决的曲折过程

根据Cloudflare官方发布的时间线，事件处理过程充满了挑战和误判：

UTC 11:05：部署数据库访问控制变更。
UTC 11:20：故障开始，异常配置文件开始分发，首次观测到HTTP错误。
UTC 11:48：Cloudflare状态页面首次确认“广泛的500错误”。

故障初期Cloudflare团队误判为超大规模DDoS攻击。这是因为配置文件每5分钟生成一次，且只在部分已更新权限的数据库节点上会生成“坏文件”，导致系统在恢复和崩溃间反复，呈现出类似波动的攻击模式。

UTC 13:05：实施部分缓解，为Workers KV和Cloudflare Access实施绕过措施。
UTC 13:37：锁定根因，确认为Bot Management配置文件问题。
UTC 14:24：停止生成和传播有问题的配置文件。
UTC 14:30：核心流量基本恢复正常。
UTC 17:06：所有系统完全恢复。

整个事件处理过程中，Cloudflare通过状态页面更新了20多条进度，CTO也亲自在X平台上道歉并承诺发布完整复盘报告。

04 历史对比，互联网的“心脏病”周期性发作

Cloudflare的此次故障并非孤例，而是互联网基础设施集中化背景下周期性发作的“心脏病”的最新表现。

回顾历史，类似的大规模中断事件屡见不鲜：

2024年11月：CrowdStrike错误的内核更新导致全球数百万台设备崩溃，引发航空、银行、医疗等多行业混乱。
2025年初：AWS us-east-1区域拥塞导致依赖该区域的数千项服务中断。
2022年6月：Cloudflare因网络配置错误导致19个数据中心异常，持续约一个半小时。
2020年7月：Cloudflare因软件漏洞导致全球数千网站离线长达30分钟。

这些事件共同揭示了一个严峻现实：互联网表面去中心化，实则依赖少数核心节点。 Cloudflare、AWS、谷歌云等少数几家基础设施提供商，已成为全球互联网的“单一故障点”。

05 从故障看互联网基础设施的集中化风险

这次故障暴露了一个深刻问题：现代互联网架构已经形成了新的中心化风险。当Cloudflare、AWS和Azure等少数公司承载全球大部分网络流量时，单一故障点的影响范围被无限放大。

这种集中化趋势与互联网最初的去中心化设计理念背道而驰。早期互联网被设计成即使部分节点失效，整体网络仍能运行的分布式系统。而今天，我们却创造了一批“太大而不能倒”的数字巨头。

根据W3Techs在事件后发布的统计数据，Cloudflare一家公司就处理了全球81.5%的网站反向代理流量，这使其成为互联网基础架构中一个至关重要的枢纽。

正如诺贝尔经济学奖得主约瑟夫·施蒂格利茨反复警示的，数字经济的发展已导致市场权力高度集中于少数科技巨头。这种集中化态势使得众多企业和消费者在事实上“很少有其他选择”，不得不深度依赖这些平台。当这些关键节点公司出现问题时，整个构建于其上的数字生态系统便会遭受严重冲击。

06 集中化背后的经济学：企业为何愿意承担风险

从经济学角度看，企业接受这种集中化风险并非偶然，而是成本效益权衡的理性选择。

集中化战略的主要优势在于：企业可以集中使用自身资源和力量，更好地服务于某一特定市场；可以避开行业中的各种竞争力量，针对竞争对手最薄弱的环节采取行动；战略目标集中明确，经济成果易于评价，战略管理过程易于控制。

云计算集中化带来的规模效应确实显著。对于绝大多数企业来说，自建全球分布式网络既不经济也不现实。Cloudflare等厂商通过共享基础设施模式，将固定成本分摊给海量客户，使得中小企业也能以极低成本获得世界级的基础设施服务。

然而，这种效率追求也带来了系统性风险。当企业将全部力量和资源都投入一种产品、服务或一个特定的市场，当顾客偏好发生变化、技术出现创新或有新的替代品出现时，企业就会受到很大冲击。

在美股SaaS公司的估值体系里，毛利率是核心指标。如果公司要搞多云策略，同时购买多个云服务提供商的服务，成本会翻倍。CFO（Chief Financial Officer 首席财务官）通常会否决这种方案，因为这会拉低财报表现，且可能几年都用不上一次。绝大多数企业实际上是在赌概率，赌Cloudflare不会挂。

07 国内网站为何幸免于难？

与海外互联网的大范围瘫痪形成鲜明对比的是，国内主流互联网服务在此次事件中基本保持正常。这一现象背后的原因值得深入探讨。

首先，国内拥有相对独立的互联网基础设施和高度成熟的本地化云生态。根据2025年9月的市场报告，前五大本土云服务商（阿里云、火山引擎、华为云、腾讯云、百度智能云）已共同占据国内超过77%的市场份额，形成了不依赖Cloudflare等国外服务商的产业格局。此外，运营商背景的云服务（如天翼云、移动云）也在政企市场占据重要地位，进一步强化了国内互联网服务的自主性。

其次，国内严格的网络安全法规要求关键信息基础设施必须使用本土服务。国内的“信创”（信息技术应用创新）和金融行业规定，强制要求关键业务必须在国内有独立的灾备系统。

此外，国内互联网企业主要服务本土市场，技术架构多以国内云服务为基础。即便是有海外业务的企业，也多采用多云部署策略，不会将全部流量寄托于单一海外服务商。

不过，从事跨境电商、出海游戏和Web3开发的业务则未能幸免。这些深度依赖Cloudflare安全加速能力的海外业务，在此次事件中遭受了直接打击。

08 从架构设计角度，如何避免类似问题？

此次事件为高度依赖云服务的现代互联网架构敲响了警钟。从技术角度，以下几点值得所有架构师考虑：

避免单点依赖是关键。对于关键业务路径（如登录、支付），应考虑多CDN或多云部署策略。例如，DNS层可以设置Cloudflare+Route53冗余，CDN层可以采用Cloudflare+自建Nginx+另一家CDN服务商的组合。

实施优雅降级比硬性失败更重要。当Cloudflare的Bot Management特征文件异常时，系统选择panic而非降级（如忽略超额特征、使用默认模型），导致服务完全中断。理想做法应是记录告警、使用缓存配置、继续提供基础服务。

加强配置变更的监控与告警。对关键配置的尺寸、哈希值、生成频率设置异常检测，即使是由内部系统生成的配置文件，也应像处理用户输入一样进行严格校验。

然而，在实践层面，多供应商容灾面临现实挑战。一位云计算领域的从业者曾一针见血地指出：“绝大多数企业实际上是在‘裸奔’。它们赌一个小概率事件，赌定像Cloudflare、AWS这样的核心服务商不会出现全局性故障。因为一旦公司要实施真正可靠的多云策略，同时采购AWS和Google Cloud的服务，并再配置一个备用CDN，成本可能会翻倍，这个方案通常会在CFO那里被否决。”

09 拥抱“古法编程”，在AI时代保持技术韧性

当ChatGPT因Cloudflare故障而无法访问时，开发者们在社交媒体上调侃：“今晚我们回归古法编程——手写代码。” 这一调侃背后，折射出当代软件开发面临的深层困境。

所谓“古法编程”，是对过度依赖AI工具和云服务的一种反思。在现代软件开发中，开发者习惯用ChatGPT直接生成代码，依赖Cloudflare等平台提供的基础设施，却逐渐丧失了对手工编程和理解底层原理的能力。

此次故障事件揭示了一个悖论：追求极致效率的同时，也创造了极致的脆弱性。 Cloudflare接入的网站越多，其数据就越多，防御能力越强，成本也越低。对企业来说，使用它是最经济高效的选择，但这种集中化也带来了系统性风险。

有分析指出，互联网的架构在本质上存在一种“再中心化”的趋势。表面上去中心化的网状结构，在实际演进中形成了类似“漏斗”的形态，关键资源和控制权向少数超级节点集中。

在AI编程工具日益强大的今天，保持对技术栈的深入理解和掌控能力，或许是我们应对不确定数字未来的唯一途径。AI可以帮我写代码，但不能帮我们理解系统为何故障。

Cloudflare的此次故障，正是数字时代效率与风险并存的一个缩影。我们享受着集中化带来的红利，也必须正视其伴随的系统性脆性。在AI编程工具日益强大的今天，保持对技术栈的深入理解和掌控能力，或许是我们应对不确定数字未来的重要基石。