Il 18 novembre 2025 è stato un giorno critico per Cloudflare, pilastro dell'infrastruttura internet globale. La società, che fornisce servizi essenziali come CDN, protezione DDoS e sicurezza applicativa a milioni di siti web e applicazioni, ha subito un'interruzione massiccia, generando un'ondata di errori 5xx che ha reso inaccessibili numerosi servizi. A fare luce sull'accaduto è stato Matthew Prince, CEO di Cloudflare, con un dettagliato rapporto tecnico pubblicato sul blog ufficiale dell'azienda.
Contrariamente ai timori iniziali, Prince ha subito escluso l'ipotesi di un attacco informatico: "Il problema non è stato causato, direttamente o indirettamente, da un attacco informatico o da attività malevole di alcun tipo".
Ma cosa è successo esattamente?
L'incidente è stato innescato da una modifica ai permessi di un cluster ClickHouse, una componente fondamentale dell'infrastruttura dati di Cloudflare. Questa modifica, implementata alle 12:05 (ora italiana) del 18 novembre per migliorare la gestione dei permessi sui dati, ha inavvertitamente generato un numero anomalo di righe duplicate all'interno del "feature file". Questo file è cruciale per il sistema di Bot Management, poiché fornisce al modello di machine learning le informazioni necessarie per distinguere tra traffico legittimo e traffico generato da bot.
Il problema è sorto quando il "feature file", rigenerato automaticamente ogni pochi minuti e distribuito globalmente, ha visto raddoppiare improvvisamente le sue dimensioni a causa dei dati duplicati. Questo aumento ha superato il limite operativo del modulo software incaricato di leggerlo, causando un errore interno che si è propagato rapidamente, innescando una cascata di errori 5xx su larga scala.
La situazione è stata ulteriormente complicata da un comportamento irregolare nelle prime fasi dell'interruzione, che ha reso difficile la diagnosi immediata. Inoltre, una sfortunata coincidenza ha contribuito ad alimentare i sospetti di un attacco informatico: la pagina di stato ufficiale di Cloudflare, ospitata su un'infrastruttura esterna, è risultata irraggiungibile contemporaneamente all'interruzione principale.
Il blackout è diventato evidente alle 12:20 (ora italiana), quando la configurazione alterata ha raggiunto un numero critico di nodi, generando un impatto esteso. Il volume degli errori 5xx è aumentato rapidamente, coinvolgendo gran parte dell'infrastruttura. La CDN e il livello di sicurezza hanno iniziato a restituire pagine di errore HTTP, mentre servizi come Turnstile e Workers KV hanno subito malfunzionamenti. Anche Email Security e Cloudflare Access sono stati compromessi, con difficoltà nell'accesso alle fonti di reputazione IP e nell'autenticazione degli utenti.
L'aumento generale della latenza ha ulteriormente aggravato la situazione, poiché i sistemi di debugging interni hanno iniziato a generare un carico aggiuntivo, intensificando lo stress sull'infrastruttura.
Le operazioni di ripristino sono entrate nel vivo intorno alle 13:00 (ora italiana), con l'isolamento della causa dell'anomalia. Alle 13:05, Cloudflare ha implementato bypass interni per Workers KV e Access, riducendo l'impatto su autenticazioni e flussi applicativi. Alle 14:24, il "feature file" difettoso è stato identificato come la causa principale dell'interruzione, e la sua propagazione è stata immediatamente bloccata. Una versione corretta del file è stata distribuita globalmente alle 14:30, ripristinando gradualmente il traffico. Il processo di riavvio e riallineamento dei servizi secondari è stato completato alle 18:06, riportando l'ecosistema Cloudflare alla piena operatività.
A seguito dell'incidente, Cloudflare ha annunciato una serie di misure per prevenire il ripetersi di eventi simili. Tra queste, il rafforzamento del processo di generazione e distribuzione dei file di configurazione, l'introduzione di kill switch globali per bloccare la propagazione di file non validi e la revisione dei meccanismi di gestione dei report di errore. L'azienda interverrà anche sui moduli del core proxy per ridurre la loro vulnerabilità in presenza di condizioni non previste.
Prince ha definito l'interruzione come la peggiore dal 2019, sottolineando che un evento simile è inaccettabile. Ha concluso scusandosi con gli utenti per i problemi causati.
Prima di procedere


