Cloudflare si scusa e spiega cos'è successo ieri: il peggior down dal 2019

Cloudflare si scusa e spiega cos'è successo ieri: il peggior down dal 2019

Cloudflare ha spiegato la causa della grave interruzione globale dei servizi: una modifica alle autorizzazioni di un database ha generato file di configurazione corrotti nel sistema di Bot Management, mandando in crash i proxy e rendendo irraggiungibili moltissimi siti. L'azienda si scusa e annuncia misure strutturali per prevenire futuri incidenti.

di pubblicata il , alle 06:01 nel canale Web
Cloudflare
 

In un post sul blog aziendale, il cofondatore e CEO di Cloudflare, Matthew Prince, ha svelato i dettagli sulle cause di quella che ha definito la "peggiore interruzione del servizio dal 2019". Come noto, nella giornata di ieri moltissimi siti Internet sono risultati irraggiungibili, compreso il nostro, a causa del problema tecnico di Cloudflare.

Cloudflare è un importante fornitore di sicurezza Internet in tutto il mondo, che offre servizi come la verifica che le connessioni dei visitatori ai siti provengano da esseri umani e non da bot. Si dice che il 20% di tutti i siti web nel mondo utilizzi i suoi servizi in qualche forma.

In parole ancora più semplici, Cloudflare gestisce una rete globale di server distribuiti in tutto il mondo. Moltissimi siti - piccoli e grandi - si appoggiano ai suoi servizi per essere più veloci, più sicuri e più difficili da mandare offline.

Il problema tecnico di ieri ha quindi avuto ripercussioni enormi per l'intero World Wide Web. Prince, nel suo post, ha spiegato che l'origine del problema non è stata un attacco informatico, ma una modifica alle autorizzazioni di uno dei sistemi database di Cloudflare legato a un servizio di mitigazione dei bot. Questo cambiamento ha portato il database a generare voci duplicate all'interno di un file di configurazione utilizzato dal sistema di Bot Management per identificare e filtrare il traffico automatizzato.

Il file, improvvisamente raddoppiato in dimensioni, è stato distribuito a tutti i server della rete Cloudflare. A questo punto si è verificato l'errore critico: il software che instrada il traffico sulla rete legge questo file per aggiornare i parametri anti-bot, ma non è progettato per gestire un file così grande. Superato il limite previsto, il software ha così iniziato a fallire, causando l'interruzione dei servizi dipendenti dal modulo di Bot Management.

Poiché questo file viene propagato automaticamente in tutta l'infrastruttura ogni pochi minuti, la rete ha iniziato a distribuire alternativamente configurazioni corrette e corrotte, causando una fluttuazione anomala di errori 5xx difficile da interpretare nelle prime fasi.

Il problema è diventato stabile, e non più intermittente, quando tutte le istanze aggiornate hanno iniziato a generare esclusivamente file corrotti. La situazione è stata riportata sotto controllo quando Cloudflare ha fermato la propagazione dei file difettosi, reinserito una versione precedente e avviato il riavvio coordinato dei proxy.

Secondo il CTO di Cloudflare, Dane Knecht, l'azienda ha "deluso i nostri clienti e l'intero Internet. […] I siti, le aziende e le organizzazioni che si affidano a Cloudflare contano su di noi per essere sempre disponibili e mi scuso per l'impatto che abbiamo causato".

Affinché quanto accaduto non si ripeta, Cloudflare ha illustrato quattro linee di intervento per mitigare futuri rischi di guasti centralizzati: rafforzare l'ingestione dei file generati internamente, introdurre kill-switch globali più granulari, prevenire che errori e core dump saturino risorse critiche e rivedere i failure mode di tutti i moduli del core proxy.

17 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
CYRANO19 Novembre 2025, 06:54 #1
Per fortuna che hwup non ne é stato colpito!



Ckxmdndknddjfnfncjdnsjsj
Saturn19 Novembre 2025, 08:17 #2
Originariamente inviato da: Redazione di Hardware Upgrade
Cloudflare ha spiegato la causa della grave interruzione globale dei servizi: una modifica alle autorizzazioni di un database ha generato file di configurazione corrotti nel sistema di Bot Management, mandando in crash i proxy e rendendo irraggiungibili moltissimi siti. L'azienda si scusa e annuncia misure strutturali per prevenire futuri incidenti.


Il fiato è buono solo per soffiare sul brodo...risarcissero per la mancata operatività e guadagni gli interessati (ma figurati se i loro contratti non li tutelano da simili evenienze) !

Originariamente inviato da: CYRANO
Per fortuna che hwup non ne é stato colpito!



Ckxmdndknddjfnfncjdnsjsj


Invece si ! Per un paio d'ore erano irraggiungibili anche loro (tipo dalle 12,30 alle 15,00) !
jepessen19 Novembre 2025, 08:43 #3
Originariamente inviato da: Saturn
Il fiato è buono solo per soffiare sul brodo...risarcissero per la mancata operatività e guadagni gli interessati (ma figurati se i loro contratti non li tutelano da simili evenienze) ! :


In genere questi contratti hanno delle clausole sulla continuita', tipo che il servizio rimane attivo il 99.99% del tempo in un anno solare, o robe cosi'.

8 ore di down (ammesso che i siti siano stati down per 8 ore, alcuni lo sono stati per molto meno tempo e spezzettato, tipo che mezz'ora andavano e mezz'ora no, come HW, quindi si calcola il tempo effettivo, non l'intervallo di tempo fra due down) in un anno sono circa il 99.91% di uptime, se nei contratti e' prevista una percentuale maggiore allora ci sara' qualche penale, altrimenti niente.

Di sicuro una percentuale del genere c'e' in un contratto, figurarsi se non si chiede...
Saturn19 Novembre 2025, 08:47 #4
Originariamente inviato da: jepessen
In genere questi contratti hanno delle clausole sulla continuita', tipo che il servizio rimane attivo il 99.99% del tempo in un anno solare, o robe cosi'.

8 ore di down (ammesso che i siti siano stati down per 8 ore, alcuni lo sono stati per molto meno tempo e spezzettato, tipo che mezz'ora andavano e mezz'ora no, come HW, quindi si calcola il tempo effettivo, non l'intervallo di tempo fra due down) in un anno sono circa il 99.91% di uptime, se nei contratti e' prevista una percentuale maggiore allora ci sara' qualche penale, altrimenti niente.

Di sicuro una percentuale del genere c'e' in un contratto, figurarsi se non si chiede...


Ah ne sono convinto, convintissimo.

Per questo ho fatto la battuta del brodo..."si scusano"...e grazie !

Le scuse tanto sono "aggrattisse" !
jepessen19 Novembre 2025, 08:55 #5
Originariamente inviato da: Saturn
Ah ne sono convinto, convintissimo.

Per questo ho fatto la battuta del brodo..."si scusano"...e grazie !

Le scuse tanto sono "aggrattisse" !


Si scusano per due motivi principali.

Il primo e' che viene consigliato dai reparti marketing per dare, come dire, un'aura piu' "umana" all'azienda, del tipo "si, siamo fatti di persone, a volte le persone sbagliano", stimolando cosi' piu' empatica e meno inca##atura.

La seconda, preponderante, e' che Cloudflare e' quotata in borsa, e quindi deve dare spiegazioni dettagliate agli azionisti che ovviamente chiedono a gran voce cosa sia successo. Non a caso il valore delle sue azioni e' sceso di botto da 202$ a 187$, anche se adesso e' tornato a seguire il trend iniziale (che comunque non era positivissimo in questo periodo, ma e' normale amministrazione).
coschizza19 Novembre 2025, 09:06 #6
Affinché quanto accaduto non si ripeta, bisognerebbe spegnere internet
gia l'idea che qualcuno mi dica che ha capito il problema e che non si ripetera piu vuol dire che mi sta prendendo per il culo, parliamo pursempre di software
raxas19 Novembre 2025, 09:37 #7
_
Opteranium19 Novembre 2025, 09:39 #8
cmq internet ormai si regge su tre nomi, l'oposto di come era stato concepito
coschizza19 Novembre 2025, 09:41 #9
Originariamente inviato da: Opteranium
cmq internet ormai si regge su tre nomi, l'oposto di come era stato concepito


alternative?, internet si basa anche sul tcp basta un bug del protocollo che l'intera rete crolla, ma ripeto altermnative
jepessen19 Novembre 2025, 09:55 #10
Originariamente inviato da: Opteranium
cmq internet ormai si regge su tre nomi, l'oposto di come era stato concepito


C'e' un articolo interessante a proposito di questo:

https://www.lescienze.it/news/2007/...nternet-582393/

https://www.pnas.org/doi/epdf/10.1073/pnas.0701175104

I ricercatori hanno studiato il motivo per cui internet non e' "democratica" come tutti si aspettavano ma, come dici tu, ci sono pochi nodi importantissimi (come Google, ma loro ne contavano un centinaio quando l'articolo e' uscito nel 2007)

Hanno provato a creare dei grafi casuali inserendo nelle regole di crescita quelle che credevano fossero quelle che usava la rete internet, ma avevano sempre dei grafi uniformi, senza l'apparizione di grossi nodi come quello di Google. Poi hanno inserito la variabile tempo, e hanno scoperto che in questo modo cominciavano a spuntare i grossi nodi che accentravano gran parte dei pesi del grafo. In pratica non solo nodi come google devono essere progettati per connettersi velocemente con tutti gli altri, ma devono spuntare anche prima degli altri. E un riscontro reale del genere l'abbiamo visto con i social: dopo l'esplosione di Facebook, sono spuntati un sacco di altri servizi web che dovevano fargli concorrenza (qualcuno ricorda che ci provo' pure Google stessa?) ma, anche se erano progettati per avere le stesse connessioni, sono arrivati dopo nel tempo, quindi non hanno fatto in tempo ad affermarsi. Analogamente quando e' spuntato instagram, e piu' recentemente con TikTok. Sono social di tipo diverso, hanno in comune il fatto di dover creare per il loro successo moltissime connessioni in poco tempo, e dopo il successo di TikTok altri colossi, da Meta a Google hanno provato a fare concorrenza ma non raggiungono gli stessi numeri.

Per diventare un nodo centrale quindi devi essere non solo in grado di fornire un servizio che risponde ad un bisogno (vero o presunto) richiesto da milioni/miliardi di persone, ma devi arrivare pure prima degli altri, altrimenti non riesci ad affermarti; quindi spuntano grossissimi nodi che connettono gran parte della rete, ma in genere non si fanno concorrenza fra di loro.

In pratica questo articolo spiega perche' e' vero quello che dici tu.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^