Perché il web ieri è crollato: come il DNS ha messo in ginocchio internet

Perché il web ieri è crollato: come il DNS ha messo in ginocchio internet

Un guasto al Domain Name System (DNS) ha paralizzato numerosi servizi online ed evidenziato la fragilità delle infrastrutture digitali. Ecco cosa è successo e come le aziende possono proteggersi da futuri disastri analoghi

di pubblicata il , alle 16:15 nel canale Web
AWS
 

Nel corso della giornata di ieri, un errore nel Domain Name System (DNS) ha causato un'interruzione di massa dei servizi online e ha messo in evidenza la dipendenza critica dalle infrastrutture digitali, come abbiamo già visto qui.

Cosa è successo?

Il problema, verificatosi nel data center di Amazon Web Services ubicato nella regione US East 1, ha impedito l'accesso a numerosi servizi popolari, tra cui Snapchat, Signal, Roblox e Fortnite. La causa principale è stata un errore nel DNS, il sistema che traduce i nomi dei siti web in indirizzi IP, che ha reso impossibile per gli utenti raggiungere le loro destinazioni online. Viene spiegato molto chiaramente sul canale Dave's Garage di YouTube.

Il data center in questione si trova in Virginia ed è un sito già noto per precedenti problemi di stabilità. AWS ha spiegato che la causa principale risiedeva in un sottosistema di monitoraggio della salute dei network load balancer, elemento chiave nella distribuzione del traffico tra i server. Il malfunzionamento ha quindi provocato l'errore nel Domain Name System (DNS) e impedito ai software di individuare correttamente gli indirizzi dei servizi come DynamoDB, database utilizzato per la gestione dei dati utente e delle operazioni in tempo reale.

Il problema si è poi propagato rapidamente dal data center AWS US-EAST-1 in Virginia a gran parte del web a causa della struttura centralizzata e interconnessa dei servizi cloud.

AWS ospita milioni di applicazioni e processi informatici per aziende di ogni dimensione. Quando nel data center della Virginia — uno dei più grandi e più usati al mondo — si è verificato il guasto al sottosistema di monitoraggio dei network load balancer, l’effetto domino è stato quasi immediato.

Il malfunzionamento ha coinvolto il Domain Name System (DNS) interno, il sistema che traduce i nomi dei servizi (come "api.aws.com") negli indirizzi IP reali dei server. In pratica, molte applicazioni non riuscivano più a "trovare" i server di cui avevano bisogno per funzionare, generando errori e blocchi.

Poiché US-EAST-1 è la regione predefinita per moltissimi servizi AWS — tra cui database come DynamoDB, funzioni serverless e istanze EC2 — numerose aziende di tutto il mondo vi fanno affidamento, anche per funzioni critiche. Quando questo nodo è andato in tilt, l'interruzione si è propagata a cascata verso servizi e applicazioni che dipendevano da esso, fino a bloccare piattaforme di social media, giochi online, sistemi di pagamento e siti aziendali.

In sostanza, un singolo punto di vulnerabilità in una delle infrastrutture più centrali di AWS ha avuto effetti globali, e ha evidenziato quanto il web moderno dipenda da pochi grandi centri dati per il funzionamento quotidiano di Internet.

L'evento, inoltre, ha sottolineato l'importanza di progettare sistemi resilienti e di praticare regolarmente il failover, ovvero il passaggio automatico a un sistema di backup in caso di guasto. Il ripristino totale dei servizi è stato confermato intorno alla mezzanotte italiana, anche se alcune piattaforme come AWS Config, Redshift e Connect hanno impiegato alcune ore per smaltire le code di messaggi accumulati durante l'interruzione.

L'episodio ha così riportato l'attenzione sull’importanza di una maggiore resilienza infrastrutturale e sulla necessità di distribuire i carichi di lavoro tra più provider cloud per evitare che un singolo guasto possa paralizzare servizi digitali su scala globale. Per evitare simili disastri, le aziende dovrebbero considerare la diversificazione dei fornitori di servizi cloud e la progettazione di sistemi multi-regione. La resilienza non è solo una caratteristica tecnica, ma un processo continuo che richiede test e simulazioni regolari.

L'incidente serve da monito per l'intero settore tecnologico e sottolinea la necessità di una maggiore attenzione alla stabilità e alla ridondanza delle infrastrutture digitali.

13 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
gd350turbo21 Ottobre 2025, 16:27 #1
[I]
"Based on our investigation, the issue appears to be related to DNS resolution of the DynamoDB API endpoint in US-EAST-1," said the company in an update.
[/I]

Bè un gigante come AWS che va in crisi per un dns ?
Unrue21 Ottobre 2025, 16:34 #2
Questo la dice lunga su quanto dipendiamo dagli USA. Molto, ma molto più di quanto si immagini.
giovanni6921 Ottobre 2025, 17:09 #3
E quella 'Langley' è in... Virginia
djmatrix61921 Ottobre 2025, 18:03 #4
Originariamente inviato da: Unrue
Questo la dice lunga su quanto dipendiamo dagli USA. Molto, ma molto più di quanto si immagini.


E lo saremo sempre di più, anno dopo anno, visto gli ultimi andazzi...
pachainti21 Ottobre 2025, 18:25 #5
Originariamente inviato da: gd350turbo
[I]
"Based on our investigation, the issue appears to be related to DNS resolution of the DynamoDB API endpoint in US-EAST-1," said the company in an update.
[/I]

Bè un gigante come AWS che va in crisi per un dns ?


Già sembra molto strano...e se invece dipendesse da questo? Chissà almeno il tempismo sembra perfetto.
rickycap21 Ottobre 2025, 20:36 #6
Originariamente inviato da: pachainti
Già sembra molto strano...e se invece dipendesse da questo? Chissà almeno il tempismo sembra perfetto.


Si dice che questo abbia ritardato il troubleshooting - meno esperti senior, maggior lentezza nell'individuare correttamente il problema.
Wikkle21 Ottobre 2025, 21:16 #7
AWS è il male del web... un po' come cloudflare
xarz321 Ottobre 2025, 22:31 #8
Originariamente inviato da: pachainti
Già sembra molto strano...e se invece dipendesse da questo? Chissà almeno il tempismo sembra perfetto.


Lol in AWS non si usa terraform, si usa cdk, e pure kubernetes è molto raro. Quell articolo è monnezza.

Detto questo, i layoffs portano a rischi, ma non immediati. Il vero problema è quando spingi alla porta direttamente o indirettamente la gente che sa come funzionano i sistemi, prima o poi qualcuno farà qualche cavolata per errore. Un outage globale è a un solo click di distanza da una console per manipolare i record dns, se hai i permessi giusti
r134822 Ottobre 2025, 01:01 #9
Originariamente inviato da: pachainti
Già sembra molto strano...e se invece dipendesse da questo? Chissà almeno il tempismo sembra perfetto.


Fake news, stanno cercando di venderti dei servizi AI.

Posso assicurarti che non c'è stato nessun licenziamento di massa lunedì.

P.S. sono un dipendente AWS.
pachainti22 Ottobre 2025, 07:41 #10
Originariamente inviato da: r1348
Fake news, stanno cercando di venderti dei servizi AI.

Posso assicurarti che non c'è stato nessun licenziamento di massa lunedì.

P.S. sono un dipendente AWS.


Meglio cosi, sia per loro/voi sia per la presunta IA

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^