PDA

View Full Version : WhatsApp, Facebook e Instagram down per oltre 6 ore! Cosa è successo e qual è stata la causa?


Redazione di Hardware Upg
05-10-2021, 09:48
Link alla notizia: https://www.hwupgrade.it/news/web/whatsapp-facebook-e-instagram-down-per-oltre-6-ore-cosa-e-successo-e-qual-e-stata-la-causa_101267.html

Quello registrato dai servizi di Facebook nelle ultime ore è un down totale e globale che ha pochi precedenti. Oltre 6 ore di blocco che hanno messo in ginocchio tutti i servizi di Menlo Park. Ma a cosa è successo e cosa ha causato il down? Ecco la spiegazione ufficiale.

Click sul link per visualizzare la notizia.

jepessen
05-10-2021, 10:00
"Massi', e' solo una piccola modifica, non c'e' bisogno di testarla, andiamo direttamente in produzione"...

Mi stupisce piuttosto che la cosa sia stata gestita come un single point of failure... Non e' tanto un discorso di ridondanza dei dispositivi, quando l'idea di voler aggiornare tutto di botto, senza farlo ad incrementi sulle varie macchine, in maniera tale che se qualcosa va storto nell'aggiornamento comunque ci sono le altre che comunque funzionano...

Ma e' anche vero che di queste cose io sono nel picco del diagramma di Dunning-Kruger, quindi ci sara' una barcata di roba che non conosco a riguardo... Certo che non deve essere stata una bella esperienza per chi ha pigiato il bottone...

supermario
05-10-2021, 10:14
ecco un'altro che non sa minimamente cosa siano BGP e routing e fa un parallelo con il deploy di un css per un sito internet

tony73
05-10-2021, 10:18
Sono convinto che qualcuno ieri abbia seriamente pensato al suicidio, deve essere stato un DRAMMA per i tossici da social :D

Saturn
05-10-2021, 10:19
Certo che non deve essere stata una bella esperienza per chi ha pigiato il bottone...

Hai presente Fantozzi ? Ecco Zucckonbergo gli avrà fatto fare la stessa fine...

https://thumbs.gfycat.com/RealMedicalHarrier-size_restricted.gif

...peccato che sia stato "solo" questo il problema. Sarebbe stato meraviglioso se invece avessero tritato tutti i dati - whatsapp, facebook, tutto...tabula rasa...backup compresi !

Tanta gente si sarebbe risvegliata e sarebbe tornata ad interagire con il prossimo in maniera degna. Ma ormai non si torna indietro. Spero che certi individui però si rendano conto che spipettare nei social mentre si è alla guida può portare loro e il prossimo al camposanto. :muro:

Sono convinto che qualcuno ieri abbia seriamente pensato al suicidio, deve essere stato un DRAMMA per i tossici da social :D

Anche per loro c'è il direttore giusto da Fantozzi....VISCONTE COBRAM !!!

Quello che gli facevano pena e schifo gli impiegati che usciti dal lavoro tornavano a casa invece di farsi una bella sgambata fuori città !

...A PINEROLO !!! :D

ivanohw
05-10-2021, 10:23
Siamo stati attaccati dalla CInA

GuardaKeTipo
05-10-2021, 10:24
Sono totalmente ignorante in materia, ma questo "qualcuno", che è andato fisicamente al Data Center, ha praticamente hackerato il sistema per accedervi... o ha utilizzato una sorta di backdoor che egli stesso magari aveva creato anni fa?

Saturn
05-10-2021, 10:24
Siamo stati attaccati dalla CInA

Ancora ?!? Son senza pietà, la pandemia non gli è bastata ?!? :asd:

Cfranco
05-10-2021, 10:29
"Massi', e' solo una piccola modifica, non c'e' bisogno di testarla, andiamo direttamente in produzione"...

Le modifiche di questo tipo si fanno solo in produzione, non esiste e non può esistere un ambiente di test, e sono puntuali, quindi quando la fai interessa tutto il traffico, non ci sono alternative.

Quello però che trovo assurdo è che abbiano legato qualsiasi operatività ai sistemi di Facebook, così se per caso vanno a ramengo non puoi collegarti ai server per sistemare le cose.
In teoria dovrebbe essere previsto un sistema alternativo e slegato per l' accesso proprio nel caso in cui il sistema principale sia down, ma metterlo dietro a una porta che richiede che il sistema sia funzionante non è esattamente una idea brillante.

Cfranco
05-10-2021, 10:33
Sono totalmente ignorante in materia, ma questo "qualcuno", che è andato fisicamente al Data Center, ha praticamente hackerato il sistema per accedervi... o ha utilizzato una sorta di backdoor che egli stesso magari aveva creato anni fa?

Credo che una porta costi molto meno di 5 minuti di down per Facebook
https://upload.wikimedia.org/wikipedia/commons/thumb/8/81/US_Army_CID_raid.jpg/220px-US_Army_CID_raid.jpg

GoFoxes
05-10-2021, 10:35
Lo so ora che son stati giù :asd:

s-y
05-10-2021, 10:42
sono fuori dal 'giro' da un pò ma tra bgp 'rotto' e tempi non immediati per ripristinare mi tornano in mente le svariate ore (fortunatamente capitava una volta ogni tanto) a caccia delle maledette 'rotte fantasma' che uscivano (e entravano...) dalle fottute pareti :cry:

aqua84
05-10-2021, 11:01
va bè dai...
alla fine sono state appena 6 ore, e parliamo di Facebook/Instagram/Whatsapp, non di blackout totale degli ospedali a livello mondiale!

per carità ci avrà magari rimesso qualcosa Zuckerberg e qualcun altro, ma il resto del mondo non credo abbia patito piu di tanto. (anzi)

che dire, tutta esperienza.
sicuramente gli servirà di lezione per cambiare alcune cose e non ripeterlo nuovamente.

bancodeipugni
05-10-2021, 11:20
bho... a me me sa na frottola... :mbe:

Saturn
05-10-2021, 11:22
va bè dai...
alla fine sono state appena 6 ore, e parliamo di Facebook/Instagram/Whatsapp, non di blackout totale degli ospedali a livello mondiale!

per carità ci avrà magari rimesso qualcosa Zuckerberg e qualcun altro, ma il resto del mondo non credo abbia patito piu di tanto. (anzi)

che dire, tutta esperienza.
sicuramente gli servirà di lezione per cambiare alcune cose e non ripeterlo nuovamente.

Vedrai che ora avranno capito che, almeno per entrare in ufficio, è meglio tenere almeno una porta con la classica "maniglia analogica" e chiave di ferro...:asd:

Lanfi
05-10-2021, 11:34
Quello però che trovo assurdo è che abbiano legato qualsiasi operatività ai sistemi di Facebook, così se per caso vanno a ramengo non puoi collegarti ai server per sistemare le cose.
In teoria dovrebbe essere previsto un sistema alternativo e slegato per l' accesso proprio nel caso in cui il sistema principale sia down, ma metterlo dietro a una porta che richiede che il sistema sia funzionante non è esattamente una idea brillante.

Dal basso della mia ignoranza è proprio questo che mi lascia più stupito. Cioè a leggere la loro nota pare di capire che tutto ciò che riguarda facebook, dal social network vero e proprio al meccanismo che apre la porta della sala server a Menlo Park faccia parte di un unico sistema centralizzato.

Non mi pare una grande idea.

voodooFX
05-10-2021, 11:39
questa è la mia parte preferita dell'analisi di cloudflare


But that's not all. Now human behavior and application logic kicks in and causes another exponential effect. A tsunami of additional DNS traffic follows.

This happened in part because apps won't accept an error for an answer and start retrying, sometimes aggressively, and in part because end-users also won't take an error for an answer and start reloading the pages, or killing and relaunching their apps, sometimes also aggressively.

This is the traffic increase (in number of requests) that we saw on 1.1.1.1:


https://blog.cloudflare.com/content/images/2021/10/image6-9.png

La gente che rifiuta la possibilità che fb/ig/wa siano down e continua a riprovare e rilanciare le app :rotfl: :rotfl: :rotfl:

s-y
05-10-2021, 11:45
eh, che sarebbe il comportamento gestito dal bcp (borderline compulsive protocol)
...che invece funziona perfettamente...

WarSide
05-10-2021, 12:51
ecco un'altro che non sa minimamente cosa siano BGP e routing e fa un parallelo con il deploy di un css per un sito internet

+1

bho... a me me sa na frottola... :mbe:

Devo dire che questo down è stato utile. Adesso so come si sentono virologi & Co da 1 anno a questa parte. Tra complottisti et similia che non ne capiscono niente, sparlano e sputano sentenze, è la fiera dell'ignoranza :doh: :doh: :doh:

WarSide
05-10-2021, 12:53
Credo che una porta costi molto meno di 5 minuti di down per Facebook
https://upload.wikimedia.org/wikipedia/commons/thumb/8/81/US_Army_CID_raid.jpg/220px-US_Army_CID_raid.jpg

Eh, direi proprio di no.

1h di down = 10M$ di revenue persi.

Una porta non credo costi 830.000$ :D

nidecker
05-10-2021, 13:02
Risoluzione che, secondo le ultime indiscrezioni, sembra sia addirittura arrivata grazie al viaggio di chi sapeva dove mettere le mani nel data center.


:confused: :confused: :confused:
:confused: :confused:
:confused:
:mbe:

lagunare
05-10-2021, 23:08
Dal basso della mia ignoranza è proprio questo che mi lascia più stupito. Cioè a leggere la loro nota pare di capire che tutto ciò che riguarda facebook, dal social network vero e proprio al meccanismo che apre la porta della sala server a Menlo Park faccia parte di un unico sistema centralizzato.

Non mi pare una grande idea.

Sai tenere al sicuro cose che non si possono controllare personalmente è sempre difficile…

Qarboz
06-10-2021, 20:32
Le modifiche di questo tipo si fanno solo in produzione, non esiste e non può esistere un ambiente di test, e sono puntuali, quindi quando la fai interessa tutto il traffico, non ci sono alternative.
Premetto che sono completamente ignorante in materia, basta dire che fino a mezz'ora fa non sapevo neanche l'esistenza del BGP, e che comunque non ne ho capito lo scopo (farò una qualche ricerca nei prossimi giorni, quando avrò un po' di tempo).
Non è fattibile inserire un sw/script/quel che è che faccia da watchdog? P.es se entro mezz'ora (o comunque un tempo congruo) dalla modifica non riceve nessun input da remoto, anche solo una conferma da un operatore, riporta tutto allo stato precedente della modifica?


Quello però che trovo assurdo è che abbiano legato qualsiasi operatività ai sistemi di Facebook, così se per caso vanno a ramengo non puoi collegarti ai server per sistemare le cose.
In teoria dovrebbe essere previsto un sistema alternativo e slegato per l' accesso proprio nel caso in cui il sistema principale sia down, ma metterlo dietro a una porta che richiede che il sistema sia funzionante non è esattamente una idea brillante.
Anche per me è assurdo... Ok il controllo accessi da remoto, ma un minimo di operatività offline dovrebbero averla, IMHO

gsorrentino
06-10-2021, 22:06
Non è fattibile inserire un sw/script/quel che è che faccia da watchdog? P.es se entro mezz'ora (o comunque un tempo congruo) dalla modifica non riceve nessun input da remoto, anche solo una conferma da un operatore, riporta tutto allo stato precedente della modifica?

No perché magari partirebbe anche a fronte di altri malfunzionamenti.
E' possibile tornare indietro, basta ricaricare un backup della configurazione...ma se non ci puoi arrivare da remoto devi andare sul posto e attaccarti con il cavo seriale al dispositivo.

Tempo fa in una sede remota hanno dovuto cambiare la configurazione degli switch e dei router per il collegamento alla sede principale.
Per evitare un caso come questo e, visto che nel ced remoto non funzionavano i cellulari, sono dovuto andare con il portatile, collegare il cavo seriale del dispositivo principale e collegare la presa di rete del PC direttamente al router internet del provider, poi aprire Teamviewer in modo che se fosse saltato tutto dalla sede potessero arrivare agli switch.

Anche per me è assurdo... Ok il controllo accessi da remoto, ma un minimo di operatività offline dovrebbero averla, IMHO

Normalmente solo sul PC, perché se l'autentica della rete/dominio (che nelle grandi rete prevede tutta una serie di protocolli e certificati) è fuori uso non vai da nessuna altra parte.

Qarboz
07-10-2021, 07:56
No perché magari partirebbe anche a fronte di altri malfunzionamenti.
E' possibile tornare indietro, basta ricaricare un backup della configurazione...ma se non ci puoi arrivare da remoto devi andare sul posto e attaccarti con il cavo seriale al dispositivo.
Intendevo una cosa un po' diversa, e cioè un watchdog che viene attivato dall'operatore quando scarica un aggiornamento, e se questo va a buon fine viene disattivato sempre dall'operatore. Ma se ci sono dei problemi che rendono impossibile raggiungere la macchina (come in questo caso), scaduto il tempo del watchdog viene ripristinata la situazione precedente. Ripeto che non sono un sistemista, ma credo sia possibile implementare routine che facciano questo.




Normalmente solo sul PC, perché se l'autentica della rete/dominio (che nelle grandi rete prevede tutta una serie di protocolli e certificati) è fuori uso non vai da nessuna altra parte.
Intendevo il controllo degli accessi fisici ai locali dei server, che sia tramite badge, PIN, lettori biometrici, ecc. IMHO dovrebbero avere in memoria una serie di codici autorizzati attivi anche (o solo) in mancanza di connettività

mrk-cj94
07-10-2021, 13:44
va bè dai...
alla fine sono state appena 6 ore, e parliamo di Facebook/Instagram/Whatsapp, non di blackout totale degli ospedali a livello mondiale!

per carità ci avrà magari rimesso qualcosa Zuckerberg e qualcun altro, ma il resto del mondo non credo abbia patito piu di tanto. (anzi)

che dire, tutta esperienza.
sicuramente gli servirà di lezione per cambiare alcune cose e non ripeterlo nuovamente.

whatsapp viene usato anche dalle aziende (whatsapp business anyone?) per comunicazioni coi clienti o anche interne..

"si può sempre fare una telefonata o mandare un sms" non è una soluzione, certi clienti han provato a scriverti senza successo e hai perso delle vendite (per colpe loro e di zuck ovviamente, però i numeri ne risentono)

gsorrentino
04-11-2021, 15:24
Intendevo una cosa un po' diversa, e cioè un watchdog che viene attivato dall'operatore quando scarica un aggiornamento, e se questo va a buon fine viene disattivato sempre dall'operatore. Ma se ci sono dei problemi che rendono impossibile raggiungere la macchina (come in questo caso), scaduto il tempo del watchdog viene ripristinata la situazione precedente. Ripeto che non sono un sistemista, ma credo sia possibile implementare routine che facciano questo.

Il problema potrebbe nascere anche qualche ora dopo.
A quel punto il watchdog non ci sarebbe.

Intendevo il controllo degli accessi fisici ai locali dei server, che sia tramite badge, PIN, lettori biometrici, ecc. IMHO dovrebbero avere in memoria una serie di codici autorizzati attivi anche (o solo) in mancanza di connettività

Sui sistemi più terra terra è come dici.
Paradossalmente più il sistema è sicuro più questo non può essere.
Esempio: Non devo più avere accesso, ma nel frattempo ho scollegato il sistema. In questo caso il mio badge, pur essendo annullato, mi permetterebbe di entrare e fare danni.

Di norma si lascia una specie di accesso speciale, ma che appunto essendo molto speciale è in mano ad una sola persona o protetto da altri sistemi
(ad esempio un badge speciale protetto in una cassaforte con doppio codice di apertura in mano a due persone distinte).