PDA

View Full Version : Il data center di Francoforte di AWS ha problemi, EC2 finisce down per ore


Redazione di Hardware Upg
11-06-2021, 17:11
Link alla notizia: https://edge9.hwupgrade.it/news/public-cloud/il-data-center-di-francoforte-di-aws-ha-problemi-ec2-finisce-down-per-ore_98452.html

Il data center di AWS situato a Francoforte ha avuto problemi nella notte: una serie di malfunzionamenti, iniziata con un guasto nell'impianto di condizionamento, ha causato lo spegnimento dei server delle istanze EC2

Click sul link per visualizzare la notizia.

Notturnia
11-06-2021, 17:27
mi pare che ultimamente le infrastrutture internet stiano mostrando tutti i difetti del mondo via-cloud..

fra attacchi di hacker e problemi o errori di configurazione è un mezzo disastro..

matrix83
11-06-2021, 17:30
mi pare che ultimamente le infrastrutture internet stiano mostrando tutti i difetti del mondo via-cloud..

fra attacchi di hacker e problemi o errori di configurazione è un mezzo disastro..
Come al solito chi è andato down è perchè non aveva sistemi replicati come si dovrebbe fare. Qua il cloud non c'entra, non c'era nulla di cloud nei servizi andati down. Il cloud è solo un modo più carino per indicare un server online.
Poi se tu su AWS non imposti failover e replicazione dei dati è un problema tuo, non del servizio.

turcone
11-06-2021, 17:48
mi pare che ultimamente le infrastrutture internet stiano mostrando tutti i difetti del mondo via-cloud..

fra attacchi di hacker e problemi o errori di configurazione è un mezzo disastro..

ci sono sempre state le interruzioni solo che non venivano pubblicizzate come adesso ....
se guardi i dati vedi che quasi tutti i grossi servizi di cloud hanno 99.9999% di uptime la sfiga è quando quello 0.00001% capita contemporaneamente su più server e la succedono i disastri

giovanni69
11-06-2021, 20:09
99.9999%... ahahha... solo teoria... vorrebbe dire 31.6 secondi di inattività media annua. :O

Se nella notte avessero perso tra allarmi, incendio, pompieri, ecc. anche solo 8h e 46' (31560 secs) , sono scesi al 99.9%, ovvero quasi 1000 ordini di grandezza :mc: .

\_Davide_/
11-06-2021, 20:30
Se nella notte avessero perso tra allarmi, incendio, pompieri, ecc. anche solo 8h e 46' (31560 secs) , sono scesi al 99.9%, ovvero quasi 1000 ordini di grandezza :mc: .

Sì, ma la percentuale la dichiarano sull'intero sistema: se butti dentro tutti gli altri server di AWS che sono rimasti online rientri.

Il problema, assurdo, è un altro:
- Il sistema antincendio non doveva attivarsi.
- I sistemi di AC nelle sale sono sempre ALMENO 3, indipendenti, e con 2 si deve potere lavorare comunque.
- Passati i 27°C doveva attivarsi un allarme, le macchine funzionano almeno fino a 35°C senza problemi.
- Durante questo lasso di tempo si dovrebbe attivare la ventilazione forzata verso l'esterno che non fa salire la temperatura oltre i 35°C.

Quindi o hanno gravi problemi di progettazione (dubito) oppure è successo qualcos altro.

giovanni69
11-06-2021, 20:36
Grazie \_Davide_/
Ma come fai a rientrare nel 99.9xxx se poi ammetti 'interruzione nei servizi EC2, RDS, CloudFormation, Kinesis Data Streams e Kinesis Firehose dell'azienda"? Vuol dire che qualcosa a livello di ridondanza non ha funzionato.

Altrimenti è come dire che se una macelleria ha il S. Daniele che questa mattina è andato da male, è irrilevante perchè tutto il resto del consorzio S. Daniele non ha problemi. Ma chi è in quella macelleria, in quel momento, frega poco del resto del consorzio sia al di là che al di qua del banco....:ops:

Forse è successo altro e per ora non è il caso di dirlo.

Notturnia
11-06-2021, 21:26
ripeto.. a me pare che ci siano sempre più disservizi.. e non perchè le pubblicizzano ma perchè la gente le usa di più e arrivano al pettine i nodi

\_Davide_/
12-06-2021, 13:15
Grazie \_Davide_/
Ma come fai a rientrare nel 99.9xxx se poi ammetti 'interruzione nei servizi EC2, RDS, CloudFormation, Kinesis Data Streams e Kinesis Firehose dell'azienda"? Vuol dire che qualcosa a livello di ridondanza non ha funzionato.

Altrimenti è come dire che se una macelleria ha il S. Daniele che questa mattina è andato da male, è irrilevante perchè tutto il resto del consorzio S. Daniele non ha problemi. Ma chi è in quella macelleria, in quel momento, frega poco del resto del consorzio sia al di là che al di qua del banco....:ops:

Esatto: siccome loro dichiarano la "disponibilità totale di S. Daniele" se una sola macelleria non lo fornisce a livello globale è comunque un up del 99,999%

La ridondanza costa tantissimo e non è così banale come si crede ;)

Brajang
12-06-2021, 14:15
Appena inizi ad avere a che fare con AWS ti viene fatto notare come la buona prassi sia creare il tuo VPC su almeno 2 Availability Zone all'interno di una Region.

Rispettando questa regola, utente X, neanche si sarebbe accorto del disservizio.
Che senso ha usare provider Cloud come AWS se poi ragioni come negli 90?

\_Davide_/
12-06-2021, 14:37
Appena inizi ad avere a che fare con AWS ti viene fatto notare come la buona prassi sia creare il tuo VPC su almeno 2 Availability Zone all'interno di una Region.

Forse non hai letto: i servizi che sono andati giù sono di Amazon, dell'host, non dei clienti :rotfl:

Per quello dicevo che deve esserci altro dietro che giustamente non viene sbandierato.

Brajang
12-06-2021, 15:02
Forse non hai letto: i servizi che sono andati giù sono di Amazon, dell'host, non dei clienti :rotfl:

Per quello dicevo che deve esserci altro dietro che giustamente non viene sbandierato.

Mi riferivo a chi parlava dei nodi che vengono al pettine riguardo all'approccio Cloud.

Immagino che i servizi che sono andati down, siano sempre riferiti a quella specifica availability zone, che ci sta dato quello che è successo.

giovanni69
12-06-2021, 15:13
Esatto: siccome loro dichiarano la "disponibilità totale di S. Daniele" se una sola macelleria non lo fornisce a livello globale è comunque un up del 99,999%

La ridondanza costa tantissimo e non è così banale come si crede ;)

Bene, allora possiamo dire che quel 99.9999% è pia illusione perchè come si dice, la fortuna è cieca ma la sfiga ci vede benissimo....:tie: e se la ridondanza è costosa poi sono i tecnici IT a dover capire i contratti che gli AD vanno a firmare (vedi casino OVH).

\_Davide_/
12-06-2021, 16:03
Mi riferivo a chi parlava dei nodi che vengono al pettine riguardo all'approccio Cloud.

Immagino che i servizi che sono andati down, siano sempre riferiti a quella specifica availability zone, che ci sta dato quello che è successo.

Sì sì certo, poi resta da capire perché non erano in ridondanza (magari non era necessaria).

Alla fine il cloud almeno sotto quell'aspetto tende a essere più sicuro, poi se resti senza internet (e succede molto spesso da quanto vedo) ti si ferma tutto e buon divertimento :D

Bene, allora possiamo dire che quel 99.9999% è pia illusione perchè come si dice, la fortuna è cieca ma la sfiga ci vede benissimo....:tie: e se la ridondanza è costosa poi sono i tecnici IT a dover capire i contratti che gli AD vanno a firmare (vedi casino OVH).

Esatto, è un po' come la pubblicità della Mercedes a 90€ al mese :asd:

zappy
12-06-2021, 16:05
...
- Durante questo lasso di tempo si dovrebbe attivare la ventilazione forzata verso l'esterno che non fa salire la temperatura oltre i 35°C.

i server a 35° si scassano? :confused:

\_Davide_/
12-06-2021, 16:42
i server a 35° si scassano? :confused:

Assolutamente no, ma vanno in errore (tra 35 e 40°C di temperatura ambiente, non dei componenti, hanno uno o più sensori) e in base a come sono configurati possono spegnersi.

Server danneggiati per alte temperature non ne ho mai visti, solo alcune schede di rete 10+ Gbit base t con la ventolina integrata rotta (per forza di cose)...

zappy
12-06-2021, 16:46
Assolutamente no, ma vanno in errore (tra 35 e 40°C di temperatura ambiente, non dei componenti, hanno uno o più sensori) e in base a come sono configurati possono spegnersi...
ah, beh, si giusto...
a sto punto non conviene un raffreddamento ad acqua?

\_Davide_/
12-06-2021, 18:28
ah, beh, si giusto...
a sto punto non conviene un raffreddamento ad acqua?

No perché nei DC di solito non si passano i 22°C, neanche con un impianto AC fermo, quindi quella ad aria è più che sufficiente...

!fazz
13-06-2021, 06:16
Appena inizi ad avere a che fare con AWS ti viene fatto notare come la buona prassi sia creare il tuo VPC su almeno 2 Availability Zone all'interno di una Region.

Rispettando questa regola, utente X, neanche si sarebbe accorto del disservizio.
Che senso ha usare provider Cloud come AWS se poi ragioni come negli 90?

dipende per cosa usi aws, ci sono mille motivi ( di cui 999 economici) per decidere di non fare HA (l'importante è essere consci del fatto ed accettare il down)

noi ad esempio abbiamo una tonnellata di istanze ec2 e relativi s3 senza HA proprio su francoforte ma sono macchine corazzatissime (sono delle P2) che usiamo per gestire i picchi di lavoro nei training delle AI e sono macchine che mi costano, quando in uso, migliaia di dollari al mese; domani dovrò controllare se è andato giù qualcosa e nel caso ritirare su tutto: e al massimo quello che ho perso sono 24 ore di elaborazione e solo perchè oggi è domenica :D

danylo
13-06-2021, 11:51
> il sistema di soppressione degli incendi che si è attivato rimane disabilitato
Hanno fatto la stessa cosa al Mottarone: disabilitiamo i freni di emergenza

xarz3
13-06-2021, 13:49
> il sistema di soppressione degli incendi che si è attivato rimane disabilitato
Hanno fatto la stessa cosa al Mottarone: disabilitiamo i freni di emergenza

Ma che c'entra?
Hanno disabilitato un impianto antincendio che rimuove ossigeno dalla sala server perche è partito senza fumo, mi pare una scelta del tutto sensata. Se si riattiva nessuno può rientrare in sala server fintanto che non viene riossigenata, il rischio di lasciarlo acceso è enorme

\_Davide_/
13-06-2021, 14:06
Ma sì, infatti, in più c'è da fare notare che in tante realtà il sistema si disattiva di default quando qualcuno è all'interno della sala.

Inoltre, una volta attivato, finché non si sostituiscono le bombole il sistema non può più essere usato.

Anche qui comunque mi sembra assurdo che sia partito a basse temperature e senza fumo...

turcone
14-06-2021, 09:14
99.9999%... ahahha... solo teoria... vorrebbe dire 31.6 secondi di inattività media annua. :O

Se nella notte avessero perso tra allarmi, incendio, pompieri, ecc. anche solo 8h e 46' (31560 secs) , sono scesi al 99.9%, ovvero quasi 1000 ordini di grandezza :mc: .

premetto che non so come calcolano il valore di 99.9999% ma mi pare strano che sia riferito a tutti i server singolarmente penso che sia più un valore statistico tipo : ho 1000 server lavorano statisticamente 1000 ore all'anno e moltiplico 1000 per 1000 e da li ricavo il valore di 99.9999 che sarebbe un'ora all'anno sull'utilizzo reale dei server considerato come gruppo di server non il singolo server un pò come viene fatto per gli hard disk