Disservizio di Amazon Web Services: la causa è un errore umano
Un comando impartito male ha mandato offline un numero di server maggiore del previsto durante un intervento di debug. La società si scusa e modifica alcune pratiche operative per evitare il ripetersi dell'errore in futuro
di Andrea Bai pubblicata il 03 Marzo 2017, alle 17:15 nel canale WebAmazon
Amazon Web Services ha fatto sapere che il disservizio dei giorni scorsi che ha compromesso l'operatività di vari siti web è stato causato da un errore umano. Nessun attaco, quindi, nessuna "prova di tenuta" andata male: un semplice comando impartito male.
"Siamo orgogliosi del nostro lungo record di disponibilità di Amazon S3 e sappiamo quanto critico sia questo servizio per i nostri clienti, le loro applicazioni e gli utenti finali, e il loro business. Faremo tutto quello che possiamo per imparare da quanto accaduto, usando questo evento per migliorare ancor di più la nostra disponibilità" ha fatto sapere la società.
Questo quanto accaduto: il team di Amazon Simple Storage Service (S3) si stava occupando del debug di un problema che stava rallentando le operazioni del sistema di billing di S3. Alle ore 12:37 un membro autorizzato del team ha eseguito un comando allo scopo di rimuovere un piccolo numero di server per uno dei sottosistemi di S3 usati per il processo di billing. Uno dei comandi è stato inserito in maniera non corretta, causando quindi la rimozione di un numero di server significativamente maggiore di quanto voluto.
AWS specifica: "La rimozione di capacità è una pratica operativa chiave, ma in questo caso lo strumento utilizzato ci ha permesso di rimuovere troppa capacità in maniera troppo rapida. Abbiamo modificato lo strumento così da rimuovere capacità più lentamente e abbiamo aggiunto alcune misure di sicurezza per evitare di rimuovere capacità quando porterebbe qualsiasi sistema al di sotto dei requisiti minimi essenziali per il corretto funzionamento".
La società ha inoltre osservato che gli ingegneri stanno valutando altri strumenti operativi per assicurare che possano avere sistemi di sicurezza simili. "Stiamo inoltre apportando alcuni cambiamenti affinché sia possibile migliorare il tempo di recupero di sottosistemi S3 chiave" fa sapere la società, che si scusa per quanto causato nei giorni scorsi.










Wind Tre 'accende' il 5G Standalone in Italia: si apre una nuova era basata sui servizi
OPPO Find X9 Pro: il camera phone con teleobiettivo da 200MP e batteria da 7500 mAh
DJI Romo, il robot aspirapolvere tutto trasparente
Google Maps avrà una modalità a risparmio energetico con un design minimalista
HONOR sta lavorando a uno smartphone con batteria da 10.000 mAh
Thermaltake MAGFloe 360 Ultra ARGB Sync: raffreddamento AIO e display LCD da 3,95 pollici
Xiaomi 15T ora in super offerta su Amazon per tutti: 12+256GB e fotocamera Leica a 499€
Si stringe il cerchio attorno a TP-Link negli USA: vicino il ban per motivi di sicurezza nazionale
Amazon cambia i prezzi ancora una volta: scende un po' tutto e il meglio lo trovate con questi 23 articoli
Dyson OnTrac in super offerta su Amazon: le nuove cuffie wireless con ANC a metà prezzo, ora a 249€ invece di 499€
Amazon: la nuova ondata di licenziamenti non è legata all'AI, ma alla 'cultura aziendale' secondo il CEO
Questo portatile è un mostro: MSI 16" OLED 3840x2400px, 32GB RAM, Ryzen AI 9 365, una specie di MacBook Pro che costa la metà
Apple Watch Series 11 GPS + Cellular crolla su Amazon: il modello Jet Black da 579€ ora a 444,99€
JBL Clip 5 in forte sconto su Amazon: lo speaker Bluetooth portatile perfetto per un regalo oggi a soli 39€
Il nuovo top di gamma compatto di OnePlus sta arrivando: ecco come sarà
Cresce il divario tra dispositivi elettronici acquistati e rifiuti raccolti: l'Italia sotto la media UE









10 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoCatitto Homo
Questa è un'ottima idea. Se la uso, devo pagarti il copyright? (sai com'è, di questi tempo
By(t)e
capitato anche a me una cosa simile giusto un paio di giorni fa e ho spento l'host di esxi sbagliato tirando giù il sistema di produzione (non ancora attivo per fortuna) invece del sistema di test. per fortuna che esistono vpn e iDrac per riattivare tutto da remoto evitandomi una cinquantina di km
A prescindere dall'errore umano, quello che non e' accettabile per un provider del genere sono le tempistiche per il ripristino...
sulle tempistiche non è che ci sia tanto da fare, hanno iniziato le operazioni di ripristino subito essendosi accorti live dell'errore. il vero problema è che sistemi del genere sono talmente complessi che ci vuole tempo a ripristinare e riavviare in modo corretto tutto il cluster di server
Catitto Homo
non penso di essere d'accordo con questa affermazione
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".