Al CERN hanno 1 milione di terabyte di dati, perlopiù salvati su hard disk
L'archivio dati del CERN ha superato la notevole capacità di un exabyte, ovvero 1 milione di terabyte di spazio su disco. Le informazioni sono salvate su 111.000 dispositivi, prevalentemente hard disk.
di Manolo De Agostini pubblicata il 04 Ottobre 2023, alle 19:31 nel canale StorageIl CERN di Ginevra, il più grande laboratorio al mondo di fisica delle particelle, ha annunciato di aver superato la notevole quantità di 1 exabyte di dati immagazzinati: si tratta di un milione di terabyte di informazioni, salvate principalmente su hard disk.
I dati in questione non servono solo agli esperimenti legati all'acceleratore di particelle LHC, ma anche a tutti gli esperimenti e servizi che necessitano una pronta disponibilità dei dati. "Questa capacità è fornita usano 111.000 dispositivi, prevalentemente dischi rigidi insieme a una frazione crescente di unità flash", si legge nella nota.
Il CERN spiega che un così elevato numero di dispositivi significa che i guasti sono comuni, quindi l'infrastruttura di storage è stata costruita per essere resiliente, utilizzando diversi metodi di replicazione dei dati. Questi dischi, la maggior parte dei quali vengono utilizzati per archiviare dati fisici, sono orchestrati dalla soluzione software open source del CERN, EOS, creata per soddisfare i requisiti informatici "estremi" dell'LHC.
"Abbiamo raggiunto questo nuovo record assoluto per l'infrastruttura di stoccaggio del CERN dopo l'estensione della capacità per il prossimo ciclo di ioni pesanti dell'LHC", spiega Andreas Peters, leader del progetto EOS. "Non è solo una celebrazione della capacità dei dati, è anche un risultato in termini di prestazioni, grazie alla velocità di lettura dell'archivio dati combinato che supera, per la prima volta, la soglia di un terabyte al secondo (1 TB/s)".
Dal grafico condiviso si vede che nel 2010 il CERN aveva un'infrastruttura capace di stoccare 18 petabyte di dati e dal 2016 la quantità di dati salvata è cresciuta in modo sempre più sensibile.
"Questo risultato segna il raggiungimento di un obiettivo significativo nelle capacità di gestione dei dati. Stabilisce nuovi standard per i sistemi di stoccaggio ad alte prestazioni nella ricerca scientifica per i futuri cicli dell'LHC", ha affermato Joachim Mnich, direttore di ricerca e computing del CERN.
13 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoA parte gli sconti quantità che possiamo solo sognare il CERN viene anche usato dai produttori come banco di TEST per le loro periferiche.
Difficilmente esistono altri clienti con una tale massa di dati e con la possibilità di avere una tale ridondanza per garantire la sicurezza degli stessi.
Quindi non sarei sorpreso se "alcune" partite fossero vendute a prezzo di costo o anche a meno in cambio dei dati sull'affidabilità dei dischi.
Non ho capito se questo sistema è usato anche per i backup o li fanno in altro modo (quale? Tonnellate di cassette?)
Domanda interessante!
Comunque 111.000 dispositivi accesi che se consumassero anche solo 5 W (poco per un HDD) fanno un totale di mezzo megawatt solo per accedere ai dati
Io faccio ricerca radioastronomica e i numeri non sono molto distanti da questi (una singola osservazione di un'ora occupa circa 200 TB).
Una volta fatta l'analisi principale, in molti casi i dati raw si comprimono, perdendo parte dell'informazione ma rendendoli molto più gestibili per il long-term storage.
Per il backup usiamo tape libraries con LTO-8/9.
Difficilmente esistono altri clienti con una tale massa di dati e con la possibilità di avere una tale ridondanza per garantire la sicurezza degli stessi.
Quindi non sarei sorpreso se "alcune" partite fossero vendute a prezzo di costo o anche a meno in cambio dei dati sull'affidabilità dei dischi.
Niente prezzo di costo e non c'è niente da testare. Il cern prende la componentistiche con scontistiche che saranno assimilabili a quelle di una Amazon, Microsoft, Google, IBM, etc etc.
AWS S3 dovrebbe essere il servizio con più HDD utilizzati al mondo. Parliamo di decine e decine di milioni di HDD usati.
Solo snapchat, che è uno dei vari clienti di AWS (sicuramente non il più grande di gran lunga), archivia 2exabyte di dati su AWS S3.
Una volta fatta l'analisi principale, in molti casi i dati raw si comprimono, perdendo parte dell'informazione ma rendendoli molto più gestibili per il long-term storage.
Per il backup usiamo tape libraries con LTO-8/9.
WOW (cit.), è un mondo che mi affascina, anche se le mie conoscenze dell'argomento sono tendenti a 0 K... E non avrei mai pensato che per un'ora di osservazione occorra così tanto spazio
Grazie dell'info
Solo che tutti sti dati, cosi' tanti, come detto prima, fanno prima a produrli Loro gli HDD..
1 EXABYTE (10^18 byte)
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".