Crash di sistema inaspettati, quasi sempre è colpa della memoria

Crash di sistema inaspettati, quasi sempre è colpa della memoria

Gli errori della memoria DRAM sono un evento con una bassa incidenza su un singolo PC, ma in un datacenter con migliaia di macchine possono rappresentare un grave problema di affidabilità

di pubblicato il nel canale Memorie
 

Errori della DRAM, un problema ancora attuale

Correva il 1966 quando Robert Dennard, ingegnere allora in forze al Thomas J. Watson Research Center di IBM, inventò il primo esemplare di memoria RAM dinamica, conosciuta con l'acronimo di DRAM - Dynamic Random Access Memory. Si deve però ad Intel la realizzazione della prima memoria DRAM commerciale, l'Intel 1103 da 1024 bit, nel mese di ottobre del 1970, ampiamente riconosciuto come il chip che ha ucciso la memoria a nucleo magnetico, la prevalente tecnologia di memoria RAM usata fin dal 1955.


Il chip di memoria Intel 1103, conteneva 1028 bit.

In quel tempo la competizione sulle memorie DRAM era piuttosto agguerrita e vedeva contrapposte, oltre ad Intel, realtà del calibro di Texas Instrument e Mostek (divenuta in seguito proprietà dell'odierna STMicroelectronics): tutte e tre costituivano negli anni '76-'77 l'80% circa del mercato. Ed è proprio nel 1977 che viene annunciata, da parte di tutti i contendenti, la disponibilità delle prime memorie DRAM da ben 16KB.

E' con l'arrivo sul mercato dei chip da 16KB che il settore conosce un problema ancor oggi attualissimo, ovvero gli errori di memoria DRAM. Accadeva infatti che dai primi, rivoluzionari, chip da 16KB i dati letti non corrispondevano ai dati scritti, e ciò succedeva con un'incidenza sorprendentemente e pericolosamente elevata. Dopo una prima fase di perplessità, studi ed analisi approfonditi svelarono la causa: il packaging ceramico usato per la costruzione di questi chip conteneva piccole tracce di materiale radioattivo che emetteva particelle alfa capaci di compromettere i dati presenti nella memoria.

Il problema fu di facile risoluzione, sostituendo il materiale usato per il packaging con uno maggiormente inerte, ma da allora gli errori della DRAM non sono scomparsi. Errori che spesso si consumano in un semplice blocco di un'applicazione ma che nei casi più gravi possono portare all'improvvisto crash della macchina. Per un utente PC questi episodi sono per lo più un fastidio o, nel caso peggiore, la perdita di qualche lavoro importante. Per gli operatori commerciali di larga scala i problemi di affidabilità sono però un fattore limitante nella progettazione dei propri sistemi.


Il chip di memoria DRAM SK Hynix HY57V64820HG, contiene oltre 67 milioni di bit.

Le grandi realtà del panorama IT come Amazon, Facebook e Google riescono a tenere il passo con la crescente domanda di capacità computazionale per l'erogazione dei loro servizi solamente con un massiccio parallelismo, cioè con l'impiego di migliaia di server collocati in grandi datacenter: è a questo punto ovvio che un problema di bassa probabilità di incidenza, se considerato su una singola macchina, può avvenire con una frequenza pericolosa quando si ha a che fare con un moderno datacenter. Se si ipotizza, per esempio, una frequenza di tre crash all'anno per un normale PC, in un datacenter con 10 mila sistemi ciò si traduce, probabilisticamente, in non molto meno di un centinaio di crash al giorno nel complesso.

 
^