AMD EPYC Rome, i processori server hanno un bug che emerge dopo 1044 giorni

AMD EPYC Rome, i processori server hanno un bug che emerge dopo 1044 giorni

Le CPU non sono perfette, spesso hanno decine di bug che però non ne pregiudicano prestazioni o funzionamento. Nel caso delle CPU EPYC Rome di AMD è salito alla ribalta un curioso bug che si manifesta dopo quasi 3 anni.

di pubblicata il , alle 11:01 nel canale Processori
AMDEPYC
 

I processori server AMD EPYC 7002, meglio conosciuti con il nome in codice Rome, hanno un bug che può portare un core a rimanere bloccato nello stato di basso consumo CC6 dopo un funzionamento continuo di circa 1044 giorni, quasi tre anni.

Il problema, che nel gergo tecnico viene definito "errata", porta quindi la CPU a rimanere in una sorta di stallo che gli impedisce mettere a terra tutta la sua potenza per affrontare i carichi di lavoro. AMD non intende sistemare il problema, forse perché richiederebbe un nuovo stepping. Inoltre, la soluzione immediata è semplice: per "disincagliare" il core dello stato CC6 è necessario riavviare il sistema su cui è installato il processore.

Nella nota diffusa, AMD afferma che le tempistiche con cui il problema emerge potrebbero variare in base allo spread spectrum e alla frequenza REFCLK, con l'ultimo che rappresenta il clock di riferimento che permette al chip di tenere traccia del tempo.

Un utente su Reddit - acid_migrain - ritiene di aver identificato l'esatta tempistica con cui si manifesta il problema. "Malgrado ciò che dicono, il problema si manifesta dopo 1042 e circa 12 ore. Il TSC opera a 2800 MHz, e 2800 * 10**6 * 1042,5 giorni equivale quasi a 0x380000000000000, il che ha troppi zero per non essere una coincidenza".

Giorno più o meno, chi si trova a gestire un server con CPU EPYC Rome può riavviarlo prima di 1044 giorni di funzionamento continuo (cosa che in molti casi è probabile a causa di un aggiornamento di sistema) o disabilitare lo stato sleep CC6.

Le "errata" sono assolutamente comuni nei microprocessori e spesso ve ne sono decine se non centinaia. Solo alcune, a volte, richiedono ai produttori una risoluzione hardware, ovvero un nuovo stepping della CPU, per essere sistemate. Molte altre volte, invece, si agisce a livello di microcode. Se il problema non è però ritenuto rilevante o l'impegno per risolverlo è superiore alla sua gravità, rimane semplicemente lì con buona pace di tutti.

7 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Opteranium05 Giugno 2023, 11:20 #1
penso sia raro che un sistema non venga riavviato per oltre tre anni
WarSide05 Giugno 2023, 11:29 #2
Originariamente inviato da: Opteranium
penso sia raro che un sistema non venga riavviato per oltre tre anni


https://www.hwupgrade.it/forum/show...postcount=81848
Marco7105 Giugno 2023, 12:05 #3

Siamo in Italia...

...si agisce a livello di microcodice non microcode.

Marco71.
WarSide05 Giugno 2023, 12:18 #4
Originariamente inviato da: Marco71
...si agisce a livello di microcodice non microcode.

Marco71.


Si dice microcode in inglese e tutti lo chiamano microcode a livello mondiale (anche i francesi che traducono la parola mouse...).
E' vero che c'è LVI, ehm, LEI al governo, ma non iniziamo a tradurre anche termini prettamente tecnici. Siamo nel 2023
Marco7105 Giugno 2023, 12:50 #5

WarSide...

...capito.


Marco71
blackshard05 Giugno 2023, 17:40 #6
Originariamente inviato da: Opteranium
penso sia raro che un sistema non venga riavviato per oltre tre anni


Per dei server non è tanto raro
joe4th06 Giugno 2023, 02:06 #7
In ambito server si lasciano anche per periodi superiori, specie se non hanno necessita' di continui aggiornamenti di sicurezza, o interruzioni prolungate di corrente.

Certo per una CPU che se va bene costa 7000 dollari non è che sia proprio il massimo avere un core che si pianti, OK che su 128, ne rimangono 127 funzionanti...; non ci provano nemmeno? Nemmeno un misero aggiornamento del microcode? O ci devono pensare i team del kernel a trovare un modo di aggirarlo?


Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^