View Full Version : AMD ritira 3.000 cpu Opteron dal mercato
Redazione di Hardware Upg
29-04-2006, 08:19
Link alla notizia: http://www.hwupgrade.it/news/cpu/17217.html
La scoperta di un bug in particolari condizioni d'impiego ha portato AMD a avviare una procedura di richiamo per alcune cpu Opteron
Click sul link per visualizzare la notizia.
Rubberick
29-04-2006, 08:28
O_O azzo.. meno male che non abbiamo ancora comprato il server biprocio...
Rubberick
29-04-2006, 08:29
[...]
Dumah Brazorf
29-04-2006, 08:32
Era dai tempi del primo Pentium che non sentivo di una cpu che desse il risultato sbagliato in determinate situazioni.
Qualcosa del genere: "44 gatti in fila per 6 col resto di 1.99297534586436748646...
heavymetalforever
29-04-2006, 08:44
beh dai l'importante in questi casi è essere veloci ed efficaci nel circoscrivere il problema.
Sono con AMD, sicuramente si risolve tutto in modo indolore.
Ciao!
Era dai tempi del primo Pentium che non sentivo di una cpu che desse il risultato sbagliato in determinate situazioni.
Qualcosa del genere: "44 gatti in fila per 6 col resto di 1.99297534586436748646...
"fortune", il più grande database di frasi intelligenti :D contiene proprio quella frase, solo un po riadattata: "44 pentium in fila per 6 col resto di 1.99297534586436748646..."
matteo1986
29-04-2006, 09:02
Mi offro volontario per farmi carico di tutti i 3000 processori e testarli :O Chi è con me? :D
Questa è per me una sorpresa! Non è mai avvenuto il ritiro di un certo numero di cpu AMD a causa di un bug, finora. Stando alla news non sarebbe un bug circuitale ma di dislocazione fisica dei circuiti, occorrendo solo nel caso di reiterati particolari calcoli che fanno scaldare fuori specifiche l'area di silicio che contiene la logica interessata. Questo è uno di quei bug che può superare qualsiasi fase di validazione attualmente in uso perchè non legato a difetti circuitali. Una situazione simile ad un cecchino che da lunga distanza colpisca ripetutamente nello stesso punto un vetro antiproiettile, sebbene difficile a verificarsi è tuttavia possible e prima o poi il vetro cede.
Un ritiro paragonabile a quello dei Pentium 3 a 1133 (erano questi ?)...che se non sbaglio erano circa 10000...
coschizza
29-04-2006, 09:35
I processori in genere hanno bug come fossero dei software e di bug ne hanno molti
per puro dovere di cronaca per chi si chiedesse "ma quanti bug esistono in media a processore" vi posto questo documento ufficiale AMD che contiene ben 86 pagine di bug presenti nelle generazioni attuali di cpu
http://www.amd.com/us-en/assets/content_type/white_papers_and_tech_docs/25759.pdf
tanto per confronto vi posto anche il documento simile per i processori INTEL core duo
ftp://download.intel.com/design/mobile/SPECUPDT/30922202.pdf
come si vede i procesori hanno decine e decine di bug e vengono risolti o con nuovi step del die (soluzione costosa) ma piu spesso si risolvono con modifiche al microcodice presente nei bios e nelle cpu stesse
questa volta l'AMD semplicemente è stata piu sfortunata perche delle decine di bug presenti nella cpu hanno beccato 1 che è un po piu fastidioso e grave della media e necessita una sostituzione della cpu.
naitsirhC
29-04-2006, 09:38
Questa è per me una sorpresa! Non è mai avvenuto il ritiro di un certo numero di cpu AMD a causa di un bug, finora. Stando alla news non sarebbe un bug circuitale ma di dislocazione fisica dei circuiti, occorrendo solo nel caso di reiterati particolari calcoli che fanno scaldare fuori specifiche l'area di silicio che contiene la logica interessata. Questo è uno di quei bug che può superare qualsiasi fase di validazione attualmente in uso perchè non legato a difetti circuitali. Una situazione simile ad un cecchino che da lunga distanza colpisca ripetutamente nello stesso punto un vetro antiproiettile, sebbene difficile a verificarsi è tuttavia possible e prima o poi il vetro cede.
Quelllo che mi chiedo, è la differenza tra i processori precedenti questi 3000 e gli stessi in nota per il richiamo.
Quelllo che mi chiedo, è la differenza tra i processori precedenti questi 3000 e gli stessi in nota per il richiamo.
Semplicemente avranno portato qualche correzione alle maschere che ha introdotto il bug... Il processo di produzione non è statico, ma viene continuamente aggiornato e affinato epr aumentare la resa produttiva...
naitsirhC
29-04-2006, 09:50
Semplicemente avranno portato qualche correzione alle maschere che ha introdotto il bug... Il processo di produzione non è statico, ma viene continuamente aggiornato e affinato epr aumentare la resa produttiva...
E' che mi sembra strano che queste correzioni siano state fatte già dopo un totale di 3000 cpu tra Opteron 152, 154, 252, 254, 852 e 854.
coschizza
29-04-2006, 10:16
Quelllo che mi chiedo, è la differenza tra i processori precedenti questi 3000 e gli stessi in nota per il richiamo.
potrebbe aiutarti il documento che ho postato sopra, li vedi come vengono suddivisi i bug in base al tipo di cpu e in base allo step, ogni cpu puo avere piu step e magari la stessa cpu ha 20 bug nella prima versione che sono risolti negli step successivi.
il fatto che il problema sia riscontrabile in solo 3000 cpu significa che hanno subito trovato il problema e risolto in uno step successivo ma hanno aspettato di rendere pubblica la notizia fino a quando non erano certi del problema e che la soluzione fosse perfettamente funzionante, questo perche siano nel campo di cpu per server e workstation dove la "qualità" e il supporto conta molto di piu del segmento consumer.
3000 cpu per pc normali difettose possono creare danni economici da bassi a irrilevanti, 3000 cpu per server messe in punti critici possono creare danni da grandi a irreparabili.
naitsirhC
29-04-2006, 10:18
potrebbe aiutarti il documento che ho postato sopra, li vedi come vengono suddivisi i bug in mase al tipo di cpu e in base allo step, ogni cpu puo avere piu step e magari la stessa cpu ha 20 bug nella prima versione che sono risolti nele step successive.
il fatto che il problema sia riscontrabile significa che hanno subito trovato il problema e risolto in uno step successivo ma hanno aspettato di rendere pubblica la notizia fino a quando non erano certi del problema e che la soluzione fosse perfettametne funzionante, questo perceh siano nel campo di cpu per server e workstation dove la "qualità" e il supporto conta molto di piu del segmento consumer.
Mi hai tolto ogni dubbio. ;)
Comunque il fatto che siano "solo" 3000 CPU significa che se sono accorti relativamente in tempo..magari le CPU non erano ancora arrivate all'utente finale...
coschizza
29-04-2006, 10:41
Comunque il fatto che siano "solo" 3000 CPU significa che se sono accorti relativamente in tempo..magari le CPU non erano ancora arrivate all'utente finale...
anche nell'articolo si parla di cpu distribuite all'utente finale, altrimenti a cosa servirebbe una procedura di richiamo se le hanno ancora loro ;)
Per fortuna che tutti gli Opeteron che uso (sia a casa che a lavoro) sono dual core :-)
raga, forse ho una di queste CPU...
Vi spiego: ho un Opteron 144 (lo so che non è nella lista... ma ascoltate) che raggiunge i 2.8Ghz (154) oltre la quale frequenza ha un comportamento stabile con tutto tranne che con Prime e SuperPi... con un aumento considerevole della temperatura!
Arrivo fino a 3Ghz senza problemi con giochi!
Ora, non posso certo lamentarmi... dico solo che potrebbe presentare questo baco e che non essendo nella lista non lo cambierebbero (non lo cambierei nemmeno io... quando mi ricapita un 144 che sale così?)!
Il problema dei Pentium era a livello di progettazione, qui di realizzazione, quindi le situazioni non sono paragonabili. Ad ogni modo, di errori in una CPU ce ne sono sempre, solo che è raro ce il produttore sia costretto a ritirare dal commercio i processori perché spesso i problemi si risolvono con una patch.
Il caso del P3 a 1.13 GHz è ancora diverso: era semplicemente instabile alle tensioni di fabbrica a quella frequenza.
matteo1986
29-04-2006, 12:09
raga, forse ho una di queste CPU...
Vi spiego: ho un Opteron 144 (lo so che non è nella lista... ma ascoltate) che raggiunge i 2.8Ghz (154) oltre la quale frequenza ha un comportamento stabile con tutto tranne che con Prime e SuperPi... con un aumento considerevole della temperatura!
Arrivo fino a 3Ghz senza problemi con giochi!
Ora, non posso certo lamentarmi... dico solo che potrebbe presentare questo baco e che non essendo nella lista non lo cambierebbero (non lo cambierei nemmeno io... quando mi ricapita un 144 che sale così?)!
Se alle frequenze di default funziona non vedo perchè mai ad AMD dovrebbe passare per la testa di cambiatrelo ;)
Sig. Stroboscopico
29-04-2006, 12:32
Certo che su roba tanto piccola e complicata è difficile fare un controllo qualità sicuro al 100%.
L'importante è riconoscere l'errore al manifestarsi e rispondere efficacemente.
L'Asus non lo fa quasi mai per mia esperienza diretta. (Ebbi la A7pro mobo bagattata di serie... mi sono dovuto arrangiare prima a capire il problema e poi a risolverlo...)
Ciao
E se ci fosse la possibilita' di testare tramite un loro programmino... beh io mi farei cambiare il procio soltanto per testare nuove sigle :sofico: :D
PS: Tutto cio' che è software puo' essere alterato... sicuramente i furbi si faranno avanti... :)
Se alle frequenze di default funziona non vedo perchè mai ad AMD dovrebbe passare per la testa di cambiatrelo ;)
lo so... non avevo nessuna intenzione di farmelo cambiare... anche perchè non ha problemi a default, nè fino a 2,8Ghz!
Era solo per capire il suo comportamento strano oltre tale frequenza... ed ora l'ho capito!
jappilas
29-04-2006, 15:17
raga, forse ho una di queste CPU
....
no, hai semlicemente scoperto cosa vuol dire portare un componente fuori dalle sue condizioni operative nominali ;)
Il bug è stato scoperto grazie alle segnalazioni fatte da un cliente, alle prese con errori di calcolo con il proprio sistema nell'esecuzione di una particolare routine di calcoli.
questo è molto interessante: non sempre dei bug che un produttore riconosce nel design o nella realizzazione di un SW o di un chip, arrivano a condizionare il comportamento nell' uso reale, e non sempre, quando ciò accade, vengono scoperti, a maggior ragione se il problema è di precisione di calcolo e non di stabilità operativa
la mia impressione è che in questo caso ci sia voluta una certa dose di fortuna, perchè proprio un possessore di uno degli esemplari affetti, scrivendo del proprio codice floating point, ricreasse una sequenza d' istruzioni che facesse emergere l' anomalia
no, hai semlicemente scoperto cosa vuol dire portare un componente fuori dalle sue condizioni operative nominali ;)
Cerca di non fare il saputello e leggi quello che ho scritto!
So benissimo cosa significhi e cosa comporti portare componenti fuori dalle frequenze di specifica, infatti noto un comportamento anomalo dovuto ad una instabilità di calcolo continuo (superPi, etc...) ma soprattutto un aumento repentino e notevole di temperatura...
Per fare un esempio a 2,8Ghz sto sui 42°C in full, a 2,9Ghz sto sui 58°C in full (con errori)!
Mi sembra troppa la differenza e leggendo la notizia si capisce il perchè!
Soli 100Mhz senza aumento di Vcore non possono portare ad un aumento di temperatura così considerevole... se non per quella spiegazione!
Cerca di non fare il saputello e leggi quello che ho scritto!
So benissimo cosa significhi e cosa comporti portare componenti fuori dalle frequenze di specifica, infatti noto un comportamento anomalo dovuto ad una instabilità di calcolo continuo (superPi, etc...) ma soprattutto un aumento repentino e notevole di temperatura...
Se l'ID della tua CPU non rientra nelle possibili CPU buggate allora significa che l'errore non dipende dal BUG appena scoperto.
Per fare un esempio a 2,8Ghz sto sui 42°C in full, a 2,9Ghz sto sui 58°C in full (con errori)!
Mi sembra troppa la differenza e leggendo la notizia si capisce il perchè!
Soli 100Mhz senza aumento di Vcore non possono portare ad un aumento di temperatura così considerevole... se non per quella spiegazione!
I superconduttori non hanno un comportamento lineare, e molto probabilmente a quella frequenza si introducono errori perché la CPU o meglio il die non è sufficientemente puro da poter operare a quella frequenza, oppure manca l'alimentazione minima (gli manca VCore)... quindi il sistema riconosce l'errore commesso e ripete il calcolo (le CPU hanno dei meccanismi di controllo interni) cosicché la CPU si surriscalda solo in quella zona del die.
Il comportamento che noti è dovuto all'overclock non al BUG di cui parla la news, infatti il problema di cui si parla nella news si rileva anche a defualt, cosa che ha te non succede.
;)
NintendoFan
29-04-2006, 18:10
I superconduttori non hanno un comportamento lineare
;)
Superconduttori? Semiconduttori volevi dire .. :)
Il "fenomemo" riscontrato da Presix è del tutto normale, avviene perchè con l'aumento della frequenza e tensione oltre i dati di progetto aumentano le leakage di corrente fino a un punto ( ginocchio ) ove per la natura stessa del semiconduttore all'aumentare della corrente aumenta la fuga di cariche tra giunzioni in modo quasi esponenziale, fino a rendere il circuito inservibile per valanga termica e perforazioni delle giunzioni. Ecco perchè la temperatura riscontrata non segue un andamento lineare e si giunge al punto che ad una piccola variazione di frequenza corrisponde un esagerato aumento di temperatura. A quel punto, anzi prima, bisogna fermarsi con l'overclock ;)
Superconduttori? Semiconduttori volevi dire .. :)
Forse parlava di superconduttori perchè sta studiando insieme ad una ricercatrice italiana che è dovuta scappare in america perchè qui in italia non le davano i fondi necessari per proseguire la ricerca :D
diabolik1981
29-04-2006, 18:55
Forse parlava di superconduttori perchè sta studiando insieme ad una ricercatrice italiana che è dovuta scappare in america perchè qui in italia non le davano i fondi necessari per proseguire la ricerca :D
anche tu hai visto quel servizio sulla ricerca in Italia mandato in onda su Rai3 qualche domenica fa?
ugofoscolo
29-04-2006, 19:36
Credo che il comportamento che ha Amd sia lodevole e corretto.
Responsabilità aziendale riguardo al prodotto e al consumatore massima!!
Ottimo il fatto di pubblicare questo problema con i proci... a suo danno per il primo momento, per acquistare fiducia dai clenti.
Sbagliare ( e questo è un errore che è difficilis( s^12 volte )mo prevedere ) è + che normale
un sssaluto a tutti ;)
coschizza
29-04-2006, 22:32
Il problema dei Pentium era a livello di progettazione, qui di realizzazione, quindi le situazioni non sono paragonabili. Ad ogni modo, di errori in una CPU ce ne sono sempre, solo che è raro ce il produttore sia costretto a ritirare dal commercio i processori perché spesso i problemi si risolvono con una patch.
Il caso del P3 a 1.13 GHz è ancora diverso: era semplicemente instabile alle tensioni di fabbrica a quella frequenza.
ciao
non sono molto daccordo suilla tua distinzione tra problema di progettazione del pentium e quello di realizzazione di amd.
questo perche il problema riscontrato dall'amd imho è di progettazione come quello che causava errori di calcolo in particolari casi su operazioni in virgola mobile sui vecchi pentium (sembra quasi incredibile che al tempo andassero a 60+ Mhz)
il problema è di progettazione anche nel caso dell'amd perche evidentemente alcuni blocchi della cpu non erano progettati in modo da poter sostenere un carico continuo e questo li portava a dissipare una potenza superiore a quella possibile, andando in contro a perdite di dati e conseguenti errori e blocchi delle unità stesse.
JohnPetrucci
30-04-2006, 00:48
Non drammatizzerei sono cose che possono capitare, l'importante è che vengano sostituiti effettivamente tutti i proci affetti dal bug in questione.
Per testare le CPU??
Io ho un AMD 4800+ (e un secondo e' in arrivo) e una controllatina la voglio fare...o NO!
Credo che Coschizza si sbagli, il problema riscontrato sulle cpu AMD non è a mio avviso paragonabile a quello delle cpu Pentium ( bug FDIV FPTAN o FPREM ) o ad altri bug non sanabili con patch software riscontrati su alcuni step di cpu Xeon dovuti ad errori di progetto nella logica. Il problema di AMD è risolvibile senza dover necessariamente riprogettare la logica interessata ma posizionandola diversamente o dandole cmq la possibilità di smaltire il calore più velocemente. Per curiosità personale cercherò di sapere quale soluzione ha adottato in questo caso AMD, se solo un riposizionamento o ridimensionamento fisico o anche modifiche ai circuiti.
Chi non ha cpu appartenenti alle serie indicate da AMD non ha motivo di preoccuparsi perchè la mascheratura di un Athlon 64 sebbene simile è sufficientemente diversa da quella di un Opteron, btw se proprio ci si vuole togliere il dubbio una controllatina è d'uopo!
La pagina dove dovrebbe essere pubblicata l'utility di controllo è questa:
http://www.amd.com/us-en/Processors/TechnicalResources/0,,30_182_871_9033,00.html
al momento non è in elenco.
protonet
01-05-2006, 15:52
La pagina dove dovrebbe essere pubblicata l'utility di controllo è questa:
http://www.amd.com/us-en/Processors/TechnicalResources/0,,30_182_871_9033,00.html
al momento non è in elenco.
l'utility non verrà pubblicata o distribuita ad utenti.
protonet
01-05-2006, 15:56
Il problema di AMD è risolvibile senza dover necessariamente riprogettare la logica interessata ma posizionandola diversamente o dandole cmq la possibilità di smaltire il calore più velocemente. Per curiosità personale cercherò di sapere quale soluzione ha adottato in questo caso AMD, se solo un riposizionamento o ridimensionamento fisico o anche modifiche ai circuiti.
il problema non è nell'architettura della CPU ma in un errore di test post-produzione.
La pagina con la dichiarazione ufficiale di AMD è questa:
http://www.amd.com/us-en/0,,3715_13965,00.html?redir=CORPR01
In breve, dice che hanno identificato e corretto una svista *nei test di post-manifattura* di un limitato numero di cpu Opteron 152, 252, 852, 154, 254, 854 e che nessun'altra serie di Opteron, single o dual, presenta l'inconveniente descritto di seguito.
Un piccolo quantitativo di cpu prodotte tra il 2005 e il 2006 produce risultati errati in alcuni indipendenti test sintetici al verificarsi di tre condizioni simultanee:
intensive sequenze di calcoli FP, elevata temperatura della cpu, elevata temperatura ambientale.
Si fa notare che, dopo accurati test, non sono stati riscontrati errori su sistemi che usano applicazioni commerciali, come "web server, application servers, transaction processing servers, database servers or file print servers" e che il centro di supporto tecnico AMD assicurerà la massima soddisfazione al cliente.
Si precisa che dopo accurate analisi AMD è pervenuta alla radice del problema, la procedura di test relativa alle frequenze tollerate da queste specifiche cpu non era completa. Come mia personale speculazione, ne ricavo che queste cpu siano state marchiate come modelli di prestazioni superiori al reale.
AMD e partner stanno contattando i clienti con macchine potenzialmente affette dal problema, il tool di diagnosi è stato distribuito ad OEM e partner, saranno fatte le dovute sostituzioni eccetera... Molto bene!
Mi chiedo se abbiano "strigliato" a dovere il personale addetto ai test dei lotti di quelle specifiche cpu, da parte mia premo il pulsante con la scritta "scarpata coccigea"...
Un ritiro paragonabile a quello dei Pentium 3 a 1133 (erano questi ?)...che se non sbaglio erano circa 10000...
Stavo pensando anche al primo Pentium con il suo f00f bug. Non mi ricordo se venne effettivamente ritirato ritirato dal mercato... :confused:
come si vede i procesori hanno decine e decine di bug e vengono risolti o con nuovi step del die (soluzione costosa) ma piu spesso si risolvono con modifiche al microcodice presente nei bios e nelle cpu stesse
La maggiorparte vengono anche risolti con workaround implementanti nel codice assembly emesso dai compilatori. L'f00f bug del primo Pentium addirittura veniva raggirato dal sistema operativo stesso (kernel Linux con certezza, gli altri non so), che ne individuava la presenza e applicava il workaround del caso.
raga, forse ho una di queste CPU...
Vi spiego: ho un Opteron 144 (lo so che non è nella lista... ma ascoltate) che raggiunge i 2.8Ghz (154) oltre la quale frequenza ha un comportamento stabile con tutto tranne che con Prime e SuperPi... con un aumento considerevole della temperatura!
Arrivo fino a 3Ghz senza problemi con giochi!
I problemi sono problemi solo quando il processore non è stabile / compie errori lavorando a frequenze d'esercizio di fabbrica e non in condizioni di overclock. Quello non è il problema elencato in questa news ma il classico sintomo da "processore con le orecchie stirate". ;)
Significa che quel processore fra poco lo devi buttare :D
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.