Torna indietro   Hardware Upgrade Forum > Componenti Hardware > Processori

Le soluzioni FSP per il 2026: potenza e IA al centro
Le soluzioni FSP per il 2026: potenza e IA al centro
In occasione del Tech Tour 2025 della European Hardware Association abbiamo incontrato a Taiwan FSP, azienda impegnata nella produzione di alimentatori, chassis e soluzioni di raffreddamento tanto per clienti OEM come a proprio marchio. Potenze sempre più elevate negli alimentatori per far fronte alle necessità delle elaborazioni di intelligenza artificiale.
AWS annuncia European Sovereign Cloud, il cloud sovrano per convincere l'Europa
AWS annuncia European Sovereign Cloud, il cloud sovrano per convincere l'Europa
AWS è il principale operatore di servizi cloud al mondo e da tempo parla delle misure che mette in atto per garantire una maggiore sovranità alle organizzazioni europee. L'azienda ha ora lanciato AWS European Sovereign Cloud, una soluzione specificamente progettata per essere separata e distinta dal cloud "normale" e offrire maggiori tutele e garanzie di sovranità
Redmi Note 15 Pro+ 5G: autonomia monstre e display luminoso, ma il prezzo è alto
Redmi Note 15 Pro+ 5G: autonomia monstre e display luminoso, ma il prezzo è alto
Xiaomi ha portato sul mercato internazionale la nuova serie Redmi Note, che rappresenta spesso una delle migliori scelte per chi non vuole spendere molto. Il modello 15 Pro+ punta tutto su una batteria capiente e su un ampio display luminoso, sacrificando qualcosa in termini di potenza bruta e velocità di ricarica
Tutti gli articoli Tutte le news

Vai al Forum
Discussione Chiusa
 
Strumenti
Old 29-07-2016, 08:09   #4561
bjt2
Senior Member
 
L'Avatar di bjt2
 
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
Quote:
Originariamente inviato da cdimauro Guarda i messaggi
Ma un core Zen non dovrebbe avere all'incirca gli stessi transistor di un core XV?
No, di un modulo BD... In realtà forse un po' meno, perchè mancano 2 AGU, due unità di L/S, 0.5-1.5MB di L2 e forse dei decoder, ma in più ha le varie feature e un po' più di L1...

Quote:
Originariamente inviato da cdimauro Guarda i messaggi
Vabeh, volevo dire che in MT pesante con parecchi thread a basso IPC fa un po' meno schifo...
__________________
0 A.D. React OS
La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani...
IL MIO PROFILO SOUNDCLOUD! IL MIO CANALE YOUTUBE! IL MIO PLUGIN VST PROGRAMMABILE!
bjt2 è offline  
Old 29-07-2016, 09:17   #4562
Piedone1113
Senior Member
 
Iscritto dal: Jul 2015
Messaggi: 5581
Quote:
Originariamente inviato da cdimauro Guarda i messaggi
Molto molto in fondo, perché senza dati completi sono test che lasciano il tempo che trovano.

Vedi il test di B&C, in cui marchigiano ha ragione: mancano i dati di SuperPi. Che fine hanno fatto?

Giusto per essere chiari, se vuoi fare un test serio, devi lanciare contemporaneamente le applicazioni da un tempo x a uno y, e vedere quanto riescano a macinare all'esatto scadere del tempo y.
Ho notato che la fluidità di sistema su architettura core (ps il core duo non ha ht, refuso o confusione) si va a farsi friggere sopro a 3 th per core.
BD invece regge bene fino a 4th a core (th ad uso intensivo cpu).
Però a parità di carico (con architettura core in crisi di fluidità) le cpu intel (con ht, perchè paragoniamo smt vs cmt tra i due competitor) intel esegue sempre prima tutti i task (anche quando sembra piantato).
e la differenza di prestazioni tra i7 2600 e 8150 rimane pressocchè costante (in percentuale) con alcune situazioni dove addirittura il divario aumenta.
Test fatti in proprio perchè ho cercato di capire il comportamento di bd che sembra sempre essere sotto carico leggero, anche se non si vedono risultati al top.
Secondo me avere cmt + ht 2 vie avrebbe mitigato in alcuni scenari il distacco vs core, ma allora molto meglio architettura smt pura (magari smt4) perchè cmt+smt avrebbe avuto un costo di sviluppo e transistor molto elevato.
Piedone1113 è offline  
Old 29-07-2016, 09:51   #4563
bjt2
Senior Member
 
L'Avatar di bjt2
 
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
Quote:
Originariamente inviato da Piedone1113 Guarda i messaggi
Ho notato che la fluidità di sistema su architettura core (ps il core duo non ha ht, refuso o confusione) si va a farsi friggere sopro a 3 th per core.
BD invece regge bene fino a 4th a core (th ad uso intensivo cpu).
Però a parità di carico (con architettura core in crisi di fluidità) le cpu intel (con ht, perchè paragoniamo smt vs cmt tra i due competitor) intel esegue sempre prima tutti i task (anche quando sembra piantato).
e la differenza di prestazioni tra i7 2600 e 8150 rimane pressocchè costante (in percentuale) con alcune situazioni dove addirittura il divario aumenta.
Test fatti in proprio perchè ho cercato di capire il comportamento di bd che sembra sempre essere sotto carico leggero, anche se non si vedono risultati al top.
Secondo me avere cmt + ht 2 vie avrebbe mitigato in alcuni scenari il distacco vs core, ma allora molto meglio architettura smt pura (magari smt4) perchè cmt+smt avrebbe avuto un costo di sviluppo e transistor molto elevato.
Forse la quantità elevata di TLB di BD, sopratutto L2, aiuta... Non so se tra un task switch e l'altro la cache TLB viene azzerata, ma se così non fosse, il maggior numero di TLB potrebbe spiegare la questione del maggior numero di thread supportati senza piantaris...
__________________
0 A.D. React OS
La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani...
IL MIO PROFILO SOUNDCLOUD! IL MIO CANALE YOUTUBE! IL MIO PLUGIN VST PROGRAMMABILE!
bjt2 è offline  
Old 29-07-2016, 10:09   #4564
Piedone1113
Senior Member
 
Iscritto dal: Jul 2015
Messaggi: 5581
Quote:
Originariamente inviato da bjt2 Guarda i messaggi
Forse la quantità elevata di TLB di BD, sopratutto L2, aiuta... Non so se tra un task switch e l'altro la cache TLB viene azzerata, ma se così non fosse, il maggior numero di TLB potrebbe spiegare la questione del maggior numero di thread supportati senza piantaris...
io invece ho supposto che le differenze fossero dovute alla cache in generale:
64 th non possono essere contenuti (i dati ad essi relativi) tutti nella cache l3 di intel, mentre nella cache l2+l3 di bd potrebbero starci (quindi l'architettura intel che è affamata di dati starebbe per molto tempo relativo a pescare dati in ram, mentre quella amd avendo una cache più grande (come somma ) e macinando meno dati accede metà volte (credo che sia nell'ordine di 4 a 1 intel vs amd) alla ram di sistema per ricevere dati che servono al momento dando l'impressione di essere maggiormente reattivo.
Dico questo perchè il comportamento che si ha con un i7 "piantato" mi ricorda tanto i sitemi che swappano su disco perchè hanno una memoria ram esigua (tipo xp con 128mb ram
Piedone1113 è offline  
Old 29-07-2016, 10:57   #4565
bjt2
Senior Member
 
L'Avatar di bjt2
 
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
Quote:
Originariamente inviato da Piedone1113 Guarda i messaggi
io invece ho supposto che le differenze fossero dovute alla cache in generale:
64 th non possono essere contenuti (i dati ad essi relativi) tutti nella cache l3 di intel, mentre nella cache l2+l3 di bd potrebbero starci (quindi l'architettura intel che è affamata di dati starebbe per molto tempo relativo a pescare dati in ram, mentre quella amd avendo una cache più grande (come somma ) e macinando meno dati accede metà volte (credo che sia nell'ordine di 4 a 1 intel vs amd) alla ram di sistema per ricevere dati che servono al momento dando l'impressione di essere maggiormente reattivo.
Dico questo perchè il comportamento che si ha con un i7 "piantato" mi ricorda tanto i sitemi che swappano su disco perchè hanno una memoria ram esigua (tipo xp con 128mb ram
Può essere... INTEL ha 2.5MB di L3 per core, perchè inclusiva... BD 2+1+ la L1... Però la differenza non è molta... 512 KB...
__________________
0 A.D. React OS
La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani...
IL MIO PROFILO SOUNDCLOUD! IL MIO CANALE YOUTUBE! IL MIO PLUGIN VST PROGRAMMABILE!
bjt2 è offline  
Old 29-07-2016, 12:32   #4566
Piedone1113
Senior Member
 
Iscritto dal: Jul 2015
Messaggi: 5581
Quote:
Originariamente inviato da bjt2 Guarda i messaggi
Può essere... INTEL ha 2.5MB di L3 per core, perchè inclusiva... BD 2+1+ la L1... Però la differenza non è molta... 512 KB...
Gia, non è molta, ma intel "consuma" più dati cache di quella amd:
ogni secondo con 4 th a core intel utilizza 3 mb di dati cache (e qui il sistema che va a scatti ), amd invece ne consuma 2,5 a modulo (sempre con 4 th) con il sistema più reattivo.
Ma il troghtout è 5 per intel, 4 per amd (sarebbe superiore la differenza ma semplifichiamo)
Amd si avvantaggio solo con th dal basso ipc e tantissimi dati da pescare nella cache pareggiando quasi le prestazioni (non dimentichiamoci che bd ha una latenza cache molto superiore e quindi il "vantaggio" teorico viene limitato molto da questo)
Piedone1113 è offline  
Old 29-07-2016, 12:54   #4567
paolo.oliva2
Senior Member
 
L'Avatar di paolo.oliva2
 
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31994
Cinebench, come bench, riesce a contenere tutti i dati nella cache?
A suo tempo avevo fatto dei test-bench settando i TH, da 8 a 16, 32, 64.
Non mi ricordo quando BD calava le prestazioni, se a 32 o 64 TH, però sarebbe interessante fare la stessa cosa con un i7.

P.S.
Non posso usare l'8370 perchè mi sono preso 3 vga 480 (le altre sono saltate) che hanno solamente l'uscita HDMI ed io non ho l'adattatore VGA

@piedone1113
Io con conversioni video, lanciando più conversioni contemporaneamente, ho una somma dei tempi inferiore stracaricando che fatti girare singolarmente. Di questo ne sono assolutamente sicuro perchè facendo le somme, ho rinunciato a 200 MHz di OC a favore del carico, io tenevo il procio a 4,6GHz anzichè 4,8GHz, a liquido. Tra l'altro, ho proprio dovuto abbandonare l'idea di tenerlo a 5GHz perchè con carico normale forse era RS a 1,525V (che è il limite DU del mio impianto liquido), ma con stracarico dovevo darci 1,550V e in accoppiata al fatto che le conversioni video richiedono molto tempo, la temp liquido si sarebbe alzata troppo (anche se >20 litri e quindi con un buon margine prima che entri a regime), già difficile in inverno, impensabile d'estate.

Ultima modifica di paolo.oliva2 : 29-07-2016 alle 13:04.
paolo.oliva2 è offline  
Old 29-07-2016, 13:06   #4568
Piedone1113
Senior Member
 
Iscritto dal: Jul 2015
Messaggi: 5581
Quote:
Originariamente inviato da paolo.oliva2 Guarda i messaggi
Cinebench, come bench, riesce a contenere tutti i dati nella cache?
A suo tempo avevo fatto dei test-bench settando i TH, da 8 a 16, 32, 64.
Non mi ricordo quando BD calava le prestazioni, se a 32 o 64 TH, però sarebbe interessante fare la stessa cosa con un i7.

P.S.
Non posso usare l'8370 perchè mi sono preso 3 vga 480 (le altre sono saltate) che hanno solamente l'uscita HDMI ed io non ho l'adattatore VGA
Cinebench sull'8150 aveva un calo minimo su 16th, costante il calo fino a 32 th, a 64 th il calo era consistente e perdevi fluidità a desktop.
Sul 2600 il calo su 16th era leggermente più marcato in percentuale rispetto Amd, su 32 th il puntatore del mouse andava a scatti, su 64 sembrava bloccato il sitema, ma i test venivano conclusi sempre prima (se non sbaglio su 64th il divario tornava ad aumentare, è passato molto tempo e non ricordo).
Ma la mia conclusione fu che tranne fare da server per un db, una conversione video in backgroung e giocare a crisys, tutto in contemporanea l'i7 era superiore.
Ps fluidità percepita non rappresenta un maggior troughtout della cpu.

Quote:
Originariamente inviato da paolo.oliva2 Guarda i messaggi

@piedone1113
Io con conversioni video, lanciando più conversioni contemporaneamente, ho una somma dei tempi inferiore stracaricando che fatti girare singolarmente. Di questo ne sono assolutamente sicuro perchè facendo le somme, ho rinunciato a 200 MHz di OC a favore del carico, io tenevo il procio a 4,6GHz anzichè 4,8GHz, a liquido. Tra l'altro, ho proprio dovuto abbandonare l'idea di tenerlo a 5GHz perchè con carico normale forse era RS a 1,525V (che è il limite DU del mio impianto liquido), ma con stracarico dovevo darci 1,550V e in accoppiata al fatto che le conversioni video richiedono molto tempo, la temp liquido si sarebbe alzata troppo (anche se >20 litri e quindi con un buon margine prima che entri a regime), già difficile in inverno, impensabile d'estate.
Paolo, se usavi freemake (e non format factory) la differenza a favore di due istanze vs una c'era (freemake utilizza 4 core al 50% di carico da gestione risorse, Format Factory ne utilizza 2), ma lo stesso guadagno percentuale lo ritrovavi anche con i7 se lo scheduler non assegna i th ai soli cori fisici.
Ma la proporzione era:
2 moduli vs 2 core ht 100 vs 130
4 moduli vs 4 core ht 220 vs 270
Bd recuperava in termini percentuali, ma perdeva in termini assoluti.
Se invece lo scheduler di win assegnava i 4 th ai cori fisici dell'i7 l'aumento prestazione c'era comunque perchè i core lavoravano al 50% delle capacità e praticamente egualiando i cori logici (minor carico sul core fisico maggiori risorse per il core logico)
situazione diversa invece se setti prime su 4 th vs 8th.
con 8 th attivi l'i7 guadagno circa il 20% in prestazioni (ci sono benchmark dove il guadagno è praticamente nullo), mentre con bd si aveva un quasi raddoppio delle prestazioni, ma il totale era sempre a favore di intel (a prescindere da quanti th usavi > di 8

Ultima modifica di Piedone1113 : 29-07-2016 alle 13:24.
Piedone1113 è offline  
Old 29-07-2016, 13:17   #4569
paolo.oliva2
Senior Member
 
L'Avatar di paolo.oliva2
 
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31994
Quote:
Originariamente inviato da Free Gordon Guarda i messaggi
A Prime95 289 e/o IBT stabile..? (intendo 4,5ghz @1,29...perchè quello è un risultato davvero notevole col dissi stock.... )
A livello di RS ne sono sicuro al 99,99%, a livello di test tipo OCCT o carico intenso, non posso metterci la mano sul fuoco per il DU, perchè con 32° temp (ma nella stanza di più), io "soffro" quando vedo >65° e sono arrivato a max a 72°.

Però, pensandoci, una cosa è qui all'equatore e tutt'altra in Italia. A parte il DU che lo avrei sicuramente in Italia, le temp inferiori giocherebbero a favore del Vcore, che in teoria potrebbe pure essere più basso, quindi direi che a 1,29V in Italia sarei RS al 100%.

Ho potuto fare delle prove in frequenza solamente disabilitando 3 moduli, ma quello è un test farlocco, nel senso che già con la Asrock 95W potevo stare RS a 5,3GHz con 1,515V come X2, ma l'8370 mi ha dato l'impressione di non superare i 5GHz. D'altronde AMD avrebbe potuto anche fare dei 9590 C0k a meno di 220W, ma se non l'ha fatto, un perchè ci deve essere.

Tra l'altro... da 1,29V 4,5GHz starei a 1,3V a 4,6GHz, ma le temp mi si alzano almeno di 5°... +0,01V non può fare una cosa del genere, a me sembra che AMD abbia spinto l'RCM e poi ci possono essere proci fortunelli o meno nel range 4,4GHz/4,6GHz, ma oltre poi si paga vs l'8350.
paolo.oliva2 è offline  
Old 29-07-2016, 13:35   #4570
davo30
Senior Member
 
L'Avatar di davo30
 
Iscritto dal: Jul 2012
Messaggi: 2824
Quote:
Originariamente inviato da paolo.oliva2 Guarda i messaggi
Cinebench, come bench, riesce a contenere tutti i dati nella cache?
A suo tempo avevo fatto dei test-bench settando i TH, da 8 a 16, 32, 64.
Non mi ricordo quando BD calava le prestazioni, se a 32 o 64 TH, però sarebbe interessante fare la stessa cosa con un i7.

P.S.
Non posso usare l'8370 perchè mi sono preso 3 vga 480 (le altre sono saltate) che hanno solamente l'uscita HDMI ed io non ho l'adattatore VGA

@piedone1113
Io con conversioni video, lanciando più conversioni contemporaneamente, ho una somma dei tempi inferiore stracaricando che fatti girare singolarmente. Di questo ne sono assolutamente sicuro perchè facendo le somme, ho rinunciato a 200 MHz di OC a favore del carico, io tenevo il procio a 4,6GHz anzichè 4,8GHz, a liquido. Tra l'altro, ho proprio dovuto abbandonare l'idea di tenerlo a 5GHz perchè con carico normale forse era RS a 1,525V (che è il limite DU del mio impianto liquido), ma con stracarico dovevo darci 1,550V e in accoppiata al fatto che le conversioni video richiedono molto tempo, la temp liquido si sarebbe alzata troppo (anche se >20 litri e quindi con un buon margine prima che entri a regime), già difficile in inverno, impensabile d'estate.
Ci sei andato giu pesante!
__________________
AMD R5 3600 | MSI B450 Tomahawk Max II | 16gb Viper 3000MHz CL17 | AMD XFX RX 5700XT DD 8GB | SSD Patriot 240GB | SSD Kingdian 500GB | Super Flower Amazon 550W | Zalman Z11
davo30 è offline  
Old 29-07-2016, 13:50   #4571
digieffe
Senior Member
 
L'Avatar di digieffe
 
Iscritto dal: Oct 2003
Città: Milano
Messaggi: 4080
Quote:
Originariamente inviato da cdimauro Guarda i messaggi
Non mi pare proprio.

Non l'ho vista nell'elenco dei processori K10.
con un po' più di tempo l'ho trovata Athlon II X4 651K


Quote:
Molto molto in fondo, perché senza dati completi sono test che lasciano il tempo che trovano.

Vedi il test di B&C, in cui marchigiano ha ragione: mancano i dati di SuperPi. Che fine hanno fatto?

Giusto per essere chiari, se vuoi fare un test serio, devi lanciare contemporaneamente le applicazioni da un tempo x a uno y, e vedere quanto riescano a macinare all'esatto scadere del tempo y.
per me è ovvio


non ricordo bene, forse l'utente Nardustyle fece dei test accettabili... qualcuno si ricorda?

Ultima modifica di digieffe : 29-07-2016 alle 14:31.
digieffe è offline  
Old 29-07-2016, 14:37   #4572
leoneazzurro
Senior Member
 
Iscritto dal: Jan 2003
Messaggi: 10395
Quote:
Originariamente inviato da paolo.oliva2 Guarda i messaggi
@Leoneazzurro

Io non è che ne capisca tanto di trattamenti silicio, e un'altra volta mi avevi fatto notare che è sbagliato confrontare silici differenti.
Però io direi di considerare l'efficienza di una architettura rispetto ad un'altra sulla carta, ma non di giudicare il prodotto finito (architettura + silicio) perchè il silicio influenza e non poco.

Ad esempio, il Phenom I aveva 2,7GHz ed un IPC inferiore rispetto al Phenom II, che riuscì ad ottenere ben +1GHz con un IPC del 15% (o 17%) superiore.
Giudichiamo l'efficienza architetturale Phenom dalla versione I alla II. Non metto in dubbio che la variante II sia più ottimizzata della I ma certamente molto meno di quanto è incrementato per efficienza il 45nm sul 65nm (è pure da considerare che il Phenom I non abbia potuto inserire features e/o timing più spinti proprio per carenze silicio), tra l'altro il primo e unico modello 140W di AMD .

Sono in parecchi (in rete) a considerare il PP del 32nm uno dei peggiori di AMD, addirittura al livello, se non peggiore, del 65nm sempre AMD. Viceversa, il 45nm è stato uno dei migliori PP di AMD.

Ora... come si fa a giudicare l'efficienza di una architettura se poi confrontiamo Phenom II + miglior PP silicio AMD vs architettura BD con se non il peggiore tra i peggiori PP di AMD e di qui imputare l'efficienza ESCLUSIVAMENTE all'architettura?
Perchè se il SOI è migliore al Bulk, AMD ci ha speso soldi per portare BD sul 28nm Bulk? Perchè Llano (Phenom II) sul 32nm ha perso oltre il 20% rispetto al 45nm? Perchè invece BD sullo stesso silicio ha oltre 1GHz con il doppio dei core vs Llano?

Io dico solo che se una architettura non è efficiente, non lo è e punto. Ma allora come fa BR BD, per giunta sul 28nm, ad essere così efficiente?

Un calcolo approssimativo, secondo me, sarebbe questo:

Phenom II 45nm --> 32nm = -20% (prestazioni a parità di TDP, con Llano)
8350 32nm vs Thuban 45nm = +20% per BD.

Allora architettura BD vs architettura Phenom II = +40% (semplicemente sommando la perdita efficienza architettura + passaggio 45nm --> 32nm all'incremento BD 32nm vs Phenom II 45nm. Diversamente si applica tutta la perdita efficienza silicio esclusivamente all'architettura.
Il mio post era volto a ricordare che a parita' di architettura e di nodo del processo produttivo (leggi 45nm, 32nm, 28nm, ecc) si possono comunque avere variazioni riguardo le prestazioni termiche/in frequenza in base ad altre variabili come ad esempio numero e struttura delle metallizzazioni. Non solo, ma lo stesso processo produttivo a seconda dell'architettura utilizzata puo' fornire prestazioni differenti (es. le GPU Maxwell vs. Hawaii/Fiji, il processo produttivo era identico ma i consumi no).
I problemi di BD sono molteplici: il processo produttivo e' uno di questi (bisogna pero' chiedersi se fosse stato lecito aspettarsi dal processo le frequenze di 5+GHz che sarebbero state necessarie) ma anche tutta l'Architettura BD/PD/XV e' fortemente orientata all'elaborazione parallela piuttosto che alle prestazioni single thread, di deficienze strutturali ce ne sono parecchie (cache lente, mancanza di una µOp cache, ecc.) che non sono pertinenti al processo. Probabilmente AMD si aspettava un forte orientamento dello sviluppo software al multithreading, cosa che per ovvie ragioni non si e' realizzata. Accompagniamoci la mancanza di ottimizzazioni ad hoc e il quadro e' completo.
leoneazzurro è offline  
Old 29-07-2016, 14:52   #4573
paolo.oliva2
Senior Member
 
L'Avatar di paolo.oliva2
 
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31994
S
Quote:
Originariamente inviato da Piedone1113 Guarda i messaggi
Cinebench sull'8150 aveva un calo minimo su 16th, costante il calo fino a 32 th, a 64 th il calo era consistente e perdevi fluidità a desktop.
Sul 2600 il calo su 16th era leggermente più marcato in percentuale rispetto Amd, su 32 th il puntatore del mouse andava a scatti, su 64 sembrava bloccato il sitema, ma i test venivano conclusi sempre prima (se non sbaglio su 64th il divario tornava ad aumentare, è passato molto tempo e non ricordo).
Ma la mia conclusione fu che tranne fare da server per un db, una conversione video in backgroung e giocare a crisys, tutto in contemporanea l'i7 era superiore.
Ps fluidità percepita non rappresenta un maggior troughtout della cpu.


Paolo, se usavi freemake (e non format factory) la differenza a favore di due istanze vs una c'era (freemake utilizza 4 core al 50% di carico da gestione risorse, Format Factory ne utilizza 2), ma lo stesso guadagno percentuale lo ritrovavi anche con i7 se lo scheduler non assegna i th ai soli cori fisici.
Ma la proporzione era:
2 moduli vs 2 core ht 100 vs 130
4 moduli vs 4 core ht 220 vs 270
Bd recuperava in termini percentuali, ma perdeva in termini assoluti.
Se invece lo scheduler di win assegnava i 4 th ai cori fisici dell'i7 l'aumento prestazione c'era comunque perchè i core lavoravano al 50% delle capacità e praticamente egualiando i cori logici (minor carico sul core fisico maggiori risorse per il core logico)
situazione diversa invece se setti prime su 4 th vs 8th.
con 8 th attivi l'i7 guadagno circa il 20% in prestazioni (ci sono benchmark dove il guadagno è praticamente nullo), mentre con bd si aveva un quasi raddoppio delle prestazioni, ma il totale era sempre a favore di intel (a prescindere da quanti th usavi > di 8
Non ho capito bene... tu intendi che a fronte di un andamento a scatti l'SMT conserva comunque le prestazioni vs CMT o l'SMT ha più prestazioni finali perdendo comunque più del CMT?
Inoltre, riferito a quanto avevo postato precedentemente, l'SMT in sè, ha differenze di carico a seconda della grandezza delle cache del modello? Cioè, un Broadwell mobile, un 6700K, un 6850k (a parte la differenza del numero di core) non hanno una grandezza cache/core simile (L1+L2*l3/n° core) e quindi carichi differenti?
paolo.oliva2 è offline  
Old 29-07-2016, 15:15   #4574
paolo.oliva2
Senior Member
 
L'Avatar di paolo.oliva2
 
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31994
Quote:
Originariamente inviato da leoneazzurro Guarda i messaggi
Il mio post era volto a ricordare che a parita' di architettura e di nodo del processo produttivo (leggi 45nm, 32nm, 28nm, ecc) si possono comunque avere variazioni riguardo le prestazioni termiche/in frequenza in base ad altre variabili come ad esempio numero e struttura delle metallizzazioni. Non solo, ma lo stesso processo produttivo a seconda dell'architettura utilizzata puo' fornire prestazioni differenti (es. le GPU Maxwell vs. Hawaii/Fiji, il processo produttivo era identico ma i consumi no).
I problemi di BD sono molteplici: il processo produttivo e' uno di questi (bisogna pero' chiedersi se fosse stato lecito aspettarsi dal processo le frequenze di 5+GHz che sarebbero state necessarie) ma anche tutta l'Architettura BD/PD/XV e' fortemente orientata all'elaborazione parallela piuttosto che alle prestazioni single thread, di deficienze strutturali ce ne sono parecchie (cache lente, mancanza di una µOp cache, ecc.) che non sono pertinenti al processo. Probabilmente AMD si aspettava un forte orientamento dello sviluppo software al multithreading, cosa che per ovvie ragioni non si e' realizzata. Accompagniamoci la mancanza di ottimizzazioni ad hoc e il quadro e' completo.
Che BD sia partita con un IPC troppo basso, nessuno lo discute, ed anche se avesse avuto frequenze di 5GHz non è che avrebbe comunque avuto un ST esaltante.

Però io penso a questo: a parte le frequenze, è innegabile che il 32nm SOI abbia segato completamente l'aspettativa di aumentare i moduli a die sia con il 32nm che con la concellazione del successivo 22nm già programmata.

BD è stato un progetto "economico", perchè AMD non ha investito nulla in cache più veloci e quant'altro, ma solamente condividendo i 2 core con alcune features marginali. Secondo me, l'intenzione di AMD, come anche hai detto tu, era di puntare sulla potenza MT, ma il silicio di fatto concedendo max 4m/8c, ha segato il tutto portando il confronto verso Intel sugli X4+4, i quali avendo frequenze più alte def/turbo, hanno amplificato il deficit IPC. Io non penso che AMD si aspettasse che le software house perfezionassero l'MT, ma penso più che AMD si aspettasse un X10 PD sul 32nm e un X16 XV sul 22nm (che avrebbe visto il 5960X sul 22nm come antagonista) e il confronto sul 14nm Intel da definire.

Facendo un confronto 32nm SOi e 28nm Bulk, abbiamo che il 28nm Bulk potrebbe permettere un FX X8 con base XV a frequenze 3,7GHz def e 4,3GHz turbo, ed ipotizzando un +15% di IPC, vorrebbe dire un equivalente PD 4,25GHz/4,9GHz, cacchio, se giudichiamo ciofeca il 28nm Bulk GF, se riesce a fare meglio del 32nm SOI, allora il 32nm SOI è proprio un cesso.

Per me oggi un 8m/X16 XV se la potrebbe vedere con un 6850K tranquillamente, sia come efficienza che come potenza MT e come carico.
La differenza in ST ci sarebbe, ma da un 8350 con le stesse frequenze di un 6700K, avremmo un 8350 (vedi sopra) a 4,9GHz in turbo (+1,4GHz quasi +50%) e un MT con +1,25GHz (+40% di frequenza), il tutto con almeno 15-20W TDP in meno, ed il tutto sempre nell'ambito 28nm GF vs 14nm Intel super cazzuto. Cacchio architettura inefficiente + 28nm vs 14nm = simile efficienza, dove sarebbe il miracolo? Adesso non è che voglio arrivare che BD sia migliore di Intel, però guardiao anche la nostra tasca. Ad esempio, io preferirei un procio che vada meno del 10% di quello Intel ma pagarlo il 50% in meno rispetto al contrario. AMD con BD ha comunque rapportato un prezzo listino coerente a quanto abbia speso. Il mio obiettivo è di aumentare la potenza del mio PD X8, che alternative avrei? Un 6700K? Troppa spesa per poco di più... un X6+6 o un X8+8 Intel? Preferibile... aspettiamo sto Zen e valutiamo nel rapporto prestazioni/prezzo... io spero di pagarlo quanto un i7 X6 5920K ma avere prestazioni in linea al 6850K. Il 6950X è un altro pianeta come prezzo.

Mi viene difficile su queste basi giudicare l'architettura BD inefficiente... non perchè voglia difenderla. E poi ipotizzare su questo che un BR con 3,2 milioni di transistor costerebbe 185$ ed un XV X16 risulterebbe essere 2/3 di quel die, oddio... schiaffalo anche a 300€ e non basterebbero manco le fonderie GF/Samsung per reggere le richieste.

Ultima modifica di paolo.oliva2 : 29-07-2016 alle 15:34.
paolo.oliva2 è offline  
Old 29-07-2016, 15:25   #4575
bjt2
Senior Member
 
L'Avatar di bjt2
 
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
Quote:
Originariamente inviato da leoneazzurro Guarda i messaggi
Il mio post era volto a ricordare che a parita' di architettura e di nodo del processo produttivo (leggi 45nm, 32nm, 28nm, ecc) si possono comunque avere variazioni riguardo le prestazioni termiche/in frequenza in base ad altre variabili come ad esempio numero e struttura delle metallizzazioni. Non solo, ma lo stesso processo produttivo a seconda dell'architettura utilizzata puo' fornire prestazioni differenti (es. le GPU Maxwell vs. Hawaii/Fiji, il processo produttivo era identico ma i consumi no).
I problemi di BD sono molteplici: il processo produttivo e' uno di questi (bisogna pero' chiedersi se fosse stato lecito aspettarsi dal processo le frequenze di 5+GHz che sarebbero state necessarie) ma anche tutta l'Architettura BD/PD/XV e' fortemente orientata all'elaborazione parallela piuttosto che alle prestazioni single thread, di deficienze strutturali ce ne sono parecchie (cache lente, mancanza di una µOp cache, ecc.) che non sono pertinenti al processo. Probabilmente AMD si aspettava un forte orientamento dello sviluppo software al multithreading, cosa che per ovvie ragioni non si e' realizzata. Accompagniamoci la mancanza di ottimizzazioni ad hoc e il quadro e' completo.
Il problema del Pentium 4 era che scaldava e sul processo bulk il leakage esplodeva... Siccome AMD si è sempre bullata del fatto che i suoi processi SOI avevano un leakage da 10 a 20 volte inferiore, magari pensava di non avere problemi di TDP... E infatti l'architettura è progettata per non murare neanche a 5GHz, frequenza a cui l'unico problema è il TDP...
__________________
0 A.D. React OS
La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani...
IL MIO PROFILO SOUNDCLOUD! IL MIO CANALE YOUTUBE! IL MIO PLUGIN VST PROGRAMMABILE!
bjt2 è offline  
Old 29-07-2016, 15:52   #4576
george_p
Senior Member
 
L'Avatar di george_p
 
Iscritto dal: Sep 2005
Messaggi: 2177
Quote:
Originariamente inviato da leoneazzurro Guarda i messaggi
Il mio post era volto a ricordare che a parita' di architettura e di nodo del processo produttivo (leggi 45nm, 32nm, 28nm, ecc) si possono comunque avere variazioni riguardo le prestazioni termiche/in frequenza in base ad altre variabili come ad esempio numero e struttura delle metallizzazioni. Non solo, ma lo stesso processo produttivo a seconda dell'architettura utilizzata puo' fornire prestazioni differenti (es. le GPU Maxwell vs. Hawaii/Fiji, il processo produttivo era identico ma i consumi no).
I problemi di BD sono molteplici: il processo produttivo e' uno di questi (bisogna pero' chiedersi se fosse stato lecito aspettarsi dal processo le frequenze di 5+GHz che sarebbero state necessarie) ma anche tutta l'Architettura BD/PD/XV e' fortemente orientata all'elaborazione parallela piuttosto che alle prestazioni single thread, di deficienze strutturali ce ne sono parecchie (cache lente, mancanza di una µOp cache, ecc.) che non sono pertinenti al processo. Probabilmente AMD si aspettava un forte orientamento dello sviluppo software al multithreading, cosa che per ovvie ragioni non si e' realizzata. Accompagniamoci la mancanza di ottimizzazioni ad hoc e il quadro e' completo.
Ciao Leoneazzurro, ottima analisi dei fatti.
Tu che conoscenze e competenze hai?
La mia è semplice curiosità
Grazie
__________________
__________
Configurazione:
Mainboard Gigabyte G1.Sniper A88X (rev. 3.0) ; APU A10 7850K ; HDD Western Digital SATA III  WD Blue 1 TB ; Ram Corsair 1866 mhz 16 gb ; OS Seven premium 64 bit
george_p è offline  
Old 29-07-2016, 17:27   #4577
Piedone1113
Senior Member
 
Iscritto dal: Jul 2015
Messaggi: 5581
Quote:
Originariamente inviato da paolo.oliva2 Guarda i messaggi
S

Non ho capito bene... tu intendi che a fronte di un andamento a scatti l'SMT conserva comunque le prestazioni vs CMT o l'SMT ha più prestazioni finali perdendo comunque più del CMT?
Inoltre, riferito a quanto avevo postato precedentemente, l'SMT in sè, ha differenze di carico a seconda della grandezza delle cache del modello? Cioè, un Broadwell mobile, un 6700K, un 6850k (a parte la differenza del numero di core) non hanno una grandezza cache/core simile (L1+L2*l3/n° core) e quindi carichi differenti?
Paolo CMT SMT sono due tecniche che dicono tutto e niente.
L'implementazione CMT di BD è fallimentare, ma non il cmt in se (immagina un modulo composto da 4 core int e 2 fpu, credi che avrebbe le stessa prestazioni del modulo BD.
Oppure un modulo bd con fpu sincrona ma al doppio della frequenza dei core int, magari coadiuvata da un smt a 4 vie a modulo.

Quello che dico è che BD aveva fino a 32 th aveva in cache i dati disponibili per il desktop, sandy bridge no.
o meglio:
Con amd tutti i dati potevano essere presi direttamente dai diversi livelli di cache, mentre con intel bisogna caricarli da ram, in l3, in l2.
Per svuotare la cache in l2 e riversarvi i dati della l3 bisogna aspettare che finisce la coda in esecuzione nei core, ed anche se vanno a 200 kmh hai delle latenza da subire.
Latenze che sommate all'alto ipc non rallentano la cpu.
Con amd non si ha il bisogno di travasare i dati tra le cache ed anche se a latenza delle singole cache maggiori hai meno latenze totali nello switchare tra i vari task.
Considera come un impianto edile:
I dati sono i mattoni per costruire, mentre i core sono i muratori.
Bene i muratori Intel ti posano 100 mattoni al secondo, mentre quelli amd 50.
Più muri dai da costruire al singolo muratore (i th) più mattoni di diverso tipo hai bisogno.
Arrivati ad un certo punto il muratore intel invece di passare al muro che ti aspetti poggia qualche mattone in più sul muro precedente in attesa che arrivino i mattoni giusti, mentre il muratore amd ha molta più probabilità di trovare il mattoni per il muro disponibile gia pronti (magari si allontana di 1 mt per prenderli in l3 invece che in l2).
Questa è la differenza (secondo me)
Se ci ragioni un poco capirai che se un core ha un ipc medio di 100, mentre l'altro di 50 il lavoro utile sarà sempre superiore quello del primo sul secondo, a dispetto dell'apperente lag del mouse (e se consideri che la piattaforma lga 2011 ha il quad channel proprio per non far restare la cpu a girarsi i pollici dato l'elavata capacità di consumare dati in attesa degli stessi dalla ram).
Vedi, l'architettura intel è limitata più dalla banda verso la ram che dall'ipc dei core, mentre quella di amd è il contrario.
Se non sbaglio avevi fatto dei test sulla ram dove sopra i 1866mhz praticamente non avevi aumenti di ipc (e spesso gli aumenti sono dovuto alle latenze ridotte dopo un cache miss e non ai maggiori dati elaborati al secondo), con le cpu intel l'ipc tende ad aumentare fino ai 2400mhz (parliamo di ddr3) segnale che alcuni tipi di calcolo sono limitati dalla ram che non riesce a fornire abbastanza dati.
Avevo letto su un articolo la differenza di prestazioni su server tra architettura ARM, Intel ed AMD ai tempi del 2600 e 8150.
il server arm era un 64 core, i server x86 erano 16 core (intel) e 32 core (amd).
Il server Arm era in vantaggio sulle architetture x86 nel rapporto performance watt fino a 32 istanze contemporanee, dopo di chè il vantaggio si assottigliava fino a raggiungere il pareggio alle 64 istanze (richieste al db sul server da client diversi).
oltre le 64 istanze contemporanee il server arm collassava, mentre amd ed intel andava avanti fino a 128 transazioni contemporanee (Amd senza avere cali di performance fino a 96 transazioni, mentre intel rallentava le proprie prestazioni oltre le 80 transazioni contemporanee).
A 140 transazioni contemporanee tutte e due i server mostravano i fianchi, ma con il server intel in vantaggio nell'esaudire le richieste rispetto a quello AMD.
Il test era fatto per valutare il costo macchina:
Il server arm venne considerato vantaggioso fino 48 istanze (ma indietro se si prendevano server a 8 core x86), superati tali limiti i server arm dovevano essere doppi per gestire i picchi di istanze ( e quindi non più economicamente vantaggiosi), il server Amd venne indicato come vantaggio fino a 96 transazioni, ma con una vita lavorativa di 30 mesi (oltre era antieconomico per i consumi totali), mentre quello intel era consigliato per 96 transazioni medie con picchi fino a 128 e/o 5 anni di vita.
Quindi paolo sotto carico spinto un core ht intel ai tempi dell'fx8150 era superiore ad un modulo AMD prestazionalmente.
Piedone1113 è offline  
Old 29-07-2016, 20:05   #4578
cdimauro
Senior Member
 
L'Avatar di cdimauro
 
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
Quote:
Originariamente inviato da bjt2 Guarda i messaggi
No, di un modulo BD... In realtà forse un po' meno, perchè mancano 2 AGU, due unità di L/S, 0.5-1.5MB di L2 e forse dei decoder, ma in più ha le varie feature e un po' più di L1...
Però Zen ha pure l'FPU potenziata. Per cui bene o male i transistor potrebbero essere quelli, in base a quello di cui abbiamo discusso tempo fa qui.
Quote:
Vabeh, volevo dire che in MT pesante con parecchi thread a basso IPC fa un po' meno schifo...


Comunque alla luce di questa:

http://image.slidesharecdn.com/20130...?cb=1365183251

mi rimangio quello che avevo detto sul processo 32nm SOI: no, non fa affatto schifo, considerato quello che è riuscita a guadagnare IBM nel passaggio dai 45nm. I numeri parlano chiaro.

I problemi li ha avuti AMD, con le sue (micro)architetture.
Quote:
Originariamente inviato da Piedone1113 Guarda i messaggi
Ho notato che la fluidità di sistema su architettura core (ps il core duo non ha ht, refuso o confusione) si va a farsi friggere sopro a 3 th per core.
BD invece regge bene fino a 4th a core (th ad uso intensivo cpu).
Però a parità di carico (con architettura core in crisi di fluidità) le cpu intel (con ht, perchè paragoniamo smt vs cmt tra i due competitor) intel esegue sempre prima tutti i task (anche quando sembra piantato).
e la differenza di prestazioni tra i7 2600 e 8150 rimane pressocchè costante (in percentuale) con alcune situazioni dove addirittura il divario aumenta.
Test fatti in proprio perchè ho cercato di capire il comportamento di bd che sembra sempre essere sotto carico leggero, anche se non si vedono risultati al top.
IMO è proprio dovuto all'approccio CMT: non potendo un solo thread hardware sfruttare tutte le istruzioni & porte a disposizione, come invece fa l'SMT, il secondo thread hardware trova sempre a disposizione delle risorse da utilizzare (quelle sue, esclusive: due istruzioni decodificate + le sue macroALU), e dunque portare avanti la sua esecuzione.

Mentre con l'SMT il thread più attivo può arrivare a far morire di fame l'altro, impegnando per te la maggior parte delle risorse. Però dovrebbe esserci qualche politica di scheduling che conceda all'altro thread un po' di risorse se è da troppo tempo che è rimasto a "morire di fame".
Quote:
Secondo me avere cmt + ht 2 vie avrebbe mitigato in alcuni scenari il distacco vs core, ma allora molto meglio architettura smt pura (magari smt4) perchè cmt+smt avrebbe avuto un costo di sviluppo e transistor molto elevato.
Non capisco cosa intendi con CMT + HT 2 vie.
Quote:
Originariamente inviato da bjt2 Guarda i messaggi
Può essere... INTEL ha 2.5MB di L3 per core, perchè inclusiva... BD 2+1+ la L1... Però la differenza non è molta... 512 KB...
Concordo: non ci sono molte differenze.

A parte la cache L1 dati per ogni macroALU di Bulldozer, che IMO è troppo piccola, e ricorda, ancora una volta, lo stesso approccio di Intel col P4 (la prima versione aveva una cache L1 dati di appena 8KB. Poi portati a 16KB con la seconda versione).

E' come se AMD avesse copiato l'approccio di Intel col P4, ignorandone tutte le magagne.
Quote:
Originariamente inviato da digieffe Guarda i messaggi
con un po' più di tempo l'ho trovata Athlon II X4 651K
Già. Manco ricordavo che esistesse.
Quote:
Originariamente inviato da leoneazzurro Guarda i messaggi
Il mio post era volto a ricordare che a parita' di architettura e di nodo del processo produttivo (leggi 45nm, 32nm, 28nm, ecc) si possono comunque avere variazioni riguardo le prestazioni termiche/in frequenza in base ad altre variabili come ad esempio numero e struttura delle metallizzazioni. Non solo, ma lo stesso processo produttivo a seconda dell'architettura utilizzata puo' fornire prestazioni differenti (es. le GPU Maxwell vs. Hawaii/Fiji, il processo produttivo era identico ma i consumi no).
Infatti. Lo dimostra anche IBM coi suoi POWER 7 e 7+, passando dai 45 ai 32nm SOI. IBM non ha sofferto il passaggio, mentre AMD sì.
Quote:
I problemi di BD sono molteplici: il processo produttivo e' uno di questi (bisogna pero' chiedersi se fosse stato lecito aspettarsi dal processo le frequenze di 5+GHz che sarebbero state necessarie) ma anche tutta l'Architettura BD/PD/XV e' fortemente orientata all'elaborazione parallela piuttosto che alle prestazioni single thread, di deficienze strutturali ce ne sono parecchie (cache lente, mancanza di una µOp cache, ecc.) che non sono pertinenti al processo. Probabilmente AMD si aspettava un forte orientamento dello sviluppo software al multithreading, cosa che per ovvie ragioni non si e' realizzata. Accompagniamoci la mancanza di ottimizzazioni ad hoc e il quadro e' completo.
Sostanzialmente d'accordo, ma per mancanza di ottimizzazioni a cosa ti riferisci.
Quote:
Originariamente inviato da paolo.oliva2 Guarda i messaggi
Però io penso a questo: a parte le frequenze, è innegabile che il 32nm SOI abbia segato completamente l'aspettativa di aumentare i moduli a die sia con il 32nm che con la concellazione del successivo 22nm già programmata.
Alla luce dei risultati di IBM, direi proprio di no: è negabilissimo che i problemi di cui parli siano dovuti al passaggio ai 32nm SOI. Basti vedere l'immagine di cui sopra: i dati sono chiarissimi.
Quote:
Adesso non è che voglio arrivare che BD sia migliore di Intel
Tranquillo: dati alla mano è impossibile da sostenere.
Quote:
Mi viene difficile su queste basi giudicare l'architettura BD inefficiente... non perchè voglia difenderla.
Anche perché, come dicevo sopra, non ci sono proprio gli estremi per poterlo fare: BD è e rimane inefficiente, e non c'è nemmeno la scusa del processo produttivo che può mitigarlo.
Quote:
Originariamente inviato da Piedone1113 Guarda i messaggi
Vedi, l'architettura intel è limitata più dalla banda verso la ram che dall'ipc dei core, mentre quella di amd è il contrario.
Se non sbaglio avevi fatto dei test sulla ram dove sopra i 1866mhz praticamente non avevi aumenti di ipc (e spesso gli aumenti sono dovuto alle latenze ridotte dopo un cache miss e non ai maggiori dati elaborati al secondo), con le cpu intel l'ipc tende ad aumentare fino ai 2400mhz (parliamo di ddr3) segnale che alcuni tipi di calcolo sono limitati dalla ram che non riesce a fornire abbastanza dati.
Ci sono dei test che dimostrano che la maggior banda influenza mediamente poco le prestazioni.
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro
@LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro
Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys
cdimauro è offline  
Old 29-07-2016, 20:56   #4579
Piedone1113
Senior Member
 
Iscritto dal: Jul 2015
Messaggi: 5581
Quote:
Originariamente inviato da cdimauro Guarda i messaggi
Però Zen ha pure l'FPU potenziata. Per cui bene o male i transistor potrebbero essere quelli, in base a quello di cui abbiamo discusso tempo fa qui.





IMO è proprio dovuto all'approccio CMT: non potendo un solo thread hardware sfruttare tutte le istruzioni & porte a disposizione, come invece fa l'SMT, il secondo thread hardware trova sempre a disposizione delle risorse da utilizzare (quelle sue, esclusive: due istruzioni decodificate + le sue macroALU), e dunque portare avanti la sua esecuzione.

Mentre con l'SMT il thread più attivo può arrivare a far morire di fame l'altro, impegnando per te la maggior parte delle risorse. Però dovrebbe esserci qualche politica di scheduling che conceda all'altro thread un po' di risorse se è da troppo tempo che è rimasto a "morire di fame".

Non capisco cosa intendi con CMT + HT 2 vie.




Infatti. Lo dimostra anche IBM coi suoi POWER 7 e 7+, passando dai 45 ai 32nm SOI. IBM non ha sofferto il passaggio, mentre AMD sì.


Alla luce dei risultati di IBM, direi proprio di no: è negabilissimo che i problemi di cui parli siano dovuti al passaggio ai 32nm SOI. Basti vedere l'immagine di cui sopra: i dati sono chiarissimi.

Tranquillo: dati alla mano è impossibile da sostenere.

Anche perché, come dicevo sopra, non ci sono proprio gli estremi per poterlo fare: BD è e rimane inefficiente, e non c'è nemmeno la scusa del processo produttivo che può mitigarlo.

Ci sono dei test che dimostrano che la maggior banda influenza mediamente poco le prestazioni.
Se non sbaglio IBM impiego oltre 18 mesi per il power7+ ed in parte le previsioni sui consumi furono disattesi.
Se poi non sbaglio il passaggio da 45 a 32 nm avrebbe dovuto portare una riduzione di un fattore 4 sulle dimensioni, (realisticamente 3,5) ma difatti la riduzione è stata di un fattore 2, quindi continuo a reputare il 32 SOI poco riuscito.

Per quando riguarda le risorse contese dall'ht ed esclusive del cmt è vero in parte:
con 4 th a modulo le risorse del singolo core in bd sarebbero comunque state insufficienti per mantenere fluidità, ma qua stiamo parlando di 8 th a modulo (4 a core int e ben 8 per la fpu condivisa) dove questa ipotesi sarebbe poco credibile (da parte mia).
Per la cache invece il core intel ha bisogno di leggere e scrivere i dati direttamente in L2 (considerando la L1 tutt'uno con il core) ma non in L3, a differenza di Amd che può farlo direttamente in L3.

E se fossero le sole risorse condivise il problema quando il sistema perde reattività le prestazioni dovrebbero calare in modo marcato, cosa che invece non avviene.
Per la ram è vero che oltre una certa frequenza la variazione di ipc è minima, ma AMD si ferma a 1866 sulla ram, oltre non vale la pena, tranne che sulle apu che sono affamate di banda per via della grafica, mentre con intel questo si inizia ad avvertire oltre i 2133mhz, ed è evidente quanto più la cpu è in overclock.
Questo, secondo me, significa che in determinate condizioni la banda verso la ram mi rallenta il sistema (in situazioni dove la ram è effettivamente stressata), chiaramente dove la banda verso la ram è minima non si avranno miglioramenti ( e probabilmente l'abbassamento di ipc sarebbe minimo anche settando la ram a 1033 mhz ).
Per quanto riguarda il CMT:
Un modulo da 4 core int e 3 fpu condivise dinamicamente tra i core rimane sempre un approcio cmt, ma questo non vieterebbe di implementare anche smt dove ogni core fisico in hardware potrebbe eseguire due th (considerando poi il rapporto ht = +25 % sarebbe come avere 5 core con 3 fpu in un rapporto più vantaggioso di 2 a 1)
Piedone1113 è offline  
Old 29-07-2016, 22:06   #4580
cdimauro
Senior Member
 
L'Avatar di cdimauro
 
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
Quote:
Originariamente inviato da Piedone1113 Guarda i messaggi
Se non sbaglio IBM impiego oltre 18 mesi per il power7+
E' normale: fra POWER6 e POWER6+ ci sono circa 2 anni, e lo stesso vale per POWER7 e POWER7+.
Quote:
ed in parte le previsioni sui consumi furono disattesi.
No, guarda tu stesso: frequenze aumentate e consumi ridotti, pur con col 75% di transistor in più.

E non si tratta di un caso isolato, perché risultati simili sono stati ottenuti sempre da IBM, quando la sua architettura Z (che è completamente diversa da quella POWER, e molto più CISC-like) è passata z196/45nm a zNext/32nm (sempre SOI).
Ecco qui: frequenze aumentate (anche se non di molto come per POWER 7 -> 7+, perché erano già molto tirate), una marea di cambiamenti nonché core aumentati, e consumi simili.

Ricapitolando:
- due architetture completamente diverse;
- passaggio da 45 a 32nm SOI;
- vantaggi in tutti i settori.



Risultati completamente diversi da quelli ottenuti da AMD quando ha fatto la stessa cosa col K10. Per Bulldozer non c'è un predecessore per poter fare un confronto, ma se AMD s'aspettava frequenze più elevate, come ha fatto col K10 ha fallito anche con Bulldozer, e NON certo per colpa del processo produttivo.
Quote:
Se poi non sbaglio il passaggio da 45 a 32 nm avrebbe dovuto portare una riduzione di un fattore 4 sulle dimensioni, (realisticamente 3,5) ma difatti la riduzione è stata di un fattore 2, quindi continuo a reputare il 32 SOI poco riuscito.
Ancora no: fra 45 e 32 nm la riduzione è di un fattore 1,98, e dunque si avvicina al 2x di cui parlavi.

IBM fra POWER7 e POWER7+ è riuscito a impacchettare il 75% in più di transistor a parità di area: non è il 98% in più, ma è comunque un ottimo risultato.
Quote:
Per quando riguarda le risorse contese dall'ht ed esclusive del cmt è vero in parte:
con 4 th a modulo le risorse del singolo core in bd sarebbero comunque state insufficienti per mantenere fluidità, ma qua stiamo parlando di 8 th a modulo (4 a core int e ben 8 per la fpu condivisa) dove questa ipotesi sarebbe poco credibile (da parte mia).
Non volevo paragonare POWER7+ a BD: ho semplicemente portato un esempio di passaggio da 45 a 32 nm SOI, che è avvenuto con successo. E adesso ne ho aggiunto un altro.
Quote:
Per la cache invece il core intel ha bisogno di leggere e scrivere i dati direttamente in L2 (considerando la L1 tutt'uno con il core) ma non in L3, a differenza di Amd che può farlo direttamente in L3.
I core Intel non sono costretti a passare sempre dalla L2 quando accedono alla L1; tutt'altro. Ed è questa la cosa più importante. D'altra parte con la cache L1 più ampia (e con maggior associatività, se non ricordo male), hanno più cache hit e meno necessità di passare alla L2, alla L3, e così via.

Poi, se non ricordo male, gestire la gerarchia delle cache è molto più semplice quando non sono esclusive.
Quote:
E se fossero le sole risorse condivise il problema quando il sistema perde reattività le prestazioni dovrebbero calare in modo marcato, cosa che invece non avviene.
No, è proprio il contrario: le prestazioni sono elevate quando si perde di reattività, perché c'è un thread hardware che monopolizza l'uso delle risorse.

Il che significa pure che le risorse vengono meglio sfruttate dai thread hardware.
Quote:
Per la ram è vero che oltre una certa frequenza la variazione di ipc è minima, ma AMD si ferma a 1866 sulla ram, oltre non vale la pena, tranne che sulle apu che sono affamate di banda per via della grafica, mentre con intel questo si inizia ad avvertire oltre i 2133mhz, ed è evidente quanto più la cpu è in overclock.
Questo, secondo me, significa che in determinate condizioni la banda verso la ram mi rallenta il sistema (in situazioni dove la ram è effettivamente stressata), chiaramente dove la banda verso la ram è minima non si avranno miglioramenti ( e probabilmente l'abbassamento di ipc sarebbe minimo anche settando la ram a 1033 mhz ).
Tagliamo la testa al toro: Memory Performance: 16GB DDR3-1333 to DDR3-2400 on Ivy Bridge IGP with G.Skill

E ancora meno sensibile è il passaggio da DDR3 a DDR4, con Skylake:
The Intel 6th Gen Skylake Review: Core i7-6700K and i5-6600K Tested - DDR4 vs DDR3L on the CPU
Quote:
Per quanto riguarda il CMT:
Un modulo da 4 core int e 3 fpu condivise dinamicamente tra i core rimane sempre un approcio cmt, ma questo non vieterebbe di implementare anche smt dove ogni core fisico in hardware potrebbe eseguire due th (considerando poi il rapporto ht = +25 % sarebbe come avere 5 core con 3 fpu in un rapporto più vantaggioso di 2 a 1)
Sì, ma nessuno l'ha fatto: o si va di CMT o di SMT. Si vede che un ibrido comporterebbe delle complicazioni.
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro
@LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro
Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys
cdimauro è offline  
 Discussione Chiusa


Le soluzioni FSP per il 2026: potenza e IA al centro Le soluzioni FSP per il 2026: potenza e IA al ce...
AWS annuncia European Sovereign Cloud, il cloud sovrano per convincere l'Europa AWS annuncia European Sovereign Cloud, il cloud ...
Redmi Note 15 Pro+ 5G: autonomia monstre e display luminoso, ma il prezzo è alto Redmi Note 15 Pro+ 5G: autonomia monstre e displ...
HONOR Magic 8 Pro: ecco il primo TOP del 2026! La recensione HONOR Magic 8 Pro: ecco il primo TOP del 2026! L...
Insta360 Link 2 Pro e 2C Pro: le webcam 4K che ti seguono, anche con gimbal integrata Insta360 Link 2 Pro e 2C Pro: le webcam 4K che t...
JMEV SC01, la supersportiva cinese da 30...
Tesla Model 3 superata per la prima volt...
AMD ha già risolto la crisi della...
La “batteria di Baghdad” funziona davver...
Pannelli solari al contrario? Non propri...
Google Gemini si espande: arrivano le es...
Mercato TV: la leadership di Samsung reg...
L'AI che lavora 100 volte più vel...
LIDAR, battaglia finale: MicroVision met...
Il 2025 è stato l'anno di BYD: +2...
L'IA enterprise entra nella fase decisiv...
Il tiktoker Khaby Lame cede la sua socie...
Apple Pencil Pro scende a 122€ su Amazon...
Ring in forte sconto su Amazon: videocit...
Blink torna a fare sul serio: Mini 2K+ c...
Chromium
GPU-Z
OCCT
LibreOffice Portable
Opera One Portable
Opera One 106
CCleaner Portable
CCleaner Standard
Cpu-Z
Driver NVIDIA GeForce 546.65 WHQL
SmartFTP
Trillian
Google Chrome Portable
Google Chrome 120
VirtualBox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 00:31.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2026, Jelsoft Enterprises Ltd.
Served by www3v