Future cpu Quad Core di intel, Hyper Threading?

Possibile un approccio che preveda il ritorno della tecnologia Hyper-Threading nei sistemi quad core di futura generazione, previsti per la metà del 2008
di Paolo Corsini pubblicata il 20 Novembre 2006, alle 14:55 nel canale ProcessoriIntel
44 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoGia
Ma non è detto che l'HT è utile solo con le pipe lunghe...
fino a prova contraria
SO e software dovranno evolvere insieme all'hardware altrimenti 4 core più HT non serviranno a nulla, se non per fare tanti punti con Sandra e pochi sec. con super P
Un generale romano del 100 a.C. circa disse: "siamo arrivati al massimo, il livello tecnologico delle nostre armi non sarà mai superato"
No comment. . .
dopo questa sparata, mi stupisco che tu abbia già un pc
Pure Io
Ma non è detto che siano utili solo con le pipe lunghe.
L'Hyperthreading, versione Intel del SMT (Simultaneous Multi-Threading) serviva sui P4 per incrementare l'utilizzazione delle unità di esecuzione, che in caso di cache miss o branch misprediction potevano rimanere in attesa di dati da elaborare per un gran numero di cicli vista la lunghezza delle pipelines che dovevano essere svuotate interamente, mentre utilizzando HT si potevano processare due thread in parallelo e quindi uno stallo bloccava solo uno dei thread, mentre l'altro poteva continuare ad essere elaborato.
Nel caso di CPU con pipeline corte, il SMT utilizzato in questo modo ha meno senso, poichè gli stalli hanno penalità inferiori e quindi l'investimento in termini di transistors per implementare SMT non è stato giudicato conveniente sulle architetture X86. Questo se il numero di unità di esecuzione si mantiene basso, perchè un altro utilizzo dello SMT è quello di poter eseguire più thread in parallelo per poter tenere occupato il numero più possibile elevato di unità.
Questo approccio per esempio è utilizzato nei Power 5 di IBM. Ciò potrebbe voler indicare, se le indiscrezioni fossero confermate, che in queste nuove CPU saranno presenti molte più unità di esecuzione di quelle attuali.
Beh cmq la citazione è corretta, più o meno
no, infatti
non è questione di pipeline lunga o corta, è questione di ILP raggiungibile internamente al processore nelle varie condizioni d' uso ... ed è questione di aumentare lo sfruttamento delle risorse interne al processore a livello di decodifica, scheduling ed esecuzione delle istruzioni, e minimizzarne l' idling
Ora, come noto, il problema per P4 era occupare gli slot di uno Scheduler e delle ALU (2 ALU a doppio ciclo, equivalenti a 4 alu intere a 32 bit, sul northwood per operazioni semplici, sul prescott sempre ) che sulla carta portavano a una capacità di calcolo superiore; in pratica capacità usata per compensare la perdita provocata dalla distanza tra la prima fase fasi scheduling e la fine della execute, nel caso il risultato di un' altra operazione in sospeso vanificasse quella appena calcolata (la pipeline non inficiava con tutti i 21 stadi gli stalli dovuti a branch misprediction, perchè la cache ETC si occupava della sequenziazione delle microops già decodificate e ordinate per flusso operativo - bypassando i jump, cioè - infatti la cache era direttamente connessa a una seconda unità di branch prediction)
Il problema era che tale cache ETC poteva produrre un massimo di 6 microops per ciclo, ma solo se a cache line piena, quindi nella quasi totalità dei casi ne emetteva la metà; inoltre, lo scheduler, a monte della ETC, che produceva le micro ops a partire dalle istruzioni X86, non era superscalare (quindi faceva da collo di bottiglia)
infine, prima dei prescott, le istruzioni X86 complesse erano eseguite da una singola alu dedicata, connessa direttamente al decoder che entrava in modalità "ROM sequence" (emissione di un comando per volta, letto dal microcodice)
Quindi le inefficienze di NetBurst erano svariate, alcune connesse ma non direttamente, al numero di stadi di pipeline ...
invece Core 2 ha sì una pipeline più corta, e praticamente, più "classica" ma quello che davvero conta è il modo in cui è implementato ogni stadio, a partire dal Decoder delle istruzioni X86 superscalare a 4 vie, (già al di là della media di istruzioni per ciclo medie consentite da un eseguibile x86 , che se non ricordo male si aggirava su 2,5) ...
EDIT: leoneazzurro mi ha preceduto ed è stato molto più chiaro di me
E' una semplice mossa per contrastare nei benchmark dedicati il 4x4 di AMD, che nel futuro potrà avere un 4 core + 4 core.
Inoltre ricordo che se una cosa ha "poco" senso, non significa che non ne abbia.
dall'HT?
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".