Intel Alder Lake, ecco come funziona il processore ibrido ad alte prestazioni in arrivo in autunno

Intel Alder Lake, ecco come funziona il processore ibrido ad alte prestazioni in arrivo in autunno

Intel ci ha parlato in modo approfondito di Alder Lake, il nuovo microprocessore che vedremo entro fine anno sul mercato desktop e mobile. L'azienda ci ha spiegato come funziona il nuovo progetto ibrido x86 ad alte prestazioni, caratterizzato da Performance Core, Efficient Core e un nuovo componente chiave chiamato Intel Thread Director.

di pubblicato il nel canale Processori
IntelCoreAlder Lake
 

Nel corso dell'Architecture Day 2021 Intel ci ha parlato di Alder Lake, il progetto su cui saranno basate le future CPU per desktop e mobile che inizieremo a vedere sul mercato da questo autunno. Rispetto ai processori Core di precedente generazione, Alder Lake è un design ibrido, ossia è basato su due tipi di core, uno ad alte prestazioni ed uno ad alta efficienza. Intel parla per l'esattezza di Performance Core (P-core, Golden Cove) e di Efficient Core (E-core, Gracemont), con i primi a occuparsi dei carichi più probanti e i secondi delle operazioni in background e quelle più leggere, anche se in modo dinamico. Tutto questo dà vita a un progetto che Intel definisce "Performance Hybrid".

Per spiegare cosa si intende, Raja Koduri - senior vice president e general manager dell'Accelerated Computing Systems and Graphics (AXG) Group - ha fatto un'analogia con il mondo delle automobili, dove le vetture ibride stanno prendendo sempre più piede. Nel caso delle auto comuni l'ibrido serve per garantire una maggiore percorrenza, ma c'è anche un altro tipo di ibrido, quello delle Formula 1, dove l'ERS aiuta il motore termico non solo a finire un GP con un pieno, ma anche ad avere più potenza in determinate fasi di guida. È da questo concetto che è nato Alder Lake.

Alder Lake, caratteristiche generali

Arik Gihon, chief architect del progetto, ha confermato anzitutto che i processori Alder Lake saranno prodotti con processo Intel 7, ossia gli ex 10 nanometri Enhanced SuperFin, con l'obiettivo di coprire tutti i segmenti client coprendo un TDP da 9W fino a 125W.

La scalabilità del progetto prevede, fondamentalmente, tre tipi di processori: un design desktop compatibile con il nuovo socket LGA 1700, un design mobile (BGA Type 3) con dimensioni di 50 x 25 x 1,3 mm e uno Ultra Mobile (BGA Type 4 HDI) da 28,5 x 19 x 1,1 mm da cui Intel poi ricaverà le varie configurazioni per offrire le funzionalità più utili e raggiungere determinati livelli di prestazioni e prezzo.

Insomma, sebbene si tratti nuovamente di un progetto monolitico, Alder Lake prevede una serie di blocchi non sempre comuni ai tre progetti per soddisfare le necessità di mercato: vedremo ad esempio una GPU integrata Xe LP più carrozzata su alcuni modelli mobile rispetto ai desktop, ma anche una Image Processing Unit (IPU) presente solo sui progetti mobile.

Nella sua massima espressione Alder Lake prevede 16 core, 8 Performance Core e 8 Efficient Core entrambi con frequenza dinamica e supporto P-state (power state) per core. Solamente i P-core offrono supporto all'Hyper-Threading, ossia mettono a disposizione 2 thread logici per core, mentre gli E-core garantiscono un solo thread per core. Ne consegue quindi che il massimo di thread offerto è pari a 24. Il progetto prevede inoltre fino a 30 MB di cache L3 (LLC, Last Level Cache) condivisa tra core e grafica. Gli E-core fanno parte di un cluster con cache L2 condivisa.

Per quanto riguarda il supporto di memoria, Intel guarda al futuro senza dimenticare il presente. L'azienda ha infatti implementato nel controller il supporto a quattro standard di memoria: LPDDR4X-4266, DDR4-3200, ma soprattutto LPDDR5-5200 e DDR5-4800, abbracciando così i nuovi standard che nel tempo andranno a trovare sempre più spazio sul mercato.

Alder Lake non solo supporta RAM con frequenze elevate, ma può anche alterare la velocità in base alla bandwidth richiesta tracciando il comportamento del carico di lavoro in modo da coprire qualsiasi tipo di caso d'uso, anche quelli dove l'efficienza è l'elemento principale, tramite calcoli euristici in tempo reale.

Non contenta, Intel ha implementato nella nuova CPU anche il supporto PCI Express 5.0, offrendo così una bandwidth raddoppiata rispetto alla quarta generazione e fino a 16 linee per un totale di 64 GB/s. A queste si aggiungono 4 linee PCIe 4.0. Il chipset di Alder Lake offrirà invece 12 linee PCIe 4.0 e 16 PCIe 3.0.

Tutti questi blocchi funzionano grazie a tre Fabric: Compute Fabric garantisce una bandwidth fino a 1000 GB/s (per ora) e connette core, grafica e cache LLC alla memoria. C'è poi l'I/O Fabric che arriva fino a 64 GB/s e il Memory Fabric che arriva a un massimo 204 GB/s. Tutti i Fabric rispondono in tempo reale al carico, ai consumi e altri parametri.

Efficient Core (E-core, Gracemont) in Alder Lake

Steven Robinson, chief architect di Intel per gli Efficient Core, precedentemente meglio noti con il nome in codice Gracemont, è entrato nei dettagli di quello che è nato con l'obiettivo di essere non solo il core x86 più efficiente mai creato, ma anche un core più veloce sul fronte dell'IPC (istruzioni per clock) rispetto all'architettura più diffusa e longeva dell'azienda, Skylake, e un core in grado di farsi carico anche di carichi multi-thread con efficienza. Efficienza del throughput e scalabilità sono quindi le parole d'ordine.

Secondo Robinson, Intel ha centrato tutti gli obiettivi prefissati, andando a lavorare su tre direttrici principali: un front-end più profondo, un back-end più ampio e un design ottimizzato e impreziosito dalla produzione con processo Intel 7.

Per ottenere un IPC elevato e un'efficienza superiore è necessario processare le istruzioni il più rapidamente possibile, e per farlo serve una branch prediction accurata. Intel ha ampliato la dimensione delle strutture che compongono l'unità (ad esempio, 5.000 entry branch target cache) e ha implementato una cache istruzioni da 64 KB che mantiene le istruzioni più utili vicino alle unità di calcolo senza dover interagire con il sottosistema di memoria.

L'architettura Gracemont è anche la prima a figurare un "on-demand instruction lenght decoder" dedicato ad accelerare i carichi di lavoro con code molto lunghe, andando a immagazzinare le informazioni insieme a quelle della cache istruzioni in modo che un codice mai affrontato prima non solo venga gestito più rapidamente, ma la volta successiva bypassi il decoder risparmiando energia. Vi è poi un decoder out of order che consente di decodificare fino a 6 istruzioni per ciclo mantenendo sotto controllo latenza e consumo.

Per garantire prestazioni elevate e il massimo del parallelismo, Intel ha rinnovato anche tutta la parte di esecuzione, come potete vedere nelle seguenti slide:

Intel ha implementato un ampio back-end con allocazione 5-wide e ritiro da 8-wide, 256 entry out-of-order window e 17 porte di esecuzione. L'azienda è poi intervenuta sul sottosistema di memoria implementando due load pipeline e due store pipeline, fino a 4 MB di cache L2 condivisa, un buffering più profondo e un prefetcher più avanzato. Infine, Intel Resource Director Technology permette al software di controllare l'uso delle risorse tra i core e i thread.

L'Efficient Core è poi dotato di funzionalità di sicurezza come Intel CET (Control-flow Enforcement Technology), Intel VT-rp (Virtualization redirect protection) e molto altro. Non manca il supporto AVX (AVX-512 non sarà presente su Alder Lake) e insieme a nuove estensioni per la gestione efficiente delle operazioni integrali di intelligenza artificiale (IA).

L'effetto netto di tutte queste novità e delle scelte su cosa implementare e cosa lasciare fuori per garantire un core veloce ma estremamente efficiente è stato mostrato da Intel paragonando un core Gracemont (1 thread) a un core Skylake (1 thread): le prestazioni salgono del 40% a parità di consumo, o se si vuole vederla al contrario, i consumi scendono del 40% a parità di prestazioni. "Per dirla diversamente un core Skylake consuma 2,5 volte più energia", ha affermato Robinson, "per raggiungere le stesse prestazioni".

Spostando invece il confronto sul throughput e confrontando un chip Skylake con 2 core / 4 thread con un E-core Gracemont da 4 core / 4 thread, abbiamo l'80% di prestazioni in più allo stesso consumo o un calo dei consumi dell'80% alle medesime prestazioni. "Skylake consuma 5 volte l'energia in più offrendo le stesse prestazioni", ha aggiunto Robinson, "e questo è persino più incredibile se pensate che abbiamo inserito 4 E-core in un'are simile a un solo core Skylake".

Performance Core (P-core, Golden Cove) in Alder Lake

Per quanto riguarda i P-core, precedentemente noti come Golden Cove, il chief architect Adi Yoaz ha spiegato che l'obiettivo era realizzare un core molto più veloce rispetto al passato, in grado di scalare dai laptop ai datacenter, dotato di una uArch aggiornata con nuove funzionalità per affrontare meglio i carichi emergenti e in grado di accelerare i carichi di intelligenza artificiale con un coprocessore per la moltiplicazione delle matrici.

Ogni core è inoltre dotato di un nuovo controller per la gestione energetica che è in grado di gestire il budget a disposizione in modo istantaneo, nell'ordine di microsecondi e non millisecondi, garantendo così la frequenza più alta possibile in ogni frangente.

"Questo è il nostro cambiamento architetturale più grande da un decennio a questa parte", ha affermato Yoaz, spiegando che il primo elemento su cui si è concentrata Intel è stato il front-end, ampliandolo e migliorandolo (come indicano i valori nella slide), sia dal punto di vista della decodifica che da quello della micro-op cache, in modo da garantire una bandwidth più alta e una latenza minore. Anche in questo caso la branch prediction è stata resa più accurata.

Il branch target buffer (BTB) è stato reso oltre due volte più grande rispetto alla precedente generazione e questo dovrebbe migliorare notevolmente le prestazioni con diversi tipi di codice. La dimensione del BTB può cambiare in modo dinamico grazie a un algoritmo di machine learning, in modo da ridurre le sue dimensioni quando non necessario e risparmiare energia oppure ampliare la propria capacità quando sono richieste maggiori prestazioni.

Intel ci ha poi parlato dell'out of order engine, reso più ampio, profondo e intelligente in modo da alimentare al meglio le unità di calcolo, per poi passare alla cache L1 e al sottosistema di memoria, in grado di contenere più dati e agire in modo più intelligente rispetto al passato.

La cache L2 è invece stata personalizzata per rispondere alle necessità di due differenti mercati: nel caso dei P-core client è pari a 1,25 MB ed è stata ottimizzata per una latenza ridotta, mentre per i P-core destinati ai datacenter è pari a 2 MB per scalare meglio sui processori con molti core. Intel ha anche implementato un L2 prefetch engine totalmente rinnovato.

Tutto questo si traduce, secondo Intel, in prestazioni a parità di frequenza (3,3 GHz) in crescita mediamente del 19% rispetto al core Cypress Cove a bordo dei processori Core di undicesima generazione desktop. "Si tratta di un miglioramento persino maggiore di quanto abbiamo offerto con Sunny Cove rispetto a Skylake", ha spiegato Yoaz, aggiungendo che ovviamente con i nuovi carichi di lavoro il miglioramento prestazionale non potrà che essere significativamente più alto.

Per migliorare drasticamente l'IPC nelle applicazioni di intelligenza artificiale l'azienda statunitense ha sviluppato AMX, Advanced Matrix Extensions, in modo da accelerare machine learning, inferenza e addestramento.

L'attuale tecnologia Intel VNNI, con operazioni int8 (inferenza), garantisce 256 operazioni int8 per ciclo di clock (per core), ma con AMX Intel afferma che è in grado di migliorare quel valore di 8 volte, arrivando a 2048 operazioni int8 per ciclo di clock (per core). Tutto questo è possibile grazie a due componenti che costituiscono AMX, Tiles e TMUL.

Intel Thread Director, un direttore d'orchestra per P-core ed E-core

Alder Lake e il suo design ibrido composto da due differenti tipi di core sono una prima assoluta e di conseguenza Intel si è trovata a dover far andare d'accordo non solo le due unità tra loro, ma queste anche con il software, ossia il sistema di scheduling del sistema operativo. Inoltre, c'era l'esigenza di non costringere gli sviluppatori di software a rilasciare aggiornamenti dei rispettivi programmi per sfruttare l'architettura. Come fare?

Raishree Chabukswar, chieft architect di Intel, ci ha parlato di Intel Thread Director, che abbiamo definito "direttore d'orchestra" perché è effettivamente quello che fa. Se preferite, potete anche vederlo come un vigile che smista il traffico in modo intelligente a seconda delle necessità e delle risorse disponibili.

Intel Thread Director è integrato nell'hardware e monitora le istruzioni in funzione su ogni thread e lo stato di ogni core con un'accuratezza al nanosecondo, "parla" con il sistema operativo in modo più avanzato affinché vi sia uno smistamento intelligente del carico di lavoro sul tipo di core più appropriato e adatta il suo comportamento sulla base del TDP, delle condizioni operative e delle impostazioni energetiche, il tutto senza coinvolgere l'utente finale.

Facciamo un esempio. Poniamo che stiate giocando o creando un contenuto complesso, ma parallelamente state anche sincronizzando l'email: i thread creati dal carico più esigente vengono assegnati con priorità ai P-core, mentre le operazioni di background vengono schedulate sugli E-core.

A un certo punto però avviate un carico di intelligenza artificiale: i P-core sono tutti occupati, cosa succede? Entra in gioco Intel Thread Director, il quale suggerisce al sistema operativo l'esistenza di un thread a più alte prestazioni che richiede attenzione e, allo stesso tempo, identifica un thread candidato che può essere spostato da P-core ad E-core facendo spazio al thread di IA. "Nulla è statico, tutto è dinamico in base al contenuto o qualsiasi cosa sia in funzione sul sistema, il tutto potenziato dalla telemetria hardware", ha spiegato Raishree Chabukswar.

Come forse avrete già intuito, affinché tutto funzioni al meglio, Intel ha lavorato fianco a fianco con Microsoft per far sì che Windows 11 - al debutto entro fine anno sui computer di nuova produzione - faccia un uso adeguato di Alder Lake (il quale funzionerà, seppur diversamente, anche con sistemi operativi precedenti e differenti). Permettendo al sistema operativo di avere una visione trasparente di che cosa effettivamente sta girando su un core, lo scheduler può lavorare al meglio con un duplice beneficio per le prestazioni e anche i consumi. Intel Thread Director aiuta infatti Windows 11 a capire meglio quali core "parcheggiare" e quali no, con un conseguente miglioramento dell'efficienza energetica.

Il sistema operativo di Microsoft ha poi una API dedicata (PowerThrottling) che consente agli sviluppatori di "classificare" i thread in modo che possano girare sui core più appropriati. Infine, la tecnologia di Intel applica una nuova classificazione EcoQoS che informa lo scheduler se il thread preferisce l'efficienza energetica (tali thread vengono schedulati sugli Efficient core).

Quando arriva? I primi modelli in autunno (con Windows 11)

I processori desktop e i notebook basati su Intel Alder Lake inizieranno a essere disponibili nel corso dell'autunno, probabilmente in concomitanza o quasi con Windows 11. In prossimità di quella data la società statunitense entrerà nel merito dell'offerta commerciale, tra modelli e specifiche tecniche dettagliate. In quel momento potremo fare confronti e analisi rispetto alle CPU Intel precedenti e le proposte concorrenti di AMD.

In tema di Intel Architecture Day 2021, vi suggeriamo la lettura dell'articolo dedicato ai primi dettagli tecnici sulle GPU dedicate Intel Arc previste al debutto nei primi mesi del 2022: Intel Arc Alchemist, con Xe-Core e XeSS è sfida a Nvidia e AMD sulle GPU gaming.

57 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
demon7719 Agosto 2021, 16:04 #1
Ok, sulla carta è tanta tanta roba.
Soprtattutto perchè da come è scritto un efficient core a parità di consumo viaggia molto più di un core di skylake.. e pertanto un Pcore sarà ben più performante.

Adesso c'è da vedere la prova su strada.. che è la cosa più importante.
moroboshy19 Agosto 2021, 16:26 #2
Finalmente qualcosa di innovativo su X86.
Credo che Apple abbia messo un po' di pepe ad Intel, che continuando semplicemente ad evolvere architetture old-style rischiava di essere fortemente ridimensionata anche su sistemi Microsoft.
RaZoR9319 Agosto 2021, 16:28 #3
Alder lake appare molto promettente.
Gello19 Agosto 2021, 17:50 #4
Su carta tantissima roba, vedremo poi in pratica anche questo Intel Thread Director come faciletra' la vita dello scheduler, personalmente aspettero' ALMENO il refresh a fine 2022 per avere una piattaforma piu' matura e magari delle ddr5 decenti a prezzi non folli, ma forse sara' ancora presto... Spero gli oranghi non decidano prima al posto mio.
pengfei19 Agosto 2021, 17:57 #5
Direi che hanno bisogno di un grosso boost di efficienza e prestazioni, il tiger lake che ho dovuto prendermi è proprio una chiavica rispetto all'M1 che ho sperimentato lo scorso inverno
Cappej19 Agosto 2021, 18:32 #6
Originariamente inviato da: pengfei
Direi che hanno bisogno di un grosso boost di efficienza e prestazioni, il tiger lake che ho dovuto prendermi è proprio una chiavica rispetto all'M1 che ho sperimentato lo scorso inverno


eh bhe.. sicuramente il distacco c'è, ma va visto non solo come CPU ma come piattaforma integrata di hw-e-sw
bho vediamo cosa combineranno, del resto si sa che con le slide son bravi tutti no?
pengfei19 Agosto 2021, 20:02 #7
Originariamente inviato da: Cappej
eh bhe.. sicuramente il distacco c'è, ma va visto non solo come CPU ma come piattaforma integrata di hw-e-sw
bho vediamo cosa combineranno, del resto si sa che con le slide son bravi tutti no?


Soprattutto Intel, ne avevano fatte anche per sostenere la superiorità dei Tiger Lake sull'M1.
Vedremo, mi aspetto un discreto passo in avanti entro i limiti del processo produttivo, ma personalmente non penso riusciranno a presentare qualcosa di tecnologicamente competitivo con le proposte Apple in tempi brevi, mi sa che se ne riparlerà quando inizieranno a farsi produrre i processori da TSMC
Nui_Mg19 Agosto 2021, 21:19 #8
Zen 4 adotterà le avx512 mentre per alder lake nisba, il mondo alla rovescia
quartz19 Agosto 2021, 22:08 #9
Io spero che prima o poi si ritorni a proporre CPU e GPU davvero più parche nei consumi.

Nel 2017 c'era Zen 1 con 95 W di TDP max, Kaby Lake con max 91 W e la 1080 Ti che consumava 250 W.

Sembravano lontanissimi i tempi dei Prescott e degli FX, invece negli ultimi anni sembra che si stia tornando indietro.
Speriamo che Meteor Lake con i 7 nm (o Intel 4 che dir si voglia) migliori le cose.
coschizza19 Agosto 2021, 23:46 #10
Originariamente inviato da: Nui_Mg
Zen 4 adotterà le avx512 mentre per alder lake nisba, il mondo alla rovescia


Le avi 512 saranno solo sulle cpu server, su desktop esistono 0 software che le utilizzano

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^