Apple M1 Ultra visto da vicino: tre volte più grande delle CPU di Intel e AMD

Apple M1 Ultra visto da vicino: tre volte più grande delle CPU di Intel e AMD

Un primo teardown di Mac Studio ci mostra l'interno di questo sistema dedicato ai content creatori. Al suo interno spicca il processore M1 Ultra, ottenuto unendo due chip M1 Max: le dimensioni sono enormi se raffrontato alle proposte di AMD e Intel, anche se c'è una spiegazione.

di pubblicata il , alle 08:31 nel canale Processori
AppleMac Studio
 

Com'è fatto un processore M1 Ultra di Apple? I primi "teardown" del Mac Studio ci permettono di scoprire maggiori dettagli del computer per content creator della Mela e le novità al suo interno. Al centro della motherboard non può che spiccare il processore M1 Ultra, ottenuto da Apple unendo insieme due M1 Max.

Quella che vediamo è l'estensione del package, in grado di occupare circa un quarto della motherboard, su cui sono presenti anche un complesso VRM per alimentare al meglio le due anime del microprocessore e due slot SSD accessibili dall'utente (ma non per questo sostituibili).

Sotto all'heatspreader del processore trovano spazio oltre alle due CPU e GPU degli M1 Max, funzionanti come un unico chip grazie all'interconnessione UltraFusion da 2,5 TB/s, anche la memoria unificata (fino a 128 GB): è per questo motivo che il processore raggiunge una dimensione decisamente importante. Come si può vedere, M1 Ultra è circa tre volte più grande di un processore Ryzen.

Dimensioni di questo tipo, malgrado la produzione a 5 nanometri di TSMC, richiedono un sistema di raffreddamento di notevoli dimensioni (e di conseguenza più pesante), in questo caso dotato di una doppia ventola.

Aprire il Mac Studio non è molto complicato, basta rimuovere l'anello in gomma sul fondo, svitare le viti e staccare la base. Una volta rimossa la base, si vede immediatamente la parte inferiore dell'alimentatore, oltre agli slot dedicati agli SSD. Le unità destinate al Mac Studio adottano un form factor proprietario (il controller è all'interno del SoC), quindi seppur accessibili non sono attualmente sostituibili.

Apple afferma che le unità non sono aggiornabili dall'utente: non è chiaro se in futuro consentirà ai partner autorizzati di offrire servizi di aggiornamento degli SSD oppure se permetterà ad altre aziende di produrre unità con un form factor appropriato.

28 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
inited21 Marzo 2022, 08:45 #1
La parte che conta è quella con la pasta termoconduttiva...
Sp3cialFx21 Marzo 2022, 09:14 #2
Originariamente inviato da: inited
La parte che conta è quella con la pasta termoconduttiva...


beh se vogliamo far un paragone... apple to apple quello che conta è il numero di transistor e un m1 ultra è 6 volte un ryzen 5950x (114 miliardi vs meno di 20). La dimensione del die (sommando i tre chiplet che compongono il Ryzen) è circa 3,3 volte tanto, nonostante il processo produttivo più avanzato. Comunque è ENORME. Che peraltro, lo scrivevo altrove, reputo sia una buona parte della spiegazione dei vantaggi che ha (in breve: inefficiente dal punto di vista performance / transistor, ma efficiente dal punto di vista performance / watt)

cmq è incredibile come si sia ribaltato il paradigma, per lo meno per quanto mi riguarda ho sempre pensato agli ARM come a processorini mentre gli x86 come processori grossi, ora siamo esattamente all'opposto
devil_mcry21 Marzo 2022, 09:17 #3
Originariamente inviato da: Sp3cialFx
beh se vogliamo far un paragone... apple to apple quello che conta è il numero di transistor e un m1 ultra è 6 volte un ryzen 5950x (114 miliardi vs meno di 20). La dimensione del die (sommando i tre chiplet che compongono il Ryzen) è circa 3,3 volte tanto, nonostante il processo produttivo più avanzato. Comunque è ENORME. Che peraltro, lo scrivevo altrove, reputo sia una buona parte della spiegazione dei vantaggi che ha (in breve: inefficiente dal punto di vista performance / transistor, ma efficiente dal punto di vista performance / watt)

cmq è incredibile come si sia ribaltato il paradigma, per lo meno per quanto mi riguarda ho sempre pensato agli ARM come a processorini mentre gli x86 come processori grossi, ora siamo esattamente all'opposto


Ma non vengono conteggiati anche i transistor della gpu? perché il 5950x non la ha
(chiedo, non lo so)
F1r3st0rm21 Marzo 2022, 09:22 #4
su wccftech scrivono che i benchmark apple sono un pelino sovrastimati...ma va chi lo avrebbe mai detto.
AlexSwitch21 Marzo 2022, 09:31 #5
Originariamente inviato da: devil_mcry
Ma non vengono conteggiati anche i transistor della gpu? perché il 5950x non la ha
(chiedo, non lo so)


Infatti... bisognerebbe paragonare il numero di transistor dei core e delle rispettive cache della CPU e dividere il valore per 2, visto che Ultra sono due die fisici accoppiati sullo stesso package ( come i Core2 Quad di Intel ).
Personaggio21 Marzo 2022, 09:51 #6
Originariamente inviato da: devil_mcry
Ma non vengono conteggiati anche i transistor della gpu? perché il 5950x non la ha
(chiedo, non lo so)


Originariamente inviato da: AlexSwitch
Infatti... bisognerebbe paragonare il numero di transistor dei core e delle rispettive cache della CPU e dividere il valore per 2, visto che Ultra sono due die fisici accoppiati sullo stesso package ( come i Core2 Quad di Intel ).


Originariamente inviato da: Sp3cialFx
beh se vogliamo far un paragone... apple to apple quello che conta è il numero di transistor e un m1 ultra è 6 volte un ryzen 5950x (114 miliardi vs meno di 20). La dimensione del die (sommando i tre chiplet che compongono il Ryzen) è circa 3,3 volte tanto, nonostante il processo produttivo più avanzato. Comunque è ENORME. Che peraltro, lo scrivevo altrove, reputo sia una buona parte della spiegazione dei vantaggi che ha (in breve: inefficiente dal punto di vista performance / transistor, ma efficiente dal punto di vista performance / watt)

cmq è incredibile come si sia ribaltato il paradigma, per lo meno per quanto mi riguarda ho sempre pensato agli ARM come a processorini mentre gli x86 come processori grossi, ora siamo esattamente all'opposto


Nel soc c'è anche la RAM che essendo integrata ha velocità da cache, praticamente è una enorme cache di 3o livello. Ed 'è proprio questo che gli permette di avere questi incredibili risultati. Praticamente non esistono latenze. Una cosa del genere in ogni caso non la vedo adatta alle CPU x64, per una questione di scalabilità, ma sarebbe ottima lato GPU. Una GPU con la RAM integrata, certo non ti permetterebbe di avere tagli diversi di RAM, perché sarebbe troppo costoso farlo, ma sarebbe perfetto per eliminare le latenze. Unito con Direct storage, potrebbe caricare i dati da un SSD direttamente nella VRAM integrata nella GPU. Adottato all'attuale architettura delle RTX30XX potrebbe raddoppiarne le prestazioni diminuendone i consumi.
erupter21 Marzo 2022, 10:09 #7
Originariamente inviato da: Personaggio
Nel soc c'è anche la RAM che essendo integrata ha velocità da cache, praticamente è una enorme cache di 3o livello.


Mah non ne sarei così sicuro eh? Un conto è integrare i chip DRAM nel package, un conto integrare 128GB di cache L3: la prima si compra off-the-shelf e si aggancia al bus di sistema (le cpu ARM da cui Apple prende sonno fatte così, la seconda va fabbricata apposta assieme al die e non può concorrere alla memoria di sistema, quindi le applicazioni e la GPU non vi avrebbero accesso.

A MENO CHE... Apple non abbia ridisegnato l'architettura shared memory per intero e non si sia presa la briga di inserire GB di cache L3. Cosa che però ha due ripercussioni dirette: il prezzo (transistor usati per la memoria invece che per la CPU o GPU) e resa (ti si bruciano i transistor della memoria, quindi devi ridurre la memoria disponibile)
Sp3cialFx21 Marzo 2022, 10:17 #8
rispondo:

1) i 114 miliardi di transistor NON considerano la RAM
2) i 114 miliardi di transistor CONSIDERANO la GPU. Ok il Ryzen non ce l'ha, ma anche se aggiungiamo i 28,3 miliardi di transistor di una 3080 comunque i 114 miliardi dell'M1 rimangono TANTI. Se prendiamo poi un i9-11900K sembra abbia 6 miliardi di transistor, GPU (scarsa) inclusa
3) il leit motiv è che le performance sono dovute alla banda sulla RAM ma la banda sulla RAM serve solamente in alcuni ambiti. Non è quello

un altro dettaglio che viene omesso è che l'M1 (sia CPU che GPU) ha molte meno funzionalità avanzate della controparte x86 + GPU dedicata. Ad es. sul training di reti neurali o sul ray tracing nei giochi una scheda video Nvidia va molto meglio; così come vanno meglio le CPU x86 moderne sulla virtualizzazione.

Naturalmente sono ambiti che interessano a pochi; Apple ha tenuto l'approccio 80/20 (80% del risultato con il 20% dello sforzo) e concentrandosi sulle performance per watt, il che ripeto va benissimo per i più.

Quando si fanno paragoni diretti bisogna però ricordarsi che:
a) l'M1 ha un budget di transistor molto più ampio perché Apple se lo può permettere avendo un potere contrattuale molto forte con TSMC (più di metà della produzione di TSMC è per Apple)
b) per l'appunto l'M1 non integra un botto di funzionalità avanzate che gli x86 / le GPU discrete hanno (compito per casa: prendete le specifiche delle DirectX 12 Ultimate e vedete quante sono effettivamente supportate da un M1)

Non mi concentrerei tanto su paragoni difficili da fare o su spiegazioni semplicistiche (tipo "la banda sulla ram", ma sul fatto che oggettivamente è campione di performance per watt e che va benissimo per un ampia gamma di utilizzi. E' invece interessante rilevare che è GROSSO, come dicevo prima, perché per me è inaspettato
demonsmaycry8421 Marzo 2022, 10:18 #9
che dire...che splendida sintesi di tecnologia...che ingegneri...
le scelte che hanno e stanno facendo pagano e si fanno pagare di brutto...ma i numeri sono numeri difficili smentirli
CrapaDiLegno21 Marzo 2022, 10:20 #10
Originariamente inviato da: devil_mcry
Ma non vengono conteggiati anche i transistor della gpu? perché il 5950x non la ha
(chiedo, non lo so)

Sì, c'è una GPU enorme e anche delle altre unità che gli x86 non hanno (NPU, media engine) più tanta cache.

Originariamente inviato da: Personaggio
Nel soc c'è anche la RAM che essendo integrata ha velocità da cache, praticamente è una enorme cache di 3o livello. Ed 'è proprio questo che gli permette di avere questi incredibili risultati. Praticamente non esistono latenze. Una cosa del genere in ogni caso non la vedo adatta alle CPU x64, per una questione di scalabilità, ma sarebbe ottima lato GPU. Una GPU con la RAM integrata, certo non ti permetterebbe di avere tagli diversi di RAM, perché sarebbe troppo costoso farlo, ma sarebbe perfetto per eliminare le latenze. Unito con Direct storage, potrebbe caricare i dati da un SSD direttamente nella VRAM integrata nella GPU. Adottato all'attuale architettura delle RTX30XX potrebbe raddoppiarne le prestazioni diminuendone i consumi.


Solo per fare chiarezza, le RAM non rientrano nel conteggio dei transistor perché non sono sul die, ma solo "incollate" insieme ad esso sullo stesso substrato.
Le latenze sono un problema per la CPU, le grandi cache e il fatto che le GPU lavorino su dati spazialmente coerenti non sono invece un problema per le GPU: conta di più la banda passante e la RAM così montata ne ha davvero una sacco.

Originariamente inviato da: Sp3cialFx
beh se vogliamo far un paragone... apple to apple quello che conta è il numero di transistor e un m1 ultra è 6 volte un ryzen 5950x (114 miliardi vs meno di 20). La dimensione del die (sommando i tre chiplet che compongono il Ryzen) è circa 3,3 volte tanto, nonostante il processo produttivo più avanzato. Comunque è ENORME. Che peraltro, lo scrivevo altrove, reputo sia una buona parte della spiegazione dei vantaggi che ha (in breve: inefficiente dal punto di vista performance / transistor, ma efficiente dal punto di vista performance / watt)

cmq è incredibile come si sia ribaltato il paradigma, per lo meno per quanto mi riguarda ho sempre pensato agli ARM come a processorini mentre gli x86 come processori grossi, ora siamo esattamente all'opposto

Una delle caratteristiche che rende questo SoC così performante è indubbiamente il numero di transistor che lo compongono.
114 miliardi vuol dire essere grande il doppio di un [S]GA102, quello montato sulla 3090[/S] GA100, quello in uso HPC. Quindi in teoria, visto che un processore da 2 die, se uno fosse tutta GPU e uno tutto CPU, allora le prestazioni dovrebbero essere molto superiori a una 3090 (senza RT core, visto che né la GPU dell'M1 nel il GA100 le hanno) mentre lato CPU dovrebbe asfaltare senza alcun se, ma, forse qualsiasi CPU desktop oggi sul mercato.
Ovviamente non è così, perché questo SoC non va alle frequenze dei componenti discreti sopra elencati e può quindi permettersi di consumare 1/3.
Prestazioni ed efficienza sono il risultato di un uso massiccio di transistor. Roba che solo Apple può permettersi, visto che nessun altro troverebbe modo di vendere un SoC del genere nei numeri necessari per ammortizzare i suoi costi di sviluppo.
Detto questo, è una ottima dimostrazione che spaventa la concorrenza finora sicura sul proprio piedistallo pensando che nessuno avrebbe potuto progettare qualcosa di più complesso di un SoC per mobile o per embedded, come quelli carrozzati di Nvidia che però non arrivano a questi livelli.
Ed è una ottima dimostrazione del fatto che ISA ultra complesse e monolitiche (core "faso-tuto-mi" che richiedono il raddoppio dei transistor ogni generazione per aumentare le prestazioni del 20% quando va bene, sono obsolete.
Ed è anche una dimostrazione che ARM avrebbe potuto fare di più, molto di più, ma che finora nessuno ha avuto interesse perché lo facesse. Basta pagare poco le licenze, e che tutti abbiano lo stesso livello base di tecnologia.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^