PDA

View Full Version : AMD: la prossima generazione di schede video sarà progettata con l'intelligenza artificiale


Redazione di Hardware Upg
25-07-2025, 12:37
Link alla notizia: https://www.hwupgrade.it/news/skvideo/amd-la-prossima-generazione-di-schede-video-sara-progettata-con-l-intelligenza-artificiale_141607.html

Durante il summit "Winning the AI Race", AMD ha discusso del ruolo crescente dell’intelligenza artificiale nella progettazione dei chip. Lisa Su ha dichiarato che l’AI aiuterà a sviluppare le future GPU più rapidamente

Click sul link per visualizzare la notizia.

foggypunk
25-07-2025, 13:33
con l'intelligenza artificiale che gira su hardware NVIDIA? :P

seivson
25-07-2025, 13:55
schede video che si autoriproducono..

CrapaDiLegno
25-07-2025, 14:27
Huh, nel 2025 anche la signora Su ha capito che l'AI ha del potenziale?
La concorrenza già parlava di Deep Learning quando lei ancora stava a mettere unità FP64 nelle GPU da gioco, come se tutti noi le usassimo per fare simulazioni a casa nostra.

Ma detto questo, si spera che l'AI progetti l'HW meglio di quanto scriva SW, altrimenti il numero dei transistor esploderanno verso l'infinito e oltre solo per fare una unità appena più complessa di un adder.

Alodesign
25-07-2025, 15:12
Huh, nel 2025 anche la signora Su ha capito che l'AI ha del potenziale?
La concorrenza già parlava di Deep Learning quando lei ancora stava a mettere unità FP64 nelle GPU da gioco, come se tutti noi le usassimo per fare simulazioni a casa nostra.

Ma detto questo, si spera che l'AI progetti l'HW meglio di quanto scriva SW, altrimenti il numero dei transistor esploderanno verso l'infinito e oltre solo per fare una unità appena più complessa di un adder.

Dici la stessa Su che produce le EPYC?

dominator84
25-07-2025, 15:26
Dici la stessa Su che produce le EPYC?

naaa penso sia Liza Sunna di Parma, che produce il prosciutto cotto

CrapaDiLegno
25-07-2025, 16:46
Dici la stessa Su che produce le EPYC?
Sì, proprio lei che vive solo di CPU e non ha ancora investito un dollaro in altro per poi uscirsene nel 2025 a dire "hey, ma questa AI permette anche di aiutare a progettare!".
Probabilmente in azienda hanno tutti processori EPYC che l'AI la computano esattamente come le CPU del 2015 ma dopo che qualcuno in azienda di nascosto gli ha affiancato una GPU Nvidia è corso da Lisa raccontandole tutto ciò che si sono persi finora. :rolleyes:

Ripper89
25-07-2025, 16:59
con l'intelligenza artificiale che gira su hardware NVIDIA? :P
Penso possa essere possibile

icoborg
25-07-2025, 17:20
schede video che si autoriproducono..

skynet sempre piu vicina :help:

supertigrotto
25-07-2025, 17:36
Di IA o computer che aiutano a progettare CPU e GPU,sono in circolazione da tempo,ancora prima delle dichiarazioni di Huang,solo che le potenze in gioco non erano così enormi.
L'effetto Apple ha investito pure Nvidia,il primo lettore MP3 è di Apple,il primo smartphone è di Apple,prima non esisteva niente,il primo tablet è di Apple,il Cloud non esisteva prima di Apple,non esistevano visori prima di vision pro.....
Quindi si,prima di Huang e Nvidia non esisteva niente.

CrapaDiLegno
25-07-2025, 23:19
Di IA o computer che aiutano a progettare CPU e GPU,sono in circolazione da tempo,ancora prima delle dichiarazioni di Huang,solo che le potenze in gioco non erano così enormi.
L'effetto Apple ha investito pure Nvidia,il primo lettore MP3 è di Apple,il primo smartphone è di Apple,prima non esisteva niente,il primo tablet è di Apple,il Cloud non esisteva prima di Apple,non esistevano visori prima di vision pro.....
Quindi si,prima di Huang e Nvidia non esisteva niente.

Non confondere i CAD (Computer Aided Design) che esistono da quando esistono i computer da tool che che usano modelli AI per aiutare a sviluppare ben più in profondità rispetto a quanto facessero prima.
E come confrontare l'aiuto di un correttore di codice mentre programmi rispetto a tool che generano intere funzioni in maniera autonoma.
Quindi vero, prima di Nvidia c'erano i tool che aiutavano a progettare, con Nvidia i tool hanno fatto un salto quantico e sono ora ben altra cosa.
E' solo Lisa che se ne è accorta nel 2025 inoltrato. E molto probabilmente usando i sistemi Nvidia, visto che suoi suoi si fa fatica solo a mettere un modello generativo semplice come Stable Diffusion. E anche quando dopo peripezie sei riuscito a installarlo le prestazioni sono parecchio meh... :rolleyes:

Max Power
25-07-2025, 23:23
stava a mettere unità FP64 nelle GPU da gioco

Invece Nvidia ci ha preso troppo la mano, e la prossima sarà FP2 :asd:


come se tutti noi le usassimo per fare simulazioni a casa nostra.

Almeno puoi farlo :asd:


Ma detto questo, si spera che l'AI progetti l'HW meglio di quanto scriva SW,

Visti i fantastici Driver Nvidia :asd:


altrimenti il numero dei transistor esploderanno verso l'infinito e oltre solo per fare una unità appena più complessa di un adder.

Ecco, il tipico caso medico di interazione farmacologica :asd:

Piedone1113
26-07-2025, 08:12
Non confondere i CAD (Computer Aided Design) che esistono da quando esistono i computer da tool che che usano modelli AI per aiutare a sviluppare ben più in profondità rispetto a quanto facessero prima.
E come confrontare l'aiuto di un correttore di codice mentre programmi rispetto a tool che generano intere funzioni in maniera autonoma.
Quindi vero, prima di Nvidia c'erano i tool che aiutavano a progettare, con Nvidia i tool hanno fatto un salto quantico e sono ora ben altra cosa.
E' solo Lisa che se ne è accorta nel 2025 inoltrato. E molto probabilmente usando i sistemi Nvidia, visto che suoi suoi si fa fatica solo a mettere un modello generativo semplice come Stable Diffusion. E anche quando dopo peripezie sei riuscito a installarlo le prestazioni sono parecchio meh... :rolleyes:
Molte parte di booldozer erano progettate da AI per contenere i costi, e i risultati si sono visti.
Le prime IA sono andate in produzione ( inteso come lavoro effettivo a clienti) prima del 2015 e si sviluppavano ben prima dell'esistenza stessa di Cuda.

Mars95
26-07-2025, 17:46
Dici la stessa Su che produce le EPYC?

Si e credo sia anche la stessa che produce i vari Instinct MI350 e compagnia che saranno quelli che probabilmente utilizzeranno per la AI.

tuttodigitale
26-07-2025, 20:41
Molte parte di booldozer erano progettate da AI per contenere i costi, e i risultati si sono visti.
Le prime IA sono andate in produzione ( inteso come lavoro effettivo a clienti) prima del 2015 e si sviluppavano ben prima dell'esistenza stessa di Cuda.

Bulldozer era in assoluto e di gran lunga l'architettura più efficiente, più potente che AMD aveva a disposizione.

E mi fa abbastanza ridere parlare di inefficienza un'architettura che presentava un modulo (i famosi 2 core) grandi quanto 2 core K10, che sono esattamente la metà dei core SB....ma in più con stadi più corti del 30%, ovvero vcore più bassi a parità di clock....se non è efficienza questa cosa è:

a parità di silicio:
llano 3GHz
Trinity 3,8/4,2GHz

per la concorrenza con il capolavoro ingegneristico che era XV
Bristol Ridge 4 core 2,7/3,6GHz@15W
Sandy Bridge 2 core 1,6/2,7 GHz@17W

Piedone1113
26-07-2025, 21:03
Bulldozer era in assoluto e di gran lunga l'architettura più efficiente, più potente che AMD aveva a disposizione.

E mi fa abbastanza ridere parlare di inefficienza un'architettura che presentava un modulo (i famosi 2 core) grandi quanto 2 core K10, che sono esattamente la metà dei core SB....ma in più con stadi più corti del 30%, ovvero vcore più bassi a parità di clock....se non è efficienza questa cosa è:

a parità di silicio:
llano 3GHz
Trinity 3,8/4,2GHz

per la concorrenza con il capolavoro ingegneristico che era XV
Bristol Ridge 4 core 2,7/3,6GHz@15W
Sandy Bridge 2 core 1,6/2,7 GHz@17W

Hai dimenticato che l'efficienza l'abbiamo avuta dopo lla revisione umana .
La CU era progettata a mano, mentre cache, fpu e int erano progettati con l'ausilio dell'IA.
La serie x3xx ( 8350 a scendere) era efficiente, ma la prima rev ( sia CPU che apu) erano poco efficienti sia lato consumi che frequenze raggiungibili.
Eri uno tra i più attivi nel Th di bd, mi meraviglio che non ricordi.
All'epoca ero uno di quelli che fece presente la differenza sostanziale di usabilità sotto pesante mt tra Sandy Bridge e Bulldozer e Vishera misurato anche i tempi di esecuzione dei task.
Nonostante gli inciampi ( e lag dei comandi utenti e dell'interfaccia) Sandy bridge eseguiva prima i compiti e consumava anche meno.
In st bulldozer aveva un IPC inferiore ai phenom II, come pure Vishera, anche se grazie alle frequenze riusciva a mascherarlo.
Non ho memoria se il bug TLB dei primi Phenom sia nella parte progettata dai software automatici ( che ancora non possiamo definirli IA)

Alodesign
26-07-2025, 22:44
Sì, proprio lei che vive solo di CPU e non ha ancora investito un dollaro in altro per poi uscirsene nel 2025 a dire "hey, ma questa AI permette anche di aiutare a progettare!".
Probabilmente in azienda hanno tutti processori EPYC che l'AI la computano esattamente come le CPU del 2015 ma dopo che qualcuno in azienda di nascosto gli ha affiancato una GPU Nvidia è corso da Lisa raccontandole tutto ciò che si sono persi finora. :rolleyes:

Madonna quante cazzate

tuttodigitale
27-07-2025, 12:00
.
Non ho memoria se il bug TLB dei primi Phenom sia nella parte progettata dai software automatici ( che ancora non possiamo definirli IA)
per software automatici intendiamo anche un semplice compilatore....la stesura a mano, per come la intendo io, è il NON utilizzo di linguaggi descrittivi come il verilog.

In sostanza la differenza è paragonabile tra quella di un linguaggio di programmazione di alto livello (in cui comunque il come e cosa si scrive influisce eccome) e assembly (in cui decido esattamente quale istruzione macchina debba essere seguita).
Ma l'efficacia di un algoritmo dipende esclusivamente dall'ingegnere.

L'IA invece dovrebbe proprio aiutare a scrivere il codice...

PS detto questo è più facile sbagliare con la progettazione a mano che non utilizzando i linguaggi descrittivi...

Piedone1113
27-07-2025, 12:20
per software automatici intendiamo anche un semplice compilatore....la stesura a mano, per come la intendo io, è il NON utilizzo di linguaggi descrittivi come il verilog.

In sostanza la differenza è paragonabile tra quella di un linguaggio di programmazione di alto livello (in cui comunque il come e cosa si scrive influisce eccome) e assembly (in cui decido esattamente quale istruzione macchina debba essere seguita).
Ma l'efficacia di un algoritmo dipende esclusivamente dall'ingegnere.

L'IA invece dovrebbe proprio aiutare a scrivere il codice...

PS detto questo è più facile sbagliare con la progettazione a mano che non utilizzando i linguaggi descrittivi...

Secondo me sei tu che ricordi male:
L'fx8150 era inferiore al 1090t ( senza scomodare il 1100t) in st ( in praticamente tutti i benchmark) nonostante una frequenza turbo di 4200 vs 3600 mhz) ed in mt era in media il 20% più rapido nonostante il 33% di core in più.
L8350 vs 1100t erano praticamente pari in st con +500mhz di frequenza.

Riguardo l'IA, uno dei progettisti di BD in un intervista si lamentò proprio del suo uso massivo dovuto alla necessità di contenere i costi a cause dell'enorme crisi economica di AMD.
Tra i problemi riportati c'erano tragitti vs la cache non ideali ed un aumento del 10/15% di impiego di transistor rispetto alla corrispettiva opera umana.
Nella sua intervista non accusava esplicitamente l'IA, quanto piuttosto l'estrema ristrettezza economica di AMD e relativi poche persone impiegati in progettazione, controllo e revisione del prodotto.
BD da simulatore andava di meno di quanto previsto, ma non tanto da giustificarne un rinvio per ottimizzarlo ( rinvio che comunque AMD non avrebbe potuto permettersi).
Beninteso io ho sempre considerato BD un'ottima cosa, anche se non implementata al meglio, e che comunque ha permesso ad AMD si sopravvivere con un prodotto estremamente economico fino a Zen.

tuttodigitale
28-07-2025, 05:50
Secondo me sei tu che ricordi male:
L'fx8150 era inferiore al 1090t ( senza scomodare il 1100t) in st ( in praticamente tutti i benchmark) nonostante una frequenza turbo di 4200 vs 3600 mhz) ed in mt era in media il 20% più rapido nonostante il 33% di core in più.
L8350 vs 1100t erano praticamente pari in st con +500mhz di frequenza.

Continui a paragonare mele e pele.
stavamo parlando di architetture
siamo passati in 95W da phenom x6 2,8/3.3GHz (con tutti i core alimentati ala core max, a llano x4 2,9GHz che in OC non andava neppure nella versione K successiva ad oltre 3,3GHz...


ergo, qualsiasi confonto k10 su 32nm (llano) vs bulldozer (Zambesi) su 32nm vede BD molto più avanti proprio nel ST....nel MT invece (a parità di modulo) è indietro nei calcoli FP intensive...gap recuperato con PD (il precedente K10 era assolutamente competitivo a parità di thread con Nehalem/SB per efficienza/Area occupata, quindi il miglioramento più atteso erano le prestazioni nel ST).

Se estendiamo il paragone a mobile, utile perché possiamo vedere il silicio al massimo delle potenzialità, si può notare che il più grande miglioramento delle prestazioni rispetto a llano si sono avuti nel ST
la prima incarnazione dell'architettura necessitava, a parità di thread, del +40-45% di clock nel MT, e +15% nel ST. per pareggiare le prestazioni con k10.

I risultati sotto riportati sono interessanti (le prestazioni sono estrapolate dai dati sopra, che si riferiscono al confronto k10 vs bulldozer zambesi con frequenza bloccata a 4GHz in cinebench)

llano A8-3550MX B0 4 2.0 GHz 2.7 GHz 45W


lllano A8-3520M B0 4 1.6 GHz 2.5 GHz 35W
Trinity A10-4600M B0 4 2.3 GHz 3.2 GHz 35W (+28% fmax turbo, perfomance ST +11%, MT +0%)

(sub 35W solo trinity):


A10-4655M B0 4 2.0 GHz 2.8 GHz 25W
A8-4555M B0 4 1.6 GHz 2.4 GHz 19W

praticamente a parità di clock si passa da 45 a 25W....ora ci mancherebbe pure che avessero lo stesso ipc....ma anche così la differenza nel ST è DEVASTANTE e degna di essere menzionata. (ripeto i dati delle prestazioni sono estrapolati da BD, effettivamente le cpu PD rispetto a BD hanno un scaling CMT migliorato, le prestazioni nel ST in CB sono praticamente identiche) e, seppur di poco, superiore all'aumento di ipc avuto tra il passaggio da Nehalem a Sandy Bridge.

Se parliamo di architetture, e ci limitiamo solo a quello, NON c'è confronto..

L'affermazione che Zambesi non era ottimizzato, quando con Piledriver non ci sono avuti aumenti di fmax né stock né in OC, semplicemente non sta in piedi

Riguardo l'IA, uno dei progettisti di BD in un intervista si lamentò proprio del suo uso massivo dovuto alla necessità di contenere i costi a cause dell'enorme crisi economica di AMD.

No, il progettista fece i confronti con DEC Alpha, che era un unicum....ovvero progettavano il chip a mano, senza uso di linguaggi descrittivi....ovvero l'equivalente Assembly per un programmatore...


Tra i problemi riportati c'erano tragitti vs la cache non ideali ed un aumento del 10/15% di impiego di transistor rispetto alla corrispettiva opera umana.
Ok, ma tutte le CPU moderne sono afflitte da questo problema, e ripeto che BD nonostante ciò, al netto della cache aveva un numero di transistor irrisorio rispetto a SB....se c'è qualcuno che si è sempre contraddistinta per architetture cicciotte e lenta (non in termini di ipc) è sempre stata Intel, non AMD.
E comunque il 10% in più non cambiava le carte in tavola....il rivale era un SB-E e IB-E.


BD da simulatore andava di meno di quanto previsto, ma non tanto da giustificarne un rinvio per ottimizzarlo ( rinvio che comunque AMD non avrebbe potuto permettersi).

E no, dal simulatore BD andava e di brutto....l'ipc ottenuto nel ST era comunque notevole e avevano ridotto tanto i ritardi degli stadi...ripeto....mentre un k10@1,4V max 3GHz... BD@1,4V max 4,2GHz....sui 32nm SOI Sandy Bridge non avrebbe superato i 2,7GHz, neppure in turbo....

il problema l'hanno avuto con i 32nm...llano è stato ritardato di 10 mesi...e dopo tutto sto ritardo hanno portato un cesso di quad core@2,9GHz senza turbo su un processo che avrebbe dovuto essere il no-plus ultra (introduzione del HKMG, che tanto aveva fatto sul bulk Intel)



Nella sua intervista non accusava esplicitamente l'IA, quanto piuttosto l'estrema ristrettezza economica di AMD e relativi poche persone impiegati in progettazione, controllo e revisione del prodotto.
infatti l'IA c'entra molto poco

tuttodigitale
28-07-2025, 06:45
Huh, nel 2025 anche la signora Su ha capito che l'AI ha del potenziale?

mi pare, ma potrei sbagliarmi, che AMD già nel 2017 ha portato GPU con unità FP16 (che tra parentesi sarebbero molto utili anche in gaming).


La concorrenza già parlava di Deep Learning
Ecco il problema! Non hanno informato CrapaDiLegno!


quando lei ancora stava a mettere unità FP64 nelle GPU da gioco, come se tutti noi le usassimo per fare simulazioni a casa nostra.

AMD portava le FP64 sulle gpu gaming semplicemente perchè non esistevano gpu gaming di fascia alta, ma erano le gpu HPC portate sul mercato consumer. castrarle o non castrarle non è che cambiasse molto. Non gli costava nulla in più mantenere questa feature attiva.

Piedone1113
28-07-2025, 09:01
Continui a paragonare mele e pele.
stavamo parlando di architetture
siamo passati in 95W da phenom x6 2,8/3.3GHz (con tutti i core alimentati ala core max, a llano x4 2,9GHz che in OC non andava neppure nella versione K successiva ad oltre 3,3GHz...


Il focus di AMD all'epoca era il desktop e non il mobile, quello che portò vantaggio nel mobile fu il fatto che bd nelle intenzioni avrebbe dovuto girare vicino ai 5 ghz in turbo, cosa che non fece.
Non puoi paragonare ssolo il mobile, quando abbiamo:
Phenom II 1090t 125w 3200-3600 mhz
FX8150 125w 3600-4200 mhz
Con il primo con una media del 7% più veloce in st
ed il secondo + 20% in mt nonostante + 33% dei core e +10% freq.
L'eficienza in St è pessima vs thuban, mentre il risparmio energetico avanzato dava un apperente vantaggio sul mobile, ma non dovuto alla microarchitettura in se, ma alla possibilità di gestire in modo molto più granulare le frequenze ed i voltaggi delle varie parti della CPU.

Nell'ST non considero affatto il famigerato super PI che in BD venne segato in hardware e simulato.






L'affermazione che Zambesi non era ottimizzato, quando con Piledriver non ci sono avuti aumenti di fmax né stock né in OC, semplicemente non sta in piedi

Non ho detto che BD era pessimo, ho detto che non era ottimizzato:

FX8150 : 1,2 miliardi di transistor area 315 mm2
FX8350 : 1,2 miliardi di transistor area 315 mm2

Stessa area, stesso numero di transistor maggior efficienza.
Come lo spieghi?



No, il progettista fece i confronti con DEC Alpha, che era un unicum....ovvero progettavano il chip a mano, senza uso di linguaggi descrittivi....ovvero l'equivalente Assembly per un programmatore...

[/B]

Un mio amico in Intel ( non Cesare) mi mandò il link dell'intervista su mail
ed il progettista parlava esplicitamente di BD e le differenze tra zen ( di prossima uscita all'epoca) e Zambesi proprio nell'approccio alla progettazione.
Non ricordo il sito ed ho perso anche la mail, ma di questo ne sono certo.
Comunque era impensabile all'epoca progettare una cpu interamente a mano, figuriamoci oggi.










Ok, ma tutte le CPU moderne sono afflitte da questo problema, e ripeto che BD nonostante ciò, al netto della cache aveva un numero di transistor irrisorio rispetto a SB....se c'è qualcuno che si è sempre contraddistinta per architetture cicciotte e lenta (non in termini di ipc) è sempre stata Intel, non AMD.
E comunque il 10% in più non cambiava le carte in tavola....il rivale era un SB-E e IB-E.


Perchè tiri in ballo Intel?
Sopratutto considerando che i core cicciotti erano dovuti per la maggiore da nuove funzionalità in hardware ( pat specifici di nuove funzioni) e dalla gestione del risparmio energetico.
Ma giusto per riportare il discorso AMD vs AMD:
Thuban x6 0,9 miliardi di transistor, freq base (1100t) 3.4 ghz turbo 3,7 ghz, area 355mm2 su 45nm
Vuoi che uno scaling sui 32 nm non avrebbe permesso un + 100/200 mhz ed un aumento del 33% dei core?
Certo, ci sarebbe stato bisogno di una riprogettazione completa dell'MC e della cache, ma una proiezione di tale cpu avrebbe superato abbondantemente in prestazioni con uguali consumi un fx8350.

La verità è che BD è stato una microarchitettura di transizione, tirata su alla menopeggio per renderla economica da progettare e produrre, ma nelle intenzioni avrebbe dovuto girare gia nativamente sopra i 4,2 ghz base e sfiorare i 5 ghz in turbo.
Che la colpa sia anche del 32nm soi non ci piove, che lo sia esclusivamente ho i miei dubbi ( ed è difficile credere che un processo rodato non abbia portato un minimo di miglioramento in termini di frequenza dalla prima implementazione).






E no, dal simulatore BD andava e di brutto....l'ipc ottenuto nel ST era comunque notevole e avevano ridotto tanto i ritardi degli stadi...ripeto....mentre un k10@1,4V max 3GHz... BD@1,4V max 4,2GHz....sui 32nm SOI Sandy Bridge non avrebbe superato i 2,7GHz, neppure in turbo....

No, al simulatore non andava di brutto con i parametri del soi, andava di brutto con il 32 soi preventivato, ed è una bella diferenza.