Terminata la battaglia del gigahertz inizia quella dei TOPS?

Redazione di Hardware Upg · 22-06-2024, 09:13

Link alla notizia: https://www.hwupgrade.it/news/cpu/te...ps_128115.html

Al COMPUTEX di Taipei tutte le società produttrici di processori e GPU hanno snocciolato le loro conquiste in termini di TOPS. Cosa c'è dietro questo nuovo parametro legato alle NPU? E perché è indicativo, ma non dice tutto, sulle prestazioni dei processori per l'IA?

Click sul link per visualizzare la notizia.

Therinai · 22-06-2024, 09:22

supertigrotto · 22-06-2024, 11:13

Sembrerà una cosa strana ma,la IA funziona meglio con istruzioni da 4/8 o massimo 16 bit,andare oltre rallenta il sistema.

pengfei · 22-06-2024, 11:27

OTTIMA idea mettere gli editoriali nel weekend, altrimenti senza notizie il sito diventa tutta pubblicità, e rispetto alle suddette notizie che si possono trovare anche su altre fonti gli editoriali impreziosiscono i contenuti con riflessioni originali

raxas · 22-06-2024, 12:59

TOPS OF THE CHIPS

blackshard · 22-06-2024, 20:32

Gli unici TOPS che mi interessano sono quelli delle ragazze

Che porcone che sono

Opteranium · 22-06-2024, 20:33

più TOPS(a) per tutti

LMCH · 22-06-2024, 23:55

Quote:

Originariamente inviato da supertigrotto

Sembrerà una cosa strana ma,la IA funziona meglio con istruzioni da 4/8 o massimo 16 bit,andare oltre rallenta il sistema.

No. Non sembra strano, è solo completamente sbagliato.

Gli algoritmi su cui si basa il funzionamento dei LLM, come pure altri basati su modelli di reti neurali, per dirla in modo semplice eseguono un sacco di moltiplicazioni matriciali.
I singoli valori nelle matrici rappresentano il peso/forza di una connessione e si è verificato che con matrici molto grandi si ottengono buoni risultati anche se il singolo valore viene rappresentato con 16bit o meno (tipicamente 16bit oppure 8bit).
Quindi se invece di usare dei float a 32bit usi ad esempio degli interi ad 8bit, la matrice occupa molta meno ram e quando leggi/scrivi su ad esempio un bus a 64bit, in un colpo solo puoi trasferire 8 coefficienti ad 8bit invece di 2 a 32bit ( trasferisci il quadruplo).
Lo stesso discorso vale per le ALU SIMD, perche ad esempio se hai registri SIMD a 256bit, puoi potenzialmente eseguire simultaneamente ben 8 operazioni su valori a 32bit oppure 32 operazioni su valori ad 8 bit.

Sono i singoli valori delle matrici ad essere a 16, 8, 4, 1 bit, ma le istruzioni ed i registri sono tutto un altro paio di maniche.

Le NPU semplicemente supportano in hardware formati di dati tipo FP16, FP8 e sono ultra-ottimizzate per essi e per eseguire moltiplicazioni di matrici in tali formati.

Per questo i TOPS delle NPU sono da intendersi solo come prestazioni per gli algoritmi "per AI" (tipicamente vengono indicate le prestazioni con dati in formato INT8 oppure FP8).

Opteranium · 23-06-2024, 06:59

Quote:

Originariamente inviato da pengfei

OTTIMA idea mettere gli editoriali nel weekend, altrimenti senza notizie il sito diventa tutta pubblicità, e rispetto alle suddette notizie che si possono trovare anche su altre fonti gli editoriali impreziosiscono i contenuti con riflessioni originali

concordo, bravi

zoomx · 23-06-2024, 08:36

Quote:

Originariamente inviato da pengfei

OTTIMA idea mettere gli editoriali nel weekend, altrimenti senza notizie il sito diventa tutta pubblicità, e rispetto alle suddette notizie che si possono trovare anche su altre fonti gli editoriali impreziosiscono i contenuti con riflessioni originali

Concordo anche io

LL1 · 23-06-2024, 11:20

Quote:

Originariamente inviato da pengfei

OTTIMA idea mettere gli editoriali nel weekend [...] impreziosiscono i contenuti con riflessioni originali

Quote:

Originariamente inviato da Opteranium

concordo, bravi

Quote:

Originariamente inviato da zoomx

Concordo anche io

+1: finalmente qualche spunto di crescita & arricchimento...

Quote:

Originariamente inviato da blackshard

Gli unici TOPS che mi interessano sono quelli delle ragazze

Quote:

Originariamente inviato da Opteranium

più TOPS(a) per tutti

UtenteHD · 24-06-2024, 09:57

Ok, stiamo andado sulla strada dell'avere x tutti in ogni cosa l'IA anche nelle cose piu' inutili, magari tra un po' a ciascuno sara' assegnata un'IA personale che ci possa assistere 24/24 e controllore in ogni cosa e quando ne saremo piu' che contenti ed abituati ad essere serviti... metteranno tutto a pagamento? HAHAHA

Unrue · 24-06-2024, 10:20

E la differenza con il FLOPS quale sarebbe? Che il TOPS è più generico?

matsnake86 · 24-06-2024, 11:09

I flops sono le operazioni al secondo in virgola mobile. Numeri puri.

i tops sono invece il numero di tensori calcolati al secondo che si usano ovviamente per i modelli IA. Si entra nel campo dell'algebra vettoriale multidimensionale. Roba abbastanza complicata.

Sono due cose differenti. Non penso si possano paragonare.

Unrue · 24-06-2024, 11:44

Quote:

Originariamente inviato da matsnake86

I flops sono le operazioni al secondo in virgola mobile. Numeri puri.

i tops sono invece il numero di tensori calcolati al secondo che si usano ovviamente per i modelli IA.

Quindi la T sta per Tensor, non Trillions?

Quote:

TOPS sta per "Trillions of Operations Per Second" e potete trovarlo anche indicato come TeraOPS. Si parla di migliaia di miliardi di operazioni al secondo, e si può guadare al numero come una dato prestazionale grezzo: più alto è il valore, maggiori sono le prestazioni teoriche offerte.

matsnake86 · 24-06-2024, 12:36

Hmm.. Non lo so a sto punto.

Io sapevo appunto che misurava quante "tensor operation" al secondo eseguiva una gpu.

Però boh qui salta fuori una nuova definizione ogni giorno.

Alla fine è tutta fuffa in ogni caso.
Sui portatili con le npu la roba seria non la farai mai girare in locale data la scarsità di ram e vram.

Insomma per ora sono tutti specchietti per gli allodole e per alimentare il FOMO legato all'hardware.

UtenteHD · 24-06-2024, 14:52

Visto che la GPU ha i tensore cores, oltre ai classici dati dovrebbero anche per Loro mettere queste info?

LMCH · 27-06-2024, 14:03

Date un occhiata a questo articolo:
https://news.ucsc.edu/2024/06/matmul-free-llm.html

Ed alla pubblicazione di cui parla:
https://arxiv.org/pdf/2406.02528

Per dirla in poche parole ... i chip e gli "acceleratori AI" attualmente o prossimamente disponibili ... sono TUTTI obsoleti.

E' stato messo a punto un nuovo metodo che ELIMINA L'USO DELLE MOLTIPLICAZIONI DI MATRICI "classiche" usando la quantizzazione ternaria (coefficienti con solo tre valori, ovvero -1, 0, +1 ).

Già ora, portando gli algoritmi con coefficienti ternari su GPU "normali" si riducono enormemente la memoria utilizzata, i consumi energetici e si aumentano le prestazioni.

Quando saranno disponibili NPU "matmul-free" (ma con supporto delle operazioni su coefficienti ternari) le prestazioni schizzeranno alle stelle anche su sistemi embedded.

Mi sa che in questi giorni tutti quelli che stanno lavorando su chip "AI" stanno freneticamente bloccando tutti gli sviluppi in corso che non siano troppo vicini alla produzione o vincolati da contratti e stanno ri-progettando le loro architetture.

Chi arriva primo a produrre in quantità NPU "matmul-free" anche usando processi produttivi "vecchi" può far piazza pulita di tutti i prodotti attualmente in commercio (con chip che a parità di consumo danno prestazioni stellari anche usando un processo produttivo "non all'ultimo grido").

Unrue · 27-06-2024, 14:10

Quote:

Originariamente inviato da LMCH

Date un occhiata a questo articolo:
https://news.ucsc.edu/2024/06/matmul-free-llm.html

Ed alla pubblicazione di cui parla:
https://arxiv.org/pdf/2406.02528

Per dirla in poche parole ... i chip e gli "acceleratori AI" attualmente o prossimamente disponibili ... sono TUTTI obsoleti.

E' stato messo a punto un nuovo metodo che ELIMINA L'USO DELLE MOLTIPLICAZIONI DI MATRICI "classiche" usando la quantizzazione ternaria (coefficienti con solo tre valori, ovvero -1, 0, +1 ).

La quantizzazione dei pesi non è un'idea nuova, ma fino ad ora non ha portato a risultati comparabili. Vedremo.

raxas · 27-06-2024, 14:25

Quote:

Originariamente inviato da matsnake86

Hmm.. Non lo so a sto punto.

Io sapevo appunto che misurava quante "tensor operation" al secondo eseguiva una gpu.

Però boh qui salta fuori una nuova definizione ogni giorno.
...

vero
si tratta di classifiche:

TOPS of THE FLIPS of THE FLOPS of THE HWS of THE POPS.
E assortiti.

22-06-2024, 09:22	#2
Therinai Senior Member Iscritto dal: Jun 2004 Città: Corte del Re Cremisi Messaggi: 18932	__________________ CPU: 5800X3D SK Video: 4070ti Asus TUF OC MADREBOARD: Asus B550 non ricordo che modello RAM: Corsair Vengeance 4x8GB 3600 mhz HEATSINK Noctua NH-D15 NVME Corsair MP600 PRO 2TB + Silicon Power gen3 1TB PSU EVGA Supernova 650 G3 CASE Fractal Design North TV LG: C1 48" C2 65" B4 65" MONITOR Lg 27GN88A KEYBOARD Ducky One 3 TKL ITA MOUSE Razer Basilisk HANDLED Steam Deck Thread ASPETTANDO SILENT HILL 2 REMAKE 2023 \| Odio Ranni. \| Thread ASPETTANDO Life is Strange: Double Exposure

22-06-2024, 12:59	#5
raxas Senior Member Iscritto dal: Oct 2002 Messaggi: 5664	TOPS OF THE CHIPS __________________ CONTRO L'HIMMOBILISMO promozione Ponte di Mexina(postcount6)->In a Big Country dreams stay with you Loggarsi se non si vede il video, Grazie.

22-06-2024, 20:32	#6
blackshard Senior Member Iscritto dal: Jan 2002 Città: non ti interessa Messaggi: 5665	Gli unici TOPS che mi interessano sono quelli delle ragazze Che porcone che sono __________________ [url="http://www.hwupgrade.it/forum/showthread.php?t=2119003"]- Compilatore Intel e disparità di trattamento verso processori AMD/VIA

24-06-2024, 11:09	#14
matsnake86 Senior Member Iscritto dal: Jun 2007 Città: Casnate con Bernate Messaggi: 2157	I flops sono le operazioni al secondo in virgola mobile. Numeri puri. i tops sono invece il numero di tensori calcolati al secondo che si usano ovviamente per i modelli IA. Si entra nel campo dell'algebra vettoriale multidimensionale. Roba abbastanza complicata. Sono due cose differenti. Non penso si possano paragonare. __________________ PSU: Seasonic M12II-620 Evo MB: MSI X370 Sli Plus CPU: AMD Ryzen 7 5700X SSD: Kingston SA400S37/240GB RAM: 2x 16GB DDR4 3200MHz SCHEDA VIDEO: SAPPHIRE RX 6700 Pulse OC 10GB S.O.: bazzite.gg

24-06-2024, 12:36	#16
matsnake86 Senior Member Iscritto dal: Jun 2007 Città: Casnate con Bernate Messaggi: 2157	Hmm.. Non lo so a sto punto. Io sapevo appunto che misurava quante "tensor operation" al secondo eseguiva una gpu. Però boh qui salta fuori una nuova definizione ogni giorno. Alla fine è tutta fuffa in ogni caso. Sui portatili con le npu la roba seria non la farai mai girare in locale data la scarsità di ram e vram. Insomma per ora sono tutti specchietti per gli allodole e per alimentare il FOMO legato all'hardware. __________________ PSU: Seasonic M12II-620 Evo MB: MSI X370 Sli Plus CPU: AMD Ryzen 7 5700X SSD: Kingston SA400S37/240GB RAM: 2x 16GB DDR4 3200MHz SCHEDA VIDEO: SAPPHIRE RX 6700 Pulse OC 10GB S.O.: bazzite.gg

22-06-2024, 09:13	#1
Redazione di Hardware Upg www.hwupgrade.it Iscritto dal: Jul 2001 Messaggi: 75166	Link alla notizia: https://www.hwupgrade.it/news/cpu/te...ps_128115.html Al COMPUTEX di Taipei tutte le società produttrici di processori e GPU hanno snocciolato le loro conquiste in termini di TOPS. Cosa c'è dietro questo nuovo parametro legato alle NPU? E perché è indicativo, ma non dice tutto, sulle prestazioni dei processori per l'IA? Click sul link per visualizzare la notizia.

22-06-2024, 11:13	#3
supertigrotto Senior Member Iscritto dal: Aug 2006 Città: Valdagno Messaggi: 5570	Sembrerà una cosa strana ma,la IA funziona meglio con istruzioni da 4/8 o massimo 16 bit,andare oltre rallenta il sistema.

22-06-2024, 11:27	#4
pengfei Senior Member Iscritto dal: Aug 2017 Messaggi: 1374	OTTIMA idea mettere gli editoriali nel weekend, altrimenti senza notizie il sito diventa tutta pubblicità, e rispetto alle suddette notizie che si possono trovare anche su altre fonti gli editoriali impreziosiscono i contenuti con riflessioni originali

22-06-2024, 20:33	#7
Opteranium Senior Member Iscritto dal: Feb 2004 Messaggi: 6161	più TOPS(a) per tutti

24-06-2024, 09:57	#12
UtenteHD Senior Member Iscritto dal: Sep 2022 Messaggi: 1865	Ok, stiamo andado sulla strada dell'avere x tutti in ogni cosa l'IA anche nelle cose piu' inutili, magari tra un po' a ciascuno sara' assegnata un'IA personale che ci possa assistere 24/24 e controllore in ogni cosa e quando ne saremo piu' che contenti ed abituati ad essere serviti... metteranno tutto a pagamento? HAHAHA

24-06-2024, 10:20	#13
Unrue Senior Member Iscritto dal: Nov 2002 Messaggi: 6287	E la differenza con il FLOPS quale sarebbe? Che il TOPS è più generico?

24-06-2024, 14:52	#17
UtenteHD Senior Member Iscritto dal: Sep 2022 Messaggi: 1865	Visto che la GPU ha i tensore cores, oltre ai classici dati dovrebbero anche per Loro mettere queste info?

27-06-2024, 14:03	#18
LMCH Senior Member Iscritto dal: Jan 2007 Messaggi: 6221	Date un occhiata a questo articolo: https://news.ucsc.edu/2024/06/matmul-free-llm.html Ed alla pubblicazione di cui parla: https://arxiv.org/pdf/2406.02528 Per dirla in poche parole ... i chip e gli "acceleratori AI" attualmente o prossimamente disponibili ... sono TUTTI obsoleti. E' stato messo a punto un nuovo metodo che ELIMINA L'USO DELLE MOLTIPLICAZIONI DI MATRICI "classiche" usando la quantizzazione ternaria (coefficienti con solo tre valori, ovvero -1, 0, +1 ). Già ora, portando gli algoritmi con coefficienti ternari su GPU "normali" si riducono enormemente la memoria utilizzata, i consumi energetici e si aumentano le prestazioni. Quando saranno disponibili NPU "matmul-free" (ma con supporto delle operazioni su coefficienti ternari) le prestazioni schizzeranno alle stelle anche su sistemi embedded. Mi sa che in questi giorni tutti quelli che stanno lavorando su chip "AI" stanno freneticamente bloccando tutti gli sviluppi in corso che non siano troppo vicini alla produzione o vincolati da contratti e stanno ri-progettando le loro architetture. Chi arriva primo a produrre in quantità NPU "matmul-free" anche usando processi produttivi "vecchi" può far piazza pulita di tutti i prodotti attualmente in commercio (con chip che a parità di consumo danno prestazioni stellari anche usando un processo produttivo "non all'ultimo grido").

Strumenti
Mostra una versione stampabile Invia questa pagina per email