PDA

View Full Version : Terminata la battaglia del gigahertz inizia quella dei TOPS?


Redazione di Hardware Upg
22-06-2024, 09:13
Link alla notizia: https://www.hwupgrade.it/news/cpu/terminata-la-battaglia-del-gigahertz-inizia-quella-dei-tops_128115.html

Al COMPUTEX di Taipei tutte le società produttrici di processori e GPU hanno snocciolato le loro conquiste in termini di TOPS. Cosa c'è dietro questo nuovo parametro legato alle NPU? E perché è indicativo, ma non dice tutto, sulle prestazioni dei processori per l'IA?

Click sul link per visualizzare la notizia.

Therinai
22-06-2024, 09:22
https://media1.tenor.com/m/LQVmuKKFGgMAAAAC/top-lindo.gif

supertigrotto
22-06-2024, 11:13
Sembrerà una cosa strana ma,la IA funziona meglio con istruzioni da 4/8 o massimo 16 bit,andare oltre rallenta il sistema.

pengfei
22-06-2024, 11:27
OTTIMA idea mettere gli editoriali nel weekend, altrimenti senza notizie il sito diventa tutta pubblicità, e rispetto alle suddette notizie che si possono trovare anche su altre fonti gli editoriali impreziosiscono i contenuti con riflessioni originali

raxas
22-06-2024, 12:59
TOPS OF THE CHIPS

blackshard
22-06-2024, 20:32
Gli unici TOPS che mi interessano sono quelli delle ragazze :sofico:

Che porcone che sono :stordita: :O :D :D

Opteranium
22-06-2024, 20:33
più TOPS(a) per tutti :D

LMCH
22-06-2024, 23:55
Sembrerà una cosa strana ma,la IA funziona meglio con istruzioni da 4/8 o massimo 16 bit,andare oltre rallenta il sistema.

No. Non sembra strano, è solo completamente sbagliato. :muro:
Gli algoritmi su cui si basa il funzionamento dei LLM, come pure altri basati su modelli di reti neurali, per dirla in modo semplice eseguono un sacco di moltiplicazioni matriciali.
I singoli valori nelle matrici rappresentano il peso/forza di una connessione e si è verificato che con matrici molto grandi si ottengono buoni risultati anche se il singolo valore viene rappresentato con 16bit o meno (tipicamente 16bit oppure 8bit).
Quindi se invece di usare dei float a 32bit usi ad esempio degli interi ad 8bit, la matrice occupa molta meno ram e quando leggi/scrivi su ad esempio un bus a 64bit, in un colpo solo puoi trasferire 8 coefficienti ad 8bit invece di 2 a 32bit ( trasferisci il quadruplo).
Lo stesso discorso vale per le ALU SIMD, perche ad esempio se hai registri SIMD a 256bit, puoi potenzialmente eseguire simultaneamente ben 8 operazioni su valori a 32bit oppure 32 operazioni su valori ad 8 bit.

Sono i singoli valori delle matrici ad essere a 16, 8, 4, 1 bit, ma le istruzioni ed i registri sono tutto un altro paio di maniche.

Le NPU semplicemente supportano in hardware formati di dati tipo FP16, FP8 e sono ultra-ottimizzate per essi e per eseguire moltiplicazioni di matrici in tali formati.

Per questo i TOPS delle NPU sono da intendersi solo come prestazioni per gli algoritmi "per AI" (tipicamente vengono indicate le prestazioni con dati in formato INT8 oppure FP8).

Opteranium
23-06-2024, 06:59
OTTIMA idea mettere gli editoriali nel weekend, altrimenti senza notizie il sito diventa tutta pubblicità, e rispetto alle suddette notizie che si possono trovare anche su altre fonti gli editoriali impreziosiscono i contenuti con riflessioni originali
concordo, bravi :)

zoomx
23-06-2024, 08:36
OTTIMA idea mettere gli editoriali nel weekend, altrimenti senza notizie il sito diventa tutta pubblicità, e rispetto alle suddette notizie che si possono trovare anche su altre fonti gli editoriali impreziosiscono i contenuti con riflessioni originali

Concordo anche io

LL1
23-06-2024, 11:20
OTTIMA idea mettere gli editoriali nel weekend [...] impreziosiscono i contenuti con riflessioni originali
concordo, bravi :)

Concordo anche io
+1: finalmente qualche spunto di crescita & arricchimento...

Gli unici TOPS che mi interessano sono quelli delle ragazze

più TOPS(a) per tutti :D
:asd:

UtenteHD
24-06-2024, 09:57
Ok, stiamo andado sulla strada dell'avere x tutti in ogni cosa l'IA anche nelle cose piu' inutili, magari tra un po' a ciascuno sara' assegnata un'IA personale che ci possa assistere 24/24 e controllore in ogni cosa e quando ne saremo piu' che contenti ed abituati ad essere serviti... metteranno tutto a pagamento? HAHAHA

Unrue
24-06-2024, 10:20
E la differenza con il FLOPS quale sarebbe? Che il TOPS è più generico?

matsnake86
24-06-2024, 11:09
I flops sono le operazioni al secondo in virgola mobile. Numeri puri.

i tops sono invece il numero di tensori calcolati al secondo che si usano ovviamente per i modelli IA. Si entra nel campo dell'algebra vettoriale multidimensionale. Roba abbastanza complicata.

Sono due cose differenti. Non penso si possano paragonare.

Unrue
24-06-2024, 11:44
I flops sono le operazioni al secondo in virgola mobile. Numeri puri.

i tops sono invece il numero di tensori calcolati al secondo che si usano ovviamente per i modelli IA.

Quindi la T sta per Tensor, non Trillions?

TOPS sta per "Trillions of Operations Per Second" e potete trovarlo anche indicato come TeraOPS. Si parla di migliaia di miliardi di operazioni al secondo, e si può guadare al numero come una dato prestazionale grezzo: più alto è il valore, maggiori sono le prestazioni teoriche offerte.

matsnake86
24-06-2024, 12:36
Hmm.. Non lo so a sto punto.

Io sapevo appunto che misurava quante "tensor operation" al secondo eseguiva una gpu.

Però boh qui salta fuori una nuova definizione ogni giorno.

Alla fine è tutta fuffa in ogni caso.
Sui portatili con le npu la roba seria non la farai mai girare in locale data la scarsità di ram e vram.

Insomma per ora sono tutti specchietti per gli allodole e per alimentare il FOMO legato all'hardware.

UtenteHD
24-06-2024, 14:52
Visto che la GPU ha i tensore cores, oltre ai classici dati dovrebbero anche per Loro mettere queste info?

LMCH
27-06-2024, 14:03
Date un occhiata a questo articolo:
https://news.ucsc.edu/2024/06/matmul-free-llm.html

Ed alla pubblicazione di cui parla:
https://arxiv.org/pdf/2406.02528

Per dirla in poche parole ... i chip e gli "acceleratori AI" attualmente o prossimamente disponibili ... sono TUTTI obsoleti. :eek:

E' stato messo a punto un nuovo metodo che ELIMINA L'USO DELLE MOLTIPLICAZIONI DI MATRICI "classiche" usando la quantizzazione ternaria (coefficienti con solo tre valori, ovvero -1, 0, +1 ).

Già ora, portando gli algoritmi con coefficienti ternari su GPU "normali" si riducono enormemente la memoria utilizzata, i consumi energetici e si aumentano le prestazioni.

Quando saranno disponibili NPU "matmul-free" (ma con supporto delle operazioni su coefficienti ternari) le prestazioni schizzeranno alle stelle anche su sistemi embedded.

Mi sa che in questi giorni tutti quelli che stanno lavorando su chip "AI" stanno freneticamente bloccando tutti gli sviluppi in corso che non siano troppo vicini alla produzione o vincolati da contratti e stanno ri-progettando le loro architetture.

Chi arriva primo a produrre in quantità NPU "matmul-free" anche usando processi produttivi "vecchi" può far piazza pulita di tutti i prodotti attualmente in commercio (con chip che a parità di consumo danno prestazioni stellari anche usando un processo produttivo "non all'ultimo grido").

Unrue
27-06-2024, 14:10
Date un occhiata a questo articolo:
https://news.ucsc.edu/2024/06/matmul-free-llm.html

Ed alla pubblicazione di cui parla:
https://arxiv.org/pdf/2406.02528

Per dirla in poche parole ... i chip e gli "acceleratori AI" attualmente o prossimamente disponibili ... sono TUTTI obsoleti. :eek:

E' stato messo a punto un nuovo metodo che ELIMINA L'USO DELLE MOLTIPLICAZIONI DI MATRICI "classiche" usando la quantizzazione ternaria (coefficienti con solo tre valori, ovvero -1, 0, +1 ).



La quantizzazione dei pesi non è un'idea nuova, ma fino ad ora non ha portato a risultati comparabili. Vedremo.

raxas
27-06-2024, 14:25
Hmm.. Non lo so a sto punto.

Io sapevo appunto che misurava quante "tensor operation" al secondo eseguiva una gpu.

Però boh qui salta fuori una nuova definizione ogni giorno.
...
vero
si tratta di classifiche:

TOPS of THE FLIPS of THE FLOPS of THE HWS of THE POPS.
E assortiti.

LMCH
28-06-2024, 11:27
La quantizzazione dei pesi non è un'idea nuova, ma fino ad ora non ha portato a risultati comparabili. Vedremo.

A differenza delle precedenti quantizzazioni che richiedevano moltiplicatori "classici" per interi o float un moltiplicatore di coefficienti ternari {-1, 0, +1} è leggerissimo in termini di gate richiesti e molto più veloce.
Moltiplicazione "ternaria" A * B --> C usando una rappresentazione a 2bit (1bit di segno s ed 1bit di "valore assoluto" v)
corrisponde grossomodo a
C.v = A.v AND B.v
C.s = ( A.s XOR B.s) AND C.v

Due porte logiche AND ed una XOR eseguita in seriale in due cicli di clock, oppure tre AND ed una XOR eseguita in parallelo in un ciclo di clock
(in realtà ottimizzando il circuito la versione ad 1 ciclo di clock viene molto più semplice, ma è per dare l'idea).

Unrue
28-06-2024, 11:31
A differenza delle precedenti quantizzazioni che richiedevano moltiplicatori "classici" per interi o float un moltiplicatore di coefficienti ternari {-1, 0, +1} è leggerissimo in termini di gate richiesti e molto più veloce.
Moltiplicazione "ternaria" A * B --> C usando una rappresentazione a 2bit (1bit di segno s ed 1bit di "valore assoluto" v)
corrisponde grossomodo a
C.v = A.v AND B.v
C.s = ( A.s XOR B.s) AND C.v

Due porte logiche AND ed una XOR eseguita in seriale in due cicli di clock, oppure tre AND ed una XOR eseguita in parallelo in un ciclo di clock
(in realtà ottimizzando il circuito la versione ad 1 ciclo di clock viene molto più semplice, ma è per dare l'idea).


Intendo proprio la quantizzazione ternaria. Se ne parla dal 2016, ma poi non so bene perché non ha preso piede:

https://arxiv.org/abs/1609.00222

LMCH
28-06-2024, 13:57
Intendo proprio la quantizzazione ternaria. Se ne parla dal 2016, ma poi non so bene perché non ha preso piede:

https://arxiv.org/abs/1609.00222

Le NPU e tensor unit attuali sono ottimizzate per eseguire prodotti di matrici di interi e float, se esegui giusto gli stessi algoritmi usando logica ternaria il vantaggio non è significativo perchè bisogna "aumentare le dimensioni delle matrici" (il numero di coefficienti) per avere prestazioni comparabili.

I ricercatori che hanno pubblicato la paper che ho linkato in precedenza non hanno solo usato coefficienti ternari, ma hanno anche sostituito i passi che richiedevano moltiplicazioni di matrici con una versione ottimizzata che prima "seleziona" i blocchi più rilevanti delle matrici e poi affina il calcolo valutando come si evolve l'aggiornamento dei coefficienti tra un passo ed il successivo.

E' una cosa che si potrebbe fare anche con altre quantizzazioni, ma con coefficienti ternari viene fatta in modo molto più efficiente.

Adesso quel che resta da fare per sostituire i vecchi algoritmi e modelli è verificare che il nuovo metodo scali bene crescendo ulteriormente con le dimensioni del modello, i ricercatori hanno fatto esperimenti con modelli da "solo" 2,7 miliardi di parametri con 100 miliardi di token di addestramento, mentre i modelli più recenti superano anche i 15000 miliardi di token.

Quel che comunque è già evidente è che se si parla di NPU "per pc/laptop" o per roba embedded questi nuovi algoritmi a coefficienti ternari sono già ultra-competitivi in termini di consumi e prestazioni.

Mparlav
29-06-2024, 07:35
LMCH, grazie per quel link.