Quote:
Originariamente inviato da s12a
Dipende da cosa intendi per accettabile. Probabilmente sarà in grado di dialogare ed effettuare ragionamenti semplici, ma non avrà molta conoscenza da cui attingere.
In generale, a patto di usarla a precisione sufficiente, forse la versione da 70 miliardi di parametri basata su Llama si avvicina un po' al modello online da 671B parametri; più si scende con la dimensione del modello e con la precisione, meno esso sarà intelligente, capace ed informato. Non cercherei di usare un modello da 1.5 miliardi di parametri per nulla di serio, né mi aspetterei prestazioni minimamente comparabili al modello online, personalmente.
Io spero solo che l'entusiasmo incentivi i produttori di hardware a fornire soluzioni accessibili per l'uso di modelli di dimensioni più grandi a velocità decenti. Per avere un riferimento, con la mia RTX3090 24GB posso usare la versione da 32 miliardi di parametri con precisione a 4 bit a circa 25 token/s, ma non posso salire più di tanto con la dimensione del "contesto" (semplificando, la memoria a breve termine che il modello ha a disposizione per il dialogo) perché non basta la VRAM, ed attingendo dalla RAM di sistema (dalla banda di circa 50 GB/s nel mio caso) la velocità crolla.
|
tutto quello che vuoi, ma l'idea di avere un sistema ragionevolmente "intelligente" e di, come dire?, cultura media offline è... intrigante.