Quote:
Originariamente inviato da GianMi
...garbage out. Modelli molto più piccoli di ChatGPT ottengono in molti benchmark risultati migliori perché sono stati addestrati con dati migliori. E' il caso p.e. del recentissimo DBRX.
E' tra l'altro lo stesso problema che hanno i RAG (Retrieval Augmented Generation) basati sui LLM, che, se implementati in modo semplicistico dandogli in pasto i documenti senza pre e post elaborazione, restituiscono risultati scadenti.
Quindi, come spesso succede, più che la quantità conta la qualità.
|
Esatto, quasi tutti non considerano che avere più dati a disposizione non significa avere più informazione, dipende dalla loro qualità.
Secondo Taleb il 90% dei dati è rumore, il 9% sono informazioni già note e solo 1% è nuova informazione. The Noise Bottleneck
__________________
Nel tempo dell'inganno universale, dire la verità è un atto rivoluzionario. George Orwell
Il vero valore di una persona non si misura dai valori in cui sostiene di credere, ma da che cosa è disposto a fare per proteggerli. Se non pratichi i valori in cui credi, probabilmente non ci credi fino in fondo. Edward Snowden
Coloro che rinuncerebbero alla libertà essenziale, per acquistare un po' di sicurezza temporanea, non meritano né libertà né sicurezza. Benjamin Franklin
|