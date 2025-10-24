Un gruppo di ricercatori statunitensi del Texas A&M, University of Texas e della Purdue University ha condiviso un documento in attesa di revisione formale che introduce la LLM brain rot hypothesis, ovvero l'ipotesi secondo cui l'esposizione prolungata a dati di bassa qualità porterebbe i modelli linguistici di grandi dimensioni (LLM) a sviluppare comportamenti paragonabili al "declino cognitivo" umano.

Ispirandosi a studi neuroscientifici sul consumo eccessivo di contenuti banali e superficiali online, gli studiosi hanno cercato di quantificare in che misura l'allenamento su dati spazzatura possa degradare le capacità di ragionamento e memoria degli LLM. Lobiettivo è comprendere se il pre-addestramento continuo su testi di bassa qualità possa tradursi in un deterioramento delle prestazioni del modello nel lungo periodo.

Definire cosa sia junk non è semplice

Il problema, però, è che il concetto di junk web text non ha confini oggettivi e netti: per trovare una via percorribile, i ricercatori hanno analizzato il dataset Twitter100M presente su Hugging Face, che include 100 milioni di tweet, e ne hanno estratto campioni distinti tra contenuti junk e di controllo.

Partendo dallipotesi che la brain rot negli esseri umani derivi da un abuso di contenuti che stimolano lengagement in modo banale, hanno identificato i tweet junk come quelli con numeri elevati di mi piace, retweet e risposte, ma di lunghezza ridotta. In altre parole, post virali ma brevi, che possono essere sintomi di un certo grado di superficialità contenutistica.

Una seconda metrica ha preso spunto dal marketing per valutare la qualità semantica dei testi. Utilizzando un complesso prompt basato su GPT-4o, è stato selezionato un insieme di tweet concentrati su temi superficiali o sensazionalistici, come le varie teorie del complotto, affermazioni esagerate, contenuti lifestyle o linguaggio di tipo "-bait". Un campione casuale di questi risultati è stato poi verificato manualmente da tre studenti universitari, registrando una corrispondenza del 76% con le classificazioni automatiche.

Con i due dataset junk e control pronti, i ricercatori hanno pre-addestrato quattro LLM utilizzando proporzioni diverse dei due insiemi di dati. Le prestazioni sono state poi valutate attraverso una serie di benchmark: il test di ragionamento ARC, la memoria a lungo contesto (RULER), la conformità a norme etiche (AdvBench e HH-RLHF) e le caratteristiche della personalità (TRAIT).

I risultati hanno mostrato che una maggiore presenza di dati junk nell'addestramento si traduce in un peggioramento significativo delle capacità di ragionamento e della memoria a lungo termine. Gli effetti sono apparsi più eterogenei negli altri test: in particolare, un mix equilibrato (50% junk, 50% control) nel modello Llama 8B ha prodotto risultati curiosamente positivi in alcune metriche legate ai tratti di personalità, oltre a una migliore adesione a norme etiche.

Rischio di contaminazione cognitiva

Gli autori concludono che una dipendenza eccessiva dai dati provenienti dal web espone i LLM a un trappola di contaminazione dei contenuti e sottolineano l'importanza di una revisione urgente delle pratiche di raccolta e pre-addestramento dei dati, sottolineando la necessità di una selezione più rigorosa e controlli di qualità per evitare danni cumulativi nei modelli futuri.

Il pericolo è amplificato dal fatto che una quantità sempre maggiore dei contenuti online è ormai prodotta da altre IA, tornando quindi al rischio di "collasso" del modello, un processo in cui i modelli si allenano su dati generati da sé, perdendo progressivamente capacità e diversità informativa.