L'IA tira a indovinare? Non è un bug, è stata addestrata così: lo rivela OpenAI
Secondo un recente studio firmato da tre ricercatori di OpenAI e da un professore del Georgia Tech, i modelli linguistici producono falsi contenuti perché valutati e premiati per indovinare piuttosto che ammettere l'incertezza. La soluzione proposta: cambiare i criteri di valutazione
di Andrea Bai pubblicata il 18 Settembre 2025, alle 11:51 nel canale Scienza e tecnologiaAIOpenAI










Due mesi di Battlefield 6: dalla campagna al battle royale, è l'FPS che stavamo aspettando
Antigravity A1: drone futuristico per riprese a 360° in 8K con qualche lacuna da colmare
Sony Alpha 7 V, anteprima e novità della nuova 30fps, che tende la mano anche ai creator
La costruzione del telescopio spaziale Nancy Grace Roman è stata completata
HBO ha cancellato la produzione della serie su Elon Musk e l'inizio dell'avventura di SpaceX
OpenAI ha pensato a una partnership (o a comprare) una società di razzi spaziali per i datacenter orbitali
Starlink Mobile: SpaceX potrebbe lanciare un vero operatore telefonico nel prossimo futuro
Volkswagen trasforma lo stabilimento di Dresda: diventerà un polo di ricerca ultra tecnologico
Meta AI più reattivo e imparziale: Zuckerberg sigla accordi con grandi editori internazionali
In Cina la prima GPU discreta al mondo che supporta nativamente Windows on Arm
Vertiv CoolCenter, il sistema di raffreddamento a immersione per HPC e data center
Konecta entra nel Kraken BPO Partner Program per accelerare la trasformazione delle utility
Un dialogo con l'AI sposta voti meglio della propaganda elettorale
iPhone 17 al minimo storico: oggi il 256 GB scende a 899€ su Amazon ed è già tra i più venduti
Gli utenti italiani scelgono ChatGPT: è il servizio IA più utilizzato per distacco
Anche Xiaomi avrà il suo trifold: ecco quando arriverà e come potrebbe chiamarsi
È Natale in casa Tesla: arriva la Model 3 Standard, sconto speciale a 35.000 euro









13 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoQuanto all'ultima parte non concordo. Se hai un minimo di capacità puoi scrivere le domande in maniera tale che l'AI è sufficientemente precisa e affidabile. Poi come qualsiasi strumento va saputa usare ma esattamente come google eh... perché se anche prima dell'AI usi google per autodiagnosticarti veniva fuori che avevi 120 malattie rare. Un LLM allo stesso modo è affidabile nella misura in cui chi lo usa ha un MINIMO di capacità nel saperlo usare.
Sono d'accordo sulla maggior parte delle tue affermazioni, tranne quest'ultima.
Sto provando a iniziare a utilizzare i diversi agenti AI a fini professionali. In azienda abbiamo anche iniziato a fare i primi corsi di AI e di come gestire il prompting, anche facendo riferimento ai principi ISO 24495 sulla chiarezza di linguaggio.
Su alcuni task apparentemente semplici, non ho trovato alcuna AI che mi soddisfi al 100%. Anche nelle semplici raccolte di dati da molteplici fonti, in cui fornisco indicazioni chiare e non equivoche su cosa raccogliere.
Al momento il mio giudizio sulla AI è che i risultati non siano mai affidabili al 100%. Sono solo utili, se va bene, a far partire un'analisi o attività senza iniziare dal foglio bianco. Ma poi ci vuole la "testa" di un essere senziente per discriminare e correggere quanto fornito dalla AI.
Per quanto mi riguarda, continuerò a usare tali strumenti, nella speranza che possano essere davvero di aiuto. Al momento non lo sono sempre. Il livello di attenzione deve essere sempre abbastanza "alto"
Sto provando a iniziare a utilizzare i diversi agenti AI a fini professionali. In azienda abbiamo anche iniziato a fare i primi corsi di AI e di come gestire il prompting, anche facendo riferimento ai principi ISO 24495 sulla chiarezza di linguaggio.
Perdona la domanda magari stupida: state usando una AI addestrata ad hoc sui vostri dati vero? Perché se provi a usate chatGPT o simili ad uso professionale nella versione pubblica free è chiaro che non funzionerà manco per sbaglio. Te lo dico subito.
Perché non è un uso adatto a un LLM, un LLM se gli chiedi di raccogliere info tenderà a creare le info richieste più che fare una ricerca. Questo è uno dei fraintendimenti più comuni. Un LLM può essere bravo a elaborare info che gli fornisci ma non è il massimo a cercare info perché per come è pensato ogni volta che non troverà una fonte certa tirerà a indovinare una risposta plausibile quindi capisci bene che non è un uso corretto, salvo addestrarlo a cercare le informazioni in un ambito ristretto ad esempio come dicevo sopra addestrando una AI per rispondere relativamente alla normativa interna ma prima devi fargli un addestramento ad hoc.
Perdonami ma questo è assolutamente scontato. Un LLM non è senziente e non è una macchina in grado di ragionare. Non puoi demandargli cose che non è minimamente in grado di comprendere.
Nel modo in cui intendi te dubito che potrai mai avere soddisfazione o almeno non finché, se mai fosse possibile, non arriviamo a creare una IA realmente senziente. Secondo me si continua a confondere un LLM con quella che è una IA completa e senziente.
Perché non è un uso adatto a un LLM, un LLM se gli chiedi di raccogliere info tenderà a creare le info richieste più che fare una ricerca. Questo è uno dei fraintendimenti più comuni. Un LLM può essere bravo a elaborare info che gli fornisci ma non è il massimo a cercare info perché per come è pensato ogni volta che non troverà una fonte certa tirerà a indovinare una risposta plausibile quindi capisci bene che non è un uso corretto, salvo addestrarlo a cercare le informazioni in un ambito ristretto ad esempio come dicevo sopra addestrando una AI per rispondere relativamente alla normativa interna ma prima devi fargli un addestramento ad hoc.
Perdonami ma questo è assolutamente scontato. Un LLM non è senziente e non è una macchina in grado di ragionare. Non puoi demandargli cose che non è minimamente in grado di comprendere.
Nel modo in cui intendi te dubito che potrai mai avere soddisfazione o almeno non finché, se mai fosse possibile, non arriviamo a creare una IA realmente senziente. Secondo me si continua a confondere un LLM con quella che è una IA completa e senziente.
Alla fine sono costretto a condividere quello che scrivi: un LLM non è un programma senziente che ti permette di fare in tua vece attività apparentemente banali e strutturate.
In azienda si stanno iniziando a usare sia IA "interne", per ovvi problemi di gestione dei dati interni, spesso con tematiche privacy o di riservatezza da dover gestire. E stiamo provando, in maniera un po' random, a usare le varie IA commerciali per vedere come migliorare le proprie attività.
Due esempi "stupidi" in cui mi sono imbattuto.
1) fare la lista delle nazioni della UE con relativo codice ISO. La lista la conoscevo, ma non volevo "sbattermi" a trovare i codici ISO relativi, che comunque conosco. La risposta di Gemini mi da un codice per la Grecia che si rivela errato (era quello pre-2005). ME ne accorgo dopo una 10ina di minuti. Provo con un altro paio di IA e mi danno la risposta corretta (Claude e Perplexit). Gemini, pur recependo il mio feedback, ha continuato a darmi la risposta errata per diversi mesi successivi. Lo "sfrucugliavo" per testarlo. Questo sino alla versione 2.0, perchè poi con la versione attuale 2.5 hanno sanato il problema
2) E' stata emessa lo scorso anno un'importante normativa utile per il mio lavoro. Un regolamento UE che va a integrare / derogare un precedente regolamento UE. Il regolamento originario è già stato modificato nel tempo, con almeno una 15ina di diversi atti giuridici che lo modificano / integrano. Dato che la nuova versione del "Testo Unico" del Regolamento originario che integrava il nuovo non era stato ancora pubblicato in Gazzetta Ufficiale, chiedo a diverse IA di farmi, su UNO solo degli articoli, il testo integrato tra la versione del vecchio regolamento e quella nuova. Dopo oltre 6 mesi, e interazioni con le IA di almeno 20-30 minuti ognuna, nessuna mi ha mai prodotto un testo integrato corretto. Attività che avrei fatto "a mano" in circa 5 minuti. Mi ci sono messo con la tigna a provare a cavare un risultato degno, ma nulla.
Certamente ci sono altri casi in cui l'IA mi è stata utile, ma sempre con una mia verifica dei risultati.
Come dici tu, un LLM forse non è lo strumento più idoneo a fare di tutto. Anche se, nella mia ignoranza (perchè tale mi considero), speravo che tali strumenti permettessero perlomeno un'automazione dei task.
Vedremo in futuro
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".