L'IA tira a indovinare? Non è un bug, è stata addestrata così: lo rivela OpenAI

L'IA tira a indovinare? Non è un bug, è stata addestrata così: lo rivela OpenAI

Secondo un recente studio firmato da tre ricercatori di OpenAI e da un professore del Georgia Tech, i modelli linguistici producono falsi contenuti perché valutati e premiati per indovinare piuttosto che ammettere l'incertezza. La soluzione proposta: cambiare i criteri di valutazione

di pubblicata il , alle 11:51 nel canale Scienza e tecnologia
AIOpenAI
 
13 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
gparlav19 Settembre 2025, 11:08 #11
Originariamente inviato da: Darkon

Quanto all'ultima parte non concordo. Se hai un minimo di capacità puoi scrivere le domande in maniera tale che l'AI è sufficientemente precisa e affidabile. Poi come qualsiasi strumento va saputa usare ma esattamente come google eh... perché se anche prima dell'AI usi google per autodiagnosticarti veniva fuori che avevi 120 malattie rare. Un LLM allo stesso modo è affidabile nella misura in cui chi lo usa ha un MINIMO di capacità nel saperlo usare.


Sono d'accordo sulla maggior parte delle tue affermazioni, tranne quest'ultima.

Sto provando a iniziare a utilizzare i diversi agenti AI a fini professionali. In azienda abbiamo anche iniziato a fare i primi corsi di AI e di come gestire il prompting, anche facendo riferimento ai principi ISO 24495 sulla chiarezza di linguaggio.

Su alcuni task apparentemente semplici, non ho trovato alcuna AI che mi soddisfi al 100%. Anche nelle semplici raccolte di dati da molteplici fonti, in cui fornisco indicazioni chiare e non equivoche su cosa raccogliere.

Al momento il mio giudizio sulla AI è che i risultati non siano mai affidabili al 100%. Sono solo utili, se va bene, a far partire un'analisi o attività senza iniziare dal foglio bianco. Ma poi ci vuole la "testa" di un essere senziente per discriminare e correggere quanto fornito dalla AI.

Per quanto mi riguarda, continuerò a usare tali strumenti, nella speranza che possano essere davvero di aiuto. Al momento non lo sono sempre. Il livello di attenzione deve essere sempre abbastanza "alto"
Darkon19 Settembre 2025, 11:48 #12
Originariamente inviato da: gparlav
Sono d'accordo sulla maggior parte delle tue affermazioni, tranne quest'ultima.

Sto provando a iniziare a utilizzare i diversi agenti AI a fini professionali. In azienda abbiamo anche iniziato a fare i primi corsi di AI e di come gestire il prompting, anche facendo riferimento ai principi ISO 24495 sulla chiarezza di linguaggio.


Perdona la domanda magari stupida: state usando una AI addestrata ad hoc sui vostri dati vero? Perché se provi a usate chatGPT o simili ad uso professionale nella versione pubblica free è chiaro che non funzionerà manco per sbaglio. Te lo dico subito.

Su alcuni task apparentemente semplici, non ho trovato alcuna AI che mi soddisfi al 100%. Anche nelle semplici raccolte di dati da molteplici fonti, in cui fornisco indicazioni chiare e non equivoche su cosa raccogliere.


Perché non è un uso adatto a un LLM, un LLM se gli chiedi di raccogliere info tenderà a creare le info richieste più che fare una ricerca. Questo è uno dei fraintendimenti più comuni. Un LLM può essere bravo a elaborare info che gli fornisci ma non è il massimo a cercare info perché per come è pensato ogni volta che non troverà una fonte certa tirerà a indovinare una risposta plausibile quindi capisci bene che non è un uso corretto, salvo addestrarlo a cercare le informazioni in un ambito ristretto ad esempio come dicevo sopra addestrando una AI per rispondere relativamente alla normativa interna ma prima devi fargli un addestramento ad hoc.
Al momento il mio giudizio sulla AI è che i risultati non siano mai affidabili al 100%. Sono solo utili, se va bene, a far partire un'analisi o attività senza iniziare dal foglio bianco. Ma poi ci vuole la "testa" di un essere senziente per discriminare e correggere quanto fornito dalla AI.


Perdonami ma questo è assolutamente scontato. Un LLM non è senziente e non è una macchina in grado di ragionare. Non puoi demandargli cose che non è minimamente in grado di comprendere.

Per quanto mi riguarda, continuerò a usare tali strumenti, nella speranza che possano essere davvero di aiuto. Al momento non lo sono sempre. Il livello di attenzione deve essere sempre abbastanza "alto"


Nel modo in cui intendi te dubito che potrai mai avere soddisfazione o almeno non finché, se mai fosse possibile, non arriviamo a creare una IA realmente senziente. Secondo me si continua a confondere un LLM con quella che è una IA completa e senziente.
gparlav22 Settembre 2025, 09:47 #13
Originariamente inviato da: Darkon
Perdona la domanda magari stupida: state usando una AI addestrata ad hoc sui vostri dati vero? Perché se provi a usate chatGPT o simili ad uso professionale nella versione pubblica free è chiaro che non funzionerà manco per sbaglio. Te lo dico subito.



Perché non è un uso adatto a un LLM, un LLM se gli chiedi di raccogliere info tenderà a creare le info richieste più che fare una ricerca. Questo è uno dei fraintendimenti più comuni. Un LLM può essere bravo a elaborare info che gli fornisci ma non è il massimo a cercare info perché per come è pensato ogni volta che non troverà una fonte certa tirerà a indovinare una risposta plausibile quindi capisci bene che non è un uso corretto, salvo addestrarlo a cercare le informazioni in un ambito ristretto ad esempio come dicevo sopra addestrando una AI per rispondere relativamente alla normativa interna ma prima devi fargli un addestramento ad hoc.


Perdonami ma questo è assolutamente scontato. Un LLM non è senziente e non è una macchina in grado di ragionare. Non puoi demandargli cose che non è minimamente in grado di comprendere.



Nel modo in cui intendi te dubito che potrai mai avere soddisfazione o almeno non finché, se mai fosse possibile, non arriviamo a creare una IA realmente senziente. Secondo me si continua a confondere un LLM con quella che è una IA completa e senziente.


Alla fine sono costretto a condividere quello che scrivi: un LLM non è un programma senziente che ti permette di fare in tua vece attività apparentemente banali e strutturate.

In azienda si stanno iniziando a usare sia IA "interne", per ovvi problemi di gestione dei dati interni, spesso con tematiche privacy o di riservatezza da dover gestire. E stiamo provando, in maniera un po' random, a usare le varie IA commerciali per vedere come migliorare le proprie attività.

Due esempi "stupidi" in cui mi sono imbattuto.
1) fare la lista delle nazioni della UE con relativo codice ISO. La lista la conoscevo, ma non volevo "sbattermi" a trovare i codici ISO relativi, che comunque conosco. La risposta di Gemini mi da un codice per la Grecia che si rivela errato (era quello pre-2005). ME ne accorgo dopo una 10ina di minuti. Provo con un altro paio di IA e mi danno la risposta corretta (Claude e Perplexit). Gemini, pur recependo il mio feedback, ha continuato a darmi la risposta errata per diversi mesi successivi. Lo "sfrucugliavo" per testarlo. Questo sino alla versione 2.0, perchè poi con la versione attuale 2.5 hanno sanato il problema

2) E' stata emessa lo scorso anno un'importante normativa utile per il mio lavoro. Un regolamento UE che va a integrare / derogare un precedente regolamento UE. Il regolamento originario è già stato modificato nel tempo, con almeno una 15ina di diversi atti giuridici che lo modificano / integrano. Dato che la nuova versione del "Testo Unico" del Regolamento originario che integrava il nuovo non era stato ancora pubblicato in Gazzetta Ufficiale, chiedo a diverse IA di farmi, su UNO solo degli articoli, il testo integrato tra la versione del vecchio regolamento e quella nuova. Dopo oltre 6 mesi, e interazioni con le IA di almeno 20-30 minuti ognuna, nessuna mi ha mai prodotto un testo integrato corretto. Attività che avrei fatto "a mano" in circa 5 minuti. Mi ci sono messo con la tigna a provare a cavare un risultato degno, ma nulla.

Certamente ci sono altri casi in cui l'IA mi è stata utile, ma sempre con una mia verifica dei risultati.

Come dici tu, un LLM forse non è lo strumento più idoneo a fare di tutto. Anche se, nella mia ignoranza (perchè tale mi considero), speravo che tali strumenti permettessero perlomeno un'automazione dei task.

Vedremo in futuro

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^