L'IA tira a indovinare? Non è un bug, è stata addestrata così: lo rivela OpenAI [Archivio]

Redazione di Hardware Upg

18-09-2025, 11:51

Link alla notizia: https://www.hwupgrade.it/news/scienza-tecnologia/l-ia-tira-a-indovinare-non-e-un-bug-e-stata-addestrata-cosi-lo-rivela-openai_143641.html

Secondo un recente studio firmato da tre ricercatori di OpenAI e da un professore del Georgia Tech, i modelli linguistici producono falsi contenuti perché valutati e premiati per indovinare piuttosto che ammettere l'incertezza. La soluzione proposta: cambiare i criteri di valutazione

Click sul link per visualizzare la notizia.

megamitch

18-09-2025, 11:57

mi sembra una cosa arcinota.

zbear

18-09-2025, 12:35

Fantastico. Chissà se una pseudoAI che lavori su un intervento chirurgico succede qualcosa su cui non ha nozioni per reagire .... che fa, ammazza il paziente per evitare l'errore? O pianta li a metà tutto? O magari comincia a togliere pezzi per vedere se risolve? Affidabili queste pseudoAI, come no .....

Andrew321

18-09-2025, 18:06

Fantastico. Chissà se una pseudoAI che lavori su un intervento chirurgico succede qualcosa su cui non ha nozioni per reagire .... che fa, ammazza il paziente per evitare l'errore? O pianta li a metà tutto? O magari comincia a togliere pezzi per vedere se risolve? Affidabili queste pseudoAI, come no .....

Cosa c'entra coi modelli linguistici di cui si parla nell'articolo? :confused:

Darkon

18-09-2025, 18:30

Cosa c'entra coi modelli linguistici di cui si parla nell'articolo? :confused:

Assolutamente niente perché non esistono LLM che fanno operazioni, al massimo vengono usati al momento in via sperimentale e sempre sotto la supervisione di medici specialisti, come strumento diagnostico ma non è al momento una procedura ufficiale e quindi viene usata a latere su casistiche già risolte per vedere cosa avrebbe risposto.

Di certo nessuna AI opera nessuno almeno non gli LLM.

berson

18-09-2025, 22:58

Questo lo sapevamo, quello che manca e che farebbe molto comodo agli utenti è la capacità di ammettere di non sapere o non essere capaci di trovare una soluzione.

Darkon

19-09-2025, 08:22

Questo lo sapevamo, quello che manca e che farebbe molto comodo agli utenti è la capacità di ammettere di non sapere o non essere capaci di trovare una soluzione.

Daglie... non è una cosa fattibile.

Un LLM è un sistema predittivo probabilistico e NON un ragionamento. Non è che ragiona e sa a monte cosa sa e cosa non sa.

Se io ti chiedo di pensare a un numero da 1 a 10 e poi dopo aver analizzato i tuoi pattern provo a indovinare che numero hai pensato secondo te io so se indovinerò o meno?

Ecco un LLM è la stessa cosa ovviamente semplificando molto. Non ha idea di cosa ti sta rispondendo ma attraverso dei modelli complessi prova a prevedere una risposta sensata. Bada bene che la "risposta sensata" non è ragionata. Un LLM non ha idea di cosa ti sta rispondendo ha solo calcolato che è la risposta con le chance maggiori di essere quella giusta.

Dire che dovrebbe dirti di non sapere qualcosa è non aver capito come funziona perché un LLM non SA NIENTE, semplicemente prova a indovinare la combinazione di parole giuste.

barzokk

19-09-2025, 08:48

Daglie... non è una cosa fattibile.

Un LLM è un sistema predittivo probabilistico e NON un ragionamento. Non è che ragiona e sa a monte cosa sa e cosa non sa.

Se io ti chiedo di pensare a un numero da 1 a 10 e poi dopo aver analizzato i tuoi pattern provo a indovinare che numero hai pensato secondo te io so se indovinerò o meno?

Ecco un LLM è la stessa cosa ovviamente semplificando molto. Non ha idea di cosa ti sta rispondendo ma attraverso dei modelli complessi prova a prevedere una risposta sensata. Bada bene che la "risposta sensata" non è ragionata. Un LLM non ha idea di cosa ti sta rispondendo ha solo calcolato che è la risposta con le chance maggiori di essere quella giusta.

Dire che dovrebbe dirti di non sapere qualcosa è non aver capito come funziona perché un LLM non SA NIENTE, semplicemente prova a indovinare la combinazione di parole giuste.
beh, è un sistema predittivo probabilistico che inventa...
e che vuoi di più ? genera risultati nuovi, a cui nessuno aveva mai pensato, fantastico !

Peccato che per avere miliardi, hanno sbandierato i miracoli della AI, come nella ricerca farmaceutica,
ma forse era una balla ?

E' perfino difficile da usare come un google potenziato, perchè i risultati della ricerca hanno zero affidabilità, e comunque devono essere approfonditi...
invece di risparmiare tempo, ne perdi...

Darkon

19-09-2025, 09:09

beh, è un sistema predittivo probabilistico che inventa...
e che vuoi di più ? genera risultati nuovi, a cui nessuno aveva mai pensato, fantastico !

Peccato che per avere miliardi, hanno sbandierato i miracoli della AI, come nella ricerca farmaceutica,
ma forse era una balla ?

E' perfino difficile da usare come un google potenziato, perchè i risultati della ricerca hanno zero affidabilità, e comunque devono essere approfonditi...
invece di risparmiare tempo, ne perdi...

No... semplicemente state mischiando cose completamente diverse.

chatGPT è una cosa, ha un certo tipo di funzionamento ecc... ecc...

Una IA sia pure sempre su modelli in stile LLM che fa ricerca medica ad esempio farmacologica è tutta un'altra cosa. Ha meccanismi in comune certo ma non è lo stesso strumento.

Da una parte hai un LLM generalista che deve poter rispondere un po' a tutto, con un linguaggio umano ecc... ecc...

Dall'altra hai un algoritmo che non ha interfaccia umana, altamente specializzato in un compito specifico e con parametri studiati ed estremamente restrittivi che permettono una approssimazione con regole che sono spesso matematiche e fisiche quindi molto più semplici per una macchina da comprendere.

Per fare un esempio per una macchina è molto più semplice calcolare che ne so una determinata espressione che si moltiplica per pi greco approssimato alla centesima cifra piuttosto che spiegare in italiano perché una poesia è bella.

Quindi per assurdo è molto più semplice per un LLM calcolare varianti di un determinato principio attivo che hanno un'alta probabilità di essere efficienti piuttosto che elaborare domande e risposte in italiano su argomenti non prevedibili e quindi con un addestramento generalista.

Quanto all'ultima parte non concordo. Se hai un minimo di capacità puoi scrivere le domande in maniera tale che l'AI è sufficientemente precisa e affidabile. Poi come qualsiasi strumento va saputa usare ma esattamente come google eh... perché se anche prima dell'AI usi google per autodiagnosticarti veniva fuori che avevi 120 malattie rare. Un LLM allo stesso modo è affidabile nella misura in cui chi lo usa ha un MINIMO di capacità nel saperlo usare.

barzokk

19-09-2025, 09:55

No... semplicemente state mischiando cose completamente diverse.
...

ma certo, in ricerca farmacologica potrebbe benissimo essere solo lontanamente parente di un LLM

ma veniamo al dunque, se puoi dirlo:
tu, nel tuo ambito professionale o privato, hai trovato qualche uso utile ?

Darkon

19-09-2025, 10:08

ma certo, in ricerca farmacologica potrebbe benissimo essere solo lontanamente parente di un LLM

ma veniamo al dunque, se puoi dirlo:
tu, nel tuo ambito professionale o privato, hai trovato qualche uso utile ?

Relativamente...

PROFESSIONALE:

Alcune aziende per cui lavoro hanno addestrato un LLM sulla normativa interna e sono piuttosto precisi nel trovarti i riferimenti corretti ad esempio se gli chiedi "ho bisogno di capire quali condizione possono essere applicate per un finanziamento a un dipendente" ti trova il documento normativo e te ne fa un riassunto che fino ad oggi è sempre stato corretto almeno nella mia esperienza d'uso e dei colleghi.
Detto ciò gli LLM nel mio settore non hanno avuto una rivoluzione particolarmente significativa.
Ecco un altro aspetto in cui si sono rivelati utili è che capita di usare file excel di dati in cui ci sono veramente migliaia e migliaia di dati. LLM aziendale che poi è copilot eh non immaginare chissà che, gli dai in pasto il file excel e gli chiedi una determinata ricerca o una analisi dati e ti crea un file analizzato in cui anche lì sono veramente precisi.
Da non usare invece se ad esempio devi fare un pegno o un fidejussione perché in quei casi invece l'IA non è né precisa né affidabile e ti propone o modelli standard presi chissà dove o scrive in maniera contorta ed interpretabile che comunque non va bene.

PRIVATO:

Nel privato uso l'IA soprattutto per programmazione microcontrollori e per programmazione su linux (principalmente Debian 12 e Ubuntu). Qua è già più complessa la cosa in quanto nell'analisi e debug del codice a volte ti da degli spunti assolutamente interessanti e spesso riesce anche a ottimizzare un codice già funzionante in maniera non proprio intuitiva per un essere umano. Al tempo stesso a volte ha delle allucinazioni devastanti mescolando linguaggi diversi o proprio inventando funzioni che non esistono. Quindi utile sì ma a patto di saper leggere il codice che scrive in maniera critica e capire quando prende cantonate. Se fossi uno che non conosce il codice e pretende di far funzionare un microcontrollore con codice totalmente scritto dall'AI probabilmente non ci riuscirei o ci metterei veramente tanto tempo.

Raramente nel privato la uso per delle ricerche ad esempio l'altro giorno gli chiedi in quale ordine giocare i giochi della serie Atelier. Mi rispose correttamente sostanzialmente copiando wikipedia ma la uso talmente raramente per ricerche del genere che il mio parere penso lasci il tempo che trova.

In generale un LLM è funzionale come "aiutante": io lo paragono ad avere un neoassunto volenteroso. Tanta voglia di fare ma poca esperienza quindi se te sei un "senior" che conosce la materia lo guidi e ne correggi gli errori e comunque ti è utile; se invece siete entrambi, capisci quello che intendo, due "junior" l'uno amplifica gli errori dell'altro e non trovi più la strada per tornare a casa.

gparlav

19-09-2025, 11:08

Quanto all'ultima parte non concordo. Se hai un minimo di capacità puoi scrivere le domande in maniera tale che l'AI è sufficientemente precisa e affidabile. Poi come qualsiasi strumento va saputa usare ma esattamente come google eh... perché se anche prima dell'AI usi google per autodiagnosticarti veniva fuori che avevi 120 malattie rare. Un LLM allo stesso modo è affidabile nella misura in cui chi lo usa ha un MINIMO di capacità nel saperlo usare.

Sono d'accordo sulla maggior parte delle tue affermazioni, tranne quest'ultima.

Sto provando a iniziare a utilizzare i diversi agenti AI a fini professionali. In azienda abbiamo anche iniziato a fare i primi corsi di AI e di come gestire il prompting, anche facendo riferimento ai principi ISO 24495 sulla chiarezza di linguaggio.

Su alcuni task apparentemente semplici, non ho trovato alcuna AI che mi soddisfi al 100%. Anche nelle semplici raccolte di dati da molteplici fonti, in cui fornisco indicazioni chiare e non equivoche su cosa raccogliere.

Al momento il mio giudizio sulla AI è che i risultati non siano mai affidabili al 100%. Sono solo utili, se va bene, a far partire un'analisi o attività senza iniziare dal foglio bianco. Ma poi ci vuole la "testa" di un essere senziente per discriminare e correggere quanto fornito dalla AI.

Per quanto mi riguarda, continuerò a usare tali strumenti, nella speranza che possano essere davvero di aiuto. Al momento non lo sono sempre. Il livello di attenzione deve essere sempre abbastanza "alto"

Darkon

19-09-2025, 11:48

Sono d'accordo sulla maggior parte delle tue affermazioni, tranne quest'ultima.

Sto provando a iniziare a utilizzare i diversi agenti AI a fini professionali. In azienda abbiamo anche iniziato a fare i primi corsi di AI e di come gestire il prompting, anche facendo riferimento ai principi ISO 24495 sulla chiarezza di linguaggio.

Perdona la domanda magari stupida: state usando una AI addestrata ad hoc sui vostri dati vero? Perché se provi a usate chatGPT o simili ad uso professionale nella versione pubblica free è chiaro che non funzionerà manco per sbaglio. Te lo dico subito.

Su alcuni task apparentemente semplici, non ho trovato alcuna AI che mi soddisfi al 100%. Anche nelle semplici raccolte di dati da molteplici fonti, in cui fornisco indicazioni chiare e non equivoche su cosa raccogliere.

Perché non è un uso adatto a un LLM, un LLM se gli chiedi di raccogliere info tenderà a creare le info richieste più che fare una ricerca. Questo è uno dei fraintendimenti più comuni. Un LLM può essere bravo a elaborare info che gli fornisci ma non è il massimo a cercare info perché per come è pensato ogni volta che non troverà una fonte certa tirerà a indovinare una risposta plausibile quindi capisci bene che non è un uso corretto, salvo addestrarlo a cercare le informazioni in un ambito ristretto ad esempio come dicevo sopra addestrando una AI per rispondere relativamente alla normativa interna ma prima devi fargli un addestramento ad hoc.

Al momento il mio giudizio sulla AI è che i risultati non siano mai affidabili al 100%. Sono solo utili, se va bene, a far partire un'analisi o attività senza iniziare dal foglio bianco. Ma poi ci vuole la "testa" di un essere senziente per discriminare e correggere quanto fornito dalla AI.

Perdonami ma questo è assolutamente scontato. Un LLM non è senziente e non è una macchina in grado di ragionare. Non puoi demandargli cose che non è minimamente in grado di comprendere.

Per quanto mi riguarda, continuerò a usare tali strumenti, nella speranza che possano essere davvero di aiuto. Al momento non lo sono sempre. Il livello di attenzione deve essere sempre abbastanza "alto"

Nel modo in cui intendi te dubito che potrai mai avere soddisfazione o almeno non finché, se mai fosse possibile, non arriviamo a creare una IA realmente senziente. Secondo me si continua a confondere un LLM con quella che è una IA completa e senziente.

gparlav

22-09-2025, 09:47

Perdona la domanda magari stupida: state usando una AI addestrata ad hoc sui vostri dati vero? Perché se provi a usate chatGPT o simili ad uso professionale nella versione pubblica free è chiaro che non funzionerà manco per sbaglio. Te lo dico subito.

Perché non è un uso adatto a un LLM, un LLM se gli chiedi di raccogliere info tenderà a creare le info richieste più che fare una ricerca. Questo è uno dei fraintendimenti più comuni. Un LLM può essere bravo a elaborare info che gli fornisci ma non è il massimo a cercare info perché per come è pensato ogni volta che non troverà una fonte certa tirerà a indovinare una risposta plausibile quindi capisci bene che non è un uso corretto, salvo addestrarlo a cercare le informazioni in un ambito ristretto ad esempio come dicevo sopra addestrando una AI per rispondere relativamente alla normativa interna ma prima devi fargli un addestramento ad hoc.

Perdonami ma questo è assolutamente scontato. Un LLM non è senziente e non è una macchina in grado di ragionare. Non puoi demandargli cose che non è minimamente in grado di comprendere.

Nel modo in cui intendi te dubito che potrai mai avere soddisfazione o almeno non finché, se mai fosse possibile, non arriviamo a creare una IA realmente senziente. Secondo me si continua a confondere un LLM con quella che è una IA completa e senziente.

Alla fine sono costretto a condividere quello che scrivi: un LLM non è un programma senziente che ti permette di fare in tua vece attività apparentemente banali e strutturate.

In azienda si stanno iniziando a usare sia IA "interne", per ovvi problemi di gestione dei dati interni, spesso con tematiche privacy o di riservatezza da dover gestire. E stiamo provando, in maniera un po' random, a usare le varie IA commerciali per vedere come migliorare le proprie attività.

Due esempi "stupidi" in cui mi sono imbattuto.
1) fare la lista delle nazioni della UE con relativo codice ISO. La lista la conoscevo, ma non volevo "sbattermi" a trovare i codici ISO relativi, che comunque conosco. La risposta di Gemini mi da un codice per la Grecia che si rivela errato (era quello pre-2005). ME ne accorgo dopo una 10ina di minuti. Provo con un altro paio di IA e mi danno la risposta corretta (Claude e Perplexit). Gemini, pur recependo il mio feedback, ha continuato a darmi la risposta errata per diversi mesi successivi. Lo "sfrucugliavo" per testarlo. Questo sino alla versione 2.0, perchè poi con la versione attuale 2.5 hanno sanato il problema

2) E' stata emessa lo scorso anno un'importante normativa utile per il mio lavoro. Un regolamento UE che va a integrare / derogare un precedente regolamento UE. Il regolamento originario è già stato modificato nel tempo, con almeno una 15ina di diversi atti giuridici che lo modificano / integrano. Dato che la nuova versione del "Testo Unico" del Regolamento originario che integrava il nuovo non era stato ancora pubblicato in Gazzetta Ufficiale, chiedo a diverse IA di farmi, su UNO solo degli articoli, il testo integrato tra la versione del vecchio regolamento e quella nuova. Dopo oltre 6 mesi, e interazioni con le IA di almeno 20-30 minuti ognuna, nessuna mi ha mai prodotto un testo integrato corretto. Attività che avrei fatto "a mano" in circa 5 minuti. Mi ci sono messo con la tigna a provare a cavare un risultato degno, ma nulla.

Certamente ci sono altri casi in cui l'IA mi è stata utile, ma sempre con una mia verifica dei risultati.

Come dici tu, un LLM forse non è lo strumento più idoneo a fare di tutto. Anche se, nella mia ignoranza (perchè tale mi considero), speravo che tali strumenti permettessero perlomeno un'automazione dei task.

Vedremo in futuro