Hai almeno 16GB di RAM? Ecco il nuovo modello di OpenAI che puoi installare subito [Archivio]

Redazione di Hardware Upg

06-08-2025, 11:01

Link alla notizia: https://www.hwupgrade.it/news/scienza-tecnologia/hai-almeno-16gb-di-ram-ecco-il-nuovo-modello-di-openai-che-puoi-installare-subito_141974.html

OpenAI lancia due modelli AI open-weight, gpt-oss-120b e gpt-oss-20b, scaricabili e gestibili in locale anche su piattaforme consumer. Sono testuali, facilmente personalizzabili, con prestazioni vicine ai modelli cloud proprietari e focus su privacy e sicurezza.

Click sul link per visualizzare la notizia.

nevets89

06-08-2025, 11:33

sbagliato.... 16GB di Vram, non memoria...

andbad

06-08-2025, 11:52

sbagliato.... 16GB di Vram, non memoria...

Beh, puoi sempre farle girare su CPU.

By(t)e

nevets89

06-08-2025, 11:59

Beh, puoi sempre farle girare su CPU.

By(t)e

già, facendo un conto i core della cpu saranno al massimo 16, quelli della gpu 6000 o più... a sto punto carichiamolo direttamente su HDD meccanico, tanto il collo di bottiglia lo fa la cpu :stordita: .

Saturn

06-08-2025, 12:04

Ryzen 3950x, 128 GB RAM, ARC A770 16 GB.

Potrei tentare..:stordita:

aqua84

06-08-2025, 12:09

Ryzen 3950x, 128 GB RAM, ARC A770 16 GB.

Potrei tentare..:stordita:

Dai dai scaricala ti prego, poi facci qualche foto modificata e postala qui, tipo Jessica Alba NUDA, con la faccia di Rosy Bindi peró

Rubberick

06-08-2025, 12:39

possono essere runnate cpu only anche se più lentamente con 16/32 gb di ram?

nevets89

06-08-2025, 12:41

possono essere runnate cpu only anche se più lentamente con 16/32 gb di ram?

non penso, però ci sono modelli più leggeri che occupano meno di 4GB di vram

andbad

06-08-2025, 13:02

già, facendo un conto i core della cpu saranno al massimo 16, quelli della gpu 6000 o più... a sto punto carichiamolo direttamente su HDD meccanico, tanto il collo di bottiglia lo fa la cpu :stordita: .

Funziona meglio di quanto uno possa immaginare.
Certo, ci vuole calma e sangue freddo ad aspettare, però si fa :D

By(t)e

UtenteHD

06-08-2025, 13:32

Secondo me non e' errato in quanto richiedono mediamente sia 16GB di VRAM che di RAM, senza contare che alcune, anche quando non serve perche' ne hai tanta, richiedono attivo anche il file di swapping o ritornano errore.

Saturn

06-08-2025, 13:40

@aqua84

EH ? :eek:

...lo sai vero che da grandi poteri derivano grandi responsabilità ?

Mi dispiace ma è un secco no la mia risposta ! :asd:

:sofico:

djfix13

07-08-2025, 09:24

con una Nvidia H100 da quasi 40000 euro e 80GB di Vram...qualsiasi CPU desktop sfigurerebbe!

EMAXTREME

12-08-2025, 22:19

sbagliato.... 16GB di Vram, non memoria...

no, questi modelli sono in formato GGUF quindi puoi farli andare contemporaneamente (per modo di dire) su cpu e gpu, la gpu fa offloading dei layer in maniera dinamica quindi il 20b può girare anche su una vga con 8gb di vram purchè il sistema abbia almeno 16gb di ram (ma ne occupa molti meno perchè "swappa" su vram )

Beh, puoi sempre farle girare su CPU.

esatto ma cè un però, con una rtx 3070 fai circa 7 o 8 token al secondo, per darti un messaggio completo di un codice in python ad esempio potrebbe metterci un minuto intero o anche più

già, facendo un conto i core della cpu saranno al massimo 16, quelli della gpu 6000 o più... a sto punto carichiamolo direttamente su HDD meccanico, tanto il collo di bottiglia lo fa la cpu :stordita: .

e non è tutto, se hai una cpu con avx ma non avx2 sei limitato nella scelta del client da usare, con lmstudio di base ti serve per forza una cpu con avx2 ma per chi non le avesse anche facendo offloading su gpu ti tocca usare "jan"

Ryzen 3950x, 128 GB RAM, ARC A770 16 GB.

Potrei tentare..:stordita:

teoricamente i client supportano l'accelerazione tramite vulkan, cuda sarebbe meglio poichè si appoggiano a pytorch ed hai accelerazione diretta con i tensor (non sempre)
Dai dai scaricala ti prego, poi facci qualche foto modificata e postala qui, tipo Jessica Alba NUDA, con la faccia di Rosy Bindi peró

e qui purtroppo casca l'asino, per poter caricare file, fare ricerche web e altro ancora, serve un client con supporto MCP completamente funzionante anche da parte del modello, su jan il supporto dei tool mcp è sperimentale e non si attivano nemmeno, il fetch, quello che ti fa fare le ricerche è semplicissimo ma poi ti tocca configurare l'user agent per fingere di non essere un'agente AI, altrimenti i siti ti bloccano praticamente sempre con il robots.txt

Secondo me non e' errato in quanto richiedono mediamente sia 16GB di VRAM che di RAM, senza contare che alcune, anche quando non serve perche' ne hai tanta, richiedono attivo anche il file di swapping o ritornano errore.

no con gguf di solito è ram+vram sommate

con una Nvidia H100 da quasi 40000 euro e 80GB di Vram...qualsiasi CPU desktop sfigurerebbe!

non ne sono certo al 100% ma poichè il modello non viene caricato completamente su gpu, in teoria si potrebbe dividere il carico su più gpu avendo vram sommata ma ad oggi non penso la modalità sia supportata nativamente a parte qualche build sperimentale
confermo, llama.cpp ad oggi supporta multi-GPU solo con backend CUDA (zluda su ati forse) e in modo statico cioè devi dire in anticipo quanti layer mettere su ogni GPU (ad esempio : --gpu-layers --split-mode e variabili per device index).
ipoteticamente se riesci a procurarti almeno 4 rtx serie 3xxx usate da 16gb di vram ciascuna, anche non particolarmente potenti, con un 32gb di ram dovresti potercela fare addirittura a far girare con mooooolta calma anche il 120b (tanta roba imho)

Dai dai scaricala ti prego, poi facci qualche foto modificata e postala qui, tipo Jessica Alba NUDA, con la faccia di Rosy Bindi peró

quello lo puoi fare easy anche con un laptop, ti scarichi comfyui, fai un giro su civitai, ti scegli un bel checkpoint nsfw in formato .safetensor (modello base di stablediffusion, sceglilo di tipo sdxl se hai almeno 8gb di vram) e ti puoi sbizzarrire quanto vuoi a generare ogni cosa ma occhio che i modelli per questioni di "etica" non hanno nel loro datased celebrità o altro, recentemente cè stato anche un polverone riguardo i lora di personaggi famosi (moduli aggiuntivi per aggiungere roba ai checkpoint) quindi quelli li troverai su altri siti meno famosi percui si, quello che hai descritto (purtroppo) si può fare.

nevets89

13-08-2025, 08:48

no, questi modelli sono in formato GGUF quindi puoi farli andare contemporaneamente (per modo di dire) su cpu e gpu, la gpu fa offloading dei layer in maniera dinamica quindi il 20b può girare anche su una vga con 8gb di vram purchè il sistema abbia almeno 16gb di ram (ma ne occupa molti meno perchè "swappa" su vram )

io però ho letto sulla pagina di github che i requisiti del 20b sono 16 gb di vram, mentre per l'altro 80gb di vram...

EMAXTREME

13-08-2025, 11:03

io però ho letto sulla pagina di github che i requisiti del 20b sono 16 gb di vram, mentre per l'altro 80gb di vram...

per farlo andare ad una velocità "normale" conviene caricarlo tutto in vram ma con 8gb di vram ed una rtx3xxx funziona bene ugualmente, circa sui 6 o 10 token/s che non sarà poi così tanto ma neanche così lento da non poterlo usare