Hai almeno 16GB di RAM? Ecco il nuovo modello di OpenAI che puoi installare subito

Redazione di Hardware Upg · 06-08-2025, 11:01

Link alla notizia: https://www.hwupgrade.it/news/scienz...to_141974.html

OpenAI lancia due modelli AI open-weight, gpt-oss-120b e gpt-oss-20b, scaricabili e gestibili in locale anche su piattaforme consumer. Sono testuali, facilmente personalizzabili, con prestazioni vicine ai modelli cloud proprietari e focus su privacy e sicurezza.

Click sul link per visualizzare la notizia.

nevets89 · 06-08-2025, 11:33

sbagliato.... 16GB di Vram, non memoria...

andbad · 06-08-2025, 11:52

Quote:

Originariamente inviato da nevets89

sbagliato.... 16GB di Vram, non memoria...

Beh, puoi sempre farle girare su CPU.

By(t)e

nevets89 · 06-08-2025, 11:59

Quote:

Originariamente inviato da andbad

Beh, puoi sempre farle girare su CPU.

By(t)e

già, facendo un conto i core della cpu saranno al massimo 16, quelli della gpu 6000 o più... a sto punto carichiamolo direttamente su HDD meccanico, tanto il collo di bottiglia lo fa la cpu

.

Saturn · 06-08-2025, 12:04

Ryzen 3950x, 128 GB RAM, ARC A770 16 GB.

Potrei tentare..

aqua84 · 06-08-2025, 12:09

Quote:

Originariamente inviato da Saturn

Ryzen 3950x, 128 GB RAM, ARC A770 16 GB.

Potrei tentare..

Dai dai scaricala ti prego, poi facci qualche foto modificata e postala qui, tipo Jessica Alba NUDA, con la faccia di Rosy Bindi peró

Rubberick · 06-08-2025, 12:39

possono essere runnate cpu only anche se più lentamente con 16/32 gb di ram?

nevets89 · 06-08-2025, 12:41

Quote:

Originariamente inviato da Rubberick

possono essere runnate cpu only anche se più lentamente con 16/32 gb di ram?

non penso, però ci sono modelli più leggeri che occupano meno di 4GB di vram

andbad · 06-08-2025, 13:02

Quote:

Originariamente inviato da nevets89

già, facendo un conto i core della cpu saranno al massimo 16, quelli della gpu 6000 o più... a sto punto carichiamolo direttamente su HDD meccanico, tanto il collo di bottiglia lo fa la cpu

.

Funziona meglio di quanto uno possa immaginare.
Certo, ci vuole calma e sangue freddo ad aspettare, però si fa

By(t)e

UtenteHD · 06-08-2025, 13:32

Secondo me non e' errato in quanto richiedono mediamente sia 16GB di VRAM che di RAM, senza contare che alcune, anche quando non serve perche' ne hai tanta, richiedono attivo anche il file di swapping o ritornano errore.

Saturn · 06-08-2025, 13:40

@aqua84

EH ?

...lo sai vero che da grandi poteri derivano grandi responsabilità ?

Mi dispiace ma è un secco no la mia risposta !

djfix13 · 07-08-2025, 09:24

con una Nvidia H100 da quasi 40000 euro e 80GB di Vram...qualsiasi CPU desktop sfigurerebbe!

EMAXTREME · 12-08-2025, 22:19

Quote:

Originariamente inviato da nevets89

sbagliato.... 16GB di Vram, non memoria...

no, questi modelli sono in formato GGUF quindi puoi farli andare contemporaneamente (per modo di dire) su cpu e gpu, la gpu fa offloading dei layer in maniera dinamica quindi il 20b può girare anche su una vga con 8gb di vram purchè il sistema abbia almeno 16gb di ram (ma ne occupa molti meno perchè "swappa" su vram )

Quote:

Originariamente inviato da andbad

Beh, puoi sempre farle girare su CPU.

esatto ma cè un però, con una rtx 3070 fai circa 7 o 8 token al secondo, per darti un messaggio completo di un codice in python ad esempio potrebbe metterci un minuto intero o anche più

Quote:

Originariamente inviato da nevets89

già, facendo un conto i core della cpu saranno al massimo 16, quelli della gpu 6000 o più... a sto punto carichiamolo direttamente su HDD meccanico, tanto il collo di bottiglia lo fa la cpu

.

e non è tutto, se hai una cpu con avx ma non avx2 sei limitato nella scelta del client da usare, con lmstudio di base ti serve per forza una cpu con avx2 ma per chi non le avesse anche facendo offloading su gpu ti tocca usare "jan"

Quote:

Originariamente inviato da Saturn

Ryzen 3950x, 128 GB RAM, ARC A770 16 GB.

Potrei tentare..

teoricamente i client supportano l'accelerazione tramite vulkan, cuda sarebbe meglio poichè si appoggiano a pytorch ed hai accelerazione diretta con i tensor (non sempre)

Quote:

Originariamente inviato da aqua84

Dai dai scaricala ti prego, poi facci qualche foto modificata e postala qui, tipo Jessica Alba NUDA, con la faccia di Rosy Bindi peró

e qui purtroppo casca l'asino, per poter caricare file, fare ricerche web e altro ancora, serve un client con supporto MCP completamente funzionante anche da parte del modello, su jan il supporto dei tool mcp è sperimentale e non si attivano nemmeno, il fetch, quello che ti fa fare le ricerche è semplicissimo ma poi ti tocca configurare l'user agent per fingere di non essere un'agente AI, altrimenti i siti ti bloccano praticamente sempre con il robots.txt

Quote:

Originariamente inviato da UtenteHD

Secondo me non e' errato in quanto richiedono mediamente sia 16GB di VRAM che di RAM, senza contare che alcune, anche quando non serve perche' ne hai tanta, richiedono attivo anche il file di swapping o ritornano errore.

no con gguf di solito è ram+vram sommate

Quote:

Originariamente inviato da djfix13

con una Nvidia H100 da quasi 40000 euro e 80GB di Vram...qualsiasi CPU desktop sfigurerebbe!

non ne sono certo al 100% ma poichè il modello non viene caricato completamente su gpu, in teoria si potrebbe dividere il carico su più gpu avendo vram sommata ma ad oggi non penso la modalità sia supportata nativamente a parte qualche build sperimentale
confermo, llama.cpp ad oggi supporta multi-GPU solo con backend CUDA (zluda su ati forse) e in modo statico cioè devi dire in anticipo quanti layer mettere su ogni GPU (ad esempio : --gpu-layers --split-mode e variabili per device index).
ipoteticamente se riesci a procurarti almeno 4 rtx serie 3xxx usate da 16gb di vram ciascuna, anche non particolarmente potenti, con un 32gb di ram dovresti potercela fare addirittura a far girare con mooooolta calma anche il 120b (tanta roba imho)

Quote:

Originariamente inviato da aqua84

Dai dai scaricala ti prego, poi facci qualche foto modificata e postala qui, tipo Jessica Alba NUDA, con la faccia di Rosy Bindi peró

quello lo puoi fare easy anche con un laptop, ti scarichi comfyui, fai un giro su civitai, ti scegli un bel checkpoint nsfw in formato .safetensor (modello base di stablediffusion, sceglilo di tipo sdxl se hai almeno 8gb di vram) e ti puoi sbizzarrire quanto vuoi a generare ogni cosa ma occhio che i modelli per questioni di "etica" non hanno nel loro datased celebrità o altro, recentemente cè stato anche un polverone riguardo i lora di personaggi famosi (moduli aggiuntivi per aggiungere roba ai checkpoint) quindi quelli li troverai su altri siti meno famosi percui si, quello che hai descritto (purtroppo) si può fare.

nevets89 · 13-08-2025, 08:48

Quote:

Originariamente inviato da EMAXTREME

no, questi modelli sono in formato GGUF quindi puoi farli andare contemporaneamente (per modo di dire) su cpu e gpu, la gpu fa offloading dei layer in maniera dinamica quindi il 20b può girare anche su una vga con 8gb di vram purchè il sistema abbia almeno 16gb di ram (ma ne occupa molti meno perchè "swappa" su vram )

io però ho letto sulla pagina di github che i requisiti del 20b sono 16 gb di vram, mentre per l'altro 80gb di vram...

EMAXTREME · 13-08-2025, 11:03

Quote:

Originariamente inviato da nevets89

io però ho letto sulla pagina di github che i requisiti del 20b sono 16 gb di vram, mentre per l'altro 80gb di vram...

per farlo andare ad una velocità "normale" conviene caricarlo tutto in vram ma con 8gb di vram ed una rtx3xxx funziona bene ugualmente, circa sui 6 o 10 token/s che non sarà poi così tanto ma neanche così lento da non poterlo usare

06-08-2025, 11:33	#2
nevets89 Senior Member Iscritto dal: Sep 2009 Messaggi: 4461	sbagliato.... 16GB di Vram, non memoria... __________________ CASE: PHANTEKS P500A\| MOBO: ROG STRIX Z690-F GAMING WIFI\| CPU: i9-12900K\| DISSIPATORE: LIQUID FREEZER II 420mm\| RAM: TEAMGROUP XTREEM 32GB @6600MHz CL34\| STORAGE: vari Nvme\| VGA: ZOTAC RTX 3070 Ti\| ALI: CORSAIR RM1000X\| S.O: WINDOWS 11 PRO X64

06-08-2025, 12:04	#5
Saturn Senior Member Iscritto dal: Dec 2001 Città: Planet Saturn (♄) Messaggi: 17715	Ryzen 3950x, 128 GB RAM, ARC A770 16 GB. Potrei tentare.. __________________ *⚜ Death plays more important role in the universe than life, for everyone dies but not everyone lives...(♄)* ⚜**

06-08-2025, 12:39	#7
Rubberick Senior Member Iscritto dal: Nov 2002 Messaggi: 11745	possono essere runnate cpu only anche se più lentamente con 16/32 gb di ram? __________________ Ho fatto affari con: troppi per elencarli Vendo: NAS PRO QNAP 4 BAIE 419P+ CON LCD

06-08-2025, 13:40	#11
Saturn Senior Member Iscritto dal: Dec 2001 Città: Planet Saturn (♄) Messaggi: 17715	@aqua84 EH ? ...lo sai vero che da grandi poteri derivano grandi responsabilità ? Mi dispiace ma è un secco no la mia risposta ! __________________ *⚜ Death plays more important role in the universe than life, for everyone dies but not everyone lives...(♄)* ⚜**

06-08-2025, 11:01	#1
Redazione di Hardware Upg www.hwupgrade.it Iscritto dal: Jul 2001 Messaggi: 75173	Link alla notizia: https://www.hwupgrade.it/news/scienz...to_141974.html OpenAI lancia due modelli AI open-weight, gpt-oss-120b e gpt-oss-20b, scaricabili e gestibili in locale anche su piattaforme consumer. Sono testuali, facilmente personalizzabili, con prestazioni vicine ai modelli cloud proprietari e focus su privacy e sicurezza. Click sul link per visualizzare la notizia.

06-08-2025, 13:32	#10
UtenteHD Senior Member Iscritto dal: Sep 2022 Messaggi: 1744	Secondo me non e' errato in quanto richiedono mediamente sia 16GB di VRAM che di RAM, senza contare che alcune, anche quando non serve perche' ne hai tanta, richiedono attivo anche il file di swapping o ritornano errore.

07-08-2025, 09:24	#12
djfix13 Senior Member Iscritto dal: Oct 2009 Messaggi: 3652	con una Nvidia H100 da quasi 40000 euro e 80GB di Vram...qualsiasi CPU desktop sfigurerebbe!

Strumenti
Mostra una versione stampabile Invia questa pagina per email