Puoi fare girare in locale un modello LLM usando i vari framework come LM Studio anche con una scheda video 8GB come una 1070, a condizione o trovi modello che sta tutto nella VRAM (es modelli 3 Bilion parametri, oppure 8 Bilion quantizzati q4) oppure usi formati come GGUF che lo splittano tra VRAM e RAM, ma con tempi di risposta molto maggiori.
Non avendola provata da quello che capisco la piattaforma Ryzen AI offre alla GPU e forse NPU accesso condiviso alla RAM, con un miglioramento delle performance rispetto all'uso di memorie separate
|