Microsoft non perde tempo, e porta l'IA cinese DeepSeek R1 su Windows 11 e i PC Copilot+

Microsoft ha annunciato l'arrivo dei modelli DeepSeek R1 ottimizzati per NPU sui PC Windows 11 Copilot+. Gli sviluppatori potranno presto creare app efficienti sfruttando le unità di elaborazione neurale dei dispositivi compatibili, a partire da modelli con SoC Snapdragon X.
di Nino Grasso pubblicata il 30 Gennaio 2025, alle 09:51 nel canale Sistemi OperativiMicrosoftWindows 11
Microsoft ha annunciato che porterà le versioni ottimizzate dei modelli DeepSeek R1 direttamente sui dispositivi dotati di unità di elaborazione neurale (NPU). La prima versione ad essere resa disponibile sarà DeepSeek-R1-Distill-Qwen-1.5B, seguita in futuro dalle varianti più potenti da 7B e 14B, modelli che saranno accessibili tramite AI Toolkit e che quindi consentiranno agli sviluppatori di creare applicazioni basate sull'IA funzionanti in modo efficiente direttamente sul dispositivo dell'utente.
Per garantire prestazioni ottimali su hardware con NPU, Microsoft ha implementato diverse tecniche di ottimizzazione avanzate. Tra queste, spicca l'adozione di un design specifico che permette tempi di risposta rapidissimi e il supporto per contesti molto lunghi in relazione ai limiti hardware dei dispositivi. Inoltre, viene impiegato lo schema di quantizzazione QuaRot a 4 bit per sfruttare appieno l'elaborazione a bassa precisione. Grazie a queste ottimizzazioni, il modello DeepSeek R1 da 1.5B è in grado di garantire un tempo di risposta per il primo token di soli 130 millisecondi e una velocità di elaborazione di 16 token al secondo per prompt brevi.
Microsoft velocissima: già al lavoro per portare DeepSeek R1 in locale sui PC Copilot+
L'integrazione dei modelli DeepSeek R1 sui PC Copilot+ rappresenta un passo importante verso la democratizzazione dell'intelligenza artificiale avanzata. Gli utenti potranno infatti interagire anche con il nuovo modello in modo completamente locale, senza la necessità di una connessione internet costante o di inviare dati sensibili a server remoti. Per gli sviluppatori, Microsoft ha reso il processo di sperimentazione e integrazione dei modelli DeepSeek R1 estremamente semplice. Basterà scaricare l'estensione AI Toolkit per Visual Studio Code e accedere al catalogo di modelli ottimizzati, estratti direttamente da Azure AI Foundry. Una volta scaricato localmente, il modello può essere facilmente testato utilizzando il Playground integrato.
La rapidissima mossa di Microsoft si inserisce all'interno della sempre più tumultuosa competizione nel campo dell'intelligenza artificiale: l'azienda si è mossa con una velocità esemplare per supportare DeepSeek R1, nonostante le controversie che circondano questo modello: recentemente, OpenAI ha accusato DeepSeek di aver utilizzato codice proprietario per lo sviluppo del proprio modello AI, rappresentando per la tecnologia cinese un enorme vantaggio competitivo. L'azienda afferma, infatti, che il training del modello R1 è costato meno di 10 milioni di dollari, in netto contrasto con le cifre investite dalle aziende statunitensi.
Nonostante le polemiche, Microsoft sembra determinata a portare avanti la sua strategia di integrazione dell'AI in locale nei dispositivi Windows. L'azienda sta anche rendendo disponibili i modelli DeepSeek R1 nel cloud tramite Azure AI Foundry, offrendo alle aziende una piattaforma affidabile e scalabile per integrare l'IA nei loro processi, nel rispetto degli standard di sicurezza e responsabilità. Sarà interessante osservare come gli sviluppatori sfrutteranno queste nuove capacità e quali innovative applicazioni emergeranno dall'ecosistema Windows.
7 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infonessun bisogno
se devo essere sincero tutta questa fretta con AI e Copilot io non la vedo nelle persone; alla gente di comprare pc con NPU non frega nulla (e con prezzi fuori di testa).l'AI copilot servisse poi a qualcosa: testata già quando era in beta, è utile meno della ricerca base di google.
forse sui server avrebbe un senso pensata ed ottimizzata per ricerca, ordinamento, servizi insomma e non su pc di privati con ARM
l'AI copilot servisse poi a qualcosa: testata già quando era in beta, è utile meno della ricerca base di google.
forse sui server avrebbe un senso pensata ed ottimizzata per ricerca, ordinamento, servizi insomma e non su pc di privati con ARM
E' tutto basato su un assunto di praticamente ogni multinazionale usa, il primo che arriva si tiene la posizione dominante per tutta la vita di una tecnologia.
Se parti da questo assunto, capisci perchè è una corsa costante con tentativi anche raffazzonati a prescindere da quanto sia (ancora) apprezzato dal pubblico.
Pensino a darci memoria veloce ed in abbondanza invece che NPU che non servono praticamente a nulla, però.
Quando le risposte sono da 1000-1200 token od oltre perché DeepSeek R1 perde tempo a "pensare", 16 token/s non bastano. Più banda, cribbio.
Pensino a darci memoria veloce ed in abbondanza invece che NPU che non servono praticamente a nulla, però.
Quando le risposte sono da 1000-1200 token od oltre perché DeepSeek R1 perde tempo a "pensare", 16 token/s non bastano. Più banda, cribbio.
l'ho solo provata online: ma davvero "sto coso" funziona in modo accettabile anche offline ?
Dipende da cosa intendi per accettabile. Probabilmente sarà in grado di dialogare ed effettuare ragionamenti semplici, ma non avrà molta conoscenza da cui attingere.
In generale, a patto di usarla a precisione sufficiente, forse la versione da 70 miliardi di parametri basata su Llama si avvicina un po' al modello online da 671B parametri; più si scende con la dimensione del modello e con la precisione, meno esso sarà intelligente, capace ed informato. Non cercherei di usare un modello da 1.5 miliardi di parametri per nulla di serio, né mi aspetterei prestazioni minimamente comparabili al modello online, personalmente.
Io spero solo che l'entusiasmo incentivi i produttori di hardware a fornire soluzioni accessibili per l'uso di modelli di dimensioni più grandi a velocità decenti. Per avere un riferimento, con la mia RTX3090 24GB posso usare la versione da 32 miliardi di parametri con precisione a 4 bit a circa 25 token/s, ma non posso salire più di tanto con la dimensione del "contesto" (semplificando, la memoria a breve termine che il modello ha a disposizione per il dialogo) perché non basta la VRAM, ed attingendo dalla RAM di sistema (dalla banda di circa 50 GB/s nel mio caso) la velocità crolla.
In generale, a patto di usarla a precisione sufficiente, forse la versione da 70 miliardi di parametri basata su Llama si avvicina un po' al modello online da 671B parametri; più si scende con la dimensione del modello e con la precisione, meno esso sarà intelligente, capace ed informato. Non cercherei di usare un modello da 1.5 miliardi di parametri per nulla di serio, né mi aspetterei prestazioni minimamente comparabili al modello online, personalmente.
Io spero solo che l'entusiasmo incentivi i produttori di hardware a fornire soluzioni accessibili per l'uso di modelli di dimensioni più grandi a velocità decenti. Per avere un riferimento, con la mia RTX3090 24GB posso usare la versione da 32 miliardi di parametri con precisione a 4 bit a circa 25 token/s, ma non posso salire più di tanto con la dimensione del "contesto" (semplificando, la memoria a breve termine che il modello ha a disposizione per il dialogo) perché non basta la VRAM, ed attingendo dalla RAM di sistema (dalla banda di circa 50 GB/s nel mio caso) la velocità crolla.
tutto quello che vuoi, ma l'idea di avere un sistema ragionevolmente "intelligente" e di, come dire?, cultura media offline è... intrigante.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".