PDA

View Full Version : Microsoft non perde tempo, e porta l'IA cinese DeepSeek R1 su Windows 11 e i PC Copilot+


Redazione di Hardware Upg
30-01-2025, 09:51
Link alla notizia: https://www.hwupgrade.it/news/sistemi-operativi/microsoft-non-perde-tempo-e-porta-l-ia-cinese-deepseek-r1-su-windows-11-e-i-pc-copilot+_135108.html

Microsoft ha annunciato l'arrivo dei modelli DeepSeek R1 ottimizzati per NPU sui PC Windows 11 Copilot+. Gli sviluppatori potranno presto creare app efficienti sfruttando le unità di elaborazione neurale dei dispositivi compatibili, a partire da modelli con SoC Snapdragon X.

Click sul link per visualizzare la notizia.

djfix13
30-01-2025, 10:17
se devo essere sincero tutta questa fretta con AI e Copilot io non la vedo nelle persone; alla gente di comprare pc con NPU non frega nulla (e con prezzi fuori di testa).
l'AI copilot servisse poi a qualcosa: testata già quando era in beta, è utile meno della ricerca base di google.
forse sui server avrebbe un senso pensata ed ottimizzata per ricerca, ordinamento, servizi insomma e non su pc di privati con ARM

TheDarkAngel
30-01-2025, 10:19
se devo essere sincero tutta questa fretta con AI e Copilot io non la vedo nelle persone; alla gente di comprare pc con NPU non frega nulla (e con prezzi fuori di testa).
l'AI copilot servisse poi a qualcosa: testata già quando era in beta, è utile meno della ricerca base di google.
forse sui server avrebbe un senso pensata ed ottimizzata per ricerca, ordinamento, servizi insomma e non su pc di privati con ARM

E' tutto basato su un assunto di praticamente ogni multinazionale usa, il primo che arriva si tiene la posizione dominante per tutta la vita di una tecnologia.
Se parti da questo assunto, capisci perchè è una corsa costante con tentativi anche raffazzonati a prescindere da quanto sia (ancora) apprezzato dal pubblico.

s12a
30-01-2025, 10:26
Incredibile come DeepSeek R1 abbia acceso l'interesse da parte delle aziende. È stato possibile usare LLM localmente per almeno 2 anni e nell'ultimo fra quantizzazioni e modelli più piccoli sono pure usciti modelli adatti per essere usati localmente su smartphone (anche da Microsoft), ma R1 ha sconvolto tutto ed ora tutti ne parlano e vogliono usarlo in locale.

Pensino a darci memoria veloce ed in abbondanza invece che NPU che non servono praticamente a nulla, però.

[...] tempo di risposta per il primo token di soli 130 millisecondi e una velocità di elaborazione di 16 token al secondo per prompt brevi.

Quando le risposte sono da 1000-1200 token od oltre perché DeepSeek R1 perde tempo a "pensare", 16 token/s non bastano. Più banda, cribbio.

randorama
30-01-2025, 11:20
Incredibile come DeepSeek R1 abbia acceso l'interesse da parte delle aziende. È stato possibile usare LLM localmente per almeno 2 anni e nell'ultimo fra quantizzazioni e modelli più piccoli sono pure usciti modelli adatti per essere usati localmente su smartphone (anche da Microsoft), ma R1 ha sconvolto tutto ed ora tutti ne parlano e vogliono usarlo in locale.

Pensino a darci memoria veloce ed in abbondanza invece che NPU che non servono praticamente a nulla, però.



Quando le risposte sono da 1000-1200 token od oltre perché DeepSeek R1 perde tempo a "pensare", 16 token/s non bastano. Più banda, cribbio.

l'ho solo provata online: ma davvero "sto coso" funziona in modo accettabile anche offline ?

GianMi
30-01-2025, 11:27
Ricordo che su smartphone c'è l'app PocketPal che sul mio smartphone di 6 anni fa fa girare benissimo DeepSeek-R1-Distill-Qwen-1.5B, la versione quantizzata a 8 bit. La velocità è 6,58 token/sec. Le capacità di questo modello in particolare non sono esaltanti, ma è comunque interessante "giocarci"

s12a
30-01-2025, 11:41
l'ho solo provata online: ma davvero "sto coso" funziona in modo accettabile anche offline ?

Dipende da cosa intendi per accettabile. Probabilmente sarà in grado di dialogare ed effettuare ragionamenti semplici, ma non avrà molta conoscenza da cui attingere.

In generale, a patto di usarla a precisione sufficiente, forse la versione da 70 miliardi di parametri basata su Llama si avvicina un po' al modello online da 671B parametri; più si scende con la dimensione del modello e con la precisione, meno esso sarà intelligente, capace ed informato. Non cercherei di usare un modello da 1.5 miliardi di parametri per nulla di serio, né mi aspetterei prestazioni minimamente comparabili al modello online, personalmente.

Io spero solo che l'entusiasmo incentivi i produttori di hardware a fornire soluzioni accessibili per l'uso di modelli di dimensioni più grandi a velocità decenti. Per avere un riferimento, con la mia RTX3090 24GB posso usare la versione da 32 miliardi di parametri con precisione a 4 bit a circa 25 token/s, ma non posso salire più di tanto con la dimensione del "contesto" (semplificando, la memoria a breve termine che il modello ha a disposizione per il dialogo) perché non basta la VRAM, ed attingendo dalla RAM di sistema (dalla banda di circa 50 GB/s nel mio caso) la velocità crolla.

randorama
30-01-2025, 12:36
Dipende da cosa intendi per accettabile. Probabilmente sarà in grado di dialogare ed effettuare ragionamenti semplici, ma non avrà molta conoscenza da cui attingere.

In generale, a patto di usarla a precisione sufficiente, forse la versione da 70 miliardi di parametri basata su Llama si avvicina un po' al modello online da 671B parametri; più si scende con la dimensione del modello e con la precisione, meno esso sarà intelligente, capace ed informato. Non cercherei di usare un modello da 1.5 miliardi di parametri per nulla di serio, né mi aspetterei prestazioni minimamente comparabili al modello online, personalmente.

Io spero solo che l'entusiasmo incentivi i produttori di hardware a fornire soluzioni accessibili per l'uso di modelli di dimensioni più grandi a velocità decenti. Per avere un riferimento, con la mia RTX3090 24GB posso usare la versione da 32 miliardi di parametri con precisione a 4 bit a circa 25 token/s, ma non posso salire più di tanto con la dimensione del "contesto" (semplificando, la memoria a breve termine che il modello ha a disposizione per il dialogo) perché non basta la VRAM, ed attingendo dalla RAM di sistema (dalla banda di circa 50 GB/s nel mio caso) la velocità crolla.

tutto quello che vuoi, ma l'idea di avere un sistema ragionevolmente "intelligente" e di, come dire?, cultura media offline è... intrigante.