Windows 11, l'IA nel cuore: permetterà tra ricercare le parole contenute in file audio e video

L'ultima build di sviluppo della prossima versione di Windows 11 contiene riferimenti alla cosiddetta "ricerca multimediale intelligente", che dovrebbe consentirci di cercare parole e frasi specifiche all'interno di file audio e video presenti nel nostro PC.
di Manolo De Agostini pubblicata il 02 Settembre 2024, alle 09:51 nel canale Sistemi OperativiIntelligenza ArtificialeWindows 11
Una nuova funzionalità di ricerca intelligente all'interno dei file multimediali potrebbe arrivare su Windows 11 in futuro. La nuova tecnologia permetterà di ricercare parole e frasi nei file audio e nei video presenti sul PC grazie a un modello AI locale. Alcuni riferimenti sono stati rintracciati nella build 27695 di Windows 11 pubblicata sul canale Canary di Windows Insider.
La funzionalità trascrive tutti i file audio e i video presenti su un PC Windows e rende ricercabili le parole e le frasi pronunciate tramite Windows. L'utilità di una soluzione di questo tipo è ampia: per esempio, pensate a una riunione audio / video registrata da cui dovete ottenere informazioni o trascriverne il contenuto.
Attualmente la funzionalità non è ancora disponibile in nessuna build, ma i riferimenti fanno pensare che presto sarà resa disponibile ai tester. A scovare i rimandi alla novità stato @XenoPanther su X, il quale ha pubblicato anche la descrizione: "Cerca in base alle parole pronunciate nei tuoi file video o audio indicizzati. Cliccando su Accetto, acconsenti alla scansione dei file multimediali sul tuo dispositivo. Se necessario, il modello richiesto verrà scaricato e installato in background".
"Una volta impostato il modello AI, è necessario trascrivere i file multimediali e indicizzarli prima di abilitare la ricerca basata sui contenuti. Ti informeremo una volta completato il processo".
Questa ricerca intelligente appare in qualche modo correlata a un'altra funzionalità ancora non approdata su Windows 11, l'ormai famosa Recall, la controversa soluzione che tornerà nelle build di Windows Insider a ottobre. Recall acquisisce schermate di ogni finestra aperta sul PC dell'utente ogni due secondi, per poi analizzarle tramite un modello di intelligenza artificiale per estrarre informazioni e aggiungerle a un database locale, in modo da consentire di ricercarle successivamente tramite query in linguaggio naturale.
Come noto, Recall è stata rinviata per preoccupazioni sulla privacy e la sicurezza. Recall richiede un PC Copilot+ con una NPU di almeno 45 TOPS e uno spazio di archiviazione compreso tra 25 GB e 150 GB. Non è ancora noto se la ricerca intelligente di contenuti multimediali avrà gli stessi requisiti o sarà disponibile anche su PC con NPU meno potenti.
10 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoCosì come sarebbe dovuto essere Copilot+ sin dal principio...
Poi dopo mi sta bene tutto, il sistema operativo è il loro. Ben vengano le "innovazioni", ben venga l' "IA" ...
[I][SIZE="1"][COLOR="Silver"]...ben venga LTSC[/COLOR][/SIZE][/I]
Perchè fa figo ? (ipotizzo, eh)
perche questo programma sfrutta lagoritmi di ai per funzionare,in base al tuo ragionamento che rispetto, qualsiasi funzione ai di oggi o del futuro sarebbe un sempice programma cosa che non è vera perche si basa e si basera su algoritmi di nuova generazione
prendi per esempio il dlss e il fsr sono tutti e 2 dei programmi ma uno sfrutta algortimi di ai è il risutato è moltodiverso dall'altro che sfrutta algoritmi standard
ormai la mettono pure lì
Già ci sono gli stronzi che ascoltano le conversazioni attivando il mic del cell per raccogliere informazioni, adesso ci mettiamo le IA nel pc che analizzano tutti i contenuti.. va bene tutto ma la privacy è proprio optional oltre misura.
Così come sarebbe dovuto essere Copilot+ sin dal principio...
Poi dopo mi sta bene tutto, il sistema operativo è il loro. Ben vengano le "innovazioni", ben venga l' "IA" ...
[I][SIZE="1"][COLOR="Silver"]...ben venga LTSC[/COLOR][/SIZE][/I]
Sa soluzione grazie al cielo sono i numerosi tool "BLOCCA TUTTO" creati ad hoc
quando ancora non si parlava di intelligenza artificiale, anni e anni e anni fa hanno creato integrazioni a comando vocale che fanno ne più ne meno quello che farebbe questo, ma in reverse
cioè una volta che un sistema informatico capisce la mia parola "ciao", da questo "ciao" possono scaturire azioni o ricerche dello stesso "ciao" in qualche posto (vedi es alexa e l'equivalente google)
da non so quanti anni in auto si preme il pulsantino comandi vocali e si dice "chiama mamma", l'interfaccia cerca "mamma" scartando la keyword "chiama" tra i contatti e parte la chiamata a "mamma"
se semplificando, questo non farà altro che trascrivere in testo partendo da un mp3 o un mp4 che siano, questo non farà altro che cercare mamma in un elenco di parole precedentemente indicizzate
ora mi chiedo: dov'è l'intelligenza artificiale in tutto ciò? perchè questo non è un algoritmo di IA ma ripeto un programma, semplificando il più possibile
se così non fosse, mi spieghi quale è la parte IA in questo processo che mi sono perso?
cioè una volta che un sistema informatico capisce la mia parola "ciao", da questo "ciao" possono scaturire azioni o ricerche dello stesso "ciao" in qualche posto (vedi es alexa e l'equivalente google)
da non so quanti anni in auto si preme il pulsantino comandi vocali e si dice "chiama mamma", l'interfaccia cerca "mamma" scartando la keyword "chiama" tra i contatti e parte la chiamata a "mamma"
se semplificando, questo non farà altro che trascrivere in testo partendo da un mp3 o un mp4 che siano, questo non farà altro che cercare mamma in un elenco di parole precedentemente indicizzate
ora mi chiedo: dov'è l'intelligenza artificiale in tutto ciò? perchè questo non è un algoritmo di IA ma ripeto un programma, semplificando il più possibile
se così non fosse, mi spieghi quale è la parte IA in questo processo che mi sono perso?
E' proprio il funzionamento che è diverso, ma non chiedermi i dettagli...
Quelle "chiamate vocali" erano in grado a malapena di capire due parole in fila, e dovevi scandirle bene, altrimenti sentivi un "non ho capito"...
Gli assistenti vocali, i trascrittori o i traduttori di oggi, capiscono quello che dici anche se ti mangi le parole, anche se c'è del rumore di sottofondo, e ti mettono anche la punteggiatura...
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".