L'intelligenza Artificiale di Apple riconoscerà gli elementi sulla Home dell'iPhone

L'intelligenza Artificiale di Apple riconoscerà gli elementi sulla Home dell'iPhone

L'AI di Apple riconoscerà gli elementi nella Home di iPhone. È un'indiscrezione ma sembra che Apple possa introdurre la sua Intelligenza Artificiale con un nuovo modello di linguaggio multimodale in grado di comprendere e interagire con gli elementi dell'interfaccia utente sugli schermi dei dispositivi.

di pubblicata il , alle 09:52 nel canale Apple
iOSiPhoneApple
 

In una mossa che potrebbe rivoluzionare ulteriormente l'interazione uomo-macchina, i ricercatori di Apple hanno svelato un nuovo modello di linguaggio multimodale in grado di comprendere e interagire con gli elementi dell'interfaccia utente sugli schermi dei dispositivi. Stando a un documento di ricerca pubblicato su arXiv, il modello linguistico denominato "Ferret-UI" è il frutto di una collaborazione tra i ricercatori di Apple e dell'Università di Columbia.

Come potrebbe funzionare Ferret-UI su iPhone?

Ferret-UI si distingue dai tradizionali Language Model (LLM) poiché, oltre alla comprensione del linguaggio naturale, è in grado di percepire e interpretare gli elementi visivi presenti sullo schermo, combinando le capacità di computer vision, riconoscimento vocale e natural language processing in un unico modello.

Questa caratteristica multimodale consente a Ferret-UI di superare in modo significativo le prestazioni di modelli come GPT-4 di OpenAI in compiti elementari quali il riconoscimento delle icone, l'OCR, la classificazione dei widget e l'individuazione di elementi grafici su piattaforme come iOS e Android. "Riconoscere automaticamente i vari elementi sullo schermo è sempre stato un compito complesso per le AI, ma Ferret sembra essere in grado di farlo in modo molto preciso, aprendo le porte a nuove e interessanti applicazioni", spiega un ricercatore di Apple.

L'obiettivo di Apple è quello di rendere Ferret-UI compatibile con i propri dispositivi, in modo da poter integrare tali capacità di comprensione multimodale all'interno di Siri, l'assistente vocale della Mela. Ciò consentirebbe agli utenti di eseguire compiti più complessi rispetto al semplice rispondere a domande, permettendo loro di interagire con l'interfaccia del dispositivo attraverso comandi vocali.

"Immaginate di poter dire a Siri 'Apri la fotocamera e scatta una foto', o 'Riproduci il brano che sto ascoltando sull'altoparlante della cucina'", continua il ricercatore. "Grazie alla capacità di Ferret-UI di comprendere gli elementi visivi sullo schermo, sarà possibile eseguire azioni molto più sofisticate rispetto a quanto possibile oggi".

È probabile che le funzionalità basate su Ferret-UI vengano integrate in iOS 18 e nei prossimi iPhone, consentendo agli utenti di sfruttare le capacità di computer vision e linguaggio naturale combinate in un unico sistema intelligente. Un esempio di ciò che sarà possibile fare è stato mostrato in un altro documento di ricerca di Apple, in cui un modello di intelligenza artificiale generativa denominato MM1 è stato in grado di analizzare due fotografie - un menu e delle bottiglie di birra su un tavolo - e rispondere correttamente alla domanda sul conto da pagare, dimostrando una sorprendente capacità di comprendere e interpretare in modo dettagliato i contenuti visivi.

"Siamo solo all'inizio di quello che sarà possibile fare con questi modelli linguistici multimodali", conclude il ricercatore. "Immaginate di poter interagire con il vostro iPhone semplicemente dicendo 'Mostrami le foto scattate la scorsa settimana' o 'Apri l'app di navigazione e trovami la strada per il ristorante più vicino'. Tutto questo e molto altro sarà presto possibile grazie ai progressi nell'AI multimodale come Ferret-UI".

8 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
TorettoMilano10 Aprile 2024, 09:55 #1
vedremo, per ora sono solo belle parole
djfix1310 Aprile 2024, 09:57 #2
davvero ci dobbiamo rincoglionire al punto di non sapere come "aprire le foto della galleria scattate la scorsa settimana"? tanto vale non fare alcuna interfaccia: parlo tutto con la AI che mi sente ovunque, perchè è integrato un microfono nell'auricolare, e usa qualunque schermo presente nelle vicinanze per mostrarmi foto, la strada da fare ecc
TorettoMilano10 Aprile 2024, 10:04 #3
Originariamente inviato da: djfix13
davvero ci dobbiamo rincoglionire al punto di non sapere come "aprire le foto della galleria scattate la scorsa settimana"? tanto vale non fare alcuna interfaccia: parlo tutto con la AI che mi sente ovunque, perchè è integrato un microfono nell'auricolare, e usa qualunque schermo presente nelle vicinanze per mostrarmi foto, la strada da fare ecc


beh il rabbit R1 a quanto ho capito dovrebbe fare quanto detto da te, ad ogni modo diverse operazioni mi risulta già le facciano i vari assistenti vocali tra cui siri stessa
dwfgerw10 Aprile 2024, 10:09 #4
Originariamente inviato da: djfix13
davvero ci dobbiamo rincoglionire al punto di non sapere come "aprire le foto della galleria scattate la scorsa settimana"? tanto vale non fare alcuna interfaccia: parlo tutto con la AI che mi sente ovunque, perchè è integrato un microfono nell'auricolare, e usa qualunque schermo presente nelle vicinanze per mostrarmi foto, la strada da fare ecc


e perchè no aggiungerei ?
Hiei360010 Aprile 2024, 10:10 #5
Mi sembra utile per anziani che non sono in grado di usare uno smartphone "normale" avere un assistente vocale in grado di fare virtualmente tutto quello che potrebbe fare una persona(in pratica un Siri con gli steroidi).

Anche io che non sono ancora vecchio a volte mi serve ricordare dove é quella caspita di opzione seppellita da qualche parte nelle impostazioni
rolling7110 Aprile 2024, 10:12 #6
Ormai stanno alla frutta, lento declino.
TorettoMilano10 Aprile 2024, 10:19 #7
Originariamente inviato da: rolling71
Ormai stanno alla frutta, lento declino.


mi fanno sorridere questi messaggi, non sei l'unico, di ipotetico declino di apple. dopo 13 anni è riuscita a spodestare per un trimestre samsung dal mercato smartphone e nel settore pc/portatili continua inesorabilmente a rosicchiare share con prodotti in toto fatti in casa non avendo nemmeno concorrenza lato "arm".
se questo è "un lento declino" mi auguro la mia vita sia un continuo "lento declino"
carloUba10 Aprile 2024, 11:30 #8
E' esattamente quello che fa Rabbit R1.
Tra l'altro simpatico, per la prima settimana lo abbiamo usato poi è stato tumulato in un cassetto a Torino.

Il futuro va lì, senza dubbio.
Ovvio che per un utente normale non serva a nulla ma ci sono anche utenti che possono trovare la cosa un cambio di vita.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^