L'ultimo modello AI di Google può usare il browser e navigare su internet al tuo posto

L'ultimo modello AI di Google può usare il browser e navigare su internet al tuo posto

Google ha presentato Gemini 2.5 Computer Use, un modello di intelligenza artificiale progettato per navigare e interagire autonomamente con i siti web attraverso un browser. Il sistema sfrutta capacità di visione computazionale per eseguire compiti come se fosse un umano

di pubblicata il , alle 13:01 nel canale Web
Google
 

Google ha annunciato la preview di Gemini 2.5 Computer Use, un modello di intelligenza artificiale concepito per operare direttamente all'interno di un browser web. La caratteristica principale del sistema è la capacità di interagire con interfacce progettate per esseri umani, eseguendo azioni come clic, scorrimento e digitazione di testo. Il modello si basa su tecnologie di comprensione visiva e ragionamento per interpretare le richieste degli utenti e tradurle in azioni concrete all'interno dell'ambiente browser.

Gemini 2.5 Computer Use

Le applicazioni pratiche del sistema spaziano dal test automatizzato delle interfacce utente alla navigazione di piattaforme web prive di API pubbliche. Il modello può completare operazioni articolate come la compilazione e l'invio di moduli online, rendendo possibile l'automazione di attività ripetitive che finora richiedevano l'intervento manuale. Alcune versioni dello stesso modello sono già state integrate in funzionalità agentiche come AI Mode (da oggi disponibile in Italia) e Project Mariner.

Google Gemini 2.5 Computer Use può navigare in autonomia sul web

Gemini 2.5 Computer Use non è una novità assoluta del settore, visto che OpenAI ha appena aggiornato le funzionalità di ChatGPT Agent, lo strumento per il completamento automatico di attività complesse e Anthropic aveva già anticipato la concorrenza rilasciando lo scorso anno una versione del proprio modello Claude dotata di funzioni di "uso del computer". Google, però, sostiene che Gemini 2.5 Computer Use supera le alternative disponibili sul mercato in diversi benchmark dedicati alle interfacce web e mobili.


Video velocizzato 3x

Le differenze rispetto ai sistemi concorrenti sono significative dal punto di vista architetturale. A differenza di ChatGPT Agent e della soluzione proposta da Anthropic, il modello di Google limita il proprio campo d'azione al solo ambiente browser, senza accedere all'intero OS. L'azienda ha confermato che la versione attuale non è ancora ottimizzata per il controllo a livello desktop e supporta un set definito di 13 azioni fondamentali., fra cui l'apertura del browser, la digitazione di testo, il trascinamento degli elementi e altre interazioni basilari con le pagine web.

Gemini 2.5 Computer Use è accessibile attraverso Google AI Studio e Vertex AI, le piattaforme dedicate agli sviluppatori che desiderano integrare le capacità del modello nei propri progetti. Google ha reso disponibile anche una dimostrazione interattiva su Browserbase, dove è possibile osservare il funzionamento del sistema mentre esegue compiti di varia natura.

3 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Cappej08 Ottobre 2025, 14:45 #1
... e vedere anche i p0rn0 al posto mio?! Vabbè...
"Evoluzione Morpheus, evoluzione" (cit )
Gringo [ITF]08 Ottobre 2025, 16:09 #2
.... 2029.... anche vivere al posto tuo.... :3
risk-io08 Ottobre 2025, 18:13 #3
Se e' tanto bravo, si trovi un lavoro ed inizi a guadagnare.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^