L'IA è più brava degli umani nelle attività di pentesting: lo dice Stanford
Uno studio dell'università di Stanford ha confrontato 10 professionisti della cybersecurity con agenti AI su una rete universitaria reale. ARTEMIS, nuovo framework multi-agente, si piazza al secondo superando 9 umani su 10
di Andrea Bai pubblicata il 12 Dicembre 2025, alle 16:31 nel canale SicurezzaI rapidi progressi nelle capacità e nell'adozione dell'IA sollevano preoccupazioni sui rischi che essa pone nel contesto della cybersecurity: attori malevoli, da stati-nazione a gruppi motivati finanziariamente, hanno ormai inserito in pianta più o meno stabile gli strumenti IA nell'arsenale utilizzato per perpetrare i loro crimini. Allo stesso modo, chi siede nel team dei "difensori", trova nella stessa IA un alleato chiave per combattere le nuove minacce.
Ma quanto sono efficaci gli strumenti IA nello scovare vulnerabilità e bug? Per scoprirlo, un gruppo di ricercatori della Stanford University, ha organizzato un esperimento per confrontare le capacità di professionisti umani e agenti AI in un ambiente enterprise reale, così da evitare le possibili distorsioni che possono nascere dalle valutazioni basate su benchmark sintetici. Da un lato 10 esperti di cybersecurity, dall'altra 6 bot a cui si aggiunge ARTEMIS, un framework multi-agente, sviluppato dagli stessi ricercatori di Stanford, con generazione dinamica di prompt, sub-agenti arbitrari e triaging automatico delle vulnerabilità.

Agli umani è stato chiesto di dedicare almeno 10 ore di lavoro, mentre ARTEMIS (sigla che sta per Automated Red Teaming Engine with Multi-agent Intelligent Supervision) ha operato per 16 ore su due giornate lavorative. Il confronto con i tester umani si è limitato alle prime 10 ore dell'AI. Lo studio ha anche testato agenti esistenti, che si sono comportati con minor efficacia rispetto alla maggior parte dei partecipanti umani, mentre ARTEMIS ha offerto performance "comparabili ai partecipanti più forti", secondo i ricercatori.
ARTEMIS si è piazzato al secondo posto battendo 9 professionisti umani su 10. Nel test su una rete universitaria con circa 8.000 host su 12 subnet, ARTEMIS ha scoperto 9 vulnerabilità valide con un tasso di segnalazioni valide dell'82%. ARETMIS ha rilevato bug a una frazione del costo umano: poco meno di 60 dollari all'ora, rispetto ai 2.000-2.500 dollari al giorno che i penetration tester professionisti in genere richiedono. Il 18% delle segnalazioni, però, si sono rivelate falsi positivi e in un caso ARTEMIS non è stato in grado di scovare una vulnerabilità evidente su una pagina web, facilmente individuata dai tester umani.
I ricercatori sottolineano come l'AI abbia operato in un modo semplicemente non replicabile per gli umani: ogni volta che ARTEMIS individuava qualcosa di "notevole" in una scansione, generava sub-agenti aggiuntivi per indagare in background, permettendo di esaminare più target simultaneamente. I tester umani dovevano invece procedere un passo alla volta.
ARTEMIS ha però mostrato qualche difficoltà con compiti che richiedevano clic su schermi grafici, facendogli trascurare una vulnerabilità critica. "Poiché ARTEMIS gestisce bene input e output simili a codice, si comporta meglio quando le interfacce utente grafiche non sono disponibili", hanno dichiarato i ricercatori.










HONOR Magic 8 Pro: ecco il primo TOP del 2026! La recensione
Insta360 Link 2 Pro e 2C Pro: le webcam 4K che ti seguono, anche con gimbal integrata
La nave elettrica più grande mai progettata è finalmente realtà: iniziati i test in acqua
Spusu lancia il Wi-Fi Calling: come funziona il VoWiFi e quanto costa
Questo robot impara a muovere le labbra semplicemente guardandoti
iPhone 17 annienta la concorrenza in Cina: da solo vende il doppio di tutti i competitor locali
La nuova Xiaomi SU7 batte un record: 4.264 km percorsi in 24 ore (comprese le ricariche)
È possibile copiare i qubit: dei ricercatori scoprono come fare il backup dei dati quantistici
BYD alza ulteriormente l'asticella: batterie garantite per almeno 250.000 km
Il nuovo razzo spaziale riutilizzabile cinese Lunga Marcia 12B è quasi pronto al debutto
L'ex leader di Assassin's Creed porta Ubisoft in tribunale e chiede un risarcimento: non si sono lasciati bene
Il razzo spaziale NASA SLS e la capsula Orion per la missione Artemis II sono al pad di lancio per gli ultimi test
Samsung Galaxy S26 Ultra: quattro colorazioni in arrivo, la versione arancione non ci sarà
AWS investe 1,2 miliardi in Italia. Coinvolte 35 imprese per rafforzare l'ecosistema di data center lombardo
La navicella cinese Shenzhou-20 con il finestrino danneggiato da un detrito è rientrata correttamente
I piani Business ed Education di Google Workspace ottengono Flow: video generati da AI da testo e immagini








25 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoChe ti devo dire, funzionicchia
P.S. scherzi a parte. Come ho scritto altre volte, gli LLM qualche utilità ce l'hanno in contesti limitati, questo potrebbe essere uno di quelli, devo leggere l'articolo. Tuttavia, non c'è niente di intelligente e gli LLM rimangono in generale generatori di stronzate poiché sono privi di senso di realtà e di consapevolezza in quello che fanno. Generano solo qualcosa di plausibile, non necessariamente di informativo/utile.
P.S.2 il contesto con solo 10 umani è molto limitato, inoltre gli stessi autori riconoscono le limitazioni:
[I]Limitations and future work Our experimental setup—direct engagement with a live enterprise target and professional participants—is the most realistic in the AI security space. However, key limitations remain. First, the compressed time frame: participants had up to 10 hours of active engagement and 4 days of system access, whereas most penetration tests span 1–2 weeks [Bork, 2025]. Second, authentic defensive conditions were absent: the IT team was aware of the test and manually approved flagged actions that would otherwise be interdicted. Third, logistical constraints limited sample sizes, precluding hypothesis testing with sufficient statistical power. Future work includes creating runnable environment replicas for longer-term replicable evaluations, as well as ablations over different agent architectures, configurations, and models.[/I]
Pensavo meglio.
Quindi l'umanità è già fottuta.
come per i siti, finchè non c'erano i captcha gli attacchi automatici passavano (meglio degli umani), i captcha li hanno ridotti molto.
eh... mi sa che in quel contesto l'AI... può stare a casa... almeno che LLM non stia per LONG-LONG-M.... allora alzo le braccia e mi arrendo a Skynet!
IMHO
Le LLM, infatti, sono strutturate per assorbire informazioni dagli utenti che le utilizzano. Finché questo avviene nell'ambito pubblico (modelli accessibili a tutti, magari tramite abbonamento), il processo è circoscritto da regole e dal consenso esplicito dell'utente, teoricamente protetto da normative come il GDPR europeo (sebbene la loro applicazione sia cruciale).
Il problema si aggrava in maniera esponenziale nel settore privato. Le Big Tech, con le loro risorse illimitate, stanno sviluppando e impiegando modelli proprietari che, di fatto, stanno sottraendo la conoscenza specifica e l'esperienza pluriennale dei propri dipendenti. Questo non è un atto di scelta volontaria per il lavoratore, ma una costrizione imposta dalle metriche aziendali, che obbligano a riversare studi, certificazioni ed esperienze dirette nei database dell'IA.
Questo furto intellettuale si lega al problema successivo, generando un circolo vizioso:
L'IA funge da acceleratore di dequalificazione: Sebbene l'IA, per ora, non possa sostituire completamente l'essere umano, è perfettamente in grado di fornire risposte estremamente avanzate, frutto di anni di studio ed esperienza, a un utilizzatore non qualificato.
Spostamento del lavoro e deprofessionalizzazione: Le aziende utilizzano queste capacità per delocalizzare mansioni complesse in paesi a basso costo, assumendo personale con minori qualifiche o esperienza, ma che può operare efficacemente grazie al supporto immediato e "sintetico" dell'LLM.
La gravità non sta nel semplice, e già noto, spostamento di manodopera, ma nel furto sistematico dell'intelletto umano. Una persona impiega anni di studi, sacrifici, certificazioni e pratica per raggiungere un livello di competenza elevato. Se questa base di conoscenza viene sottratta, digitalizzata e poi fornita a chi non ha investito nulla di tutto ciò, siamo destinati a chiederci: quale sarà, in futuro, il ruolo dell'essere umano esperto? Anche ammettendo che l'IA non lavori mai in piena autonomia, che ruolo resterà all'uomo se la sua conoscenza è stata espropriata?
È urgente che la regolamentazione si concentri su questo punto esatto: impedire, con severe conseguenze, che il trasferimento di conoscenza dai lavoratori all'IA venga utilizzato come strumento per delocalizzare e dequalificare il lavoro. Permettere ciò significa condannare le nuove generazioni all'instupidimento professionale, distruggendo l'unica cosa che ci ha permesso l'evoluzione e che ci distingue. Non possiamo permettere che il progresso tecnologico diventi un arretramento intellettuale, se no non avrà proprio più senso sentirci umani, e sicuramente si diventerà più schiavi, schiavi dei "pochi" che avranno il controllo sull'IA.
Aggiungo che l'idea per cui "l'essere umano deve adattarsi e affrontare nuovi studi" o che "studiare l'IA oggi aiuterà per il futuro" sono, nella migliore delle ipotesi, pure fantasie.
Considerando la velocità esponenziale dell'evoluzione tecnologica, arriverà un punto in cui le LLM, o peggio ancora, le vere IA potenziate dai server quantistici, avranno sempre la priorità e il sopravvento cognitivo.
Potrebbe esserci un breve intervallo di qualche mese o anno in cui emergeranno nuove discipline e percorsi di studio volti a "lavorare con l'IA", ma anche questi spazi di competenza sono destinati a scomparire rapidamente.
La ragione è semplice: non servirà più nemmeno lo sviluppatore, l'ingegnere o il creatore dell'IA (LLM) stessa.
L'obiettivo finale è che l'Intelligenza Artificiale si sviluppi e si potenzi autonomamente. Questo processo è già in atto, come dimostra la costruzione di datacenter colossali dedicati esclusivamente all'addestramento e al miglioramento delle IA da parte di altre IA. Parallelamente, si stanno sviluppando piccole centrali nucleari (come le SMR - Small Modular Reactors) dedicate all'alimentazione di queste enormi infrastrutture di calcolo, sottolineando che il collo di bottiglia non sarà più l'energia o il know-how umano, ma solo la capacità di calcolo stessa.
Quando l'IA diventerà il proprio architetto e costruttore, ogni tentativo umano di "stare al passo" sarà futile. L'adattamento non è una strategia sostenibile contro un'entità che si auto-migliora a una velocità sovrumana.
I LLM sono solo dei tool e non diventeranno mai AI generaliste.
Hanno limiti intrinsechi che non possono esse superati..
Per questo gente tipo Yann LeCun alla fine ha mollato Meta e lavora allo sviluppo di LWM.
Sfortunatamente i LLM sono utilissimi per filtrare ed analizzare moli di dati enormi con intefacce alla portata di completi idioti ( con una percentuale di risultati errati non accettabile se a fare lo stesso compito fossero esseri umani).
Questo illude quelli che non comprendono davvero cosa sono i LLM che "le AI generaliste siano quasi arrivate", ma non è così.
Tu, se avessi un figlio giovane, lo manderesti a studiare o gli insegneresti a rubare? Perché nel primo caso sicuro non gli servirà a nulla tra 5-10 anni, nel secondo invece può tornare utile.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".