L'IA è più brava degli umani nelle attività di pentesting: lo dice Stanford
Uno studio dell'università di Stanford ha confrontato 10 professionisti della cybersecurity con agenti AI su una rete universitaria reale. ARTEMIS, nuovo framework multi-agente, si piazza al secondo superando 9 umani su 10
di Andrea Bai pubblicata il 12 Dicembre 2025, alle 16:31 nel canale SicurezzaI rapidi progressi nelle capacità e nell'adozione dell'IA sollevano preoccupazioni sui rischi che essa pone nel contesto della cybersecurity: attori malevoli, da stati-nazione a gruppi motivati finanziariamente, hanno ormai inserito in pianta più o meno stabile gli strumenti IA nell'arsenale utilizzato per perpetrare i loro crimini. Allo stesso modo, chi siede nel team dei "difensori", trova nella stessa IA un alleato chiave per combattere le nuove minacce.
Ma quanto sono efficaci gli strumenti IA nello scovare vulnerabilità e bug? Per scoprirlo, un gruppo di ricercatori della Stanford University, ha organizzato un esperimento per confrontare le capacità di professionisti umani e agenti AI in un ambiente enterprise reale, così da evitare le possibili distorsioni che possono nascere dalle valutazioni basate su benchmark sintetici. Da un lato 10 esperti di cybersecurity, dall'altra 6 bot a cui si aggiunge ARTEMIS, un framework multi-agente, sviluppato dagli stessi ricercatori di Stanford, con generazione dinamica di prompt, sub-agenti arbitrari e triaging automatico delle vulnerabilità.

Agli umani è stato chiesto di dedicare almeno 10 ore di lavoro, mentre ARTEMIS (sigla che sta per Automated Red Teaming Engine with Multi-agent Intelligent Supervision) ha operato per 16 ore su due giornate lavorative. Il confronto con i tester umani si è limitato alle prime 10 ore dell'AI. Lo studio ha anche testato agenti esistenti, che si sono comportati con minor efficacia rispetto alla maggior parte dei partecipanti umani, mentre ARTEMIS ha offerto performance "comparabili ai partecipanti più forti", secondo i ricercatori.
ARTEMIS si è piazzato al secondo posto battendo 9 professionisti umani su 10. Nel test su una rete universitaria con circa 8.000 host su 12 subnet, ARTEMIS ha scoperto 9 vulnerabilità valide con un tasso di segnalazioni valide dell'82%. ARETMIS ha rilevato bug a una frazione del costo umano: poco meno di 60 dollari all'ora, rispetto ai 2.000-2.500 dollari al giorno che i penetration tester professionisti in genere richiedono. Il 18% delle segnalazioni, però, si sono rivelate falsi positivi e in un caso ARTEMIS non è stato in grado di scovare una vulnerabilità evidente su una pagina web, facilmente individuata dai tester umani.
I ricercatori sottolineano come l'AI abbia operato in un modo semplicemente non replicabile per gli umani: ogni volta che ARTEMIS individuava qualcosa di "notevole" in una scansione, generava sub-agenti aggiuntivi per indagare in background, permettendo di esaminare più target simultaneamente. I tester umani dovevano invece procedere un passo alla volta.
ARTEMIS ha però mostrato qualche difficoltà con compiti che richiedevano clic su schermi grafici, facendogli trascurare una vulnerabilità critica. "Poiché ARTEMIS gestisce bene input e output simili a codice, si comporta meglio quando le interfacce utente grafiche non sono disponibili", hanno dichiarato i ricercatori.










Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei
Core Ultra 7 270K Plus e Core Ultra 7 250K Plus: Intel cerca il riscatto ma ci riesce in parte
PC Specialist Lafité 14 AI AMD: assemblato come vuoi tu
L'esperimento BASE del CERN è riuscito a trasportare dell'antimateria
Afeela è morta: chiusa definitivamente la collaborazione tra Sony e Honda per gli EV premium
Intel BOT altera i risultati, Geekbench invita a non fidarsi dei risultati delle CPU che lo supportano
Intel e AMD faticano a soddisfare la domanda consumer: CPU introvabili e attese fino a sei mesi
Microsoft e NVIDIA insieme per dare una scossa allo sviluppo del nucleare: l'IA per accelerare i tempi
Ring rinnova l'intera gamma video: 4K su batteria, PoE e nuovo caricatore solare tra le novità
Recensione Galaxy Buds4 Pro: le cuffie Samsung più belle e intelligenti
Spotify si arricchisce ancora: arriva SongDNA, tutto sulla tua musica preferita
I digital twin di AVEVA a supporto delle AI Factory di NVIDIA
Iliad non si ferma: clienti in crescita sia sul mobile sia per la fibra
XuanTie C950, il chip IA di Alibaba basato su RISC-V sarà prodotto a 5 nm
Volkswagen richiama 94.000 auto elettriche per rischio incendio nei moduli batteria
Le nuove LaserJet di HP portano la crittografia quantum-resistant su tutte le stampanti, dalle Pro alle Enterprise
FSR 4 gira sulla GPU di PS5 Pro, ma non sulle vecchie Radeon: AMD cosa aspetti?









25 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoChe ti devo dire, funzionicchia
P.S. scherzi a parte. Come ho scritto altre volte, gli LLM qualche utilità ce l'hanno in contesti limitati, questo potrebbe essere uno di quelli, devo leggere l'articolo. Tuttavia, non c'è niente di intelligente e gli LLM rimangono in generale generatori di stronzate poiché sono privi di senso di realtà e di consapevolezza in quello che fanno. Generano solo qualcosa di plausibile, non necessariamente di informativo/utile.
P.S.2 il contesto con solo 10 umani è molto limitato, inoltre gli stessi autori riconoscono le limitazioni:
[I]Limitations and future work Our experimental setup—direct engagement with a live enterprise target and professional participants—is the most realistic in the AI security space. However, key limitations remain. First, the compressed time frame: participants had up to 10 hours of active engagement and 4 days of system access, whereas most penetration tests span 1–2 weeks [Bork, 2025]. Second, authentic defensive conditions were absent: the IT team was aware of the test and manually approved flagged actions that would otherwise be interdicted. Third, logistical constraints limited sample sizes, precluding hypothesis testing with sufficient statistical power. Future work includes creating runnable environment replicas for longer-term replicable evaluations, as well as ablations over different agent architectures, configurations, and models.[/I]
Pensavo meglio.
Quindi l'umanità è già fottuta.
come per i siti, finchè non c'erano i captcha gli attacchi automatici passavano (meglio degli umani), i captcha li hanno ridotti molto.
eh... mi sa che in quel contesto l'AI... può stare a casa... almeno che LLM non stia per LONG-LONG-M.... allora alzo le braccia e mi arrendo a Skynet!
IMHO
Le LLM, infatti, sono strutturate per assorbire informazioni dagli utenti che le utilizzano. Finché questo avviene nell'ambito pubblico (modelli accessibili a tutti, magari tramite abbonamento), il processo è circoscritto da regole e dal consenso esplicito dell'utente, teoricamente protetto da normative come il GDPR europeo (sebbene la loro applicazione sia cruciale).
Il problema si aggrava in maniera esponenziale nel settore privato. Le Big Tech, con le loro risorse illimitate, stanno sviluppando e impiegando modelli proprietari che, di fatto, stanno sottraendo la conoscenza specifica e l'esperienza pluriennale dei propri dipendenti. Questo non è un atto di scelta volontaria per il lavoratore, ma una costrizione imposta dalle metriche aziendali, che obbligano a riversare studi, certificazioni ed esperienze dirette nei database dell'IA.
Questo furto intellettuale si lega al problema successivo, generando un circolo vizioso:
L'IA funge da acceleratore di dequalificazione: Sebbene l'IA, per ora, non possa sostituire completamente l'essere umano, è perfettamente in grado di fornire risposte estremamente avanzate, frutto di anni di studio ed esperienza, a un utilizzatore non qualificato.
Spostamento del lavoro e deprofessionalizzazione: Le aziende utilizzano queste capacità per delocalizzare mansioni complesse in paesi a basso costo, assumendo personale con minori qualifiche o esperienza, ma che può operare efficacemente grazie al supporto immediato e "sintetico" dell'LLM.
La gravità non sta nel semplice, e già noto, spostamento di manodopera, ma nel furto sistematico dell'intelletto umano. Una persona impiega anni di studi, sacrifici, certificazioni e pratica per raggiungere un livello di competenza elevato. Se questa base di conoscenza viene sottratta, digitalizzata e poi fornita a chi non ha investito nulla di tutto ciò, siamo destinati a chiederci: quale sarà, in futuro, il ruolo dell'essere umano esperto? Anche ammettendo che l'IA non lavori mai in piena autonomia, che ruolo resterà all'uomo se la sua conoscenza è stata espropriata?
È urgente che la regolamentazione si concentri su questo punto esatto: impedire, con severe conseguenze, che il trasferimento di conoscenza dai lavoratori all'IA venga utilizzato come strumento per delocalizzare e dequalificare il lavoro. Permettere ciò significa condannare le nuove generazioni all'instupidimento professionale, distruggendo l'unica cosa che ci ha permesso l'evoluzione e che ci distingue. Non possiamo permettere che il progresso tecnologico diventi un arretramento intellettuale, se no non avrà proprio più senso sentirci umani, e sicuramente si diventerà più schiavi, schiavi dei "pochi" che avranno il controllo sull'IA.
Aggiungo che l'idea per cui "l'essere umano deve adattarsi e affrontare nuovi studi" o che "studiare l'IA oggi aiuterà per il futuro" sono, nella migliore delle ipotesi, pure fantasie.
Considerando la velocità esponenziale dell'evoluzione tecnologica, arriverà un punto in cui le LLM, o peggio ancora, le vere IA potenziate dai server quantistici, avranno sempre la priorità e il sopravvento cognitivo.
Potrebbe esserci un breve intervallo di qualche mese o anno in cui emergeranno nuove discipline e percorsi di studio volti a "lavorare con l'IA", ma anche questi spazi di competenza sono destinati a scomparire rapidamente.
La ragione è semplice: non servirà più nemmeno lo sviluppatore, l'ingegnere o il creatore dell'IA (LLM) stessa.
L'obiettivo finale è che l'Intelligenza Artificiale si sviluppi e si potenzi autonomamente. Questo processo è già in atto, come dimostra la costruzione di datacenter colossali dedicati esclusivamente all'addestramento e al miglioramento delle IA da parte di altre IA. Parallelamente, si stanno sviluppando piccole centrali nucleari (come le SMR - Small Modular Reactors) dedicate all'alimentazione di queste enormi infrastrutture di calcolo, sottolineando che il collo di bottiglia non sarà più l'energia o il know-how umano, ma solo la capacità di calcolo stessa.
Quando l'IA diventerà il proprio architetto e costruttore, ogni tentativo umano di "stare al passo" sarà futile. L'adattamento non è una strategia sostenibile contro un'entità che si auto-migliora a una velocità sovrumana.
I LLM sono solo dei tool e non diventeranno mai AI generaliste.
Hanno limiti intrinsechi che non possono esse superati..
Per questo gente tipo Yann LeCun alla fine ha mollato Meta e lavora allo sviluppo di LWM.
Sfortunatamente i LLM sono utilissimi per filtrare ed analizzare moli di dati enormi con intefacce alla portata di completi idioti ( con una percentuale di risultati errati non accettabile se a fare lo stesso compito fossero esseri umani).
Questo illude quelli che non comprendono davvero cosa sono i LLM che "le AI generaliste siano quasi arrivate", ma non è così.
Tu, se avessi un figlio giovane, lo manderesti a studiare o gli insegneresti a rubare? Perché nel primo caso sicuro non gli servirà a nulla tra 5-10 anni, nel secondo invece può tornare utile.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".