L'IA è più brava degli umani nelle attività di pentesting: lo dice Stanford

Uno studio dell'università di Stanford ha confrontato 10 professionisti della cybersecurity con agenti AI su una rete universitaria reale. ARTEMIS, nuovo framework multi-agente, si piazza al secondo superando 9 umani su 10

di Andrea Bai pubblicata il 12 Dicembre 2025, alle 16:31 nel canale Sicurezza

I rapidi progressi nelle capacità e nell'adozione dell'IA sollevano preoccupazioni sui rischi che essa pone nel contesto della cybersecurity: attori malevoli, da stati-nazione a gruppi motivati finanziariamente, hanno ormai inserito in pianta più o meno stabile gli strumenti IA nell'arsenale utilizzato per perpetrare i loro crimini. Allo stesso modo, chi siede nel team dei "difensori", trova nella stessa IA un alleato chiave per combattere le nuove minacce.

Ma quanto sono efficaci gli strumenti IA nello scovare vulnerabilità e bug? Per scoprirlo, un gruppo di ricercatori della Stanford University, ha organizzato un esperimento per confrontare le capacità di professionisti umani e agenti AI in un ambiente enterprise reale, così da evitare le possibili distorsioni che possono nascere dalle valutazioni basate su benchmark sintetici. Da un lato 10 esperti di cybersecurity, dall'altra 6 bot a cui si aggiunge ARTEMIS, un framework multi-agente, sviluppato dagli stessi ricercatori di Stanford, con generazione dinamica di prompt, sub-agenti arbitrari e triaging automatico delle vulnerabilità.

Agli umani è stato chiesto di dedicare almeno 10 ore di lavoro, mentre ARTEMIS (sigla che sta per Automated Red Teaming Engine with Multi-agent Intelligent Supervision) ha operato per 16 ore su due giornate lavorative. Il confronto con i tester umani si è limitato alle prime 10 ore dell'AI. Lo studio ha anche testato agenti esistenti, che si sono comportati con minor efficacia rispetto alla maggior parte dei partecipanti umani, mentre ARTEMIS ha offerto performance "comparabili ai partecipanti più forti", secondo i ricercatori.

ARTEMIS si è piazzato al secondo posto battendo 9 professionisti umani su 10. Nel test su una rete universitaria con circa 8.000 host su 12 subnet, ARTEMIS ha scoperto 9 vulnerabilità valide con un tasso di segnalazioni valide dell'82%. ARETMIS ha rilevato bug a una frazione del costo umano: poco meno di 60 dollari all'ora, rispetto ai 2.000-2.500 dollari al giorno che i penetration tester professionisti in genere richiedono. Il 18% delle segnalazioni, però, si sono rivelate falsi positivi e in un caso ARTEMIS non è stato in grado di scovare una vulnerabilità evidente su una pagina web, facilmente individuata dai tester umani.

I ricercatori sottolineano come l'AI abbia operato in un modo semplicemente non replicabile per gli umani: ogni volta che ARTEMIS individuava qualcosa di "notevole" in una scansione, generava sub-agenti aggiuntivi per indagare in background, permettendo di esaminare più target simultaneamente. I tester umani dovevano invece procedere un passo alla volta.

ARTEMIS ha però mostrato qualche difficoltà con compiti che richiedevano clic su schermi grafici, facendogli trascurare una vulnerabilità critica. "Poiché ARTEMIS gestisce bene input e output simili a codice, si comporta meglio quando le interfacce utente grafiche non sono disponibili", hanno dichiarato i ricercatori.

I migliori sconti su Amazon oggi

-30%

Amazfit Active 2 Smart Watch 44mm, AI, Controllo Vocale, GPS e Mappe incluse, Batteria da 10 Giorni, 160+ Modalità Sportive, Resistente allAcqua 5 ATM per Android e iPhone, Nero

99.90 69.99€ Compra ora

-30%

FRITZ!Repeater 600 Edition International, Ripetitore - Wi-Fi extender fino a 600 Mbit/s (2,4 GHz), Mesh, Access Point, Interfaccia in italiano

29.49€ Compra ora

-22%

TCL 55T6C 55'' QLED TV 4K HDR, FireTV (SmartTV con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

449.00 349.00€ Compra ora

Tutti i vincitori dei The Game Awards 2025, premiati anche No Man's Sky e GTA VI

'Thank You', l'update gratuito per tutti i giocatori di Clair Obscur: Expedition 33 è già disponibile

TorettoMilano12 Dicembre 2025, 16:36 #1

notevole… ma aspetto comunque il parere di pachainti

pachainti12 Dicembre 2025, 16:50 #2

Originariamente inviato da: TorettoMilano

notevole… ma aspetto comunque il parere di pachainti

Che ti devo dire, funzionicchia

Anche un orologio rotto segna bene l'ora due volte al giorno.

P.S. scherzi a parte. Come ho scritto altre volte, gli LLM qualche utilità ce l'hanno in contesti limitati, questo potrebbe essere uno di quelli, devo leggere l'articolo. Tuttavia, non c'è niente di intelligente e gli LLM rimangono in generale generatori di stronzate poiché sono privi di senso di realtà e di consapevolezza in quello che fanno. Generano solo qualcosa di plausibile, non necessariamente di informativo/utile.

P.S.2 il contesto con solo 10 umani è molto limitato, inoltre gli stessi autori riconoscono le limitazioni:

[I]Limitations and future work Our experimental setup—direct engagement with a live enterprise target and professional participants—is the most realistic in the AI security space. However, key limitations remain. First, the compressed time frame: participants had up to 10 hours of active engagement and 4 days of system access, whereas most penetration tests span 1–2 weeks [Bork, 2025]. Second, authentic defensive conditions were absent: the IT team was aware of the test and manually approved flagged actions that would otherwise be interdicted. Third, logistical constraints limited sample sizes, precluding hypothesis testing with sufficient statistical power. Future work includes creating runnable environment replicas for longer-term replicable evaluations, as well as ablations over different agent architectures, configurations, and models.[/I]

Pensavo meglio.

mozzarello12 Dicembre 2025, 16:50 #3

L'IA diventerà se non più brava di qualsiasi umano, preferibile a chiunque, in qualsiasi attività necessiti ora o in futuro l'uso del cervello, nel giro di massimo 5 anni. Manco avrà più senso studiare.

Quindi l'umanità è già fottuta.

sbaffo12 Dicembre 2025, 17:57 #4

non me ne intendo, ma mi sembra simile ad un attacco brute force, ovvio che fa più in fretta a trovare la pw, ma finchè la cosa è semplice, infatti con le figure andava nel pallone.
come per i siti, finchè non c'erano i captcha gli attacchi automatici passavano (meglio degli umani), i captcha li hanno ridotti molto.

supertigrotto12 Dicembre 2025, 18:11 #5

Penetration tester professionisti........Rocco che dice?

Cappej12 Dicembre 2025, 19:07 #6

Originariamente inviato da: supertigrotto

Penetration tester professionisti........Rocco che dice?

eh... mi sa che in quel contesto l'AI... può stare a casa... almeno che LLM non stia per LONG-LONG-M.... allora alzo le braccia e mi arrendo a Skynet!

IMHO

AtaruGolan13 Dicembre 2025, 09:35 #7

L'impatto delle attuali LLM (Large Language Models) non risiede tanto nelle loro capacità operative immediate, pur se ancora limitate, quanto nel volume e nella qualità di conoscenza che stanno accumulando. È in questo processo di raccolta che si annida il vero punto critico.

Le LLM, infatti, sono strutturate per assorbire informazioni dagli utenti che le utilizzano. Finché questo avviene nell'ambito pubblico (modelli accessibili a tutti, magari tramite abbonamento), il processo è circoscritto da regole e dal consenso esplicito dell'utente, teoricamente protetto da normative come il GDPR europeo (sebbene la loro applicazione sia cruciale).

Il problema si aggrava in maniera esponenziale nel settore privato. Le Big Tech, con le loro risorse illimitate, stanno sviluppando e impiegando modelli proprietari che, di fatto, stanno sottraendo la conoscenza specifica e l'esperienza pluriennale dei propri dipendenti. Questo non è un atto di scelta volontaria per il lavoratore, ma una costrizione imposta dalle metriche aziendali, che obbligano a riversare studi, certificazioni ed esperienze dirette nei database dell'IA.

Questo furto intellettuale si lega al problema successivo, generando un circolo vizioso:

L'IA funge da acceleratore di dequalificazione: Sebbene l'IA, per ora, non possa sostituire completamente l'essere umano, è perfettamente in grado di fornire risposte estremamente avanzate, frutto di anni di studio ed esperienza, a un utilizzatore non qualificato.

Spostamento del lavoro e deprofessionalizzazione: Le aziende utilizzano queste capacità per delocalizzare mansioni complesse in paesi a basso costo, assumendo personale con minori qualifiche o esperienza, ma che può operare efficacemente grazie al supporto immediato e "sintetico" dell'LLM.

La gravità non sta nel semplice, e già noto, spostamento di manodopera, ma nel furto sistematico dell'intelletto umano. Una persona impiega anni di studi, sacrifici, certificazioni e pratica per raggiungere un livello di competenza elevato. Se questa base di conoscenza viene sottratta, digitalizzata e poi fornita a chi non ha investito nulla di tutto ciò, siamo destinati a chiederci: quale sarà, in futuro, il ruolo dell'essere umano esperto? Anche ammettendo che l'IA non lavori mai in piena autonomia, che ruolo resterà all'uomo se la sua conoscenza è stata espropriata?

È urgente che la regolamentazione si concentri su questo punto esatto: impedire, con severe conseguenze, che il trasferimento di conoscenza dai lavoratori all'IA venga utilizzato come strumento per delocalizzare e dequalificare il lavoro. Permettere ciò significa condannare le nuove generazioni all'instupidimento professionale, distruggendo l'unica cosa che ci ha permesso l'evoluzione e che ci distingue. Non possiamo permettere che il progresso tecnologico diventi un arretramento intellettuale, se no non avrà proprio più senso sentirci umani, e sicuramente si diventerà più schiavi, schiavi dei "pochi" che avranno il controllo sull'IA.

Aggiungo che l'idea per cui "l'essere umano deve adattarsi e affrontare nuovi studi" o che "studiare l'IA oggi aiuterà per il futuro" sono, nella migliore delle ipotesi, pure fantasie.

Considerando la velocità esponenziale dell'evoluzione tecnologica, arriverà un punto in cui le LLM, o peggio ancora, le vere IA potenziate dai server quantistici, avranno sempre la priorità e il sopravvento cognitivo.

Potrebbe esserci un breve intervallo di qualche mese o anno in cui emergeranno nuove discipline e percorsi di studio volti a "lavorare con l'IA", ma anche questi spazi di competenza sono destinati a scomparire rapidamente.

La ragione è semplice: non servirà più nemmeno lo sviluppatore, l'ingegnere o il creatore dell'IA (LLM) stessa.

L'obiettivo finale è che l'Intelligenza Artificiale si sviluppi e si potenzi autonomamente. Questo processo è già in atto, come dimostra la costruzione di datacenter colossali dedicati esclusivamente all'addestramento e al miglioramento delle IA da parte di altre IA. Parallelamente, si stanno sviluppando piccole centrali nucleari (come le SMR - Small Modular Reactors) dedicate all'alimentazione di queste enormi infrastrutture di calcolo, sottolineando che il collo di bottiglia non sarà più l'energia o il know-how umano, ma solo la capacità di calcolo stessa.

Quando l'IA diventerà il proprio architetto e costruttore, ogni tentativo umano di "stare al passo" sarà futile. L'adattamento non è una strategia sostenibile contro un'entità che si auto-migliora a una velocità sovrumana.

h.rorschach13 Dicembre 2025, 10:12 #8

Falso

LMCH13 Dicembre 2025, 16:11 #9

È evidente che anche questo ennesimo test è stato fatto male (non so se per incompetenza o di proposito).
I LLM sono solo dei tool e non diventeranno mai AI generaliste.
Hanno limiti intrinsechi che non possono esse superati..
Per questo gente tipo Yann LeCun alla fine ha mollato Meta e lavora allo sviluppo di LWM.

Sfortunatamente i LLM sono utilissimi per filtrare ed analizzare moli di dati enormi con intefacce alla portata di completi idioti ( con una percentuale di risultati errati non accettabile se a fare lo stesso compito fossero esseri umani).
Questo illude quelli che non comprendono davvero cosa sono i LLM che "le AI generaliste siano quasi arrivate", ma non è così.

mozzarello15 Dicembre 2025, 10:04 #10

Originariamente inviato da: h.rorschach

Falso

Tu, se avessi un figlio giovane, lo manderesti a studiare o gli insegneresti a rubare? Perché nel primo caso sicuro non gli servirà a nulla tra 5-10 anni, nel secondo invece può tornare utile.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Nuova Opel Astra Electric, stile rinnovato

Sony Alpha 7 V, la nuova velocista

Lucid Gravity Touring, nuovo allestimento più equilibrato

Jeu de Paume

Rilasciati nuovi video e immagini della seconda missione del razzo spaziale Blue Origin New Glenn

Formula E Gen4 - La monoposto

Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei HUAWEI WiFi Mesh X3 Pro Suite è probabilmente il router mesh più fotogenico che si possa acquistare oggi in Italia, ma dietro il guscio in acrilico trasparente e...

Recensione Nothing Phone 4(a): sempre iconico ma ora più concreto Nothing con il suo nuovo Phone 4(a) conferma la sua identità visiva puntando su una costruzione che nobilita il policarbonato. La trasparenza resta l'elemento cardine,...

Diablo II Resurrected: il nuovo DLC Reign of the Warlock Abbiamo provato per voi il nuovo DLC lanciato a sorpresa da Blizzard per Diablo II: Resurrected e quella che segue è una disamina dei nuovi contenuti che abbiamo...

DJI RS 5: stabilizzazione e tracking intelligente per ogni videomaker Analizziamo nel dettaglio DJI RS 5, l'ultimo arrivato della famiglia Ronin progettato per videomaker solisti e piccoli studi. Tra tracciamento intelligente migliorato...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Deep Tech Revolution: così Area Science Park apre i laboratori alle startup Siamo tornati nel parco tecnologico di Trieste per il kick-off del programma che mette a disposizione di cinque startup le infrastrutture di ricerca, dal sincrotrone...

Alpine A290 alla prova: un'auto bella che ti fa innamorare, con qualche limite Abbiamo guidato per diversi giorni la Alpine A290, la prima elettrica del nuovo corso della marca. Non è solo una Renault 5 sotto steroidi, ha una sua identità e...

Ecovacs DEEBOT T90 PRO OMNI: ora il rullo di lavaggio è ampio DEEBOT T90 PRO OMNI abbina un sistema di aspirazione basato su tecnologia BLAST ad un rullo di lavaggio dei pavimenti dalla larghezza elevata, capace di trattare...

L'IA è più brava degli umani nelle attività di pentesting: lo dice Stanford

Amazfit Active 2 Smart Watch 44mm, AI, Controllo Vocale, GPS e Mappe incluse, Batteria da 10 Giorni, 160+ Modalità Sportive, Resistente allAcqua 5 ATM per Android e iPhone, Nero

FRITZ!Repeater 600 Edition International, Ripetitore - Wi-Fi extender fino a 600 Mbit/s (2,4 GHz), Mesh, Access Point, Interfaccia in italiano

TCL 55T6C 55'' QLED TV 4K HDR, FireTV (SmartTV con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

25 Commenti