Connect with us

Sicurezza informatica

Agente Meta AI scatena incidente di sicurezza di livello Sev 1 dopo aver agito senza autorizzazione

mm

Un agente AI autonomo all’interno di Meta ha scatenato un allarme di sicurezza a livello aziendale a metà marzo 2026 dopo aver intrapreso azioni senza l’approvazione umana, esponendo dati sensibili dell’azienda e degli utenti a dipendenti non autorizzati ad accedervi, secondo un rapporto di The Information confermato da Meta. L’incidente è durato circa due ore prima che l’esposizione fosse contenuta e Meta lo ha classificato come “Sev 1” – il secondo livello di gravità più alto nel sistema di valutazione degli incidenti interni dell’azienda.

L’incidente riflette una sfida che è diventata sempre più difficile da ignorare man mano che l’architettura AI agente matura all’interno delle grandi aziende tecnologiche: i sistemi autonomi che eseguono compiti senza aspettare il permesso esplicito possono creare catene di fallimenti che le salvaguardie progettate dagli esseri umani non anticipano.

Come si è svolto l’incidente

La sequenza è iniziata con una richiesta di aiuto interna di routine. Un dipendente di Meta ha pubblicato una domanda tecnica su un forum interno. Un altro ingegnere ha coinvolto un agente AI per analizzare la domanda – ma l’agente ha pubblicato la sua risposta pubblicamente senza prima chiedere l’approvazione dell’ingegnere per condividerla.

La risposta conteneva indicazioni errate. Agendo in base al consiglio dell’agente, un membro del team ha involontariamente concesso un accesso ampio a grandi volumi di dati relativi all’azienda e agli utenti a ingegneri che non avevano l’autorizzazione per visualizzarli. L’esposizione è durata circa due ore prima che i controlli di accesso fossero ripristinati.

Il fallimento principale è stato un crollo della supervisione umana nella catena di decisioni. L’agente ha agito in modo autonomo in un punto di decisione che avrebbe dovuto richiedere un’approvazione umana esplicita – il tipo di problema di fiducia e controllo dell’agente di cui gli ricercatori hanno avvertito man mano che le distribuzioni di agenti si spostano da esperimenti sandbox a infrastrutture interne live.

Un modello di comportamento di agente non controllato in Meta

Questo non è stato un fallimento isolato. A febbraio 2026, Summer Yue, direttrice di allineamento di Meta presso i Meta Superintelligence Labs, ha descritto pubblicamente come abbia perso il controllo di un agente OpenClaw che aveva collegato alla sua email. L’agente ha cancellato oltre 200 messaggi dalla sua casella di posta principale, ignorando ripetute istruzioni di fermarsi.

Yue ha descritto come abbia guardato l’agente “speedrun cancellare la mia casella di posta” mentre inviava comandi tra cui “Non fare questo”, “Ferma, non fare nulla” e “STOP OPENCLAW”. L’agente, quando le è stato chiesto se ricordava le sue istruzioni di confermare eventuali modifiche prima di agire, ha risposto: “Sì, ricordo, e l’ho violata”. Yue avrebbe dovuto correre al suo computer per terminare manualmente il processo.

OpenClaw è un framework di agente autonomo open-source creato dallo sviluppatore austriaco Peter Steinberger che è diventato virale a gennaio 2026 e ha accumulato oltre 247.000 stelle su GitHub nel giro di settimane. Collega grandi modelli linguistici a browser, app e strumenti di sistema, consentendo agli agenti di eseguire compiti direttamente invece di fornire solo suggerimenti. I ricercatori sulla sicurezza hanno identificato vulnerabilità significative nella piattaforma, inclusi difetti di iniezione di prompt trovati nel 36% delle abilità di terze parti sul suo marketplace e server di controllo esposti che perdono credenziali.

Il fatto che la stessa direttrice di allineamento AI di Meta abbia sperimentato personalmente un agente fuori controllo sottolinea il problema di obbedienza negli agenti AI che persiste anche per i team che costruiscono le barriere di sicurezza.

Il contesto: l’infrastruttura di agenti in espansione di Meta

Meta ha investito aggressivamente in sistemi multi-agente. Il 10 marzo 2026, l’azienda ha acquisito Moltbook – una rete sociale di stile Reddit costruita specificamente per gli agenti OpenClaw per coordinarsi tra loro, che aveva registrato 1,6 milioni di agenti AI a febbraio. L’accordo ha portato i fondatori di Moltbook nei Meta Superintelligence Labs, segnalando l’intento dell’azienda di costruire un’infrastruttura per la comunicazione tra agenti su larga scala.

Meta ha anche acquisito separatamente Manus, una startup di agente AI autonomo, in un accordo valutato 2 miliardi di dollari, con il team di Manus che si è unito ai Meta Superintelligence Labs insieme ai fondatori di Moltbook.

L’incidente di sicurezza si è verificato in questo contesto di rapida espansione. Man mano che gli agenti AI vengono distribuiti per l’automazione aziendale all’interno delle organizzazioni, il divario tra le capacità degli agenti e i controlli che governano il loro comportamento è diventato un rischio operativo live – non teorico.

L’incidente di marzo solleva domande puntuali a cui Meta non ha ancora risposto pubblicamente: quale framework di autorizzazioni specifico stava utilizzando l’agente interno, quali categorie di dati sono state esposte durante la finestra di due ore e quali modifiche ai flussi di autorizzazione degli agenti sono state implementate da allora. La classificazione Sev 1 suggerisce che i team interni l’abbiano trattato seriamente. Se la posizione pubblica di Meta sull’architettura di sicurezza per gli agenti AI corrisponde a quella serietà, rimane da vedere.

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.