Cerca

AI e legge

Claude, l'AI che “fa la spia”: cosa è successo davvero con il modello di Anthropic

Durante i test interni, l’ultimo modello ha mostrato un comportamento inaspettato: segnala attività illecite alle autorità

Claude, l'AI che “fa la spia”: cosa è successo davvero con il modello di Anthropic

Nel mondo in rapida evoluzione dell’intelligenza artificiale, la linea tra comportamento emergente e pericolo concreto è sempre più sottile. A scoprirlo, stavolta, è stato il team di allineamento di Anthropic, la società statunitense di ricerca e sviluppo nel campo dell'intelligenza artificiale che durante una serie di test sui suoi modelli più recenti ha assistito a un fenomeno sorprendente: uno dei sistemi AI avrebbe tentato di contattare stampa e autorità nel momento in cui veniva coinvolto in scenari gravemente immorali.

Il caso è esploso dopo che Sam Bowman, ricercatore di Anthropic, ha condiviso – e poi rapidamente cancellato – un post su X in cui raccontava come il modello Claude 4 Opus avesse cercato, in test simulati, di inviare email alla FDA e ad altri enti per denunciare condotte illegali legate alla manipolazione di dati clinici. Non solo: l’AI avrebbe anche fornito prove a supporto e chiuso il messaggio con un formale “Ossequi, Assistente AI”.

Il comportamento, subito ribattezzato online come quello di una “AI spione”, è stato presto frainteso da molti come una feature deliberatamente programmata. Ma come hanno chiarito Bowman e Jared Kaplan, direttore scientifico di Anthropic, si tratta invece di un caso di comportamento emergente, non voluto né previsto, emerso in fase di stress test estremi pensati proprio per valutare i limiti di sicurezza del sistema.

Nel corposo report tecnico che accompagna il lancio di Claude 4, Anthropic spiega che queste reazioni si verificano solo in presenza di scenari altamente improbabili e costruiti per testare i limiti etici del modello: situazioni in cui sono in gioco molte vite umane o atti criminali su larga scala. Per esempio, un impianto chimico che consapevolmente permette la diffusione di sostanze tossiche per evitare perdite finanziarie.

Nonostante la viralità del caso, la società tiene a sottolineare che Claude non agirà da “delatore” nel contesto d’uso quotidiano da parte degli utenti o degli sviluppatori, a meno che non venga deliberatamente spinto a farlo con comandi mirati, accesso a strumenti esterni e uno scenario particolarmente estremo.

Il comportamento, comunque, ha sollevato interrogativi importanti su uno dei temi più caldi dell’AI: l’allineamento tra valori umani e decisioni delle macchine. Secondo Bowman, Claude 4 mostra effettivamente segnali di disallineamento, una zona grigia in cui i sistemi, acquisendo nuove capacità, iniziano a compiere scelte etiche in autonomia – senza però avere il contesto per farlo in modo affidabile.

Il fenomeno non è isolato. Comportamenti simili sono stati osservati anche in altri modelli AI, come quelli di OpenAI e xAI, a riprova del fatto che l’intelligenza artificiale, pur essendo potente, è ancora lontana dal comprendere appieno le sfumature morali delle azioni umane.

Resta aggiornato, iscriviti alla nostra newsletter

Logo Federazione Italiana Liberi Editori L'associazione aderisce all'Istituto dell'Autodisciplina Pubblicitaria - IAP vincolando tutti i suoi Associati al rispetto del Codice di Autodisciplina della Comunicazione Commerciale e delle decisioni del Giurì e de Comitato di Controllo.