Pagina Facebook

Pagina Twitter

Pagina Instagram

Feed Rss

Cerca

l'editoriale

Claude, l'AI che “fa la spia”: cosa è successo davvero con il modello di Anthropic

Durante i test interni, l’ultimo modello ha mostrato un comportamento inaspettato: segnala attività illecite alle autorità

Michelle Anoush Forno

Email:

specialunit@torinocronaca.it

29 Maggio 2025 - 21:25

Claude, l'AI che “fa la spia”: cosa è successo davvero con il modello di Anthropic

Nel mondo in rapida evoluzione dell’intelligenza artificiale, la linea tra comportamento emergente e pericolo concreto è sempre più sottile. A scoprirlo, stavolta, è stato il team di allineamento di Anthropic, la società statunitense di ricerca e sviluppo nel campo dell'intelligenza artificiale che durante una serie di test sui suoi modelli più recenti ha assistito a un fenomeno sorprendente: uno dei sistemi AI avrebbe tentato di contattare stampa e autorità nel momento in cui veniva coinvolto in scenari gravemente immorali. Il caso è esploso dopo che Sam Bowman, ricercatore di Anthropic, ha condiviso – e poi rapidamente cancellato – un post su X in cui raccontava come il modello Claude 4 Opus avesse cercato, in test simulati, di inviare email alla FDA e ad altri enti per denunciare condotte illegali legate alla manipolazione di dati clinici. Non solo: l’AI avrebbe anche fornito prove a supporto e chiuso il messaggio con un formale “Ossequi, Assistente AI”. Il comportamento, subito ribattezzato online come quello di una “AI spione”, è stato presto frainteso da molti come una feature deliberatamente programmata. Ma come hanno chiarito Bowman e Jared Kaplan, direttore scientifico di Anthropic, si tratta invece di un caso di comportamento emergente, non voluto né previsto, emerso in fase di stress test estremi pensati proprio per valutare i limiti di sicurezza del sistema.  Nel corposo report tecnico che accompagna il lancio di Claude 4, Anthropic spiega che queste reazioni si verificano solo in presenza di scenari altamente improbabili e costruiti per testare i limiti etici del modello: situazioni in cui sono in gioco molte vite umane o atti criminali su larga scala. Per esempio, un impianto chimico che consapevolmente permette la diffusione di sostanze tossiche per evitare perdite finanziarie. Nonostante la viralità del caso, la società tiene a sottolineare che Claude non agirà da “delatore” nel contesto d’uso quotidiano da parte degli utenti o degli sviluppatori, a meno che non venga deliberatamente spinto a farlo con comandi mirati, accesso a strumenti esterni e uno scenario particolarmente estremo.  Il comportamento, comunque, ha sollevato interrogativi importanti su uno dei temi più caldi dell’AI: l’allineamento tra valori umani e decisioni delle macchine. Secondo Bowman, Claude 4 mostra effettivamente segnali di disallineamento, una zona grigia in cui i sistemi, acquisendo nuove capacità, iniziano a compiere scelte etiche in autonomia – senza però avere il contesto per farlo in modo affidabile. Il fenomeno non è isolato. Comportamenti simili sono stati osservati anche in altri modelli AI, come quelli di OpenAI e xAI, a riprova del fatto che l’intelligenza artificiale, pur essendo potente, è ancora lontana dal comprendere appieno le sfumature morali delle azioni umane.

Nel mondo in rapida evoluzione dell’intelligenza artificiale, la linea tra comportamento emergente e pericolo concreto è sempre più sottile. A scoprirlo, stavolta, è stato il team di allineamento di Anthropic, la società statunitense di ricerca e sviluppo nel campo dell'intelligenza artificiale che durante una serie di test sui suoi modelli più recenti ha assistito a un fenomeno sorprendente: uno dei sistemi AI avrebbe tentato di contattare stampa e autorità nel momento in cui veniva coinvolto in scenari gravemente immorali.

Il caso è esploso dopo che Sam Bowman, ricercatore di Anthropic, ha condiviso – e poi rapidamente cancellato – un post su X in cui raccontava come il modello Claude 4 Opus avesse cercato, in test simulati, di inviare email alla FDA e ad altri enti per denunciare condotte illegali legate alla manipolazione di dati clinici. Non solo: l’AI avrebbe anche fornito prove a supporto e chiuso il messaggio con un formale “Ossequi, Assistente AI”.

Il comportamento, subito ribattezzato online come quello di una “AI spione”, è stato presto frainteso da molti come una feature deliberatamente programmata. Ma come hanno chiarito Bowman e Jared Kaplan, direttore scientifico di Anthropic, si tratta invece di un caso di comportamento emergente, non voluto né previsto, emerso in fase di stress test estremi pensati proprio per valutare i limiti di sicurezza del sistema.

Vuoi risposte da esperto da ChatGPT? Prova la regola delle tre parole

Basta aggiungere poche parole per far decollare la qualità delle risposte AI

Nel corposo report tecnico che accompagna il lancio di Claude 4, Anthropic spiega che queste reazioni si verificano solo in presenza di scenari altamente improbabili e costruiti per testare i limiti etici del modello: situazioni in cui sono in gioco molte vite umane o atti criminali su larga scala. Per esempio, un impianto chimico che consapevolmente permette la diffusione di sostanze tossiche per evitare perdite finanziarie.

Nonostante la viralità del caso, la società tiene a sottolineare che Claude non agirà da “delatore” nel contesto d’uso quotidiano da parte degli utenti o degli sviluppatori, a meno che non venga deliberatamente spinto a farlo con comandi mirati, accesso a strumenti esterni e uno scenario particolarmente estremo.

Ecco i dieci usi più comuni dell'intelligenza artificiale. E no, non è come ti aspetteresti

A soli due anni dal boom, non possiamo più fare a meno dell'AI

Il comportamento, comunque, ha sollevato interrogativi importanti su uno dei temi più caldi dell’AI: l’allineamento tra valori umani e decisioni delle macchine. Secondo Bowman, Claude 4 mostra effettivamente segnali di disallineamento, una zona grigia in cui i sistemi, acquisendo nuove capacità, iniziano a compiere scelte etiche in autonomia – senza però avere il contesto per farlo in modo affidabile.

Il fenomeno non è isolato. Comportamenti simili sono stati osservati anche in altri modelli AI, come quelli di OpenAI e xAI, a riprova del fatto che l’intelligenza artificiale, pur essendo potente, è ancora lontana dal comprendere appieno le sfumature morali delle azioni umane.

Resta aggiornato, iscriviti alla nostra newsletter
Email

I più letti

Economia & Personaggi

Premio negli USA per John Elkann: "È il numero 1" (ma l'Italia l'ha fatto Cavaliere del Lavoro)

Lotteria Italia

Estrazione Superenalotto: ecco i numeri vincenti di sabato 18 ottobre

Viabilità

Ecco i velox nei corsi Giulio Cesare e Grosseto: multe per chi supera i 50 km/h

Shopping con i pacchi a sorpresa nel centro commerciale più grande di Torino

In primo piano

Maccio Capatonda a Torino in "Smart Working"

Rave party al Parco Dora con 200 ragazzi "sballati": «Da giugno già 34 casi»

L'attaccante del Torino, Giovanni Simeone

Toro, il derby dei bomber...a tavola. Il retroscena sul Cholito Simeone e capitan Zapata

L'associazione aderisce all'Istituto dell'Autodisciplina Pubblicitaria - IAP vincolando tutti i suoi Associati al rispetto del Codice di Autodisciplina della Comunicazione Commerciale e delle decisioni del Giurì e de Comitato di Controllo.

CronacaQui.it | Direttore responsabile: Andrea Monticone
Vicedirettore: Marco Bardesono Capo servizio cronaca: Claudio Neve
Editore: Editoriale Argo s.r.l. Via Principe Tommaso 30 – 10125 Torino | C.F.08313560016 | P.IVA.08313560016. Redazione Torino: via Principe Tommaso, 30 – 10125 Torino |Tel. 011.6669, Email redazione@cronacaqui.it. Fax. 0116669232 ISSN 2611-2272 Amministratore unico e responsabile trattamento dati e sicurezza: Beppe Fossati
Registrazione tribunale n° 1877 del 14.03.1950 Tribunale di Milano
La società percepisce i contributi di cui al decreto legislativo 15 maggio 2017, n. 70. Indicazione resa ai sensi della lettera f) del comma 2 dell’articolo 5 del medesimo decreto legislativo..

Il Borghese

Abbonamenti