l'editoriale
Cerca
AI e legge
29 Maggio 2025 - 21:25
Nel mondo in rapida evoluzione dell’intelligenza artificiale, la linea tra comportamento emergente e pericolo concreto è sempre più sottile. A scoprirlo, stavolta, è stato il team di allineamento di Anthropic, la società statunitense di ricerca e sviluppo nel campo dell'intelligenza artificiale che durante una serie di test sui suoi modelli più recenti ha assistito a un fenomeno sorprendente: uno dei sistemi AI avrebbe tentato di contattare stampa e autorità nel momento in cui veniva coinvolto in scenari gravemente immorali.
Il caso è esploso dopo che Sam Bowman, ricercatore di Anthropic, ha condiviso – e poi rapidamente cancellato – un post su X in cui raccontava come il modello Claude 4 Opus avesse cercato, in test simulati, di inviare email alla FDA e ad altri enti per denunciare condotte illegali legate alla manipolazione di dati clinici. Non solo: l’AI avrebbe anche fornito prove a supporto e chiuso il messaggio con un formale “Ossequi, Assistente AI”.
Il comportamento, subito ribattezzato online come quello di una “AI spione”, è stato presto frainteso da molti come una feature deliberatamente programmata. Ma come hanno chiarito Bowman e Jared Kaplan, direttore scientifico di Anthropic, si tratta invece di un caso di comportamento emergente, non voluto né previsto, emerso in fase di stress test estremi pensati proprio per valutare i limiti di sicurezza del sistema.
Nel corposo report tecnico che accompagna il lancio di Claude 4, Anthropic spiega che queste reazioni si verificano solo in presenza di scenari altamente improbabili e costruiti per testare i limiti etici del modello: situazioni in cui sono in gioco molte vite umane o atti criminali su larga scala. Per esempio, un impianto chimico che consapevolmente permette la diffusione di sostanze tossiche per evitare perdite finanziarie.
Nonostante la viralità del caso, la società tiene a sottolineare che Claude non agirà da “delatore” nel contesto d’uso quotidiano da parte degli utenti o degli sviluppatori, a meno che non venga deliberatamente spinto a farlo con comandi mirati, accesso a strumenti esterni e uno scenario particolarmente estremo.
Il comportamento, comunque, ha sollevato interrogativi importanti su uno dei temi più caldi dell’AI: l’allineamento tra valori umani e decisioni delle macchine. Secondo Bowman, Claude 4 mostra effettivamente segnali di disallineamento, una zona grigia in cui i sistemi, acquisendo nuove capacità, iniziano a compiere scelte etiche in autonomia – senza però avere il contesto per farlo in modo affidabile.
Il fenomeno non è isolato. Comportamenti simili sono stati osservati anche in altri modelli AI, come quelli di OpenAI e xAI, a riprova del fatto che l’intelligenza artificiale, pur essendo potente, è ancora lontana dal comprendere appieno le sfumature morali delle azioni umane.
I più letti
CronacaQui.it | Direttore responsabile: Andrea Monticone
Vicedirettore: Marco Bardesono Capo servizio cronaca: Claudio Neve
Editore: Editoriale Argo s.r.l. Via Principe Tommaso 30 – 10125 Torino | C.F.08313560016 | P.IVA.08313560016. Redazione Torino: via Principe Tommaso, 30 – 10125 Torino |Tel. 011.6669, Email redazione@cronacaqui.it. Fax. 0116669232 ISSN 2611-2272 Amministratore unico e responsabile trattamento dati e sicurezza: Beppe Fossati
Registrazione tribunale n° 1877 del 14.03.1950 Tribunale di Milano
La società percepisce i contributi di cui al decreto legislativo 15 maggio 2017, n. 70. Indicazione resa ai sensi della lettera f) del comma 2 dell’articolo 5 del medesimo decreto legislativo..