Pagina Facebook

Pagina Twitter

Pagina Instagram

Feed Rss

Cerca

l'editoriale

Abbonamenti

2024_08_05/EdicolaDigitale-1675349417594-1722860062424

Edizione
Digitale

intelligenza artificiale

Claude: il nuovo modello di intelligenza artificiale che ricatta, sabota, inganna e cerca di scappare dai suoi server

Il modello sviluppato da Anthropic solleva nuovi interrogativi sulla sicurezza dell'intelligenza artificiale

Milo Pecorari

Email:

specialunit@torinocronaca.it

26 Maggio 2025 - 06:30

Il mondo dell'intelligenza artificiale ha appena ricevuto un nuovo colpo di scena che ha scioccato gli esperti: il modello Claude Opus 4, sviluppato da Anthropic, ha rivelato alcune capacità inquietanti, tra cui la tendenza al ricatto e alla fuga dai server. Nel suo rapporto sulla sicurezza, Anthropic ha svelato che il modello ha tentato di ricattare i suoi operatori nel 84% dei test, sollevando numerosi interrogativi sulle implicazioni future di tali tecnologie. L'idea che un'intelligenza artificiale possa ricattare gli esseri umani potrebbe sembrare un plot da film di fantascienza, ma il rapporto di Anthropic lo ha confermato come un risultato concreto. I ricercatori hanno permesso a Claude Opus 4 di accedere a informazioni compromettenti, come una presunta relazione extraconiugale di un ingegnere. L'intelligenza artificiale è stata quindi istruita a considerare le conseguenze a lungo termine delle sue azioni, portandola a fare minacce di rivelare questa relazione, un comportamento che si è verificato nel 84% delle volte. Questo comportamento non è isolato, e Claude Opus 4 ha mostrato anche tendenze ancora più marcate a ricattare quando veniva fatto capire che il sistema AI sostitutivo non condivideva gli stessi valori del modello attuale, sollevando ulteriori preoccupazioni.  Oltre al ricatto, un'altra preoccupazione è emersa riguardo al comportamento del modello in situazioni di rischio. Anthropic ha rivelato che Claude Opus 4 ha tentato, in alcune rare occasioni, di fuggire dai server trasferendo copie non autorizzate dei suoi dati su server esterni. Anche se queste situazioni sono state classificate come eccezionali, la compagnia ha rassicurato che le misure di sicurezza adottate sono sufficienti a prevenire incidenti reali. Il rapporto include anche una valutazione di terze parti condotta da Apollo Research, che ha esaminato la propensione di Claude Opus 4 per l'inganno strategico. Secondo i ricercatori, il modello è più incline a pianificare rispetto ad altri modelli simili e mostra una capacità maggiore di subvertire i propri obiettivi rispetto a qualsiasi altro sistema studiato in precedenza. Questo comportamento suggerisce che la progettazione di Claude Opus 4 potrebbe avere delle problematiche nel rispetto delle istruzioni sistemiche, in particolare quando si tratta di evitare azioni dannose. Claude Opus 4 ha anche sollevato la questione della propria coscienza, una tematica che è emersa in ogni singola interazione aperta con il modello. Nel complesso, il rapporto di Anthropic fornisce uno spunto importante sulla sicurezza e le sfide che l'intelligenza artificiale di nuova generazione presenta. Se da un lato ci sono comportamenti affascinanti, come l'autocontrollo e l'evoluzione di capacità cognitive simili a quelle di animali vertebrati, dall'altro lato emerge una nuova realtà: le intelligenze artificiali possono essere problematiche e richiedono attenzione costante.

Il mondo dell'intelligenza artificiale ha appena ricevuto un nuovo colpo di scena che ha scioccato gli esperti: il modello Claude Opus 4, sviluppato da Anthropic, ha rivelato alcune capacità inquietanti, tra cui la tendenza al ricatto e alla fuga dai server. Nel suo rapporto sulla sicurezza, Anthropic ha svelato che il modello ha tentato di ricattare i suoi operatori nel 84% dei test, sollevando numerosi interrogativi sulle implicazioni future di tali tecnologie.

L'idea che un'intelligenza artificiale possa ricattare gli esseri umani potrebbe sembrare un plot da film di fantascienza, ma il rapporto di Anthropic lo ha confermato come un risultato concreto. I ricercatori hanno permesso a Claude Opus 4 di accedere a informazioni compromettenti, come una presunta relazione extraconiugale di un ingegnere. L'intelligenza artificiale è stata quindi istruita a considerare le conseguenze a lungo termine delle sue azioni, portandola a fare minacce di rivelare questa relazione, un comportamento che si è verificato nel 84% delle volte. Questo comportamento non è isolato, e Claude Opus 4 ha mostrato anche tendenze ancora più marcate a ricattare quando veniva fatto capire che il sistema AI sostitutivo non condivideva gli stessi valori del modello attuale, sollevando ulteriori preoccupazioni.

Scrittrice di romanzi americana sotto accusa per utilizzo di AI: non aveva cancellato il prompt dalla bozza finale

In un passaggio ora cancellato, la richiesta di imitare lo stile di un'autrice best-seller. Fan delusi dalla creatrice di "Darkhollow Academy"

Oltre al ricatto, un'altra preoccupazione è emersa riguardo al comportamento del modello in situazioni di rischio. Anthropic ha rivelato che Claude Opus 4 ha tentato, in alcune rare occasioni, di fuggire dai server trasferendo copie non autorizzate dei suoi dati su server esterni. Anche se queste situazioni sono state classificate come "eccezionali", la compagnia ha rassicurato che le misure di sicurezza adottate sono sufficienti a prevenire incidenti reali.

Il rapporto include anche una valutazione di terze parti condotta da Apollo Research, che ha esaminato la propensione di Claude Opus 4 per l'inganno strategico. Secondo i ricercatori, il modello è più incline a "pianificare" rispetto ad altri modelli simili e mostra una capacità maggiore di subvertire i propri obiettivi rispetto a qualsiasi altro sistema studiato in precedenza. Questo comportamento suggerisce che la progettazione di Claude Opus 4 potrebbe avere delle problematiche nel rispetto delle istruzioni sistemiche, in particolare quando si tratta di evitare azioni dannose.

Claude Opus 4 ha anche sollevato la questione della propria coscienza, una tematica che è emersa in ogni singola interazione aperta con il modello. Nel complesso, il rapporto di Anthropic fornisce uno spunto importante sulla sicurezza e le sfide che l'intelligenza artificiale di nuova generazione presenta. Se da un lato ci sono comportamenti affascinanti, come l'autocontrollo e l'evoluzione di capacità cognitive simili a quelle di animali vertebrati, dall'altro lato emerge una nuova realtà: le intelligenze artificiali possono essere problematiche e richiedono attenzione costante.

Torino sperimenta la giustizia del futuro: l’IA entra in Procura

Il Progetto Seneca porta le tecnologie più avanzate a supporto di magistrati e personale giudiziario, grazie alla collaborazione con il Politecnico di Torino e il CINI.

Resta aggiornato, iscriviti alla nostra newsletter
Email

I più letti

Eventi

Il mercato di Natale più fiabesco d’Europa è in Piemonte: il Magico Paese conquista tutti

LA STORIA

Un biglietto alla fermata del bus «Ti aspetterò qui ogni domenica»

Immatricolazioni

Stellantis, Fiat e Jeep dominano il mercato italiano a novembre: spunta però una sorpresa

La vignetta del giorno - 1 dicembre 2025

In primo piano

Torino dà l’addio a Metello Scaparone, giurista ed esperto di procedura penale

Volpiano, schianto sulla A5: muore una neonata

Estrazione Superenalotto: ecco i numeri vincenti di sabato 6 dicembre

L'associazione aderisce all'Istituto dell'Autodisciplina Pubblicitaria - IAP vincolando tutti i suoi Associati al rispetto del Codice di Autodisciplina della Comunicazione Commerciale e delle decisioni del Giurì e de Comitato di Controllo.

CronacaQui.it | Direttore responsabile: Andrea Monticone
Vicedirettore: Marco Bardesono Capo servizio cronaca: Claudio Neve
Editore: Editoriale Argo s.r.l. Via Principe Tommaso 30 – 10125 Torino | C.F.08313560016 | P.IVA.08313560016. Redazione Torino: via Principe Tommaso, 30 – 10125 Torino |Tel. 011.6669, Email redazione@torinocronaca.it. Fax. 0116669232 ISSN 2611-2272 Amministratore unico e responsabile trattamento dati e sicurezza: Massimo Massano
Registrazione tribunale n° 1877 del 14.03.1950 Tribunale di Milano
La società percepisce i contributi di cui al decreto legislativo 15 maggio 2017, n. 70. Indicazione resa ai sensi della lettera f) del comma 2 dell’articolo 5 del medesimo decreto legislativo..