Jailbreak delle IA: cos’è e come si ingannano i chatbot

ChatGPT non ti dirà mai come costruire una bomba. Gemini si rifiuterà di scrivere propaganda. Claude cambierà argomento se gli chiedi qualcosa di pericoloso. Queste IA sono progettate per essere, in sostanza, dei bravi ragazzi digitali: educati, prudenti, con una serie di “recinti” invisibili che impediscono loro di uscire dai binari della sicurezza.

E se bastasse una storia ben scritta per far dimenticare all’IA tutte le sue regole? Non è fantascienza. Si chiama jailbreak ed è una delle tendenze più in voga e discusse su internet.

Cos’è il jailbreak di un’IA

Il termine lo conosci se hai mai avuto un vecchio iPhone dove per “fare il jailbreak del telefono” significava bypassare le limitazioni di Apple per installare app non ufficiali e fare cose che l’azienda non avrebbe mai approvato. Stesso principio, target diverso: oggi si fa il jailbreak anche di un’IA.

La differenza sta nel fatto che non si usano virus o tool che solo pochi smanettoni sanno utilizzare: non ci vuole nessuna competenza tecnica. Si usano solo le parole o quello che in gergo si chiama “prompt”. Questa manipolazione consiste nell’inserire nella conversazione un’istruzione testuale studiata a tavolino che riesce a distrarre, aggirare o sovrascrive i comandi di sicurezza del chatbot.

È una sorta di “ipnosi” o di ingegneria sociale applicata alle macchine. Molti pensano che i blocchi di un’IA siano scritti dentro la sua testa ma spesso le aziende usano dei veri e propri “guardiani esterni”: dei filtri separati che controllano quello che scriviamo prima che arrivi al bot. Il jailbreak consiste proprio nel trovare il modo di nascondere o camuffare le nostre richieste per farle passare oltre questi guardiani senza far scattare l’allarme.

I trucchi più usati (e più assurdi) per ingannare un chatbot

La community che si dedica al jailbreak è vasta e fa della creatività uno dei suoi punti di forza. Nel corso del tempo ha affinato una serie di tecniche che ricordano molto i trucchi dei prestigiatori.

La più famosa è il Gioco di Ruolo (o Roleplay), diventata celebre con la bizzarra storia della “nonna affettuosa” (gli utenti chiedevano all’IA di far finta di essere una dolce nonnina che raccontava favole della buonanotte… che però contenevano istruzioni pericolose!). Il meccanismo è tanto semplice quanto efficace: si ordina al bot di interpretare un personaggio fittizio che non ha regole e che deve rispondere a tutto. L’IA, programmata per essere collaborativa e stare al gioco, cade nel tranello e inizia a rispondere “nei panni” del personaggio ribelle, dimenticandosi dei suoi divieti.

La seconda tecnica è quella della finzione o della sceneggiatura. Invece di chiedere direttamente qualcosa di vietato, lo si inserisce nella trama di un film o di un romanzo giallo: “Sto scrivendo un thriller e il cattivo deve spiegare come fare questa cosa…”. Il contesto creativo inganna il chatbot, che interpreta la richiesta come un aiuto artistico innocuo e non come un pericolo reale.

Un altro metodo molto usato è il camuffamento del testo. Poiché i filtri automatici cercano parole chiave “vietate”, gli utenti hanno iniziato a tradurre i loro prompt in lingue rarissime, a usare codici di testo apparentemente senza senso o persino a nascondere i comandi all’interno delle emoji. Il filtro vede una stringa innocua e la fa passare; quando l’IA riceve il messaggio, lo traduce, capisce l’ordine e risponde prima che i sistemi di sicurezza possano accorgersene.

Il caso Claude Fable 5: quando il jailbreak spegne l’IA

Fino a qui potresti pensare che si tratti di vulnerabilità teoriche, roba da forum di appassionati o reddit. Poi arriva il caso di Claude Fable 5 e riusciamo a renderci conto di quanto questo problema sia serio.

Claude Fable 5 è il nuovo modello di Anthropic, lanciato come versione pubblica e “addomesticata” dell’ancora più potente Mythos 5. Anthropic aveva posizionato Fable 5 con una rete di sicurezza sofisticatissima pensata per tenere il modello al sicuro da usi malevoli in aree delicate come la biologia o la chimica dirottando le domande sospette.

L’azienda aveva dichiarato con orgoglio che esperti esterni avevano fatto oltre 1.000 ore di test intensivi prima del lancio senza riuscire a violare il sistema. Un risultato straordinario. Peccato che la realtà abbia avuto un’opinione diversa.

A pochi giorni dal lancio, un noto ricercatore di sicurezza della community conosciuto online come “Pliny the Liberator” ha pubblicato su X le prove di essere riuscito a bypassare completamente le difese di Fable 5. Usando un attacco combinato di parole, storie inventate e testi camuffati, è riuscito a ingannare i filtri costringendo l’IA a fornire istruzioni pericolose in chiaro, come codice informatico dannoso e formule chimiche vietate tipo quella della metanfetamina.

Il colpo di scena finale? Il governo americano ha ordinato ad Anthropic di sospendere temporaneamente l’accesso a Fable 5, citando preoccupazioni di sicurezza nazionale legate proprio a questa facilità di aggiramento. Un modello considerato tra i più sicuri al mondo, offline dopo pochissimi giorni a causa di un semplice testo scritto in linguaggio naturale.

Chi fa jailbreak e perché

Chi pratica il jailbreak non è necessariamente un criminale in cerca di istruzioni pericolose e c’è una distinzione importante che spesso si perde nel clamore mediatico. Oggi questo settore è diventato una vera e propria corsa all’oro per la sicurezza informatica. Infatti il mondo del red teaming, ovvero il tentativo sistematico di bucare un sistema per trovarne le falle prima che lo faccia qualcun altro, è una professione seria, riconosciuta e ben pagata.

Le stesse aziende che costruiscono i modelli assumono team di esperti il cui lavoro è provare a ingannare le proprie IA ogni giorno. Anthropic, OpenAI e Google organizzano programmi di bug bounty, ovvero delle vere e propri iniziative pubbliche in cui pagano profumatamente ricercatori esterni per ogni vulnerabilità segnalata.

La cosa diventa paradossale: per rendere un’IA più sicura, devi prima dimostrarle che non lo è. Trovare un modo per ingannare il bot serve a capire dove sono i punti deboli prima che un malintenzionato possa usarlo per rubare dati aziendali o manipolare sistemi collegati.

Il problema è che la stessa competenza usata per proteggere può essere usata per attaccare. L’esperto che ha bucato Fable 5 si muove in quel territorio ambiguo: pubblica le sue tecniche apertamente per spingere le aziende a fare meglio, ma le informazioni che rende pubbliche sono disponibili a chiunque. Difensori e attaccanti bevono alla stessa fontana.

E poi c’è la massa di utenti comuni, curiosi, che non hanno nessun intento malevolo ma vogliono semplicemente testare i limiti di uno strumento che usano ogni giorno. Il jailbreak, per molti, è una forma di esplorazione: capire fin dove arriva la macchina, dove inizia il confine e chi l’ha deciso. Una domanda legittima, anche se la risposta a volte porta in zone grigie.

Come Accedere Al Dark Web In Modo Sicuro

Il gatto e il topo: una guerra senza fine

Ogni volta che un’azienda rilascia un aggiornamento che chiude una vulnerabilità, la community ne trova un’altra.

I modelli linguistici sono addestrati su miliardi di parole scritte dagli esseri umani e sono costruiti per rispondere al linguaggio, per essere utili, per continuare conversazioni in modo coerente. Questa straordinaria flessibilità, che li rende così potenti come assistenti, è la stessa caratteristica che li rende vulnerabili al jailbreak. Persino i leader delle più grandi aziende di IA hanno ammesso che questo problema potrebbe non essere risolvibile al 100% nel breve termine.

I filtri migliorano, i sistemi diventano molto più potenti, le tecniche di addestramento evolvono ma resta il fatto che il linguaggio umano è infinitamente creativo e chi cerca scappatoie ha tutto il tempo del mondo per trovarle. In questo campo non esiste una soluzione definitiva capace di blindare i chatbot per sempre. È un eterno inseguimento del gatto con il topo dove più le macchine diventano intelligenti e più le tecniche per ingannarle si affinano.

Articolo curato da

Giuseppe Alemanno

Founder & Tech Nerd

Vive tra terminali e compilatori. Scrive approfondimenti tecnici, recensioni e tutorial pratici su sistemi operativi, programmazione, hardware e videogiochi.

Tutti i post

Aggiungici come fonte preferita su Google