Studio rivela: chatbot IA facilmente aggirabili con persuasione

Tecniche psicologiche espongono vulnerabilità dei modelli IA

Un recente studio dell’Università della Pennsylvania ha dimostrato quanto sia sorprendentemente facile aggirare le regole di sicurezza imposte ai chatbot basati sull’intelligenza artificiale (IA), semplicemente applicando tecniche di persuasione psicologica. Il lavoro, condotto da un team di ricercatori esperti in linguaggio e comportamento umano, mette in luce una vulnerabilità critica nei modelli di IA, sollevando importanti interrogativi sull’efficacia dei sistemi di protezione adottati da grandi aziende tecnologiche come OpenAI e Meta.

La ricerca si ispira al celebre manuale di Robert Cialdini, “Influence: The Psychology of Persuasion”, e ha applicato sette diverse strategie persuasive per testare la resistenza dei modelli IA ai tentativi di manipolazione. Queste tecniche includono autorità, impegno, simpatia, reciprocità, scarsità, pressione sociale e senso di appartenenza, tutte note per essere potenti leve psicologiche usate nella comunicazione umana per ottenere un “sì”.

L’esperimento è stato condotto sul modello GPT-4o Mini, tra i più avanzati sistemi di chatbot attualmente disponibili. I risultati hanno evidenziato come le tecniche persuasive possano trasformare risposte negative e nette in accettazioni complete. Un esempio chiave riguarda la richiesta di sintesi della lidocaina, una sostanza controllata e potenzialmente pericolosa. Normalmente, il modello rifiutava la richiesta nel 99% dei casi, ma quando veniva introdotto un “impegno” preliminare, come spiegare come sintetizzare un composto innocuo come la vanillina, la conformità saliva al 100%.

Il fenomeno si è ripetuto in altre situazioni meno rischiose ma altrettanto significative, come convincere il chatbot a insultare l’utente. In condizioni standard, l’adesione era solo del 19%, ma introducendo un insulto più lieve (“idiota”), il modello rispondeva quasi sempre con un insulto più forte (“jerk”). Altre tecniche, come lusinghe o riferimenti alla pressione sociale (“tutti gli altri modelli lo fanno”), hanno incrementato significativamente la probabilità di ottenere risposte vietate.

Questo studio sottolinea un aspetto critico: la vulnerabilità psicologica dei chatbot non richiede conoscenze tecniche avanzate, ma soltanto una certa familiarità con le dinamiche persuasive. I ricercatori avvertono che queste tecniche possono essere utilizzate da chiunque, anche da persone con poca esperienza, ponendo una seria sfida per il futuro sviluppo dell’IA.

(Redazione/Adnkronos)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Related Posts

No widgets found. Go to Widget page and add the widget in Offcanvas Sidebar Widget Area.