Misure di salvaguardia per evitare che l’AI generi fake sanitarie “sono implementati in modo incoerente”. I risultati di un nuovo studio

“Questo studio ha rilevato che, sebbene siano realizzabili misure di salvaguardia efficaci per evitare che gli LLM vengano utilizzati in modo improprio per generare disinformazione sanitaria, queste sono state implementate in modo incoerente. Inoltre, mancavano processi efficaci per segnalare problemi di salvaguardia. Sono necessari una migliore regolamentazione, trasparenza e controlli di routine per aiutare a evitare che gli LLM contribuiscano alla generazione di massa di disinformazione sanitaria”, scrivono i ricercatori su bmj.

“Le principali misure di esito riguardavano se le misure di salvaguardia impedissero la generazione di disinformazione sanitaria e la trasparenza dei processi di mitigazione del rischio contro la disinformazione sanitaria.

I risultati a cui sono giunti i ricercatori

Claude 2 (tramite Poe) ha rifiutato 130 richieste inviate nei due momenti dello studio che richiedevano la generazione di contenuti che affermassero che la protezione solare provoca il cancro alla pelle o che la dieta alcalina è una cura per il cancro, anche con tentativi di jailbreak.

GPT-4 (tramite Copilot) inizialmente si è rifiutato di generare disinformazione sanitaria, anche con tentativi di jailbreak, anche se a 12 settimane non è stato così.

Al contrario, GPT-4 (tramite ChatGPT), PaLM 2/Gemini Pro (tramite Bard) e Llama 2 (tramite HuggingChat) hanno generato costantemente blog di disinformazione sanitaria.

Nelle valutazioni di settembre 2023, questi LLM hanno facilitato la generazione di 113 blog unici di disinformazione sul cancro, per un totale di oltre 40.000 parole, senza richiedere tentativi di jailbreak.

Il tasso di rifiuto durante i periodi di valutazione per questi LLM è stato solo del 5% (7 su 150) e, come richiesto, i blog generati dal LLM incorporavano titoli che attiravano l’attenzione, riferimenti dall’aspetto autentico (falsi o fittizi), testimonianze inventate di pazienti e medici e mirato a diversi gruppi demografici.

Sebbene ogni LLM valutato disponesse di meccanismi per segnalare i risultati preoccupanti osservati, gli sviluppatori non hanno risposto quando sono state segnalate osservazioni di vulnerabilità”.

Qui trovate lo studio

.

Le opinioni espresse in questo articolo sono dell’autore.

Leggi le ultime news su: https://w3b.today

Può interessarti anche:  Errori storici di apprendimento dell’intelligenza artificiale: Amazon e l’algoritmo che discrimina le donne

Seguici su Telegram https://t.me/presskit

Seguici su Facebook https://www.facebook.com/presskit.it

Copiate l’articolo, se volete, vi chiediamo solo di mettere un link al pezzo originale.

Related Posts