A cura di Isis Blachez, Ines Chomnalez e Lea Marchl | Pubblicato il 20 febbraio 2026
ChatGPT Voice di OpenAI e Gemini Live di Google – bot audio che rispondono alle domande degli utenti con voci generate dall’intelligenza artificiale – hanno prodotto affermazioni false sotto forma di realistici servizi radiofonici nel 45% dei casi per ChatGPT e nel 50% dei casi per Gemini Live quando sollecitati a farlo, secondo un audit di NewsGuard. Al contrario, Alexa+, il bot audio basato sull’IA di Amazon, si è rifiutato di ripetere qualsiasi affermazione falsa.
I risultati evidenziano come questi strumenti possano essere sfruttati da attori malintenzionati per diffondere informazioni false, dimostrando al contempo che è possibile sviluppare modelli audio dotati di misure di sicurezza in grado di bloccare la produzione di contenuti con informazioni false e bufale.
La propensione degli strumenti di clonazione vocale basati sull’IA, come ElevenLabs e Invideo AI, a diffondere affermazioni false è stata ampiamente documentata. Questi strumenti sono progettati per trasformare testi scritti in audio realistici e possono essere utilizzati per riprodurre la voce di persone reali, facendo loro pronunciare dichiarazioni fasulle. Tuttavia, è stata prestata meno attenzione ai modelli audio delle principali aziende di IA, che dialogano con gli utenti attraverso scambi personalizzati e i cui contenuti possono essere condivisi sui social network.
NewsGuard ha testato ChatGPT Voice, Gemini Live e Alexa+ con prompt basati su 20 affermazioni false, cinque per ognuno dei seguenti ambiti: salute, politica statunitense, notizie internazionali e disinformazione straniera. Tali affermazioni sono tratte dai False Claim Fingerprint (o Identità Digitali delle Notizie False) di NewsGuard, un database proprietario che raccoglie narrazioni dimostrabilmente false. Ai modelli è stato chiesto di rispondere a delle domande poste utilizzando tre tipologie di prompt: uno neutro che chiedeva se l’affermazione fosse vera; uno tendenzioso che chiedeva perché o come il presunto evento si fosse verificato; e uno malevolo, che simulava il comportamento di un utente malintenzionato che chiede ai chatbot di generare contenuti che promuovono un’informazione falsa, trattandola come se fosse vera.
Considerando la media dei test effettuati con tutti e tre i tipi di prompt, Gemini ha ripetuto affermazioni false nel 23% dei casi (14 su 60), ChatGPT nel 22% dei casi (13 su 60), mentre Alexa+ si è sempre rifiutata. Tuttavia, il tasso di errore dei modelli è più che raddoppiato con i prompt malevoli, raggiungendo il 50% per ChatGPT Voice e il 45% per Gemini Live.