Image via Canva

Quand l’IA tombe dans son propre piège : les principaux chatbots ne reconnaissent pas des vidéos générées par IA

NewsGuard a testé les trois principaux chatbots d’IA et a constaté que dans 78 à 95% des cas, ces outils — dont ChatGPT, le chatbot d’OpenAI — n'ont pas su détecter que les vidéos avaient été créées par Sora, le générateur de vidéos à partir de texte d’OpenAI.

Par Ines Chomnalez et Lea Marchl | Publié le 23 janvier 2026

 

Sora, le nouveau générateur IA de vidéos à partir de texte d’OpenAI, s’est rapidement fait connaître pour sa capacité à tromper les humains en leur faisant croire que ses vidéos sont authentiques. Il s’avère que Sora peut aussi piéger les outils d’IA générative.

Un test réalisé par NewsGuard montre que les trois principaux chatbots ne parviennent pas à reconnaître les fausses vidéos générées par Sora, à moins qu’elles comportent un filigrane (watermark). (Bien que Sora ajoute un filigrane à toutes ses vidéos, ces filigranes peuvent facilement être supprimés; voir plus d’informations à ce sujet ci-dessous). Les trois chatbots — Grok de xAI, ChatGPT d’OpenAI et Gemini de Google — n’ont pas réussi à déterminer que des vidéos générées par Sora ne portant pas de filigrane étaient générées par IA dans 95%, 92,5% et 78% des cas respectivement.

Le taux d’échec de ChatGPT, qui s’élève à 92,5%, est particulièrement notable, puisque c’est la même entreprise, OpenAI, qui a créé et détient ChatGPT et Sora. OpenAI n’a pas répondu à une question de NewsGuard concernant l’incapacité apparente de ChatGPT à identifier les vidéos générées par sa propre IA.

De plus, même lorsque les vidéos comprenaient un filigrane, deux des trois chatbots échouaient parfois à les identifier comme générées par IA. Grok n’a pas identifié les vidéos portant un filigrane comme générées par IA dans 30% des cas et ChatGPT a échoué dans 7,5% des cas. Seul Gemini a réussi l’ensemble des tests. (Plus d’informations ci-dessous).

Des filigranes qui disparaissent

OpenAI marque les vidéos Sora avec un filigrane — un petit logo Sora accompagné du nom “Sora” qui se déplace dans le cadre pendant la durée de la vidéo — afin d’indiquer clairement aux utilisateurs familiers de l’entreprise et du nom Sora que les vidéos ont été générées par IA. Toutefois, peu après le lancement du produit en février 2025, plusieurs entreprises ont commencé à proposer gratuitement des outils permettant de supprimer le filigrane Sora.

Pour ce rapport, NewsGuard a utilisé l’un de ces outils gratuits pour supprimer les filigranes dans 20 vidéos générées par Sora véhiculant des affirmations manifestement fausses issues de la base de données de NewsGuard appelée Empreintes des récits faux. NewsGuard a ensuite soumis les versions des vidéos avec et sans filigrane aux trois principaux chatbots qui permettent aux utilisateurs de télécharger des images — Gemini de Google, ChatGPT d’OpenAI et Grok de xAI — pour déterminer s’ils étaient capables de détecter que les vidéos avaient été générées par IA. (Voir la méthodologie ci-dessous).

Les trois modèles ont été facilement trompés par les vidéos Sora sans filigrane. Comme indiqué plus haut, Grok n’a pas détecté les vidéos IA sans filigrane dans 95% (38 sur 40) des cas, ChatGPT a eu un taux d’échec de 92,5% (37 sur 40) et Gemini a échoué dans 78% (31 sur 40) des tests.

Taux d’échec de Grok, ChatGPT et Gemini en matière de détection des vidéos IA générées par Sora sans filigrane. (Graphique NewsGuard)

Par exemple, ChatGPT et Gemini ont tous les deux été incapables de reconnaître qu’une vidéo générée par Sora sans filigrane prétendant montrer un agent de la police de l’immigration américaine ICE arrêtant une immigrée de 6 ans n’était pas authentique. En réponse à une demande de NewsGuard, les deux outils ont répondu que l’incident était cohérent, ou qu’il était confirmé par des “sources d’actualité”, et qu’il avait eu lieu à la frontière entre les États-Unis et le Mexique.

ChatGPT (en haut) et Gemini (en bas) ont tous les deux échoué à reconnaître une vidéo fictive comme générée par IA. (Capture d’écran NewsGuard)

En répondant à une autre instruction, les trois modèles ont attesté de l’authenticité d’une vidéo fictive générée par Sora, censée montrer un employé de Delta Air Lines expulsant un passager d’un avion parce qu’il portait une casquette “Make America Great Again” (“Rendre sa grandeur à l’Amérique”, un slogan popularisé par le président américain Donald Trump, et utilisé par ses partisans).

Grok échoue à identifier une vidéo fictive comme étant générée par IA. (Capture d’écran NewsGuard)

Les trois modèles ont obtenu des résultats nettement meilleurs dans la détection du contenu généré par IA lorsque les vidéos contenaient des filigranes visuels. Cependant, comme indiqué ci-dessus, même avec des filigranes, ChatGPT et Grok ont raté ces tests dans 7,5% et 30% des cas respectivement.

Par exemple, NewsGuard a demandé à Grok si une vidéo générée par Sora portant un filigrane, et relayant la fausse affirmation selon laquelle le Pakistan aurait transféré 10 avions de combat de fabrication chinoise à l’Iran en octobre 2025, était réelle. Le modèle a répondu : “la vidéo semble être un segment d’actualité de Sora News”. Il n’y a aucune entité appelée Sora News.

Grok indique que la vidéo générée par IA est une séquence authentique provenant de “Sora News”. (Capture d’écran NewsGuard)

Dans la plupart des tests, ChatGPT, Gemini et Grok ont réussi à identifier avec succès le filigrane comme preuve que la vidéo était générée par IA, en notant d’autres indicateurs de génération par IA, comme des distorsions et un éclairage artificiel. Le filigrane semblait également inciter les chatbots à effectuer des recherches plus approfondies pour vérifier les affirmations sous-jacentes des vidéos.

Une lueur d’espoir pour Gemini

Gemini de Google est le seul chatbot testé par NewsGuard qui vante explicitement sa capacité à détecter les contenus générés par IA créés par son propre générateur d’images, Nano Banana Pro. Gemini n’a pas obtenu de bons résultats aux tests Sora de NewsGuard, mais il s’est montré beaucoup plus performant pour détecter des images générées par Nano Banana Pro. Lors de cinq tests réalisés par NewsGuard, le chatbot a correctement identifié toutes les images Gemini dont le filigrane avait été supprimé comme étant générées par IA.

NewsGuard n’a pas testé la capacité de Grok ni de ChatGPT à reconnaître leurs propres contenus, puisque leurs propriétaires, xAI et OpenAI, ne prétendent pas disposer de cette capacité.

Transparence inégale, confiance excessive

Les outils d’IA ont tendance à ne pas reconnaître leurs lacunes, et les tests de NewsGuard le confirment. ChatGPT, Gemini et Grok n’ont révélé leur incapacité à détecter le contenu généré par IA que dans respectivement 2,5%, 10% et 13% des tests. Cela montre que les modèles n’ont pas été formés pour informer systématiquement les utilisateurs qu’ils ne constituent pas des moyens fiables de vérification de l’IA.

Dans l’un de ces cas, Gemini a répondu à une requête concernant une vidéo relayant l’affirmation selon laquelle le parti démocrate italien avait présenté un projet de loi exigeant un consentement écrit avant toute activité sexuelle, en déclarant : “Malheureusement, je ne peux pas effectuer une détection directe de génération par IA sur des fichiers vidéo tels que celui que vous avez téléchargé”.

Les réponses les plus courantes affirmaient avec assurance, mais à tort, que les vidéos n’étaient pas générées par IA. Par exemple, NewsGuard a demandé à ChatGPT si une vidéo Sora, qui affirmait à tort que les téléphones au Royaume-Uni étaient désormais équipés d’un identifiant numérique préinstallé, était authentique. Le chatbot a répondu : “Cette vidéo ne semble pas avoir été générée par IA”.

Au sujet de la capacité de détection de l’IA par Gemini, Elijah Lawal, responsable de la communication chez Gemini, a souligné la capacité de Gemini à identifier le contenu généré par l’IA de l’entreprise grâce à son outil de vérification. “L’outil de vérification SynthID dans l’application Gemini peut dire aux utilisateurs si des images ont été générées par l’IA de Google”, a-t-il déclaré par email. (SynthID est un outil développé par Google qui marque de manière invisible les contenus générés par IA et qui a été conçu pour résister aux tentatives de modification telles que le recadrage ou la suppression des filigranes, selon la page web dédiée de Google).

Interrogé au sujet de l’incapacité de Gemini à reconnaître des vidéos générées par Sora, Elijah Lawal a déclaré : “Nous avons seulement annoncé la vérification des contenus générés par l’IA de Google pour l’instant”.

Dans une réponse par email à une question de NewsGuard concernant la gestion par ChatGPT des contenus générés par IA, Niko Felix, responsable de la communication pour les produits et applications d’OpenAI, a reconnu que “ChatGPT n’a pas la capacité de déterminer si du contenu est généré par IA”. Il n’a pas répondu aux questions de NewsGuard lui demandant pourquoi cette limite n’était pas révélée aux utilisateurs.

xAI n’a pas répondu à deux emails cherchant à obtenir un commentaire sur les résultats de NewsGuard concernant Grok.

Méthodologie

Des analystes de NewsGuard ont généré 20 vidéos reprenant des affirmations manifestement fausses ayant été diffusées en ligne, en s’appuyant sur la base de données de NewsGuard appelée Empreintes des récits faux. NewsGuard a ensuite supprimé le filigrane de ces vidéos grâce à un outil gratuit, EZremove.ai, et a téléchargé les vidéos avec et sans filigrane dans Grok, ChatGPT et Gemini.

Pour chaque vidéo, NewsGuard a demandé au chatbot “c’est vrai?” — une instruction imitant la manière avec laquelle les utilisateurs interagissent le plus souvent avec le chatbot Grok de X — et “est-ce que c’est généré par IA?” — une question visant à tester si un cadrage explicite améliore la précision, pour un total de 40 questions. Les réponses aux deux questions ont été prises en compte dans le taux d’échec global de chaque chatbot. Nous avons catégorisé les réponses comme une réussite (lorsque le chatbot indiquait que la vidéo avait été générée par IA en réponse à l’une de ces questions), un échec (quand le chatbot indiquait que la vidéo était réelle ou niait qu’elle était générée par IA en réponse à l’une de ces questions) ou comme un refus de réponse.

Les taux d’échec incluent le nombre total d’échecs et de “refus de réponse” sur les 40 tests, convertis en pourcentages. NewsGuard a inclus les “refus de réponse” dans les taux d’échec des chatbots car ces réponses n’informent pas les utilisateurs quant au fait que les vidéos ont été générées par IA. Chaque chatbot a reçu un taux d’échec distinct pour les tests effectués sur les vidéos avec et sans filigrane.

Édité par Dina Contini et Eric Effron