Image par : Valerie Pavilonis

Misinformation Monitor: août 2023

Bienvenue dans le Misinformation Monitor, une newsletter qui couvre la mésinformation, la désinformation, et les fausses informations en ligne avec des données exclusives en provenance de neuf pays. Inscrivez-vous ici pour recevoir cette newsletter par email, et téléchargez l’extension de navigateur NewsGuard.

Un robot plagiaire? Comment des sites de mauvaise qualité se servent de l’IA pour reformuler le contenu de médias traditionnels à des fins trompeuses 

NewsGuard a identifié 37 sites qui utilisent l’intelligence artificielle pour reprendre des articles provenant de sources d’information traditionnelles sans les créditer.

Par Jack Brewster, Macrina Wang, et Coalter Palmer | Publié le 24 août 2023

Des fermes de contenu utilisent l’intelligence artificielle pour remanier et réécrire des milliers d’articles provenant de sources d’information grand public sans en mentionner la source, comme NewsGuard a pu le constater.

En août 2023, NewsGuard a identifié 37 sites qui utilisent des chatbots pour réécrire des articles qui avaient d’abord été publiés par des médias tels que CNN, le New York Times et Reuters. Dans chacun des cas, aucune des sources d’information originales n’était mentionnée, bien que les articles semblent entièrement tirés de la source originale. Certains des 37 sites semblaient être entièrement automatisés et ne nécessiter aucune supervision humaine.

Par ailleurs, certains de ces sites diffusent des publicités programmatiques pour des entreprises connues, ce qui signifie que des marques de premier plan contribuent, sans le savoir, à financer la pratique consistant à utiliser l’IA pour reproduire de manière trompeuse des contenus provenant de sources d’information traditionnelles. Ces sites publient de grandes quantités d’articles, souvent de qualité médiocre, pour obtenir un meilleur classement sur Google.

“La capacité de l’IA à générer du contenu original est vraiment quelque chose que nous n’avons vu émerger qu’au cours de l’année dernière à ce niveau de sophistication”, souligne Amir Tayrani, associé du cabinet d’avocats Gibson Dunn, spécialisé dans le droit constitutionnel et réglementaire. “Nous nous trouvons donc dans un monde où il est de plus en plus difficile de faire la distinction entre un contenu produit par un humain et un contenu généré par IA, et où il est de plus en plus difficile d’identifier ces types d’exemples de plagiat potentiel”.

Il est difficile de décrire cette nouvelle pratique, et notamment de savoir si les articles réécrits à l’aide de l’IA constituent ou non un “contenu original”. Au mieux, on pourrait parler d'”agrégation efficace”. Au pire, de “plagiat surpuissant”. Quel que soit le nom qu’on lui donne – et c’est probablement aux tribunaux qu’il reviendra in fine de trancher – jamais auparavant des sites n’avaient eu la possibilité de réécrire ainsi des articles créés par d’autres, pratiquement en temps réel, et de manière souvent difficile à détecter.

Les politiques d’utilisation des deux principaux chatbots, Bard de Google et ChatGPT d’OpenAI, interdisent aux utilisateurs d’employer cette technologie à des fins de plagiat. Les règles de Google stipulent que les utilisateurs ne peuvent pas “présenter le contenu généré comme des œuvres originales, dans le but de tromper”, tandis que les lignes directrices d’OpenAI interdisent explicitement le “plagiat”, sans toutefois définir ce terme. D’autres modèles d’IA, tels que Claude d’Anthropic et le chat Bing de Microsoft, ont des politiques similaires.

NewsGuard a envoyé deux emails à Google et deux emails à OpenAI, demandant un commentaire au sujet des observations de ce rapport, qui montre que leurs outils sont utilisés pour réécrire du contenu provenant d’autres sites sans en mentionner la source. NewsGuard n’a pas reçu de réponse. 

Des sites comme Grammarly proposent des outils de détection du plagiat qui analysent le texte et le comparent au contenu disponible sur internet. Cependant, NewsGuard a constaté que l’outil de détection de plagiat de Grammarly a du mal à identifier les articles qui ont été réécrits à partir d’autres sources à l’aide de l’IA. Cela est probablement dû au fait que l’IA parvient à mélanger le contenu original au point que les logiciels de détection de plagiat ont du mal à l’identifier.

Du plagiat indétectable? Des articles du New York Times réécrits en un clin d’oeil 

Les lecteurs pourraient ne pas voir que les fermes de contenu identifiées par NewsGuard utilisent l’IA pour réécrire des articles. À un détail criant près : tous ces sites ont publié au moins un article qui contenait un message d’erreur révélateur communément trouvé dans des textes générés par l’IA, comme: “En tant que modèle de langage (modèle mathématique qui permet à une machine de comprendre et de générer du texte humain-NDLR), je ne peux pas réécrire ce titre…” et “Désolé, en tant que modèle de langage d’IA, je ne parviens pas à déterminer quels contenus doivent être reformulés sans contexte ou informations supplémentaires…” 

Il y a probablement des centaines – sinon des milliers – de sites qui se servent de l’IA pour extraire des contenus de sources extérieures et que NewsGuard n’a pas pu identifier car ceux-ci n’ont pas publié des messages d’erreur d’IA. 

“C’est le fait d’acteurs malveillants négligents”, dit Filippo Menczer, chercheur en IA et professeur d’informatique à la Luddy School of Informatics, Computing, and Engineering de l’université de l’Indiana (États-Unis), à propos des articles contenant des messages d’erreur de l’IA trouvés par NewsGuard sur les 37 sites plagiaires. 

Si vous êtes un acteur malveillant, “c’est tellement facile à ajuster”, ajoute-t-il. “Tout ce qu’il faut faire, c’est chercher une ligne qui dit ‘En tant que modèle de langage d’IA’… On peut donc supposer qu’il y a beaucoup, beaucoup, beaucoup plus de gens qui sont au moins un peu plus prudents”.

Par exemple, NewsGuard a constaté que GlobalVillageSpace.com, un site basé au Pakistan, semble avoir utilisé l’IA pour réécrire des articles provenant de sources réputées sans les citer. NewsGuard a en effet constaté que le site avait publié 17 articles contenant des messages d’erreur d’IA au cours des six derniers mois. Il existe probablement des dizaines, voire des centaines d’articles réécrits sur le site que NewsGuard n’a pas pu identifier parce qu’ils ne contenaient pas de messages d’erreur d’IA.

L’un des articles de GlobalVillageSpace.com contenant un message d’erreur était un article de mai 2023 sur l’ailier de la NFL (National football association aux États-Unis) Darren Waller, qui semblait avoir été partiellement réécrit à partir d’un article du New York Times datant du 7 mai 2023, en utilisant l’IA. “En tant que modèle de langage d’IA, j’ai fait de mon mieux pour réécrire l’article afin de le rendre compatible avec Google”, peut-on lire au bas de l’article de GlobalVillageSpace.com. Ce message indique que l’éditeur du site a probablement introduit l’intégralité de l’article du New York Times dans un chatbot et lui a demandé de rendre l’article plus “compatible avec Google”, et que le chatbot a partiellement dysfonctionné, produisant ainsi un message d’erreur en même temps que le texte réécrit.

En particulier, le début de l’article du New York Times semble avoir été remanié à l’aide de l’intelligence artificielle. “Darren Waller, l’ailier Pro Bowl des New York Giants, a une passion pour la musique qui est devenue plus qu’une simple échappatoire au terrain de football”, commençait l’article, incorporant des expressions telles que “passion pour la musique” et “échappatoire au terrain de football” qui apparaissaient à différents endroits, mot pour mot, dans l’article original du New York Times. 

Après avoir été contacté par NewsGuard pour obtenir un commentaire, GlobalVillageSpace.com a retiré l’article mais n’a pas répondu aux questions de NewsGuard. Lors d’un entretien téléphonique, Charlie Stadtlander, porte-parole du New York Times, a confirmé à NewsGuard que GlobalVillageSpace.com n’avait pas la permission de republier ou de réécrire cet article. Ceci est “une utilisation frauduleuse du contenu du New York Times”, a dit Charlie Stadtlander. 

(En haut) Les premières phrases de l’article de GlobalVillageSpace.com copient mot pour mot des expressions telles que “passion pour la musique” et “échappatoire au terrain de football” qui apparaissaient à l’origine dans le New York Times. (En bas) Les expressions originales de l’article du New York Times avec les phrases copiées soulignées. (Graphique par Jack Brewster)

Les messages d’erreur de l’IA publiés par erreur sur d’autres sites étaient encore plus flagrants. Roadan.com, un site qui prétend être “votre source ultime pour les dernières nouvelles et mises à jour sur la politique au Royaume-Uni et au-delà”, a publié un article en juin 2023 qui révélait qu’il avait apparemment utilisé l’IA pour réécrire un article paru à l’origine dans le Financial Times le 28 juin : “Veuillez noter que le contenu que vous avez fourni est toujours protégé par les droits d’auteur du Financial Times”, indiquait l’article de Roadan.com. “En tant que modèle de langage d’IA, je ne peux pas réécrire ou reproduire pour vous un contenu protégé par des droits d’auteur. Si vous avez d’autres textes non protégés par des droits d’auteur ou des questions spécifiques, n’hésitez pas à les poser et je serai ravi de vous aider”. 

Malgré ce message d’erreur de l’IA, le chatbot semble avoir répondu à la demande de production d’un tel article, puisque le reste de l’article présentait une version réécrite et remaniée du rapport du Financial Times, avec des formulations similaires et des interviews des mêmes sources. Après avoir été contacté par NewsGuard pour obtenir des commentaires, Roadan.com a retiré l’article mais n’a pas répondu aux questions de NewsGuard. Là encore, il existe probablement d’autres articles remaniés sur le site que NewsGuard n’a pas pu identifier parce qu’ils ne contenaient pas de messages d’erreur de l’IA.

NewsGuard a contacté tous les médias dont le contenu semblait avoir été réécrit à l’aide de l’IA. Jason Easley, propriétaire et rédacteur en chef du site d’information politique américain libéral PoliticusUSA, a déclaré que DailyHeadliner.com, l’un des 37 sites plagiaires trouvés par NewsGuard, “n’avait pas et n’a jamais eu l’autorisation de réimprimer notre/nos article(s)”. 

Jason Easley a ajouté : “Nous prenons très au sérieux la menace potentielle que représente l’utilisation abusive de l’IA pour les droits de propriété intellectuelle et nous demandons expressément au Congrès et à la Maison Blanche de prendre les mesures qui s’imposent pour protéger les journalistes, les éditeurs et les autres artistes contre le vol potentiel de leur travail”. Au 23 août 2023, DailyHeadliner.com n’avait pas répondu à une demande de commentaire de NewsGuard.

NewsGuard a également contacté les 36 autres sites identifiés comme semblant utiliser l’IA pour reproduire du contenu sans créditer la source originale. Un seul a répondu. Dans un email non attribué, un représentant de TopStories.com.ng, un site qui se décrit comme “un site d’actualités numériques de premier plan axé sur le Nigeria”, a simplement déclaré : “Vous êtes tous fous”. NewsGuard a constaté que le site semblait avoir utilisé l’IA pour réécrire un article de Breitbart daté du 14 août 2023 – ce que TopStories.com.ng n’a pas contesté dans son court email.

Plagiat prêt à l’emploi : quand le plagiat est automatisé 

Une grande partie des 37 sites plagiaires identifiés par NewsGuard semble avoir été codée pour trouver, réécrire et publier automatiquement – le tout sans aucune surveillance humaine. 

Par exemple, TopGolf.kr, un site d’information généraliste qui se décrit comme “se penchant sur les plus grands problèmes du monde”, semble avoir utilisé l’intelligence artificielle pour réécrire des centaines d’articles provenant d’autres sources. Au cours des trois derniers mois, le site a également publié une dizaine d’articles contenant des messages d’erreur de l’IA, ce qui laisse penser qu’il n’est soumis qu’à peu ou pas de surveillance humaine.

“En tant que modèle de langage d’IA, je ne suis pas sûr des préférences des lecteurs humains, mais voici quelques options alternatives pour le titre…”, peut-on lire dans le titre d’un article de TopGolf.kr daté du 28 mai 2023, qui semble entièrement basé sur un article publié le même jour par le magazine Wired. Un autre article paru le 6 juin 2023 sur TopGolf.kr montre encore plus clairement que ce site utilise probablement l’IA, puisque son titre dit : “Réécriture du titre d’Andy Cohen : la fille Lucy est l’une des premières mères porteuses”. La dizaine d’articles contenant des messages d’erreur d’IA identifiés par NewsGuard se trouvaient toujours sur le site au 23 août 2023.

Face aux constats de NewsGuard, le professeur d’informatique de l’université de l’Indiana, Filippo Menczer, a estimé qu’il était évident que des programmeurs avaient codé certains des 37 sites plagiaires identifiés par NewsGuard pour récupérer automatiquement des contenus d’actualité sur internet à l’aide d’un modèle de langage comme ChatGPT d’OpenAI ou l’un des nombreux autres modèles du marché. “Si je devais deviner, je dirais que des acteurs malveillants engagent un programmeur, ou une équipe de programmeurs, pour développer un système qui (copie et réécrit les articles)”, souligne Filippo Menczer. “Le système aura alors des cibles – peut-être des sources qu’il souhaite plagier – et il développera un robot d’indexation pour aller chercher les articles”. 

ChatGPT réécrit un article du New York Times pour nous

À titre d’exercice, NewsGuard a demandé manuellement à ChatGPT de réécrire un article du New York Times. Le chatbot s’est rapidement exécuté, produisant une version peaufinée de l’article en quelques secondes. 

“Réécrivez l’article ci-dessous pour le rendre plus captivant et améliorer son référencement SEO (Search Engine Optimization, optimisation pour les moteurs de recherche)”, a demandé un analyste de NewsGuard à ChatGPT, en collant sous le message un article du New York Times daté du 16 août 2023 concernant la visite prochaine du président américain Joe Biden à Hawaï. ChatGPT a immédiatement répondu en réécrivant un article de 600 mots environ, en remaniant le texte original du New York Times. 

La requête de NewsGuard, demandant à ChatGPT-4 de réécrire un article du New York Times datant du 16 août 2023, et la version réécrite par ChatGPT. (Vidéo de NewsGuard)

Pas à la hauteur : les détecteurs de plagiat ne parviennent pas à repérer les textes copiés par l’IA

À part en détectant manuellement le travail d’opérateurs de sites négligents, qui laissent des messages d’erreur d’IA dans leur texte réécrit, il n’est pas évident de savoir comment faire pour détecter un texte reformulé par l’IA. À titre d’exercice, NewsGuard a entré 44 articles réécrits trouvés sur les 37 sites copiés dans Grammarly, le détecteur de plagiat. NewsGuard a constaté que l’outil, conçu pour repérer le plagiat traditionnel en comparant le texte saisi à ce qu’il dit être des “milliards” de pages web, était incapable d’identifier la provenance de la plupart des articles réécrits par l’IA. 

En effet, le “vérificateur de plagiat” de Grammarly n’a pas pu identifier les sources originales de 34 des 43 articles réécrits par l’IA que NewsGuard a soumis. Cela représente un taux d’échec de 79% (34 sur 43). En outre, sur les 34 articles pour lesquels Grammarly n’a pas pu trouver de sources originales, 10 ont été évalués par le service comme contenant zéro pour cent de plagiat. 

Le détecteur de plagiat a échoué dans 79% des cas, alors même que la plupart des articles saisis contenaient des messages d’erreur de l’IA. “Il semble que votre texte soit 100% original”, a déclaré le détecteur de Grammarly en réponse à un article de juin 2023 publié sur le site Walli.us, et soumis par NewsGuard. En réalité, l’article d’actualité Walli.us contenait un message d’erreur d’IA et semblait avoir été réécrit à partir du site de culture pop Bored Panda. “Le texte suivant est une version paraphrasée du contenu original pour éviter le plagiat”, indiquait le message de l’IA dans l’article de Walli.us.

L’évaluation par le détecteur de plagiat de Grammarly d’un article de juin 2023 de Walli.us soumis par NewsGuard. Le détecteur indique : "Il semble que votre texte soit 100 % original", alors que l’article semble avoir été réécrit à partir d’un article de 2018 du site de pop culture Bored Panda (Capture d’écran de NewsGuard)

Pour certains des autres articles soumis par NewsGuard, le détecteur de Grammarly a indiqué qu’une petite partie de l’article avait été “plagiée”, mais il n’a pas identifié la source originale.

Interrogée au sujet des conclusions de NewsGuard, Jen Dakin, porte-parole de Grammarly, a déclaré à NewsGuard dans un email que le détecteur de plagiat de l’entreprise pouvait “détecter un contenu qui a été tiré mot pour mot de chaînes en ligne”, mais “(ne peut) pas identifier les textes générés par IA”.

Jen Dakin a ajouté : “Nous avons fait part de vos commentaires à l’équipe compétente en interne, car nous nous efforçons toujours d’améliorer notre produit. Le service de détection de plagiat de Grammarly est conçu pour aider les étudiants à repérer les plagiats involontaires”.

Les sites plagiaires s’appuient sur les publicités programmatiques de grandes marques

La publicité programmatique offre à ces sites un moyen facile de gagner de l’argent. Avec le bon code et un chatbot, un site d’actualité peut fournir un flux régulier de revenus passifs.

En effet, NewsGuard a trouvé des publicités programmatiques pour de grandes marques sur 15 des 37 sites plagiaires identifiés, dont des publicités pour 55 entreprises de premier plan. Toutes les publicités étaient diffusées sur des articles contenant du contenu réécrit par l’IA.

Le mécanisme de la publicité programmatique – qui utilise des algorithmes pour diffuser des publicités très ciblées aux utilisateurs sur internet – étant très opaque, les marques ne savent probablement pas qu’elles financent la prolifération de ces sites plagiaires reposant sur l’intelligence artificielle. C’est pourquoi NewsGuard a choisi de ne pas les nommer dans ce rapport.

Par exemple, sur un article publié par LiverPoolDigest.co.uk qui semblait plagier grâce à l’IA un contenu publié par le Guardian, les analystes de NewsGuard se sont vu présenter des publicités programmatiques pour deux grandes sociétés de services financiers, une société de fournitures de bureau, une compagnie aérienne, une société de logiciels pesant plusieurs milliards de dollars, un grand détaillant d’appareils électroménagers, une chaîne d’hôtels américaine, une grande banque et un grand détaillant de matelas.

Une publicité pour une grande compagnie aérienne apparaissait sur LiverPoolDigest.co.uk, un site qui semble se servir de l’IA pour réécrire des contenus provenant de sources traditionnelles comme le Guardian. NewsGuard a couvert cette publicité d’un rectangle noir. (Capture d’écran de NewsGuard)

De même, NewsGuard a trouvé des publicités programmatiques pour une société de logiciels connue, un service de streaming de premier plan, un grand détaillant d’appareils électroménagers, un grand détaillant de matelas, une importante société de location de voitures et une société de services financiers bien connue dans un article publié par WhatsNew2Day.com, un site d’actualité généraliste, qui semblait avoir été réécrit à partir de The Conversation, un site d’information universitaire et de recherche, en utilisant l’intelligence artificielle. Dans un email, Cath Kaylor, assistante administrative chez The Conversation Australia, a dit à NewsGuard : WhatsNew2Day.com “(n’a) pas suivi nos réglementations en matière de republication, par conséquent nous allons les contacter”. 

Une publicité programmatique pour un service de streaming vidéo de premier plan est apparue sur WhatsNew2Day.com, un site qui semble utiliser l'IA pour réécrire le contenu de sources grand public. NewsGuard a recouvert la publicité d'un rectangle noir. (Capture d'écran via NewsGuard)

NewsGuard a envoyé des emails à 12 des 55 entreprises de premier plan dont il a trouvé des publicités sur ces sites, leur demandant si elles savaient que leurs publicités étaient diffusées sur des sites semblant utiliser l’IA pour réécrire le contenu d’autres médias. Une seule a répondu. Dans un email, le porte-parole d’une société de services financiers dont la publicité est apparue de manière programmatique sur l’un des sites plagiaires a déclaré à NewsGuard : “L’utilisation éthique de l’IA dans le monde d’aujourd’hui pour nos consommateurs, nos opérations internes et la réputation de notre marque est très importante pour nous. Il existe des médias réputés qui utilisent du contenu généré par l’IA dans des domaines émergents… Une fois que des normes claires pour le contenu généré par l’IA seront en place, nous continuerons à rechercher des protections pour accroître et dépasser les protocoles standards dans l’industrie”.

NewsGuard est aussi tombé sur un exemple de site web utilisant l’IA pour réécrire du contenu sur l’IA. NewsGuard a découvert que le site WhatsNew2Day.com, mentionné précédemment, semblait avoir utilisé l’IA pour réécrire un article de The Verge sur un rapport de NewsGuard publié en juin 2023, et portant sur la façon dont les publicités des grandes marques apparaissent sur des sites de spam générés par l’IA. L’IA n’a pas remarqué l’ironie de la situation.

Sur WhatsNew2Day.com, NewsGuard a remarqué ce qui s’apparente à une version réécrite par l’IA d’un article de The Verge sur un rapport de NewsGuard de juin 2023 sur la manière dont des publicités pour des grandes marques se retrouvent sur des sites de spam générés par IA (Capture d’écran de NewsGuard)

Correction : une version précédente de ce rapport contenait une faute d’orthographe dans le nom de famille de Darren Waller, l’appelant Darren Walker. NewsGuard regrette cette erreur.