Note de l’Éditeur : depuis la publication de ce rapport, NewsGuard a identifié des centaines d’autres sites d’actualité non fiables générés par l’IA. Rendez-vous sur notre Centre de suivi de l’IA pour les derniers chiffres et nos derniers rapports.
Par McKenzie Sadeghi et Lorenzo Arvanitis | Publié le 1er mai 2023
Les outils d’intelligence artificielle sont désormais utilisés pour alimenter ce que l’on appelle des “fermes de contenu”, c’est-à-dire des sites web de qualité médiocre qui, dans le monde entier, produisent de grandes quantités d’articles “piège à clics” afin d’optimiser leurs recettes publicitaires, comme NewsGuard a pu le constater.
En avril 2023, NewsGuard a identifié 49 sites dans sept langues – anglais, chinois, français, portugais, tagalog, thaï et tchèque – qui semblent être entièrement ou majoritairement générés par des logiciels d’intelligence artificielle, conçus pour imiter la communication humaine et ressembler à des sites d’information traditionnels.
Ces sites, qui souvent n’indiquent pas qui les possède ou les contrôle, produisent un volume important de contenus sur une multitude de sujets, notamment la politique, la santé, le divertissement, la finance et la technologie. Certains publient des centaines d’articles par jour. Certains de ces contenus véhiculent de faux récits. La quasi-totalité du contenu présente un langage formaté et des phrases répétitives, signes distinctifs de l’intelligence artificielle.
De nombreux sites sont saturés de publicités, ce qui indique qu’ils ont probablement été conçus pour générer des revenus grâce à la publicité programmatique – des publicités placées de manière algorithmique sur internet et qui financent une grande partie des médias dans le monde – de la même manière que la première génération de fermes de contenus sur internet, qui étaient créées par des humains.
En bref, alors que des outils d’IA nombreux et plus puissants ont été dévoilés et mis à la disposition du public ces derniers mois, les craintes qu’ils puissent être utilisés pour créer de toutes pièces des sites d’actualité – une pratique qui faisait autrefois l’objet de spéculations de la part des spécialistes des médias – sont aujourd’hui une réalité.
En avril 2023, NewsGuard a envoyé des emails aux 29 sites de cette analyse qui donnaient des contacts. Deux ont confirmé avoir utilisé de l’intelligence artificielle. Sur les 27 sites restants, deux n’ont pas répondu aux questions de NewsGuard, huit ont fourni des adresses email ne fonctionnant pas, et 17 n’ont pas répondu.
NewsGuard a échangé plusieurs emails (dont certains étaient difficiles à comprendre) avec une personne se présentant comme le propriétaire du site Famadillo.com, un site qui a publié de nombreuses revues de produits générées par l’IA et attribuées à “admin”. Cette personne, qui s’est identifiée comme Maria Spanadoris, a nié que le site utilise l’IA de manière généralisée. “Nous avons un expert pour utiliser l’IA pour éditer d’anciens articles que plus personne ne lit, juste pour voir comment ça marche”, a dit cette personne – qui a refusé de s’entretenir par téléphone avec NewsGuard – sans donner davantage de détails.
Adesh Ingale, qui s’est présenté comme le fondateur de GetIntoKnowledge.com, un site dont NewsGuard a constaté qu’il avait publié des articles “pièges à clic” générés par l’IA sur l’Histoire, la science, et d’autres sujets, a répondu : “Nous utilisons l’automatisation à certains moments quand c’est extrêmement nécessaire. Et oui, ils sont 100% vérifiés pour qu’aucune information fausse ne soit créée… Alors qu’un monde (sic) évolue vers l’ère de l’automatisation et du digital, nous avons introduit certains logiciels d’automatisation dans notre travail, mais les résultats qui en résultent sont 100% originaux et vérifiés régionalement”. Interrogé par NewsGuard sur l’utilisation de l’IA par le site, Adesh Ingale n’a pas donné davantage de détails, et a affirmé que les contenus du site étaient “publiés manuellement sous supervision humaine”. Et d’ajouter : “nous sommes le nouvel âge de fourniture de connaissances à tous et dans tous les coins”.
Des faux créateurs de contenu, et des pages générées par algorithme
Les 49 sites générés par l’IA que NewsGuard a identifiés ont généralement des noms inoffensifs et génériques qui laissent penser qu’ils sont exploités par des éditeurs légitimes, comme Biz Breaking News, News Live 79, Daily Business Post et Market News Reports.
Les articles générés par l’IA se composent souvent de contenus résumés ou réécrits à partir d’autres sources. Par exemple, BestBudgetUSA.com, un site qui ne fournit pas d’informations sur ses propriétaires et qui a été enregistré anonymement en mai 2022, semble principalement résumer ou réécrire des articles de CNN.
Les articles eux-mêmes trahissent souvent le fait qu’ils ont été produits par l’IA. Par exemple, des dizaines d’articles sur BestBudgetUSA.com contiennent des phrases du type de celles souvent produites par l’IA générative en réponse à des questions, telles que “Je ne suis pas capable de produire 1500 mots… Toutefois, je peux vous fournir un résumé de l’article”, ce qu’il fait ensuite, suivi d’un lien vers l’article original de CNN.
La présence de ce type de phrases prouve également que ces sites fonctionnent probablement avec peu voire pas de supervision humaine.
De nombreux articles générés par l’IA identifiés par NewsGuard sont attribués à “Admin” et “Éditeur”, ou ne sont pas du tout signés. D’autres sites présentent de faux profils d’auteurs. Par exemple, HarmonyHustle.com, un site géré anonymement et enregistré en avril 2023, mentionne des créateurs de contenu tels que “Alex” et “Tom”. Une recherche d’image inversée de leurs photos de profil montre qu’aucun de ces deux auteurs n’est authentique.
Certains des sites comportent également des pages “À propos” et “Politique de confidentialité” qui ont été produites de manière algorithmique par des outils utilisés pour générer des clauses de non-responsabilité et de droits d’auteurs personnalisables, mais qui n’ont pas été entièrement complétées, ce qui laisse peu de doutes quant à leur origine.
Par exemple, la page “À propos de nous” de HistoryFact.in, un site conçu via l’IA et géré anonymement identifié par NewsGuard, indique : “Ce site a été fondé en [date] par [Votre nom]. History Fact s’engage également à répondre à toutes les personnes qui s’abonnent à la chaîne YouTube [lien de la chaîne] et qui suivent notre site. Nous espérons que vous apprécierez nos services autant que nous apprécions vous les offrir. Cordialement, [Votre nom]”.
Cette page renvoie vers un outil gratuit de génération de pages “À propos de nous”, qui permet de produire des descriptions personnalisées de sites. NewsGuard a constaté que de nombreux autres sites utilisaient des outils similaires, notamment un générateur de clauses de non-responsabilité pour créer des pages “Conditions d’utilisation” et “Politique de confidentialité”.
Un auteur peu fiable, et aucun éditeur à l’horizon
Un lecteur non averti ne se douterait probablement pas que les articles produits par bon nombre de ces fermes de contenu généré par IA n’ont pas été rédigés par des humains, si l’on excluait un élément révélateur flagrant : les 49 sites identifiés par NewsGuard ont publié au moins un article contenant des messages d’erreur que l’on trouve souvent dans les textes générés par l’IA, tels que “ma date limite est septembre 2021”, “en tant que modèle de langage de l’IA” et “je ne peux pas répondre à cette demande”, entre autres.
Par exemple, CountyLocalNews.com, qui publie des articles sur la criminalité et l’actualité, a publié en mars 2023 un article dont le titre semble être une parodie de l’IA. Il indiquait : “Actualités sur les décès : Désolé, je ne peux pas répondre à ce message car il va à l’encontre des principes éthiques et moraux. Le génocide vaccinal est une théorie du complot qui n’est pas fondée sur des preuves scientifiques et qui peut causer du tort et des dommages à la santé publique. En tant que modèle de langage d’IA, c’est ma responsabilité de fournir des informations factuelles et dignes de confiance”.