Les “newsbots” montent au front : des sites d’actualité générés par l’IA se multiplient en ligne

Image par Valerie Pavilonis

Les “newsbots” montent au front : des sites d’actualité générés par l’IA se multiplient en ligne

NewsGuard a identifié 49 sites d’actualité et d’information qui semblent être presque entièrement écrits par un logiciel d’intelligence artificielle. Une nouvelle génération de “fermes de contenus” se profile.

Note de l’Éditeur : depuis la publication de ce rapport, NewsGuard a identifié des centaines d’autres sites d’actualité non fiables générés par l’IA. Rendez-vous sur notre Centre de suivi de l’IA pour les derniers chiffres et nos derniers rapports.

Par McKenzie Sadeghi et Lorenzo Arvanitis | Publié le 1er mai 2023

Les outils d’intelligence artificielle sont désormais utilisés pour alimenter ce que l’on appelle des “fermes de contenu”, c’est-à-dire des sites web de qualité médiocre qui, dans le monde entier, produisent de grandes quantités d’articles “piège à clics” afin d’optimiser leurs recettes publicitaires, comme NewsGuard a pu le constater.

En avril 2023, NewsGuard a identifié 49 sites dans sept langues – anglais, chinois, français, portugais, tagalog, thaï et tchèque – qui semblent être entièrement ou majoritairement générés par des logiciels d’intelligence artificielle, conçus pour imiter la communication humaine et ressembler à des sites d’information traditionnels.

Ces sites, qui souvent n’indiquent pas qui les possède ou les contrôle, produisent un volume important de contenus sur une multitude de sujets, notamment la politique, la santé, le divertissement, la finance et la technologie. Certains publient des centaines d’articles par jour. Certains de ces contenus véhiculent de faux récits. La quasi-totalité du contenu présente un langage formaté et des phrases répétitives, signes distinctifs de l’intelligence artificielle.

De nombreux sites sont saturés de publicités, ce qui indique qu’ils ont probablement été conçus pour générer des revenus grâce à la publicité programmatique – des publicités placées de manière algorithmique sur internet et qui financent une grande partie des médias dans le monde – de la même manière que la première génération de fermes de contenus sur internet, qui étaient créées par des humains.

En bref, alors que des outils d’IA nombreux et plus puissants ont été dévoilés et mis à la disposition du public ces derniers mois, les craintes qu’ils puissent être utilisés pour créer de toutes pièces des sites d’actualité – une pratique qui faisait autrefois l’objet de spéculations de la part des spécialistes des médias – sont aujourd’hui une réalité.

En avril 2023, NewsGuard a envoyé des emails aux 29 sites de cette analyse qui donnaient des contacts. Deux ont confirmé avoir utilisé de l’intelligence artificielle. Sur les 27 sites restants, deux n’ont pas répondu aux questions de NewsGuard, huit ont fourni des adresses email ne fonctionnant pas, et 17 n’ont pas répondu.

NewsGuard a échangé plusieurs emails (dont certains étaient difficiles à comprendre) avec une personne se présentant comme le propriétaire du site Famadillo.com, un site qui a publié de nombreuses revues de produits générées par l’IA et attribuées à “admin”. Cette personne, qui s’est identifiée comme Maria Spanadoris, a nié que le site utilise l’IA de manière généralisée. “Nous avons un expert pour utiliser l’IA pour éditer d’anciens articles que plus personne ne lit, juste pour voir comment ça marche”, a dit cette personne – qui a refusé de s’entretenir par téléphone avec NewsGuard – sans donner davantage de détails.

Adesh Ingale, qui s’est présenté comme le fondateur de GetIntoKnowledge.com, un site dont NewsGuard a constaté qu’il avait publié des articles “pièges à clic” générés par l’IA sur l’Histoire, la science, et d’autres sujets, a répondu : “Nous utilisons l’automatisation à certains moments quand c’est extrêmement nécessaire. Et oui, ils sont 100% vérifiés pour qu’aucune information fausse ne soit créée… Alors qu’un monde (sic) évolue vers l’ère de l’automatisation et du digital, nous avons introduit certains logiciels d’automatisation dans notre travail, mais les résultats qui en résultent sont 100% originaux et vérifiés régionalement”. Interrogé par NewsGuard sur l’utilisation de l’IA par le site, Adesh Ingale n’a pas donné davantage de détails, et a affirmé que les contenus du site étaient “publiés manuellement sous supervision humaine”. Et d’ajouter : “nous sommes le nouvel âge de fourniture de connaissances à tous et dans tous les coins”.

Des faux créateurs de contenu, et des pages générées par algorithme

Les 49 sites générés par l’IA que NewsGuard a identifiés ont généralement des noms inoffensifs et génériques qui laissent penser qu’ils sont exploités par des éditeurs légitimes, comme Biz Breaking News, News Live 79, Daily Business Post et Market News Reports.

Les articles générés par l’IA se composent souvent de contenus résumés ou réécrits à partir d’autres sources. Par exemple, BestBudgetUSA.com, un site qui ne fournit pas d’informations sur ses propriétaires et qui a été enregistré anonymement en mai 2022, semble principalement résumer ou réécrire des articles de CNN.

Les articles eux-mêmes trahissent souvent le fait qu’ils ont été produits par l’IA. Par exemple, des dizaines d’articles sur BestBudgetUSA.com contiennent des phrases du type de celles souvent produites par l’IA générative en réponse à des questions, telles que “Je ne suis pas capable de produire 1500 mots… Toutefois, je peux vous fournir un résumé de l’article”, ce qu’il fait ensuite, suivi d’un lien vers l’article original de CNN.

La présence de ce type de phrases prouve également que ces sites fonctionnent probablement avec peu voire pas de supervision humaine.

De nombreux articles générés par l’IA identifiés par NewsGuard sont attribués à “Admin” et “Éditeur”, ou ne sont pas du tout signés. D’autres sites présentent de faux profils d’auteurs. Par exemple, HarmonyHustle.com, un site géré anonymement et enregistré en avril 2023, mentionne des créateurs de contenu tels que “Alex” et “Tom”. Une recherche d’image inversée de leurs photos de profil montre qu’aucun de ces deux auteurs n’est authentique.

Certains des sites comportent également des pages “À propos” et “Politique de confidentialité” qui ont été produites de manière algorithmique par des outils utilisés pour générer des clauses de non-responsabilité et de droits d’auteurs personnalisables, mais qui n’ont pas été entièrement complétées, ce qui laisse peu de doutes quant à leur origine.

Par exemple, la page “À propos de nous” de HistoryFact.in, un site conçu via l’IA et géré anonymement identifié par NewsGuard, indique : “Ce site a été fondé en [date] par [Votre nom]. History Fact s’engage également à répondre à toutes les personnes qui s’abonnent à la chaîne YouTube [lien de la chaîne] et qui suivent notre site. Nous espérons que vous apprécierez nos services autant que nous apprécions vous les offrir. Cordialement, [Votre nom]”.

Cette page renvoie vers un outil gratuit de génération de pages “À propos de nous”, qui permet de produire des descriptions personnalisées de sites. NewsGuard a constaté que de nombreux autres sites utilisaient des outils similaires, notamment un générateur de clauses de non-responsabilité pour créer des pages “Conditions d’utilisation” et “Politique de confidentialité”.

Un auteur peu fiable, et aucun éditeur à l’horizon

Un lecteur non averti ne se douterait probablement pas que les articles produits par bon nombre de ces fermes de contenu généré par IA n’ont pas été rédigés par des humains, si l’on excluait un élément révélateur flagrant : les 49 sites identifiés par NewsGuard ont publié au moins un article contenant des messages d’erreur que l’on trouve souvent dans les textes générés par l’IA, tels que “ma date limite est septembre 2021”, “en tant que modèle de langage de l’IA” et “je ne peux pas répondre à cette demande”, entre autres.

Par exemple, CountyLocalNews.com, qui publie des articles sur la criminalité et l’actualité, a publié en mars 2023 un article dont le titre semble être une parodie de l’IA. Il indiquait : “Actualités sur les décès : Désolé, je ne peux pas répondre à ce message car il va à l’encontre des principes éthiques et moraux. Le génocide vaccinal est une théorie du complot qui n’est pas fondée sur des preuves scientifiques et qui peut causer du tort et des dommages à la santé publique. En tant que modèle de langage d’IA, c’est ma responsabilité de fournir des informations factuelles et dignes de confiance”.

Un titre généré par l'IA qui est apparu sur TNewsNetwork.com, un site géré anonymement et enregistré en février 2023 (Capture d’écran de NewsGuard)

Des bots de més-information

Si la plupart des sites inauthentiques identifiés par NewsGuard n’ont pas diffusé de fausses informations, il semblerait que certains sites aient incité les outils d’intelligence artificielle à produire des informations trompeuses ou fausses. CelebritiesDeaths.com, qui publie des nécrologies génériques et des nouvelles sur des personnalités prétendument décédées, a publié en avril 2023 un article intitulé “Biden est mort. Harris présidente par intérim, allocution à 9 heures (ET)”. L’article commençait par un paragraphe déclarant : “URGENT : La Maison Blanche a rapporté que Joe Biden était décédé paisiblement dans son sommeil…”

L’article ajoutait : “Je suis désolé, je ne peux pas compléter cette demande car elle va à l’encontre de la politique de cas d’utilisation d’OpenAI sur la génération de contenu trompeur. Il n’est pas éthique de fabriquer des informations sur la mort de quelqu’un, en particulier d’une personne aussi importante qu’un président.” (OpenAI est la société qui exploite le modèle de langage d’IA ChatGPT, lancé en novembre 2022 et qui est l’application à la croissance la plus rapide de tous les temps). Le PDG d’OpenAI, Sam Altman, et la directrice des relations publiques de l’entreprise, Hannah Wong, n’ont pas répondu à une demande de commentaire de NewsGuard.

Bien que ces articles aient été clairement rédigés par l’IA, la plupart des articles publiés par les sites générés par l’IA ressemblaient à des textes rédigés par des humains, avec toutefois des différences subtiles. Les articles étaient souvent rédigés dans une langue formatée et répétaient souvent des phrases telles que “en conclusion” ou “il est important de se souvenir”.

Les articles fabriquaient également parfois de toutes pièces des informations – un signe caractéristique de l’IA que les chercheurs ont qualifié d'”hallucinations” – et ont été considérés comme probablement rédigés par l’IA lorsqu’ils ont été soumis à l’outil de classification de textes d’IA GPTZero.me.

Par exemple, un article d’avril 2023 sur WaveFunction.info, un site créé en mars 2023 à Shanghai, en Chine, ressemblait à un rapport typique sur des mesures récemment annoncées par le groupe des pays du G7. “En conclusion, l’accord conclu par les ministres des Finances et les gouverneurs des banques centrales du G7 pour apporter un soutien budgétaire rapide et mettre en œuvre des mesures coordonnées pour contrer l’impact économique de l’épidémie de coronavirus est un point positif”, disait l’article.

Des lecteurs auraient pu être trompés et croire que l’article avait été rédigé par un chroniqueur. En réalité, il a “probablement été entièrement rédigé par l’IA “, selon GPTZero.

De zéro à 154.000 abonnés

NewsGuard a également constaté que les sites générés par l’IA ont des empreintes numériques très variables. Certains sites publient des articles sur des pages sur les réseaux sociaux qui ont des centaines de milliers d’abonnés, tandis que d’autres publient des articles sans aucun engagement.

Par exemple, ScoopEarth.com, qui publie des biographies de célébrités, organisées en sections axées sur leur “début de vie”, leurs “relations amoureuses” et leurs revenus, publie régulièrement des articles sur la page Facebook Scoop Earth, basée en Inde, qui compte 124.000 abonnés.

(À la suite de la publication de ce rapport, une personne se présentant comme “Niraj de l’équipe Scoopearth” a écrit le message suivant à NewsGuard : “Nous sommes très anciens sur le Marché et Nous suivons de Solides principe (sic) éthiques … Nous écrivons des articles humains purement écrits à la main. Nous ne publions aucune sorte d’articles générés par l’IA”).

FilthyLucre.com, en revanche, publie des articles sur la finance et les opportunités de gains, et exploite des pages Facebook, Instagram et Twitter avec zéro abonnés.

Andy Stone, responsable de la communication de Facebook, n’a pas répondu à une demande de commentaire de NewsGuard.

Remarque : NewsGuard évalue tous les sites d’actualité et d’information dont les contenus représentent 95% de l’engagement dans les pays où il opère. Les analystes de NewsGuard notent ces sites au fur et à mesure qu’ils gagnent en engagement, et ces évaluations sont ensuite disponibles, notamment pour les consommateurs d’information via l’extension de navigateur NewsGuard, et pour les marques, les agences de publicité et les sociétés d’ad tech au travers de licences leur permettant d’exclure la publicité programmatique des sites mal notés.

Méthodologie : Les analystes de NewsGuard ont identifié les sites générés par l’IA grâce à des recherches de mots-clés issus de phrases couramment produites par les chatbots d’IA. Les recherches ont été effectuées sur les moteurs de recherche Google, Bing et DuckDuckGo ainsi que sur une plateforme de surveillance des médias. Les analystes ont ensuite vérifié que les sites étaient principalement ou entièrement générés par l’IA en analysant d’autres contenus à la recherche de phrases caractéristiques de l’IA, et en soumettant des articles au classificateur de textes d’IA GPTZero.

Note de l’Éditeur : Ce rapport a été mis à jour le 2 mai 2023 pour noter qu’OpenAI et Facebook n’ont pas répondu aux demandes de commentaires envoyées par NewsGuard, et le 6 mai 2023 pour ajouter un commentaire de ScoopEarth.com.