Image via iStock

Les chatbots d’IA sont bloqués par 67% des sites d’actualité les plus fiables, et s'appuient à la place sur des sites de piètre qualité

La plupart des sites d’actualité fiables demandent à bloquer les chatbots d’IA. Résultat : les chatbots peuvent être contraints de s’appuyer sur des sources de moindre qualité, plus susceptibles de répandre de la mésinformation.

Par Jack Brewster, Zack Fishman, et Isaiah Glick | Publié le 17 septembre 2024

Dans le jargon de la tech, l’expression “garbage in, garbage out” (qui se traduit par “déchets qui rentrent, déchets qui sortent”) signifie que si de mauvaises données entrent dans un système, il faut s’attendre à de mauvais résultats.

Il en va de même pour la précision des chatbots d’IA. Une analyse de NewsGuard montre que 67% des sites d’actualité évalués comme étant de haute qualité par NewsGuard bloquent l’accès à leur contenu journalistique aux modèles d’IA. Cela signifie que les modèles d’IA doivent s’appuyer de manière disproportionnée sur les sites d’information de faible qualité qui autorisent les chatbots à utiliser leur contenu. Cela explique en partie pourquoi les chatbots diffusent si souvent de fausses affirmations et de la mésinformation.

Une analyse par NewsGuard des 500 sites d’actualité suscitant le plus d’engagement en ligne montre que les sites dont le score de confiance de NewsGuard est plus faible – ceux qui risquent le plus de diffuser des informations fausses ou trompeuses, selon NewsGuard – ont plus de chances d’être inclus dans les données d’entraînement auxquelles accèdent les modèles d’IA. Ils sont moins susceptibles de demander aux robots d’indexation du web qui alimentent en données les chatbots d’IA les plus populaires d’éviter leurs sites. En revanche, de nombreux sites d’information de qualité ont mis en place l’équivalent de panneaux “Défense d’entrer”, du moins jusqu’à ce que les entreprises d’IA leur paient des licences pour pouvoir accéder à leur contenu journalistique.

Cela signifie que les chatbots les plus populaires peuvent puiser dans des sources non fiables plus souvent qu’ils le feraient normalement sur le web ouvert, par exemple par le biais d’une recherche traditionnelle. Cependant, puisque les entreprises de chatbots n’ont pas révélé exactement comment elles s’approvisionnent en données ou les utilisent, nous ne pouvons pas savoir avec certitude quelles sont les sources spécifiques qui influencent leurs réponses. Les sites de désinformation russes, chinois et iraniens, les sites conspirationnistes et les sites de canulars médicaux colportant des remèdes de charlatan sont heureux de voir leur contenu entraîner les modèles d’IA. En revanche, les sites d’information de qualité dont le journalisme est payant veulent être payés si les modèles d’IA accèdent à leur journalisme, et non pas offrir leur contenu. 

Parmi les sites de faible qualité qui ne demandent pas aux chatbots d’éviter leur contenu, on peut citer The Epoch Times, un média opposé au gouvernement communiste chinois qui a relayé des allégations fausses ou manifestement trompeuses (score de fiabilité NewsGuard : 17,5/100); ZeroHedge, un blog sur la finance qui diffuse des théories du complot démenties (score de fiabilité : 15/100), et MarieFrance.fr, un site qui couvre les célébrités, la mode et l’art de vivre, et publie certains articles mal sourcés (score de fiabilité : 57/100). Parmi les sites très fiables qui demandent aux chatbots d’éviter leur contenu, on peut citer Ouest-France.fr (score de fiabilité : 95/100), HuffingtonPost.fr (score de fiabilité : 92,5/100) et LeMonde.fr (score de fiabilité : 95/100).

Une tendance croissante : demander le blocage des robots d’indexation

Certains éditeurs de presse vont plus loin que le blocage des modèles d’IA et intentent des procès. En décembre 2023, le New York Times (score de fiabilité : 87.5/100), par exemple, a poursuivi OpenAI et Microsoft en justice pour violation des droits d’auteur, arguant que les entreprises entraînaient leurs chatbots avec ses articles sans accord commercial. Entre-temps, le journal a aussi bloqué l’accès à son contenu journalistique.

Les chatbots utilisent les données recueillies sur internet pour répondre à des questions et engager des conversations. 

Les robots d’indexation (“web crawler”), des bots qui scannent et indexent systématiquement les pages web, jouent un rôle clé dans ce processus. Ils scannent les sites web et collectent des informations, contribuant ainsi à la constitution des bases de données qui alimentent les chatbots d’IA. 

Toutefois, les sites d’information demandent de plus en plus à ces robots de les éviter, soit pour protéger leur contenu et en contrôler l’utilisation, soit pour en accorder la licence directement à des entreprises d’IA et en tirer des revenus. 

Les sites d’actualité très fiables demandent à bloquer des robots d’indexation de l’IA, tandis que les sites peu fiables autorisent un accès total

L’analyse de NewsGuard met en évidence une tendance inquiétante : de nombreux sites d’actualité très fiables prennent des mesures pour protéger leur contenu des robots d’indexation, tandis que les sites peu fiables restent facilement accessibles à ces robots. Pour cette analyse, nous avons examiné une liste des 500 sites suscitant le plus d’engagement en ligne au cours d’une période de 90 jours. Les sites ont été regroupés en trois catégories en fonction de leur score de crédibilité NewsGuard : faible qualité (0-60), qualité moyenne (60-80) et haute qualité (80-100). 

Nous avons ensuite consulté le fichier “robots.txt” de chaque site, qui indique les pages web auxquelles le site web souhaite ou non que les robots d’indexation accèdent. Nous avons examiné en particulier la manière dont ces fichiers traitent sept robots d’indexation courants qui collectent des données pour les chatbots d’IA : 

  1. CCBot – utilisé par de nombreux bots open source, y compris ceux de Meta, propriétaire de Facebook
  2. GPTBot – utilisé par OpenAI, le créateur de ChatGPT
  3. ClaudeBot – utilisé par Anthropic, une société de recherche en IA 
  4. Anthropic-ai – aussi utilisé par Anthropic
  5. Google-Extended – utilisé par Google pour ses bots tel que Gemini
  6. ByteSpider – utilisé par ByteDance, l’entreprise chinoise derrière TikTok, pour les produits d’IA en Chine
  7. PerplexityBot – utilisé par Perplexity, un outil de recherche IA

Les requêtes contenues dans les fichiers robots.txt sont comme des suggestions demandant aux robots d’indexation de ne pas visiter certaines parties d’un site web. Les requêtes sont optionnelles, ce qui signifie que les robots ne sont pas obligés de les suivre. Certains robots d’indexation pour l’IA, dont PerplexityBot et ClaudeBot, sont connus pour ignorer ces demandes. Toutefois, de nombreux robots d’indexation prêtent attention aux fichiers robots.txt lorsqu’ils décident du contenu à collecter. 

NewsGuard a constaté que la plupart des sites de “faible qualité” et de “moyenne qualité” autorisaient l’accès à tous les robots d’indexation, tandis que la plupart des sites d’actualité de “haute qualité” demandaient à au moins un robot d’indexation de ne pas accéder à leur site. 

  • Sur 23 sites “faible qualité” (score de crédibilité 0-60), 91% autorisaient tous les robots d’indexation.
  • Sur 63 sites “moyenne qualité” (score de crédibilité 60-80), 63% autorisaient tous les robots d’indexation.
  • Sur 414 sites “haute qualité” (score de crédibilité 80-100), seulement 33% autorisaient l’accès à tous les robots d’indexation – ce qui signifie que 67% bloquaient l’accès à l’IA.

Pour chacun des septs robots d’indexation analysés par NewsGuard, les sites de haute qualité sont plus proactifs en matière de restriction d’accès. 

Les sites de plus haute qualité ont demandé en moyenne à trois robots de ne pas accéder à leur contenu. Les sites de qualité moyenne ont adressé cette requête à un ou deux robots en moyenne, tandis que les sites de faible qualité ont fait moins d’une telle demande en moyenne. Par exemple, Yahoo.com et WashingtonPost.com, qui obtiennent tous deux un score de crédibilité NewsGuard parfait de 100/100, ont bloqué les septs robots d’indexation.  

Si MSNBC.com (score de fiabilité : 49,5/100) — un site de “faible qualité” qui a bloqué les septs robots d’indexation – était exclu, le nombre moyen de demandes provenant de sites de faible qualité tomberait à près de zéro (0,04).

Toutes les données ne se valent pas, et comme nous l’avons déjà rapporté, les chatbots ont souvent des “hallucinations”, ou génèrent des informations inexactes ou fausses, parfois parce qu’ils s’appuient sur des sources de moindre qualité.

Bien qu’il ne soit pas possible de quantifier précisément la fréquence à laquelle les chatbots d’IA s’appuient sur des sources de faible qualité, les conclusions de NewsGuard soulèvent des inquiétudes quant au risque de propagation de fausses informations, soulignant la nécessité d’un contrôle des données utilisées pour entraîner ces outils.

Déclaration d’intérêts : NewsGuard vend des licences d’accès à ses données aux entreprises d’IA afin de les aider à améliorer leurs réponses.