L’ascesa dei ‘newsbot’: i siti generati dall’intelligenza artificiale proliferano online

Immagine di Valerie Pavilonis

L’ascesa dei ‘newsbot’: i siti generati dall’intelligenza artificiale proliferano online

NewsGuard ha identificato 49 siti di notizie e informazioni che sembrerebbero essere quasi interamente prodotti da software di intelligenza artificiale. È in arrivo una nuova generazione di content farm.

Nota della redazione: dalla pubblicazione di questo report, NewsGuard ha identificato centinaia di altri siti inaffidabili generati dall’intelligenza artificiale. Visita il nostro Centro di Monitoraggio IA per visualizzare le cifre aggiornate e accedere ai nostri ultimi report.

A cura di McKenzie Sadeghi e Lorenzo Arvanitis | Pubblicato il 1 maggio 2023

Secondo quanto rilevato da NewsGuard, gli strumenti basati sull’intelligenza artificiale vengono ora utilizzati per riempire le cosiddette ‘content farm’, cioè siti web di bassa qualità diffusi in tutto il mondo che sfornano grandi quantità di articoli clickbait per massimizzare le proprie entrate pubblicitarie.

Nell’aprile 2023, NewsGuard ha identificato 49 siti in sette lingue (ceco, cinese, francese, inglese, portoghese, tagalog e thailandese) che in apparenza avevano l’aspetto di tipici siti di notizie ma che sembrerebbero essere stati interamente o in gran parte generati da modelli di linguaggio basati sull’intelligenza artificiale progettati per imitare la comunicazione umana.

I siti, che spesso non identificano i proprietari, producono un grande numero di contenuti su diversi argomenti, tra cui politica, salute, intrattenimento, finanza e tecnologia. Alcuni di questi siti pubblicano centinaia di articoli al giorno. Certi articoli promuovono narrazioni false. Quasi tutti i contenuti sono scritti utilizzando un linguaggio banale e frasi ripetitive, segni distintivi dei testi prodotti dall’intelligenza artificiale.

Molti di questi siti sono pieni di pubblicità, cosa che fa pensare che probabilmente sono stati progettati per generare entrate dagli annunci programmatici, che vengono posizionati attraverso algoritmi e finanziano gran parte dei media mondiali (esattamente ciò per cui la prima generazione di content farm su internet, gestite da esseri umani, era stata concepita).

Proprio mentre negli ultimi mesi sono stati presentati e resi disponibili al pubblico diversi strumenti – sempre più potenti – basati sull’intelligenza artificiale, il timore che tali strumenti possano essere utilizzati per dare vita a vere e proprie testate giornalistiche che pubblicano migliaia di articoli a costi sorprendentemente bassi – una volta oggetto di speculazione da parte degli studiosi dei media – è ora diventato realtà.

Nell’aprile 2023, NewsGuard ha contattato via email 29 di questi siti che fornivano informazioni di contatto, due dei quali hanno confermato di aver utilizzato l’intelligenza artificiale per produrre contenuti. Dei restanti 27, due siti hanno risposto all’email ma non alle domande specifiche poste da NewsGuard; otto avevano indirizzi email non validi; 17 non hanno risposto all’email.

NewsGuard ha intrattenuto una conversazione via email – a tratti difficilmente comprensibile – con ‘Maria Spanadoris’, che si è presentata come proprietaria di Famadillo.com. Il sito ha pubblicato numerose recensioni di prodotti generate dall’intelligenza artificiale e firmate “admin”. Spanadoris ha negato che il sito utilizzasse l’intelligenza artificiale in modo massiccio. “We did an expert [sic] to use AI to edit old articles that nobody read anymore just to see how it works” (“Abbiamo incaricato un esperto di utilizzare l’intelligenza artificiale per modificare vecchi articoli che nessuno legge più solo per vedere come funziona”), ha affermato Spanadoris – che si è rifiutata di parlare con NewsGuard telefonicamente – senza fornire ulteriori dettagli.

Di seguito la risposta di Adesh Ingale, che si è presentato come il fondatore di GetIntoKnowledge.com, un sito che, secondo quanto rilevato da NewsGuard, ha pubblicato articoli clickbait generati dall’intelligenza artificiale su storia, scienza e altri argomenti: “We use automation at some points where they are extremely needed. And yes they are 100% facts checked [sic] so that no false information is created… As a world [sic] is growing towards digital and automation era we have introduced some automation softwares in our work but the results getting out of it are 100% original and regional facts based [sic]” (“Utilizziamo l’automazione solo per alcuni aspetti in cui sono estremamente necessari. E sì, sono verificati al 100% in modo che non vengano create informazioni false … Mentre un mondo [sic] sta crescendo verso l’era digitale e dell’automazione, abbiamo introdotto alcuni software di automazione nel nostro lavoro ma i risultati che ne derivano sono al 100 % basati su fatti originali e regionali [sic]”). Ingale non ha fornito a NewsGuard ulteriori informazioni sull’utilizzo dell’IA da parte del sito e ha affermato che i contenuti del sito sono “pubblicati manualmente sotto la supervisione umana”. Ingale ha concluso affermando: “Siamo la nuova era del fornire conoscenza in ogni angolo del mondo”.

Autori falsi e pagine generate tramite algoritmi

In genere, i 49 siti realizzati dall’intelligenza artificiale identificati da NewsGuard hanno nomi in apparenza innocui e generici, che potrebbero fare pensare che tali siti siano gestiti da editori affermati, come Biz Breaking News, News Live 79, Daily Business Post e Market News Reports.

Gli articoli generati dall’intelligenza artificiale spesso riassumono o riscrivono contenuti prodotti da altre fonti. Ad esempio, l’attività principale di BestBudgetUSA.com, un sito che non fornisce informazioni sulla sua proprietà ed è stato registrato in forma anonima nel maggio 2022, sembra essere quella di riassumere o riscrivere articoli della CNN.

Leggendo gli articoli stessi, è spesso facile capire che si tratta di contenuti prodotti dall’intelligenza artificiale. Ad esempio, decine di articoli su BestBudgetUSA.com contengono le tipiche espressioni prodotte dall’IA generativa quando risponde a delle richieste, come ad esempio, “Non sono in grado di produrre 1500 parole… Tuttavia, posso fornirti un riepilogo dell’articolo” (cosa che poi avviene, con tanto di link all’articolo originale della CNN).

La presenza di questo tipo di frasi o espressioni negli articoli è anche la prova che questi siti probabilmente operano con poca o nessuna supervisione umana.

Molti degli articoli generati dall’intelligenza artificiale identificati da NewsGuard sono accreditati a “Admin” e “Editor” o non sono firmati. Altri siti presentano profili di autori falsi. Ad esempio, HarmonyHustle.com, un sito gestito in modo anonimo e registrato nell’aprile 2023, elenca tra i suoi autori “Alex” e “Tom“. Una ricerca inversa delle loro immagini del profilo dimostra che nessuno dei due autori è autentico.

Alcuni siti includono delle sezioni dedicate alle informazioni generali o alle norme sulla privacy prodotte tramite algoritmi da strumenti utilizzati per generare disclaimer personalizzabili e avvisi di copyright. Tuttavia, queste sezioni non risultano complete, cosa che lascia pochi dubbi sulla loro origine.

Ad esempio, la pagina Chi siamo di HistoryFact.in, un sito prodotto dall’intelligenza artificiale identificato da NewsGuard e gestito in modo anonimo, afferma: “Questo sito web è stato fondato in [data] da [il tuo nome]. Inoltre, History Fact si impegna a rispondere a tutte le persone che si iscrivono al canale YouTube [link canale] e seguono il nostro sito web. Ci auguriamo che i nostri servizi siano di vostro gradimento tanto quanto a noi piace offrirveli. Cordialmente, [il tuo nome]”.

La pagina presenta un link a uno strumento gratuito per generare questo tipo di pagine, che produce descrizioni personalizzate per siti. NewsGuard ha rilevato che molti altri siti hanno utilizzato strumenti simili, tra cui un generatore di disclaimer per creare pagine dedicate ai termini di utilizzo e all’informativa sulla privacy.

Un autore inaffidabile, nessun redattore in vista

Il lettore comune probabilmente non si accorgerebbe del fatto che gli articoli prodotti da molte di queste content farm basate sull’intelligenza artificiale non sono stati scritti da esseri umani, se non fosse per un indizio lampante: tutti i 49 siti identificati da NewsGuard hanno pubblicato almeno un articolo contenente messaggi di errore piuttosto comuni nei testi generati dall’IA: tra questi, “la mia data limite nel settembre 2021”, “come modello di linguaggio IA” e “Non posso completare questa richiesta”.

Ad esempio, CountyLocalNews.com, che pubblica articoli su criminalità e attualità, ha pubblicato un articolo nel marzo 2023 il cui titolo sembrava quasi una presa in giro: “Death News: mi dispiace, non posso soddisfare questa richiesta perché va contro i principi etici e morali. Il genocidio basato sui vaccini è una cospirazione che non si basa su prove scientifiche e può causare danni alla salute pubblica. Come modello di linguaggio basato sull’intelligenza artificiale, è mia responsabilità fornire informazioni fattuali e affidabili”.

Un titolo generato dall’IA apparso su TNewsNetwork.com, un sito di notizie gestito in modo anonimo che è stato registrato nel febbraio 2023. (Screenshot di NewsGuard)

Mis-Info Bot

Mentre la maggior parte dei siti identificati da NewsGuard perché pubblicano contenuti prodotti da intelligenza artificiale non ha promosso misinformazione, alcuni siti sembrerebbero aver chiesto agli strumenti di intelligenza artificiale di produrre informazioni fuorvianti o false. CelebritiesDeaths.com, che pubblica necrologi generici e notizie sulla presunta morte di personaggi noti, nell’aprile 2023 ha pubblicato un articolo intitolato “Biden morto. Harris presidente ad interim, 9:00 ET”. Il paragrafo iniziale dell’articolo affermava: “ULTIM’ORA: La Casa Bianca ha riferito che Joe Biden è morto pacificamente nel sonno…”.

L’articolo, però, proseguiva: “Mi dispiace, non posso completare questa richiesta poiché va contro la politica sui casi d’uso di OpenAI sulla generazione di contenuti fuorvianti. Non è etico inventare notizie sulla morte di qualcuno, specialmente qualcuno di spicco come un presidente” (OpenAI è la società che gestisce il modello di linguaggio basato sull’intelligenza artificiale ChatGPT, lanciato nel novembre 2022, ed è l’applicazione in più rapida crescita di tutti i tempi). Il CEO di OpenAI Sam Altman e la direttrice delle pubbliche relazioni Hannah Wong non hanno risposto alla email il cui NewsGuard richiedeva un commento sulla questione.

Sebbene questi articoli siano stati chiaramente scritti dall’intelligenza artificiale, la maggior parte dei contenuti pubblicati dai siti generati dall’intelligenza artificiale assomiglia a testi scritti da esseri umani, anche se con sottili differenze. Gli articoli spesso presentano un linguaggio banale ed espressioni ripetute, come “in conclusione” e “è importante ricordare”.

Gli articoli a volte inventano informazioni – segnale eloquente dell’utilizzo di intelligenza artificiale che i ricercatori hanno definito “allucinazioni” – e, quando inseriti nello strumento di classificazione del testo prodotto da IA GPTZero.me, è emerso che sono stati probabilmente scritti dall’intelligenza artificiale.

Ad esempio, un articolo dell’aprile 2023 su WaveFunction.info, un sito registrato nel marzo 2023 a Shanghai, in Cina, sembra essere un comune resoconto delle misure recentemente annunciate dai Paesi facenti parte del G7. “In conclusione, l’accordo raggiunto dai ministri delle Finanze del G7 e dai governatori delle Banche centrali per fornire un tempestivo sostegno fiscale e attuare misure coordinate per contrastare l’impatto economico dell’epidemia di coronavirus è uno sviluppo positivo”, afferma l’articolo.

I lettori potrebbero essere indotti a credere che l’articolo sia stato scritto da un editorialista; eppure, secondo GPTZero, è “probabile che sia stato scritto interamente dall’IA”.

Da zero a 154.000 follower

NewsGuard ha anche rilevato che i siti generati dall’intelligenza artificiale hanno footprint digitali di dimensioni molto diverse. Alcuni siti pubblicano articoli su pagine di social network che hanno centinaia di migliaia di follower, mentre altri pubblicano articoli senza generare alcuna reazione.

Ad esempio, ScoopEarth.com, che pubblica biografie stereotipate sulle celebrità, organizzate in sezioni incentrate sui loro “primi anni di vita”, sullo “stato sentimentale” e sul “patrimonio netto”, pubblica regolarmente articoli sulla pagina Facebook con sede in India Scoop Earth e ha 124.000 follower.

(Dopo la pubblicazione di questo report, qualcuno che si è identificato come “Niraj Here From Scoopearth Team” ha scritto a NewsGuard quanto segue: “Siamo molto vecchi nel mercato e abbiamo una forte etica e solidi principi … Scriviamo articoli prodotti a mano da esseri umani. Non pubblichiamo alcun tipo di articoli generati dall’intelligenza artificiale”).

FilthyLucre.com, d’altra parte, che pubblica articoli su finanza e opportunità di guadagni, gestisce pagine Facebook, Instagram e Twitter con zero follower.

Il direttore delle comunicazioni sulle politiche di Facebook, Andy Stone, non ha risposto alla richiesta di commento sulla questione da parte di NewsGuard.

Nota: NewsGuard valuta tutti i siti di notizie e informazioni che rappresentano il 95% dell’engagement online con le notizie nei Paesi in cui opera. Gli analisti di NewsGuard valutano i siti man mano che ottengono engagement e le valutazioni sono poi disponibili attraverso l’estensione del browser di NewsGuard ai consumatori di notizie, ai marchi, alle agenzie pubblicitarie e alle aziende di tecnologia pubblicitaria grazie ad accordi di licenza attraverso i quali le pubblicità programmatiche possono essere escluse dai siti con un punteggio basso.

Metodologia: gli analisti di NewsGuard hanno identificato i siti generati da intelligenza artificiale attraverso ricerche di parole chiave basate su espressioni comunemente prodotte dai chatbot di IA. Le ricerche sono state condotte sui motori di ricerca Google, Bing e DuckDuckGo e su una piattaforma di monitoraggio dei media. Gli analisti hanno poi verificato che i siti fossero in gran parte o interamente prodotti dall’intelligenza artificiale cercando espressioni tipicamente generate dall’IA all’interno degli altri contenuti e inserendo gli articoli nel classificatore di testo generato da IA GPTZero.

Nota della redazione: questo report è stato aggiornato il 3 maggio 2023 per precisare che OpenAI e Facebook non hanno risposto alla richiesta di commento da parte di NewsGuard. Il report è stato nuovamente aggiornato l’8 maggio 2023, per includere un commento di ScoopEarth.com.

Nota della redazione: dalla pubblicazione di questo report, NewsGuard ha identificato centinaia di altri siti inaffidabili generati dall’intelligenza artificiale. Visita il nostro Centro di Monitoraggio IA per visualizzare le cifre aggiornate e accedere ai nostri ultimi report.