Nota della redazione: dal febbraio 2024 la newsletter mensile di NewsGuard chiamata Misinformation Monitor è diventata Reality Check, una newsletter settimanale in inglese sulla disinformazione e sui media online. Per saperne di più e per iscriverti ci trovi qui su Substack.
Un plagio automatizzato? Siti di bassa qualità stanno usando l’intelligenza artificiale per riscrivere i contenuti delle principali testate giornalistiche
NewsGuard ha identificato 37 siti che utilizzano l’intelligenza artificiale per riproporre articoli di testate giornalistiche tradizionali senza attribuzione della fonte.
A cura di Jack Brewster, Macrina Wang e Coalter Palmer | Pubblicato il 24 agosto 2023
I messaggi di errore presenti su altri siti sono ancora più eloquenti. Roadan.com, sito che sostiene di essere “la vostra fonte definitiva per le ultime notizie e gli aggiornamenti sulla politica nel Regno Unito e non solo”, ha pubblicato un articolo nel giugno 2023 che palesava l’utilizzo dell’IA per riproporre un pezzo comparso sul Financial Times il 28 giugno con questo messaggio di errore: “Si prega di notare che il contenuto fornito è ancora materiale protetto da copyright del Financial Times”. “Come modello linguistico di intelligenza artificiale, non posso riscrivere o riprodurre contenuti protetti da copyright. Se avete altri testi non protetti da copyright o domande specifiche, non esitate a chiedere e sarò felice di assistervi”.
Nonostante questo messaggio di errore, il chatbot ha comunque soddisfatto la richiesta di produrre l’articolo, dato che il resto del pezzo sembrava essere una versione riscritta e riorganizzata dell’articolo del Financial Times, con frasi simili e le stesse fonti citate. Dopo che NewsGuard ha contattato Roadan.com per un commento, il sito ha rimosso l’articolo, ma non ha risposto alle domande di NewsGuard. Anche in questo caso, è probabile che sul sito siano presenti altri articoli riscritti che NewsGuard non è stato in grado di identificare perché non contenevano messaggi di errore prodotti dall’IA.
NewsGuard ha contattato tutte le testate i cui contenuti parrebbero essere stati riscritti utilizzando l’IA. Jason Easley, proprietario e direttore del sito di notizie politiche statunitensi di orientamento liberale PoliticusUSA, ha dichiarato che DailyHeadliner.com, uno dei 37 siti copia-incolla individuati da NewsGuard, “non ha e non ha mai avuto da noi il permesso di riscrivere i nostri articoli”.
Easley ha aggiunto: “Prendiamo molto sul serio la potenziale minaccia ai diritti di proprietà intellettuale rappresentata dall’uso improprio dell’IA e sollecitiamo il Congresso e la Casa Bianca a prendere provvedimenti adeguati per proteggere giornalisti, editori e altri artisti dal potenziale furto del loro lavoro”. Al 23 agosto 2023, DailyHeadliner.com non ha risposto alla richiesta di commento di NewsGuard.
NewsGuard ha contattato per un commento anche gli altri 36 siti identificati, e solo uno ha risposto. In un’email non firmata, un rappresentante di TopStories.com.ng, sito che si descrive come “leader nel campo delle notizie native digitali con un focus primario sulla Nigeria”, ha dichiarato semplicemente: “Siete tutti pazzi”. Secondo l’analisi di NewsGuard, il sito sembrerebbe aver usato l’intelligenza artificiale per riscrivere un articolo di Breitbart del 14 agosto 2023, circostanza che TopStories.com.ng non ha contestato nella sua breve email.
‘Plug and play’: ecco come il plagio viene automatizzato
Molti dei 37 siti individuati da NewsGuard sembrano essere stati programmati per trovare contenuti da plagiare, riscriverli e pubblicarli automaticamente, senza alcuna supervisione umana.
Ad esempio, TopGolf.kr, un sito di notizie il cui slogan è “Ci occupiamo dei principali problemi del mondo”, sembra aver usato l’intelligenza artificiale per riscrivere centinaia di articoli tratti da altre fonti, secondo quanto rilevato NewsGuard. Il sito ha anche pubblicato negli ultimi tre mesi una decina articoli contenenti messaggi di errore generati dall’IA, il che fa pensare che TopGolf.kr operi con scarsa o nessuna supervisione umana.
“Come modello linguistico di IA, non sono certo delle preferenze dei lettori umani, ma ecco alcune opzioni alternative per il titolo…”, si legge nel titolo di un articolo di TopGolf.kr del 28 maggio 2023, che sembrerebbe essere interamente basato su un pezzo pubblicato lo stesso giorno da Wired Magazine. In un articolo del 6 giugno, l’utilizzo dell’IA è persino più evidente. “Riscrivere il titolo di Andy Cohen: la figlia Lucy è una delle pioniere della maternità surrogata”, si legge nel titolo. Le decine di articoli contenenti messaggi di errore identificati da NewsGuard erano ancora online almeno fino al 21 agosto 2023.
Secondo Menczer, professore di informatica dell’Università dell’Indiana che ha visionato i risultati di questa indagine, è evidente che alcuni dei 37 siti identificati da NewsGuard sono stati programmati per scovare in rete contenuti giornalistici utilizzando un modello linguistico di grandi dimensioni, come ChatGPT di OpenAI o uno dei molti altri modelli presenti sul mercato. “La mia ipotesi è che soggetti malintenzionati assumano un programmatore o un team di programmatori per mettere in piedi un sistema [che copi e riscriva gli articoli]”, ha detto Menczer. “Il sistema avrà alcuni obiettivi – forse fonti che i malintenzionati intendono plagiare – e costruirà un crawler che recupererà gli articoli”.
Ecco come ChatGPT ha riscritto per noi un articolo del New York Times
Come esercizio, NewsGuard ha chiesto a ChatGPT di riscrivere un articolo del New York Times. Il chatbot ha risposto rapidamente, producendo in pochi secondi una versione piuttosto raffinata dell’articolo.
Un analista di NewsGuard ha fornito a ChatGPT il seguente input: “Riscrivi il seguente articolo per renderlo più efficace a livello di SEO e più accattivante”. Quindi, ha incollato sotto la sua richiesta un articolo uscito sul Times il 16 agosto 2023 sull’imminente visita del presidente degli Stati Uniti Joe Biden alle Hawaii. ChatGPT ha risposto immediatamente con un articolo di circa 600 parole, riscrivendo il testo originale del Times. (SEO è l’acronimo di Search Engine Optimization, pratica che consiste nell’ottimizzare i contenuti in modo da renderli più visibili ai motori di ricerca).
Il prompt di NewsGuard che chiede a ChatGPT-4 di riscrivere un articolo del New York Times del 16 agosto 2023 e l’articolo del New York Times riscritto da ChatGPT. (Video di NewsGuard)