Entre IA et auteurs, une véritable guerre se joue devant nos yeux

A qui appartiennent les contenus produits à la sueur d’un front humain? Pas aux entreprises d’IA qui s’en servent pour alimenter leurs modèles de langage, tempêtent les industries concernées, grands journaux en tête. Echaudés par la révolution du web, ils craignent de se faire piller sans contrepartie, et durcissent le ton pour avoir leur part du gâteau. Les prétoires sont d’ores et déjà l’objet de luttes homériques qui façonneront le futur du secteur.

Anas Shahid, pour Heidi.news
Anas Shahid, pour Heidi.news

Au-delà des cadres législatifs établis par des instances gouvernementales, ce sont les jugements futurs, issus des multiples procès intentés contre des entreprises spécialisées du domaine, qui détermineront l'avenir des intelligences artificielles génératives.

La guerre des prétoires

Au cours de l'année écoulée, programmeurs, artistes, auteurs, humoristes, maisons de disques et groupes médiatiques ont engagé des poursuites judiciaires contre des sociétés technologiques comme OpenAI, Microsoft, Stability AI, Midjourney, Meta et Anthropic. Les plaignants soutiennent que ces sociétés ont enfreint les droits d'auteur en exploitant, à leur insu, leur contenu protégé afin d’entraîner leurs modèles d'intelligence artificielle.

La question cruciale est de savoir si l'utilisation massive de données pour entraîner des grands modèles de langage (LLM) relève de la doctrine du «fair use», un principe juridique du droit d'auteur anglo-saxon qui autorise certaines utilisations sans consentement préalable, pour peu que l'œuvre soit transformée de façon substantielle. Cette problématique s'étend à la génération d'images par IA qui imite le style d'artistes spécifiques, ce qui pourrait dès lors constituer une infraction avérée.

New York Times vs OpenAI et Microsoft

L'une des affaires majeures en cours est celle du New York Times contre OpenAI et Microsoft. Le journal américain accuse les deux géants du numérique d'avoir exploité son contenu journalistique sans aucun consentement, afin d'entraîner leurs agents conversationnels ChatGPT et Copilot. Ce faisant, ils se retrouvent de facto en position de rivaliser avec le Times en tant que source d'information sur le web.

Dans sa plainte, le New York Times affirme, exemples à l'appui, que ChatGPT a reproduit intégralement – et non pas transformé – certains des articles de sa base, dépassant ce qui est normalement admis sous la doctrine de l'usage loyal. Selon le quotidien, cette pratique nuit à ses relations avec les lecteurs, et affecte de manière significative ses revenus issus des abonnements, publicités et partenariats.

Le journal soutient en outre que l'utilisation de son contenu sans autorisation a contribué à générer des profits substantiels pour OpenAI et Microsoft et, par conséquent, réclame des milliards en dommages-intérêts pour compensation.

OpenAI a quant à lui opté pour une contre-attaque franche: selon l’entreprise derrière ChatGPT, le Times aurait manipulé son moteur conversationnel pour donner de la matière à sa plainte. Le journal aurait réalisé «des dizaines de milliers d'essais dans le but de produire des résultats hautement irréguliers», en employant «des commandes trompeuses qui enfreignent ouvertement les conditions d'utilisation d'OpenAI».

Combattre ou coopérer?

Si le Times a opté pour l’offensive, d’autres groupes de presse ont préféré adopter une attitude plus conciliante, en nouant des partenariats avec OpenAI. C’est le cas de l’agence de presse américaine Associated Press (AP) et d’Axel Springer, éditeur de Bild ou Die Welt. Tout récemment, ils ont été rejoints par le groupe français Le Monde (Le Monde, L’Obs, Télérama, Courrier international…) et son équivalent espagnol Prisa (El Pais, HuffPost Espagne…). Ceux-ci ont conclu des accords de licence, qui autorisent ChatGPT à accéder à leurs articles pour l'entraînement de ses modèles.

Vous ne passerez pas

Passé la surprise des premiers mois, les journaux ont renforcé leurs défenses. Depuis le mois d'août, plus de 500 organes de presse internationaux, dont le New York Times, le Wall Street Journal, El Pais et Le Monde (ainsi que Le Temps et Heidi.news, ndlr.), ont bloqué l’accès à leurs contenus pour l'entraînement des futures versions de ChatGPT, soulignant la nécessité pour OpenAI de trouver des alternatives pour assurer la mise à jour de ses modèles.

En effet, si des sources connues limitent l'accès à leur contenu, le modèle linguistique d’OpenAI manquera d'informations récentes, ce qui pourrait à terme compromettre la pertinence et la qualité de ses réponses. Par ailleurs, si le public constate que l'IA est privée d'accès à des informations de sources fiables, cela pourrait affaiblir drastiquement la confiance envers le système.

Les agents conversationnels étant sur le point de transformer la manière dont les utilisateurs interagissent avec l'internet, les éditeurs considèrent le paiement équitable de leurs données comme une question existentielle. Il en va de leur survie.

D'autres secteurs analogues semblent déjà en ressentir les effets, selon The Economist. Dans un article publié en août 2023 sur SSRN, des chercheurs en économie numérique de l’Université Washington à Saint-Louis et de New York University ont essayé d’estimer l’effet des IA génératives sur le marché, via les données de la plateforme de freelancing Upwork. Leurs résultats suggèrent que les revenus des créatifs indépendants – écrivains, illustrateurs et autres – ont chuté depuis novembre 2022, date à laquelle ChatGPT est apparu sur le marché.

Révélations sur l'entraînement des modèles

L’une des principales inquiétudes liées à l’IA générative réside dans son développement opaque. En effet, Meta ou OpenAI ne dévoilent pas les textes spécifiques ou les sources utilisées pour entraîner leurs algorithmes.

L’humoriste et écrivaine Sarah Silverman est l'un des trois auteurs à avoir déposé un recours collectif contre OpenAI et Meta, affirmant que leurs livres ont été aspirés depuis des «bibliothèques fantômes» –  des bases de données illégales mais aisément accessibles qui offrent toutes sortes d’œuvres protégées au téléchargement, sans se soucier des droits d’auteurs.

Ces allégations restaient à étayer par des preuves concrètes, jusqu’à ce qu’Alex Reisner, développeur et journaliste, mène une investigation sur le jeu de données employées par Meta pour son modèle de langage de grande taille, LLaMA. Les conclusions de ses recherches, parues dans The Atlantic, montrent que cette base de données a utilisé des archives d’œuvres piratées. L’un d’entre elles contient plus de 170'000 titres d'auteurs renommés tels que James Patterson, Stephen King, Haruki Murakami ou encore Margaret Atwood.

Le problème du «désapprentissage»

On peut se demander s'il ne serait pas plus simple de tout bonnement supprimer les contenus litigieux des systèmes d'IA. Il semble que cette solution pose plus de problèmes qu’elle n’en résout.

Supprimer des informations ciblées au sein des systèmes d'IA générative est quasiment impossible. Il faut pouvoir éliminer l’empreinte sur les modèles actuels des données jugées illicites. Or, ces IA étant essentiellement des boîtes noires, le processus s’avère étonnamment complexe – un peu comme demander à un être humain d’oublier un souvenir.

Pour OpenAI, démanteler des modèles linguistiques aussi avancés que GPT-4 pour s’affranchir des dépendances à des contenus protégés, comme le réclame le NY Times, serait une catastrophe. Cela pourrait impliquer de reconstituer un nouveau dataset d'entraînement exempt de contenus litigieux, puis de répéter le processus d'apprentissage, extrêmement coûteux, pour un résultat a priori moins efficace.

OpenAI et d'autres organisations travaillent à développer des méthodes pour «désapprendre» certaines données, mais elles sont en cours de développement et ne sont pas encore standardisées, ni parfaitement efficaces.

Dans l'hypothèse où ChatGPT serait considéré comme un outil facilitant le piratage, la législation sur le droit d'auteur pourrait théoriquement conduire à des ordonnances de destruction des modèles incriminés. Il reste peu probable que des mesures aussi extrêmes soient prises – ce serait en tout cas une première dans le secteur de l’IA.

La perspective de devoir se priver des outils d'assistance numérique comme ChatGPT est pratiquement impensable. Leurs rôles et leur prolifération dans tous les aspects de notre vie et à travers tous les secteurs économiques sont déjà devenus incontournables, comme nous aurons l’occasion de le voir au fil de cette Exploration.

Dix procès notables en cours

1. Les développeurs vs GitHub, Microsoft et OpenAI

La première grande action en justice concernant l’IA a été initiée par un collectif de développeurs contre Open AI et la plateforme GitHub, propriété de Microsoft. Les firmes sont accusées d'avoir illégalement utilisé des logiciels open source pour développer, au sein de la plateforme GitHub utilisée par les développeurs du monde entier, un outil d'IA permettant de générer du code de manière autonome.

2. Les géants de l'industrie musicale vs Anthropic

Universal Music, ABKCO et Concord Publishing engagé des poursuites contre la société d'intelligence artificielle américaine Anthropic. Ils accusent cette dernière de violer les droits d'auteur en utilisant leurs paroles sans autorisation, parmi l'abondance de contenus qu'elle a aspirés du Web pour perfectionner son chatbot Claude.

Il s'agit de la première affaire relative à l'exploitation des paroles de chansons par une IA, et la première visant directement Anthropic.

3. La banque d'images Getty vs Stability AI

Getty Images attaque attaque Stability AI pour violation du droit d’auteur. La banque d’images accuse l’entreprise d’avoir récupéré 12 millions d'images issues de son catalogue pour entraîner Stable Diffusion, son système de génération d'images par intelligence artificielle. Et ce, sans autorisation, ni attribution, ni aucune compensation financière, ce qui se rapproche du pillage pur et simple.

4. Les artistes visuels vs Stability AI, DeviantArt et Midjourney

Trois artistes visuels, dont Sarah Andersen, ont déposé un recours collectif contre Stability AI, DeviantArt et Midjourney. Au nom de milliers de créateurs, elles revendiquent «le consentement, la reconnaissance, et la compensation» pour leur travail, qui a été extrait du web à leur insu et traité par l’IA.

5. Les écrivains vs Open AI

L'Authors Guild, la prestigieuse faîtière des écrivains américains basée à New York, a déposé une plainte collective contre OpenAI. Dix-sept écrivains renommés, dont George R.R. Martin, John Grisham et George Saunders, se sont ralliés à cette action.

6. Sarah SIlverman vs OpenAI et Meta

La célèbre humoriste et autrice américaine Sarah Silverman a déposé plainte contre OpenAI, auprès de deux écrivains de fantasy et de science-fiction. Ils ont également poursuivi Meta, la société mère de Facebook, qui possède son propre modèle de langage étendu appelé LLaMa, pour s'être entraîné sur leur contenu sans autorisation.

7. Tous les internautes vs OpenAI

Clarkson Law Firm, un cabinet d'avocats californien, a lancé une action collective contre OpenAI, sur la base d’un argument juridique inédite. L’entreprise derrière ChatGPT aurait enfreint les droits de millions d’internautes – enfants compris – en exploitant leurs commentaires sur les réseaux sociaux, leurs articles de blogs, leurs contributions à Wikipédia, leurs recettes de cuisine familiales et leurs informations personnelles. La plainte a fini par être retirée, en attendant peut-être un nouveau dépôt consolidé.

8. The New York Times vs OpenAI

Cette procédure judiciaire, initiée par le New York Times contre OpenAI et Microsoft, constitue une première dans le secteur des grands éditeurs de presse. Le litige en question se focalise sur l'utilisation par OpenAI et Microsoft du contenu journalistique du Times pour entraîner leurs chatbots ChatGPT et Copilot.

9. The Intercept Media et Raw Story Media vs OpenAI

Les plaintes de The Intercept Media et Raw Story Media contre OpenAI innovent juridiquement en invoquant des violations présumées du Digital Millennium Copyright Act (DMCA), au-delà des accusations classiques d'abus de droit d'auteur. Ils reprochent spécifiquement à OpenAI d'avoir supprimé volontairement des informations permettant l’identification des œuvres utilisées pour l’entraînement de leur modèle, comme les titres et noms d’auteurs.

10. Nvidia, accusé d’abus de droit d’auteur

Nividia, le géant des puces graphiques (GPU) si utiles pour faire tourner les modèles d’IA, est accusé par trois écrivains, dont l’auteur de romans d’horreur populaires Brian Keene, d’avoir exploité leurs créations sans permission préalable pour enrichir sa plateforme d'intelligence artificielle, NeMo, destinée à faciliter la création de modèles d’IA adaptés aux besoins des entreprises.