Comment Harry Potter menace l’existence de l’IA de Facebook

Il semblerait que les grands modèles de langage de chez Meta aient ingurgité un peu trop de contenu protégé par le droit d’auteur. Le chatbot de l’entreprise peut citer sans problème des passages entiers d’Harry Potter.

Derrière les IA généralistes modernes se trouvent des données. Beaucoup, beaucoup de données. Pour mieux comprendre le monde, les grands modèles de langage type ChatGPT, Gemini ou Claude ont dû ingérer toute la production écrite du web, et souvent même toute la production littéraire de l’histoire humaine.

Ce dernier point pourrait d’ailleurs provoquer des maux de tête à tous les avocats spécialisés en propriété intellectuelle, comme le souligne une nouvelle étude mêlant Harry Potter, IA et Llama 3.1.

Des passages entiers mémorisés

Comme le souligne la newsletter Understanding AI, le dernier modèle d’IA de Facebook, surnommé Llama 3.1, est capable de citer impeccablement presque 42 % du contenu d’Harry Potter à l’école des sorciers, premier tome de la célébrissime saga de J.K. Rowling. Comme une machine à plagier qui recracherait des versions étrangement similaires des grands classiques de la littérature.

Comme le prouve une étude statistique menée sur plusieurs grands modèles d’IA, lorsque Llama 3.1 reçoit une requête pour compléter des citations d’Harry Potter, le modèle a alors de grandes chances de recracher verbatim (ou presque) ce qui est écrit dans le livre. Le constat est similaire pour d’autres grandes œuvres de la littérature anglophone, comme Le Hobbit ou 1984.

Un graphique représentant la mémorisation du premier tome d’Harry Potter sur plusieurs modèles d’IA. Plus la ligne est épaisse plus il y a de chance que l’IA ressorte du contenu écrit dans le livre. // Crédit :
arXiv:2505.12546

« Ces probabilités sont trop élevées pour être simplement du hasard. Il s’agit clairement de mémorisation », note l’étude (qui doit encore être approuvée par un comité de rédaction scientifique). « Il existe des preuves claires que Llama 3.1 a mémorisé l’intégralité ou presque d’Harry Potter à l’école des sorciers », assène l’équipe de recherche.

Du contenu protégé

Cela pose d’importants problèmes pour Meta. En effet, beaucoup des livres cités par Llama 3.1 sont encore protégés par le droit d’auteur et ne peuvent gobés tout cru par des IA sans demander l’autorisation aux auteurs, autrices ou maisons d’édition. Malheureusement, l’étude tend à montrer que c’est exactement ce qui s’est passé.

Pour aller plus loin
OpenAI (ChatGPT) admet qu’il faut voler du contenu pour créer une IA

Pour ceux qui suivent les polémiques autour de l’IA de près, cela n’a rien d’étonnant. Lors d’un procès, il a été prouvé que Meta a récemment piraté des millions de livres pour entraîner son IA. Livres qui ne sont évidemment pas tous dans le domaine public, puisqu’ils ont été téléchargés à partir de sites à la légalité douteuse. De quoi donner du grain à moudre aux défenseurs de la propriété intellectuelle face aux acharnés de l’IA ?

Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !