Comment Harry Potter menace l’existence de l’IA de Facebook

 
Il semblerait que les grands modèles de langage de chez Meta aient ingurgité un peu trop de contenu protégé par le droit d’auteur. Le chatbot de l’entreprise peut citer sans problème des passages entiers d’Harry Potter.
Crédit : Warner Bros Pictures

Derrière les IA généralistes modernes se trouvent des données. Beaucoup, beaucoup de données. Pour mieux comprendre le monde, les grands modèles de langage type ChatGPT, Gemini ou Claude ont dû ingérer toute la production écrite du web, et souvent même toute la production littéraire de l’histoire humaine.

Ce dernier point pourrait d’ailleurs provoquer des maux de tĂŞte Ă  tous les avocats spĂ©cialisĂ©s en propriĂ©tĂ© intellectuelle, comme le souligne une nouvelle Ă©tude mĂŞlant Harry Potter, IA et Llama 3.1.

Des passages entiers mémorisés

Comme le souligne la newsletter Understanding AI, le dernier modèle d’IA de Facebook, surnommé Llama 3.1, est capable de citer impeccablement presque 42 % du contenu d’Harry Potter à l’école des sorciers, premier tome de la célébrissime saga de J.K. Rowling. Comme une machine à plagier qui recracherait des versions étrangement similaires des grands classiques de la littérature.

Comme le prouve une Ă©tude statistique menĂ©e sur plusieurs grands modèles d’IA, lorsque Llama 3.1 reçoit une requĂŞte pour complĂ©ter des citations d’Harry Potter, le modèle a alors de grandes chances de recracher verbatim (ou presque) ce qui est Ă©crit dans le livre. Le constat est similaire pour d’autres grandes Ĺ“uvres de la littĂ©rature anglophone, comme Le Hobbit ou 1984.

Un graphique reprĂ©sentant la mĂ©morisation du premier tome d’Harry Potter sur plusieurs modèles d’IA. Plus la ligne est Ă©paisse plus il y a de chance que l’IA ressorte du contenu Ă©crit dans le livre. // CrĂ©dit :
arXiv:2505.12546

« Ces probabilitĂ©s sont trop Ă©levĂ©es pour ĂŞtre simplement du hasard. Il s’agit clairement de mĂ©morisation », note l’étude (qui doit encore ĂŞtre approuvĂ©e par un comitĂ© de rĂ©daction scientifique). « Il existe des preuves claires que Llama 3.1 a mĂ©morisĂ© l’intĂ©gralitĂ© ou presque d’Harry Potter Ă  l’école des sorciers », assène l’équipe de recherche.

Du contenu protégé

Cela pose d’importants problèmes pour Meta. En effet, beaucoup des livres cités par Llama 3.1 sont encore protégés par le droit d’auteur et ne peuvent gobés tout cru par des IA sans demander l’autorisation aux auteurs, autrices ou maisons d’édition. Malheureusement, l’étude tend à montrer que c’est exactement ce qui s’est passé.

Pour aller plus loin
OpenAI (ChatGPT) admet qu’il faut voler du contenu pour crĂ©er une IA

Pour ceux qui suivent les polémiques autour de l’IA de près, cela n’a rien d’étonnant. Lors d’un procès, il a été prouvé que Meta a récemment piraté des millions de livres pour entraîner son IA. Livres qui ne sont évidemment pas tous dans le domaine public, puisqu’ils ont été téléchargés à partir de sites à la légalité douteuse. De quoi donner du grain à moudre aux défenseurs de la propriété intellectuelle face aux acharnés de l’IA ?


Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !

Recherche IA boostée par
Perplexity