
Derrière les IA généralistes modernes se trouvent des données. Beaucoup, beaucoup de données. Pour mieux comprendre le monde, les grands modèles de langage type ChatGPT, Gemini ou Claude ont dû ingérer toute la production écrite du web, et souvent même toute la production littéraire de l’histoire humaine.
Ce dernier point pourrait d’ailleurs provoquer des maux de tête à tous les avocats spécialisés en propriété intellectuelle, comme le souligne une nouvelle étude mêlant Harry Potter, IA et Llama 3.1.
Des passages entiers mémorisés
Comme le souligne la newsletter Understanding AI, le dernier modèle d’IA de Facebook, surnommé Llama 3.1, est capable de citer impeccablement presque 42 % du contenu d’Harry Potter à l’école des sorciers, premier tome de la célébrissime saga de J.K Rowling. Comme une machine à plagier qui recracherait des versions étrangement similaires des grands classiques de la littérature.
Comme le prouve une étude statistique menée sur plusieurs grands modèles d’IA, lorsque Llama 3.1 reçoit une requête pour compléter des citations d’Harry Potter, le modèle a alors de grandes chances de recracher verbatim (ou presque) ce qui est écrit dans le livre. Le constat est similaire pour d’autres grandes œuvres de la littérature anglophone, comme Le Hobbit ou 1984.

arXiv:2505.12546
« Ces probabilités sont trop élevées pour être simplement du hasard. Il s’agit clairement de mémorisation », note l’étude (qui doit encore être approuvée par un comité de rédaction scientifique). « Il existe des preuves claires que Llama 3.1 a mémorisé l’intégralité ou presque d’Harry Potter à l’école des sorciers », assène l’équipe de recherche.
Du contenu protégé
Cela pose d’importants problèmes pour Meta. En effet, beaucoup des livres cités par Llama 3.1 sont encore protégés par le droit d’auteur et ne peuvent gobés tout cru par des IA sans demander l’autorisation aux auteurs, autrices ou maison d’édition. Malheureusement, l’étude tend à montrer que c’est exactement cela qui s’est passé.
Pour aller plus loin
OpenAI (ChatGPT) admet qu’il faut voler du contenu pour créer une IA
Pour ceux qui suivent les polémiques autour de l’IA de près, cela n’a rien d’exactement étonnant. Lors d’un procès, il a été prouvé que Meta a récemment piraté des millions de livres pour entraîner son IA. Livres qui ne sont évidemment pas tous dans le domaine public, puisqu’ils ont été téléchargés à partir de sites à la légalité douteuse. De quoi donner du grain à moudre aux défenseurs de la propriété intellectuelle face aux acharnés de l’IA ?
Pour ne rater aucun bon plan, rejoignez notre nouveau channel WhatsApp Frandroid Bons Plans, garanti sans spam !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix