OpenAI (ChatGPT) admet qu'il faut voler du contenu pour créer une IA

D’après OpenAI, il est naturel et nécessaire d’utiliser du contenu protégé par copyright pour entrainer son IA GPT.

L’année 2024 sera peut-être l’année de la fin du Far West pour les IA génératives. Alors que Midjourney est impliqué dans des accusations de plagiat concernant 4 700 artistes, la société OpenAI doit faire face à des accusations de la presse à propos de ChatGPT.

Dans les deux cas, les sociétés ont massivement utilisé du contenu sur Internet pour rendre leur IA générative vraiment intelligente et pertinente, quitte à reprendre du contenu protégé par le droit d’auteur, le copyright. La justice va devoir trancher s’il s’agit d’un usage acceptable ou non.

Créer une IA sans vol serait impossible

C’est dans un article du journal anglais The Guardian que l’on peut lire la première réponse d’OpenAI à l’accusation très sérieuse du New York Times. D’après la startup, associée à Microsoft dans le domaine, il serait tout simplement impossible de concevoir ses outils comme ChatGPT sans accès à du contenu protégé par le copyright.

Pour rappel, les outils d’IA génératives comme ChatGPT, Midjourney ou Stable Diffusion sont basés sur des Large Language Model, ou LLM. Pour gagner en intelligence, il faut les entrainer sur un très vaste corpus de données.

Or le principe même du copyright, en particulier au Royaume-Uni ou aux États-Unis, est qu’il devrait être impossible d’utiliser à des fins commerciales une œuvre sans l’accord de ses ayants droit. OpenAI n’est pas allé voir chaque propriétaire des milliers d’articles que GPT a consultés pour son entrainement.

Étant donné que le droit d’auteur couvre aujourd’hui pratiquement toutes les formes d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux – il serait impossible d’entrainer les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le droit d’auteur.

On retrouve dans ce raisonnement une philosophie aussi ancienne que la Silicon Valley : il faut parfois ignorer la loi pour innover et devenir assez gros pour forcer la loi à s’adapter. C’est le bras de fer que vont désormais essayer les nouvelles sociétés de l’IA générative pour réclamer que l’usage illégal, qu’ils admettent eux-mêmes avoir fait des ressources sur Internet, doive devenir légal.

En d’autres termes, OpenAI aimerait pouvoir exploiter gratuitement du contenu qui a demandé un investissement (le salaire des journalistes dans le cas d’un média par exemple), pour en tirer ensuite un gain commercial à travers la vente des services autour de ChatGPT et Dall-E.

Les mesures d’OpenAI pour respecter les médias

Sentant que sa position pouvait être difficile à défendre publiquement, OpenAI a tout de même fait un rappel de certaines mesures mises en place pour respecter les médias. Tout d’abord, le service offre dorénavant une méthode pour empêcher GPT d’accéder aux données en ligne du média. Une solution utilisée par le New York Times depuis l’été 2023, mais qui ne règle pas la question de l’entrainement de l’IA avant cette date.

De plus, OpenAI qualifie la « régurgitation » que peut faire ChatGPT de bugs à corriger. Il s’agit ici de la possibilité pour ChatGPT de fournir des extraits précis au mot près d’articles payants du New York Times sans citer la source en question. Le New York Times a largement documenté ce fait dans les preuves accompagnant la déclaration du procès.

Enfin, en dehors de cette réponse publique, OpenAI cherche surtout à passer des partenariats avec les principaux groupes média pour obtenir le droit, dans le cadre du copyright cette fois, d’accéder aux données. La firme a déjà réussi à signer avec Associated Press (l’équivalent américain de l’AFP), et Axel Springer (Business Insider).

Téléchargez notre application Android et iOS ! Vous pourrez y lire nos articles, dossiers, et regarder nos dernières vidéos YouTube.