Pas suffisamment payés, les travailleurs qui entraînent les IA utilisent... de l'IA

Une étude révèle que beaucoup de travailleurs entraînant les modèles d’intelligence artificielle utiliseraient elles-mêmes de l’IA dans le cadre de leur travail. De quoi remettre en question la valorisation de ces tâches d’entraînement, souvent extrêmement faible.

Deux IA, représentées par des robots, s’affrontent // Source : Image créée par Frandroid avec Midjourney

Le magazine de technologie du MIT, le MIT Technology Review, rapporte une étude de l’École Polytechnique Fédérale de Lausanne à propos de la manière dont sont entraînées les intelligences artificielles. Elles seraient de plus en plus entraînées… par d’autres intelligences artificielles. La faute à une rémunération des travailleurs trop faible, encouragés à automatiser leurs tâches.

Pour être fiable, l’IA a besoin d’être entraînée

Rappelons comment les modèles d’intelligence sont entraînés. Vous le savez sûrement, ils ont besoin de quantités gigantesques de données. Cependant, toutes les données ne se valent pas : elles doivent être les plus précises et les plus fiables, puisqu’elles déteindront sur les capacités de l’IA finale.

La page d’accueil de Mechanical Turk // Source : Frandroid

Comme le rappelle le MIT Technology Review, « de nombreuses entreprises rémunèrent des travailleurs occasionnels sur des plateformes », en prenant l’exemple de Mechanical Turk d’Amazon, la plus connue. Résolution de Captcha, étiquetage de données ou annotations de texte : autant de « micro-tâches » à réaliser, le plus souvent par des habitants de pays pauvres ou en voie de développement. Un mode de travail mis en avant notamment par Antonio Casilli dans son ouvrage En attendant les robots.

Pour gagner plus, il faut travailler plus vite : la solution, c’est l’IA

Ces travailleurs sont payés à la tâche, quelques centimes à chaque fois. Pour arriver à un taux horaire convenable, ils sont incités à faire au plus vite. Pour comprendre les mécaniques d’entraînement, 44 personnes ont été engagées par une équipe de chercheurs de l’École Polytechnique Fédérale de Lausanne via la plateforme Mechanical Turk afin de résumer 16 extraits d’articles de recherche médicale.

Une indication donnée par les chercheurs sur Mechanical Turk // Source : Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks

Les chercheurs ont analysé les résumés produits à l’aide d’un modèle d’IA formé par leurs soins, conçu pour déterminer si un texte a été généré ou non par ChatGPT. Les signes sont divers : des formes de phrases similaires, un manque de variété dans le choix des mots. On apprend également qu’ils ont vérifié les frappes de clavier pour savoir si les travailleurs engagés avaient copié-collé leurs résumés.

ChatGPT reconnaît à demi-mot le recours à de la sous-traitance pour l’étiquetage de ses données // Source : Frandroid

L’estimation résultante est qu’entre 33 et 46 % des 44 travailleurs auraient recouru à des modèles de générations de texte comme ChatGPT d’OpenAI. Pour les chercheurs Veniamin Veselovsky, Manoel Horta Ribeiro et Robert West, ce pourcentage pourrait augmenter dans les années à venir, les IA devenant de plus en plus puissantes et de plus en plus accessibles. Le coauteur Robert West a précisé sa pensée : « Je ne pense pas que ce soit la fin des plateformes de crowdsourcing. Cela change simplement la dynamique. »

Pourquoi la revalorisation du travail d’entraînement des IA est nécessaire

Le problème avec cette utilisation de ChatGPT dans l’entraînement d’IA, c’est que cela pourrait progressivement entraîner des erreurs dans les modèles, déjà sujets à des erreurs, on le constate extrêmement bien avec ChatGPT ou Midjourney.

[see_more slots= »1648629

Pour le chercheur en informatique de l’université d’Oxford Ilia Shumailov, « les erreurs peuvent être absorbées par ces modèles et amplifiées au fil du temps, ce qui rend leur origine de plus en plus difficile à déterminer ». Midjourney pourrait à terme devenir moins performant, puisqu’il se base sur des images publiées sur Internet. Seulement voilà : à cause de son succès, de très nombreuses images générées par lui-même sont apparues sur Internet. Même chose pour ChatGPT et les outils de génération de texte : se basant sur des contenus en ligne, ils génèrent des textes qui sont amenés à être publiés. Le serpent qui se mord la queue, en somme.

L’étude susmentionnée montre la nécessité de vérifier si des données ont été produites par une IA ou par un humain, et ce, d’autant plus sur des plateformes d’entraînement. Les contrôles de ces dernières devraient alors être renforcés et les entreprises d’IA auraient davantage intérêt à internaliser cette phase d’entraînement. Un mode de sous-traitance qui a pour conséquence l’exploitation de travailleurs pauvres : c’est ce qu’avait démontré une enquête du Time en janvier dernier. Des travailleurs kényans étaient payés moins de deux dollars de l’heure pour entraîner des modèles d’IA développés par OpenAI.

If a system is built on exploiting and underpaying workers, it's always vulnerable to "cheating" (=from their perspective, stopping wage theft). No need to ban text generation tools. We do need to pay decent wages and to acknowledge the status of workers. https://t.co/I5N8S75xtv
— Casilli (@AntonioCasilli) June 27, 2023

Du côté du sociologue Antonio Casilli, le problème est assez simple : « Si un système est construit sur l’exploitation et la sous-rémunération des travailleurs, il est toujours vulnérable à la « tricherie ». » Selon lui, il est « inutile de bannir les outils de génération de texte. Nous devons payer des salaires décents et reconnaître le statut des travailleurs. » Il se montre favorable à la généralisation du statut de salarié et non de travailleur indépendant pour ceux qui entraînent des IA, notamment sur des plateformes spécialisées.

Envie de rejoindre une communauté de passionnés ? Notre Discord vous accueille, c’est un lieu d’entraide et de passion autour de la tech.