
Si vous avez déjà coché une case au hasard dans un QCM en espérant obtenir la bonne réponse, vous avez plus en commun avec les IA génératives que vous pouvez le penser. C’est le point de départ d’un article de recherche publié par des ingénieurs de chez OpenAI qui explique « pourquoi les modèles de langage hallucinent ».
Pour le dire simplement, ChatGPT, Claude, Mistral ou tous les autres ont beaucoup de mal à admettre quand ils ne savent pas certaines choses et inventent donc des réponses « probables » en espérant tomber juste… Quitte à tromper leurs auditoires, note Computer World.
Pénaliser l’incertitude…
« Les grands modèles de langage hallucinent, car les phases d’entraînement et d’évaluation récompensent le fait de deviner plutôt que d’avouer un doute », détaille l’étude. Même entraînées sur les données les plus solides et fiables du monde, les IA génératives, comme ChatGPT, génèrent des fausses informations, car leur manière de fonctionner « ne fait pas de différences entre des affirmations erronées et des faits ».
Le problème avec les robots conversationnels à tout faire est qu’ils sont en fait « optimisés pour les tests scolaires où deviner en cas d’incertitude améliore les performances ». Autrement dit, ChatGPT et consorts sont des bêtes à concours à qui l’on n’a jamais appris « l’importance d’exprimer ses incertitudes », car la matière est surtout enseignée hors des murs de l’école.
« Les examens ne représentent qu’une petite partie de l’apprentissage humain », expliquent les auteurs. « Inventer des dates d’anniversaire créera rapidement des situations gênantes » entre humains de chairs et d’os, pointent par exemple les chercheurs. Mais pour les IA, point de telle remontrance social, juste un score statistique binaire qui pénalise le fait de ne pas savoir et qui encourage donc les hallucinations.
…Ou récompenser le doute
« Les évaluations des modèles de langage imposent une fausse dichotomie vraie-fausse qui n’accorde aucun crédit aux réponses incertaines […] ou à celles qui demandent des éclaircissements sur le sujet », note l’étude. Cocher une case de QCM, même si elle est peut-être fausse, offre statistiquement plus de chance de réussir que de n’en cocher aucune. Les chercheurs proposent donc d’instaurer des « seuils de confiance » qui feraient perdre des points pour une fausse réponse et n’en feraient gagner ou perdre aucun en cas d’absence de réponses.
Pour aller plus loin
Le pire de ChatGPT : le « slop » qui est en train de pourrir le web
D’après les résultats de recherche, seul ce genre de changements « technico-sociaux » pourrait endiguer la tendance des IA génératives à inventer de fausses informations. Petit problème, ces derniers devraient être adoptés en cœur par toute l’industrie. Pas facile quand la plupart des arguments marketings des IA se concentrent justement autour du taux de réussite des machines à certains examens.
Pour ne rater aucun bon plan, rejoignez notre nouveau channel WhatsApp Frandroid Bons Plans, garanti sans spam !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix