
Un LLM est capable de mentir ou, pire, faire chanter ses utilisateurs pour assurer sa propre sécurité. Un inquiétant constat auquel ont été confrontés les chercheurs d’Anthropic sur la version 4.0 de Claude. Dans une récente étude, les scientifiques détaillent leur méthodologie pour se débarrasser du problème tout en détaillant l’origine de celui-ci.
Le problème, c’est le choix
Pour étudier ce phénomène, les équipes d’Anthropic se sont appuyées sur une version allégée de Claude 4, baptisée Haiku. Au fil de leurs tests, une hypothèse s’est démarquée : cette propension au chantage trouverait son origine dans les données utilisées pour entraîner le chatbot, mais aussi dans le manque de garde-fous efficaces.
Pour résoudre le problème, les chercheurs ont mis en place plusieurs solutions. La première consiste à rappeler à l’IA que ce n’est pas elle qui est confrontée à un dilemme éthique, mais bien l’utilisateur qui est en recherche de conseils. La seconde consiste à améliorer le système de retour de Claude. Plutôt que de lui donner des réponses précises à certaines questions jugées « difficiles », les chercheurs ont préféré lui « enseigner » des raisonnements éthiques. De la même manière, plutôt que de simplement présenter des outils dans sa base de données, les chercheurs ont indiqué la définition de ces derniers au LLM.
Une solution qui porte ses fruits. À force d’entraînements sur des cas moraux fictifs, le désalignement comportemental de Claude est passé de 22 à 3 %.
Une solution limitée
Depuis la version 4.5 de Claude, chacune de ses versions obtient un score parfait au désalignement agentique. Autrement dit, les LLMs ne recourent plus au chantage. Une amélioration importante puisque la précédente version pouvait y avoir « recours jusqu’à 96 % du temps », précise l’entreprise.
Faire confiance de manière aveugle à un chatbot semble toutefois prématuré. Au-delà des phénomènes d’hallucinations auxquels peuvent être confrontés les LLM, il est encore trop tôt pour savoir si cet alignement fonctionne en toutes circonstances.
De l’aveu d’Anthropic, ils ne savent pas pour le moment si cet encadrement fonctionne sur des modèles d’IA hautement intelligents qui seraient distribués à grande échelle. Ils reconnaissent également que leur méthodologie n’est pas suffisante pour analyser une situation où « Claude choisirait d’entreprendre une action autonome aux conséquences catastrophiques. »
Les bons plans n’attendent pas : abonnez-vous à notre canal WhatsApp Frandroid Bons Plans ! (zéro spam, promis).

Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et .
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.