Pourquoi Claude fait chanter certains utilisateurs

 
Face à certains dilemmes éthiques, Claude, l’intelligence artificielle d’Anthropic est capable de faire chanter ses utilisateurs. Un comportement depuis corrigé, mais dont l’origine rappelle l’importance de l’humain dans l’entraînement de ces chatbots.
Logo Claude AI – Anthropic // Source : Anthropic

Un LLM est capable de mentir ou, pire, faire chanter ses utilisateurs pour assurer sa propre sécurité. Un inquiétant constat auquel ont été confrontés les chercheurs d’Anthropic sur la version 4.0 de Claude. Dans une récente étude, les scientifiques détaillent leur méthodologie pour se débarrasser du problème tout en détaillant l’origine de celui-ci.

Le problème, c’est le choix

Pour étudier ce phénomène, les équipes d’Anthropic se sont appuyées sur une version allégée de Claude 4, baptisée Haiku. Au fil de leurs tests, une hypothèse s’est démarquée : cette propension au chantage trouverait son origine dans les données utilisées pour entraîner le chatbot, mais aussi dans le manque de garde-fous efficaces.

Pour résoudre le problème, les chercheurs ont mis en place plusieurs solutions. La première consiste à rappeler à l’IA que ce n’est pas elle qui est confrontée à un dilemme éthique, mais bien l’utilisateur qui est en recherche de conseils. La seconde consiste à améliorer le système de retour de Claude. Plutôt que de lui donner des réponses précises à certaines questions jugées « difficiles », les chercheurs ont préféré lui « enseigner » des raisonnements éthiques. De la même manière, plutôt que de simplement présenter des outils dans sa base de données, les chercheurs ont indiqué la définition de ces derniers au LLM.

Une solution qui porte ses fruits. À force d’entraînements sur des cas moraux fictifs, le désalignement comportemental de Claude est passé de 22 à 3 %.

Une solution limitée

Depuis la version 4.5 de Claude, chacune de ses versions obtient un score parfait au désalignement agentique. Autrement dit, les LLMs ne recourent plus au chantage. Une amélioration importante puisque la précédente version pouvait y avoir « recours jusqu’à 96 % du temps », précise l’entreprise.

Faire confiance de manière aveugle à un chatbot semble toutefois prématuré. Au-delà des phénomènes d’hallucinations auxquels peuvent être confrontés les LLM, il est encore trop tôt pour savoir si cet alignement fonctionne en toutes circonstances.

De l’aveu d’Anthropic, ils ne savent pas pour le moment si cet encadrement fonctionne sur des modèles d’IA hautement intelligents qui seraient distribués à grande échelle. Ils reconnaissent également que leur méthodologie n’est pas suffisante pour analyser une situation où « Claude choisirait d’entreprendre une action autonome aux conséquences catastrophiques. »


Les bons plans n’attendent pas : abonnez-vous à notre canal WhatsApp Frandroid Bons Plans ! (zéro spam, promis).

Recherche IA boostée par
Perplexity