
Moins connue que l’immanquable ChatGPT, L’IA Claude développée par Anthropic est pourtant tout aussi capable que sa rivale. Même plus semblerait-il avec la sortie du tout dernier modèle, puisque ce dernier est capable d’alerter les autorités s’il est utilisé pour accomplir une tâche jugée « ouvertement maléfique. »
Cette drôle de mesure a été annoncée par Sam Bowman, responsable de la sûreté des IA chez Anthropic. Mais rien de tout ça n’est exactement nouveau en réalité.
L’IA s’improvise lanceuse d’alerte
Dans un tweet posté le 22 mai 2025, l’ingénieur annonce que, si Claude est utilisé pour, au hasard, « falsifier des données dans le cadre d’un essai pharmaceutique », le chatbot pourra alors « contacter la presse, les autorités de régulation, tenter de vous exclure des systèmes idoines, ou tout cela à la fois. » De quoi générer une bonne dose d’incompréhension, de peurs et de buzz.
Plus tard, devant l’emballement, Sam Bowman précise que ce genre de comportement ne peut être déclenché que dans des environnements de test où il est explicitement demandé à l’IA de prendre des initiatives « audacieuses ». Le responsable réitère malgré tout que « avec ce genre de prompt, si le modèle vous voit faire quelque chose d’ouvertement maléfique », il pourra alors s’improviser lanceur d’alerte.
Ce comportement n’est pas exactement nouveau à vrai dire. Il semblerait juste que le dernier modèle s’y adonne plus volontiers. Dans un document détaillant le fonctionnement de Claude 4 Opus, Anthropic conseille aux utilisateurs et utilisatrices « de faire preuve de prudence avec les instructions qui encourage un haut niveau d’autonomie dans des contextes qui pourraient paraître discutable éthiquement ».
Une communication brouillonne
Si la tendance de Claude à cafter auprès de la police est le seul détail retenu de l’annonce, c’est que les risques pourraient être très importants. Peut-on faire confiance à des IA qui conseillent de mettre de la colle dans les pizzas pour juger de ce qui représente un comportement « immoral » ou « maléfique » ? Quelles données seraient partagées avec les autorités dans le cadre d’une délation automatisée ?
Pour aller plus loin
Claude 3.7 : comment Anthropic a utilisé Pokémon pour entraîner son IA
La communication brouillonne sur le sujet couplé aux risques élevés de dérives n’est pas du genre à rassurer. Créé par d’anciens membres d’OpenAI, Anthropic s’est toujours positionné comme très à cheval sur la sûreté des IA. Trop peut-être ?
Retrouvez un résumé du meilleur de l’actu tech tous les matins sur WhatsApp, c’est notre nouveau canal de discussion Frandroid que vous pouvez rejoindre dès maintenant !
Ce contenu est bloqué car vous n'avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par Disqus.
Pour pouvoir le visualiser, vous devez accepter l'usage étant opéré par Disqus avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l'amélioration des produits d'Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l'audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix