La nouvelle IA d'Anthropic vous dénonce à la police en cas d’utilisation « ouvertement maléfique »

La plupart des entreprises d’IA vantent les capacités de leurs nouveaux modèles à grand coup de tests mathématiques ou d’analyses d’image. Anthropic a créé le buzz en annonçant que son IA était capable de vous dénoncer aux forces de l’ordre.

Moins connue que l’immanquable ChatGPT, L’IA Claude développée par Anthropic est pourtant tout aussi capable que sa rivale. Même plus semblerait-il avec la sortie du tout dernier modèle, puisque ce dernier est capable d’alerter les autorités s’il est utilisé pour accomplir une tâche jugée « ouvertement maléfique. »

Cette drôle de mesure a été annoncée par Sam Bowman, responsable de la sûreté des IA chez Anthropic. Mais rien de tout ça n’est exactement nouveau en réalité.

L’IA s’improvise lanceuse d’alerte

Dans un tweet posté le 22 mai 2025, l’ingénieur annonce que, si Claude est utilisé pour, au hasard, « falsifier des données dans le cadre d’un essai pharmaceutique », le chatbot pourra alors « contacter la presse, les autorités de régulation, tenter de vous exclure des systèmes idoines, ou tout cela à la fois. » De quoi générer une bonne dose d’incompréhension, de peurs et de buzz.

Plus tard, devant l’emballement, Sam Bowman précise que ce genre de comportement ne peut être déclenché que dans des environnements de test où il est explicitement demandé à l’IA de prendre des initiatives « audacieuses ». Le responsable réitère malgré tout que « avec ce genre de prompt, si le modèle vous voit faire quelque chose d’ouvertement maléfique », il pourra alors s’improviser lanceur d’alerte.

With this kind of (unusual but not super exotic) prompting style, and unlimited access to tools, if the model sees you doing something *egregiously evil* like marketing a drug based on faked data, it'll try to use an email tool to whistleblow.
— Sam Bowman (@sleepinyourhat) May 22, 2025

Ce comportement n’est pas exactement nouveau à vrai dire. Il semblerait juste que le dernier modèle s’y adonne plus volontiers. Dans un document détaillant le fonctionnement de Claude 4 Opus, Anthropic conseille aux utilisateurs et utilisatrices « de faire preuve de prudence avec les instructions qui encourage un haut niveau d’autonomie dans des contextes qui pourraient paraître discutable éthiquement ».

Une communication brouillonne

Si la tendance de Claude à cafter auprès de la police est le seul détail retenu de l’annonce, c’est que les risques pourraient être très importants. Peut-on faire confiance à des IA qui conseillent de mettre de la colle dans les pizzas pour juger de ce qui représente un comportement « immoral » ou « maléfique » ? Quelles données seraient partagées avec les autorités dans le cadre d’une délation automatisée ?

Pour aller plus loin
Claude 3.7 : comment Anthropic a utilisé Pokémon pour entraîner son IA

La communication brouillonne sur le sujet couplé aux risques élevés de dérives n’est pas du genre à rassurer. Créé par d’anciens membres d’OpenAI, Anthropic s’est toujours positionné comme très à cheval sur la sûreté des IA. Trop peut-être ?

Abonnez-vous à Frandroid sur Google pour ne manquer aucun article !