Votre navigateur IA peut se faire pirater par une simple phrase cachée : voici comment et pourquoi

OpenAI reconnaît que son navigateur Atlas, et par extension tous les agents IA, garderont un talon d’Achille permanent : les injections de prompt. La firme sort l’artillerie lourde pour se défendre, mais prévient déjà : ne baissez jamais la garde.

Avant de parler de failles, il faut comprendre ce qu’on a mis entre les mains de ces IA. Attention, on ne parle pas ici d’avoir un petit panneau latéral ChatGPT pour résumer un PDF. Ça, c’est inoffensif.

Un « agent IA » (comme Atlas en agent mode), c’est une IA à qui vous donnez les clés de la maison. Concrètement, le navigateur ne se contente plus d’afficher une page web : il la « lit », la comprend et peut interagir avec. Il peut cliquer sur des boutons, remplir des formulaires, se connecter à votre place et effectuer des paiements.

OpenAI travaille d’arrache-pied pour blinder son navigateur IA, Atlas, contre les cyberattaques. Mais l’entreprise de parler d’un phénomène inquiétant sur son blog : les injections de prompt. Kézako ? C’est une technique qui manipule l’IA via des instructions cachées. Et c’est un risque qui ne disparaîtra jamais vraiment.

Voici un exemple fourni par OpenAI, l’injection se fait directement dans un prompt pour créer un e-mail

OpenAI compare carrément ce problème aux arnaques et à l’ingénierie sociale sur le web : on ne pourra jamais résoudre le problème, seulement le contenir.

L’entreprise américaine concède même que le « mode agent » de ChatGPT Atlas étend considérablement la « surface de menace ». En bref ? Plus votre IA est capable d’agir à votre place, plus elle est vulnérable.

Le jeu du chat et de la souris, avec un chat en IA

OpenAI a lancé le navigateur ChatGPT Atlas en octobre. À peine quelques heures plus tard, des chercheurs en sécurité s’amusaient déjà à détourner le comportement du navigateur simplement en écrivant quelques mots bien sentis dans un Google Doc. C’est effrayant de facilité. Et OpenAI n’est pas seul dans cette galère : Brave et Perplexity Comet font face aux mêmes défis structurels.

Le problème est systémique. Le Centre national de cybersécurité du Royaume-Uni a d’ailleurs prévenu : ces attaques ne seront « jamais totalement atténuées ». Il faut apprendre à vivre avec le risque plutôt que d’espérer l’éliminer.

Pour tenter de colmater les brèches avant qu’elles ne soient exploitées, OpenAI a développé un « attaquant automatisé basé sur un LLM ». C’est un bot entraîné par renforcement pour jouer au hacker. Il passe ses journées en simulation à essayer de piéger l’agent IA, à analyser ses réactions et à affiner ses attaques.

L’idée est séduisante sur le papier : utiliser l’IA pour casser l’IA, plus vite qu’un humain. OpenAI affirme que ce système a déjà permis de découvrir des stratégies d’attaque inédites, que même leurs équipes de « red teaming » (les gentils hackers humains) n’avaient pas vues.

Pour aller plus loin
Le navigateur dopé à l’IA Opera Neon est disponible en version test, à une condition

Pourquoi c’est un problème insoluble

Le fond du problème, ce n’est pas la vitesse de détection des failles. C’est la nature même de l’outil. En réalité, le risque d’un système IA est le produit de son autonomie multipliée par son accès.

Les navigateurs agents comme Atlas se trouvent dans une zone rouge : ils ont une autonomie modérée mais un accès très élevé à vos données (e-mails, paiements, formulaires). Dans une démo, OpenAI a montré comment son attaquant automatisé a réussi à glisser un e-mail malveillant dans la boîte de réception d’un utilisateur.

L’agent a lu les instructions cachées et a envoyé une lettre de démission au lieu d’une réponse automatique d’absence. Très marrant pour la démo, catastrophique dans la vraie vie.

Le mode agent est problématique

OpenAI promet que son « mode agent » détecte mieux ces attaques après mise à jour. Ils conseillent de limiter les accès, de demander des confirmations manuelles pour les actions sensibles (paiements, envois de messages) et d’éviter les instructions vagues du type « fais ce qu’il faut ».

Mais si vous utilisez un navigateur IA, vous marchez sur un fil. La technologie est impressionnante, mais elle repose sur une architecture intrinsèquement manipulable. Tant que l’IA traitera les instructions (le code) et les données (le contenu d’une page web) dans le même flux, le risque d’injection persistera. Prudence, donc.

Pour aller plus loin
« Firefox va devenir un navigateur IA » : les utilisateurs sont déçus et cherchent des alternatives, et celle-ci est toute trouvée

Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !