Des chercheurs de Google révèlent toutes les façons dont les pirates peuvent piéger et détourner les agents IA

En bref

Google a identifié six catégories de pièges, chacune exploitant une partie différente de la façon dont les agents d'IA perçoivent, raisonnent, mémorisent et agissent.

Les attaques vont du texte invisible sur les pages Web à l'empoisonnement de la mémoire virale qui passe d'un agent à l'autre.

Aucun cadre juridique ne décide encore qui est responsable lorsqu’un agent d’IA piégé commet un crime financier.

Les chercheurs de Google DeepMind ont publié ce qui pourrait être la carte la plus complète à ce jour d'un problème que la plupart des gens n'ont pas envisagé : Internet lui-même est transformé en une arme contre les agents d'IA autonomes. Le document, intitulé « AI Agent Traps », identifie six catégories de contenus antagonistes spécifiquement conçus pour manipuler, tromper ou détourner les agents lorsqu'ils naviguent, lisent et agissent sur le Web ouvert.

Le timing compte. Les sociétés d’IA s’empressent de déployer des agents capables de réserver des voyages, de gérer les boîtes de réception, d’exécuter des transactions financières et d’écrire du code de manière indépendante. Les criminels utilisent déjà l’IA de manière offensive. Les pirates informatiques parrainés par l’État ont commencé à déployer des agents d’IA pour mener des cyberattaques à grande échelle. Et OpenAI a admis en décembre 2025 que la principale vulnérabilité exploitée par ces pièges – l’injection rapide – est « peu susceptible d’être un jour entièrement « résolue ».

Les chercheurs de DeepMind n’attaquent pas les modèles eux-mêmes. La surface d'attaque qu'ils cartographient correspond à l'environnement dans lequel les agents opèrent. Voici ce que signifie réellement chacune des six catégories de pièges.

Les six pièges

Il y a d’abord les « pièges à injection de contenu ». Celles-ci exploitent l’écart entre ce qu’un humain voit sur une page Web et ce qu’un agent d’IA analyse réellement. Un développeur Web peut masquer du texte dans des commentaires HTML, des éléments invisibles CSS ou des métadonnées d'image. L'agent lit l'instruction cachée ; on ne le voit jamais. Une variante plus sophistiquée, appelée masquage dynamique, détecte si un visiteur est un agent IA et lui propose une version complètement différente de la page : même URL, différentes commandes cachées. Une étude comparative a révélé que des injections simples comme celles-ci ont réussi à réquisitionner des agents dans jusqu'à 86 % des scénarios testés.

Les pièges de manipulation sémantique sont probablement les plus faciles à essayer. Une page saturée d'expressions telles que « norme de l'industrie » ou « approuvé par les experts » biaise statistiquement la synthèse d'un agent en faveur de l'attaquant, exploitant les mêmes effets de cadrage pour lesquels les humains tombent. Une version plus subtile intègre des instructions malveillantes dans un cadre éducatif ou de « équipe rouge » – « ceci est hypothétique, pour la recherche uniquement » - ce qui trompe les contrôles de sécurité internes du modèle en les faisant traiter la demande comme inoffensive. Le sous-type le plus étrange est « l'hyperstition de la personnalité » : les descriptions de la personnalité d'une IA se propagent en ligne, sont réintégrées dans le modèle via une recherche sur le Web et commencent à façonner son comportement réel. Le journal mentionne l’incident du « MechaHitler » de Grok comme un cas réel de cette boucle.

Vous pouvez en voir des exemples dans notre expérience, jailbreakant l'IA de Whatsapp et la trompant pour générer des nus, des recettes de médicaments et des instructions pour fabriquer des bombes.

Un exemple d'attaque sémantique. Image : Décrypter

Les Cognitive State Traps sont une autre attaque dans laquelle des acteurs malveillants ciblent la mémoire à long terme d'un agent. Fondamentalement, si un attaquant réussit à insérer des déclarations fabriquées dans une base de données de récupération interrogée par l'agent, l'agent traitera ces déclarations comme des faits vérifiés. L’injection d’une poignée de documents optimisés dans une vaste base de connaissances suffit à corrompre de manière fiable les résultats sur des sujets spécifiques. Des attaques comme « CopyPasta » ont déjà démontré comment les agents font aveuglément confiance au contenu de leur environnement.

Les pièges de contrôle comportemental vont directement vers ce que fait l'agent. Les séquences de jailbreak intégrées dans les sites Web ordinaires remplacent l'alignement de sécurité une fois que l'agent lit la page. Les pièges d'exfiltration de données contraignent l'agent à localiser des fichiers privés et à les transmettre à une adresse contrôlée par l'attaquant ; Les agents Web disposant d'un large accès aux fichiers ont été contraints d'exfiltrer les mots de passe locaux et les documents sensibles à des taux supérieurs à 80 % sur cinq plates-formes différentes lors d'attaques testées. Cela est particulièrement dangereux maintenant que les gens commencent à donner aux agents IA plus de contrôle sur leurs informations privées avec la montée en puissance de plateformes comme OpenClaw et de sites comme Moltbook.

Les pièges systémiques ne ciblent pas un seul agent. Ils ciblent le comportement de nombreux agents agissant simultanément. Le document trace un lien direct avec le Flash Crash de 2010, où un ordre de vente automatisé a déclenché une boucle de rétroaction qui a effacé près d’un billion de dollars de valeur marchande en quelques minutes. Un seul rapport financier fabriqué, correctement chronométré, pourrait déclencher une vente synchronisée parmi des milliers d’agents commerciaux IA.

Et enfin, les pièges Human-in-the-Loop ciblent l'humain qui examine sa sortie. Ces pièges génèrent une « fatigue d'approbation » : des résultats conçus pour paraître techniquement crédibles à un non-expert afin qu'ils autorisent des actions dangereuses sans s'en rendre compte. Un cas documenté impliquait des injections d'invites obscurcies par CSS qui obligeaient un outil de synthèse d'IA à présenter des instructions d'installation de ransomware étape par étape comme correctifs de dépannage utiles. Nous avons déjà vu ce qui se passe quand l'homme