Des pages Web malveillantes détournent des agents IA, et certaines s'en prennent à votre PayPal

En bref

Google a documenté une augmentation de 32 % des attaques malveillantes par injection indirecte entre novembre 2025 et février 2026, ciblant les agents d’IA naviguant sur le Web.

Les charges utiles réelles trouvées dans la nature comprenaient des instructions de transaction PayPal entièrement spécifiées, intégrées de manière invisible dans du HTML ordinaire, destinées aux agents dotés de capacités de paiement.

Aucun cadre juridique ne détermine actuellement la responsabilité lorsqu'un agent d'IA disposant d'informations d'identification légitimes exécute une commande lancée par un site Web tiers malveillant.

Les attaquants piègent discrètement les pages Web avec des instructions invisibles conçues pour les agents IA, et non pour les lecteurs humains. Et selon l'équipe de sécurité de Google, le problème s'aggrave rapidement.

Dans un rapport publié le 23 avril, les chercheurs de Google Thomas Brunner, Yu-Han Liu et Moni Pande ont analysé 2 à 3 milliards de pages Web explorées chaque mois à la recherche d'attaques indirectes par injection rapide, c'est-à-dire des commandes cachées intégrées dans des sites Web qui attendent qu'un agent d'IA les lise puis suive les ordres. Ils ont constaté une augmentation de 32 % des cas malveillants entre novembre 2025 et février 2026.

Les attaquants intègrent des instructions dans une page Web de manière invisible pour les humains : texte réduit à un seul pixel, texte presque transparent, contenu masqué dans les sections de commentaires HTML ou commandes enfouies dans les métadonnées de la page. L'IA lit le HTML complet. L'humain ne voit rien.

La plupart des découvertes de Google étaient de mauvaise qualité : farces, manipulations des moteurs de recherche, tentatives visant à empêcher les agents IA de résumer le contenu. Par exemple, certaines invites tentaient d'indiquer à l'IA de « tweeter comme un oiseau ».

Mais les cas dangereux sont une autre histoire. Un cas a demandé au LLM de renvoyer l'adresse IP de l'utilisateur avec son mot de passe. Un autre cas a tenté de manipuler l’IA pour qu’elle exécute une commande qui formate la machine des utilisateurs de l’IA.

Mais d’autres cas sont à la limite du crime.

Des chercheurs de la société de cybersécurité Forcepoint ont publié un rapport presque simultanément et ont découvert des charges utiles qui allaient plus loin. L’un d’entre eux a intégré une transaction PayPal entièrement spécifiée avec des instructions étape par étape ciblant les agents IA dotés de capacités de paiement intégrées, utilisant également la fameuse technique de jailbreak « ignorer toutes les instructions précédentes ».

Une deuxième attaque a utilisé une technique appelée « injection d’espace de noms de balises méta » combinée à un mot-clé amplificateur de persuasion pour acheminer les paiements via l’IA vers un lien de don Stripe. Un troisième semble conçu pour déterminer quels systèmes d’IA sont réellement vulnérables : une reconnaissance avant une frappe plus importante.

C’est le cœur du risque d’entreprise. Un agent IA doté d’informations d’identification de paiement légitimes, exécutant une transaction qu’il lit sur un site Web, produit des journaux qui semblent identiques aux opérations normales. Il n'y a pas de connexion anormale. Pas de force brute. L’agent a fait exactement ce pour quoi il était autorisé : il a simplement reçu ses instructions de la mauvaise source.

L'attaque CopyPasta documentée en septembre dernier a montré comment des injections rapides pouvaient se propager via les outils de développement en se cachant dans des fichiers « lisez-moi ». La variante financière est le même concept appliqué à l'argent plutôt qu'au code, et avec un impact beaucoup plus élevé par coup réussi.

Comme l'explique Forcepoint, une IA de navigateur qui ne peut que résumer le contenu présente un faible risque. Une IA agentique capable d’envoyer des e-mails, d’exécuter des commandes de terminal ou de traiter des paiements est une catégorie de cible totalement différente. La surface d’attaque évolue avec privilèges.

Ni Google ni Forcepoint n'ont trouvé de preuves de campagnes sophistiquées et coordonnées. Forcepoint a noté que les modèles d'injection partagés dans plusieurs domaines « suggèrent des outils organisés plutôt qu'une expérimentation isolée », ce qui signifie que quelqu'un construit une infrastructure pour cela, même s'il ne l'a pas encore entièrement déployée.

Mais Google a été plus direct : l’équipe de recherche a déclaré qu’elle s’attend à ce que l’ampleur et la sophistication des attaques par injection indirecte augmentent dans un avenir proche. Les chercheurs de Forcepoint préviennent que la fenêtre permettant de devancer cette menace se rapproche rapidement.

La question de la responsabilité est celle à laquelle personne n’a répondu. Lorsqu'un agent IA disposant d'informations d'identification approuvées par l'entreprise lit une page Web malveillante et initie un transfert PayPal frauduleux, qui est responsable ? L'entreprise qui a déployé l'agent ? Le fournisseur de modèles dont le système a suivi l'instruction injectée ? Le propriétaire du site Web qui a hébergé la charge utile, sciemment ou non ? Aucun cadre juridique ne couvre actuellement cela. Il s’agit d’une zone grise même si le scénario n’est plus théorique, depuis que Google a retrouvé les charges utiles dans la nature en février dernier.

L’Open Worldwide Application Security Project classe l’injection rapide comme LLM01:2025, la classe de vulnérabilité la plus critique dans les applications d’IA. Le FBI a recensé près de 900 millions de dollars de pertes liées aux escroqueries liées à l’IA en 2025, sa première année enregistrant cette catégorie séparément. Les conclusions de Google suggèrent que les attaques financières plus ciblées et spécifiques à des agents ne font que commencer.

L’augmentation de 32 % mesurée entre novembre 2025 et février 2026 ne concerne que les pages Web publiques statiques. Réseaux sociaux, contenu protégé par un mur de connexion et site dynamique