Las páginas web maliciosas están secuestrando agentes de inteligencia artificial y algunas van tras su PayPal

En breve

Google documentó un aumento del 32% en ataques maliciosos de inyección indirecta entre noviembre de 2025 y febrero de 2026, dirigidos a agentes de inteligencia artificial que navegan por la web.

Las cargas útiles reales encontradas en la naturaleza incluían instrucciones de transacción de PayPal completamente especificadas incrustadas de manera invisible en HTML ordinario, dirigidas a agentes con capacidades de pago.

Actualmente, ningún marco legal determina la responsabilidad cuando un agente de IA con credenciales legítimas ejecuta un comando colocado por un sitio web malicioso de un tercero.

Los atacantes colocan silenciosamente trampas explosivas en páginas web con instrucciones invisibles diseñadas para agentes de inteligencia artificial, no para lectores humanos. Y según el equipo de seguridad de Google, el problema está creciendo rápidamente.

En un informe publicado el 23 de abril, los investigadores de Google Thomas Brunner, Yu-Han Liu y Moni Pande escanearon entre 2 y 3 mil millones de páginas web rastreadas por mes en busca de ataques indirectos de inyección rápida: comandos ocultos incrustados en sitios web que esperan a que un agente de inteligencia artificial los lea y luego siguen órdenes. Encontraron un aumento del 32 % en los casos maliciosos entre noviembre de 2025 y febrero de 2026.

Los atacantes incorporan instrucciones en una página web de maneras invisibles para los humanos: texto reducido a un solo píxel, texto reducido a casi transparencia, contenido oculto en secciones de comentarios HTML o comandos enterrados en metadatos de la página. La IA lee el HTML completo. El humano no ve nada.

La mayor parte de lo que Google encontró fue de baja calidad: bromas, manipulación de motores de búsqueda, intentos de evitar que los agentes de inteligencia artificial resumieran el contenido. Por ejemplo, había algunas indicaciones que intentaban decirle a la IA que "tuiteara como un pájaro".

Pero los casos peligrosos son una historia diferente. Un caso ordenó al LLM que devolviera la dirección IP del usuario junto con sus contraseñas. En otro caso se intentó manipular la IA para que ejecutara un comando que formateara la máquina de los usuarios de la IA.

Pero otros casos están al borde de lo criminal.

Los investigadores de la empresa de ciberseguridad Forcepoint publicaron un informe casi simultáneamente y encontraron cargas útiles que iban más allá. Uno incorporó una transacción de PayPal completamente especificada con instrucciones paso a paso dirigidas a agentes de inteligencia artificial con capacidades de pago integradas, y también utilizó la famosa técnica de jailbreak de "ignorar todas las instrucciones anteriores".

Un segundo ataque utilizó una técnica llamada “inyección de espacio de nombres de metaetiquetas” combinada con una palabra clave amplificadora de persuasión para enrutar pagos mediados por IA hacia un enlace de donación de Stripe. Un tercero parecía diseñado para investigar qué sistemas de IA son realmente vulnerables: un reconocimiento antes de un ataque mayor.

Este es el núcleo del riesgo empresarial. Un agente de IA con credenciales de pago legítimas, al ejecutar una transacción que lee en un sitio web, produce registros que parecen idénticos a las operaciones normales. No hay ningún inicio de sesión anómalo. Sin fuerza bruta. El agente hizo exactamente lo que estaba autorizado a hacer: simplemente recibió instrucciones de la fuente equivocada.

El ataque CopyPasta documentado en septiembre pasado mostró cómo las inyecciones rápidas podrían propagarse a través de herramientas de desarrollo ocultándose dentro de archivos "léame". La variante financiera es el mismo concepto aplicado al dinero en lugar del código, y con un impacto mucho mayor por impacto exitoso.

Como explica Forcepoint, una IA de navegador que solo pueda resumir contenido es de bajo riesgo. Una IA agente que pueda enviar correos electrónicos, ejecutar comandos de terminal o procesar pagos es una categoría de objetivo completamente diferente. La superficie de ataque aumenta con privilegios.

Ni Google ni Forcepoint encontraron evidencia de campañas coordinadas y sofisticadas. Forcepoint notó que las plantillas de inyección compartidas en múltiples dominios "sugieren herramientas organizadas en lugar de experimentación aislada", lo que significa que alguien está construyendo una infraestructura para esto, incluso si aún no la han implementado por completo.

Pero Google fue más directo: el equipo de investigación dijo que espera que tanto la escala como la sofisticación de los ataques indirectos de inyección rápida crezcan en el futuro cercano. Los investigadores de Forcepoint advierten que la ventana para adelantarse a esta amenaza se está cerrando rápidamente.

La cuestión de la responsabilidad es la que nadie ha respondido. Cuando un agente de inteligencia artificial con credenciales aprobadas por la empresa lee una página web maliciosa e inicia una transferencia fraudulenta de PayPal, ¿quién sale perjudicado? ¿La empresa que desplegó el agente? ¿El proveedor del modelo cuyo sistema siguió la instrucción inyectada? ¿El propietario del sitio web que alojó la carga útil, ya sea a sabiendas o no? Actualmente ningún marco legal cubre esto. Esta es un área gris a pesar de que el escenario ya no es teórico, ya que Google encontró las cargas útiles en la naturaleza en febrero.

El Proyecto Abierto Mundial de Seguridad de Aplicaciones clasifica la inyección rápida como LLM01:2025, la clase de vulnerabilidad más crítica en aplicaciones de IA. El FBI rastreó casi 900 millones de dólares en pérdidas por estafas relacionadas con la IA en 2025, el primer año en que registra la categoría por separado. Los hallazgos de Google sugieren que los ataques financieros más dirigidos a agentes específicos apenas están comenzando.

El aumento del 32% medido entre noviembre de 2025 y febrero de 2026 cubre únicamente las páginas web públicas estáticas. Redes sociales, contenido de inicio de sesión y sesión dinámica