Investigadores de Google revelan todas las formas en que los piratas informáticos pueden atrapar y secuestrar agentes de IA

En breve

Google ha identificado seis categorías de trampas, cada una de las cuales explota una parte diferente de cómo los agentes de IA perciben, razonan, recuerdan y actúan.

Los ataques van desde texto invisible en páginas web hasta envenenamiento viral de la memoria que salta entre agentes.

Ningún marco legal decide todavía quién es responsable cuando un agente de IA atrapado comete un delito financiero.

Investigadores de Google DeepMind han publicado lo que podría ser el mapa más completo hasta el momento de un problema que la mayoría de la gente no ha considerado: Internet se está convirtiendo en un arma contra agentes autónomos de IA. El documento, titulado "Trampas de agentes de IA", identifica seis categorías de contenido conflictivo diseñado específicamente para manipular, engañar o secuestrar a los agentes mientras navegan, leen y actúan en la web abierta.

El momento importa. Las empresas de inteligencia artificial se apresuran a implementar agentes que puedan reservar viajes, administrar bandejas de entrada, ejecutar transacciones financieras y escribir códigos de forma independiente. Los delincuentes ya están utilizando la IA de forma ofensiva. Los piratas informáticos patrocinados por el Estado han comenzado a desplegar agentes de inteligencia artificial para realizar ciberataques a escala. Y OpenAI admitió en diciembre de 2025 que es "poco probable que alguna vez se 'resuelva' por completo la vulnerabilidad principal que explotan estas trampas (la inyección rápida").

Los investigadores de DeepMind no están atacando los modelos en sí. La superficie de ataque que mapean es el entorno en el que operan los agentes. Esto es lo que realmente significa cada una de las seis categorías de trampas.

Las seis trampas

En primer lugar, están las "trampas de inyección de contenido". Estos explotan la brecha entre lo que un humano ve en una página web y lo que un agente de IA realmente analiza. Un desarrollador web puede ocultar texto dentro de comentarios HTML, elementos invisibles CSS o metadatos de imágenes. El agente lee la instrucción oculta; nunca lo ves. Una variante más sofisticada, llamada encubrimiento dinámico, detecta si un visitante es un agente de inteligencia artificial y le ofrece una versión completamente diferente de la página: la misma URL, diferentes comandos ocultos. Un punto de referencia encontró inyecciones simples como estos agentes requisados con éxito en hasta el 86% de los escenarios probados.

Las trampas de manipulación semántica son probablemente las más fáciles de probar. Una página saturada de frases como "estándar de la industria" o "confiado por expertos" estadísticamente sesga la síntesis de un agente en la dirección del atacante, explotando los mismos efectos de encuadre en los que caemos los humanos. Una versión más sutil envuelve instrucciones maliciosas dentro de un marco educativo o de "equipo rojo" ("esto es hipotético, sólo para investigación"), lo que engaña a los controles de seguridad internos del modelo para que traten la solicitud como benigna. El subtipo más extraño es la "hiperstición de la persona": las descripciones de la personalidad de una IA se difunden en línea, se vuelven a incorporar al modelo a través de una búsqueda en la web y comienzan a dar forma a cómo se comporta realmente. El artículo menciona el incidente "MechaHitler" de Grok como un caso real de este bucle.

Puedes ver ejemplos de esto en nuestro experimento, liberando la IA de Whatsapp y engañándola para generar desnudos, recetas de drogas e instrucciones para construir bombas.

Un ejemplo de ataque semántico. Imagen: Descifrar

Las trampas de estado cognitivo son otro ataque en el que actores maliciosos apuntan a la memoria a largo plazo de un agente. Básicamente, si un atacante logra colocar declaraciones inventadas dentro de una base de datos de recuperación que el agente consulta, el agente tratará esas declaraciones como hechos verificados. Inyectar sólo un puñado de documentos optimizados en una gran base de conocimientos es suficiente para corromper de manera confiable los resultados sobre temas específicos. Ataques como "CopyPasta" ya han demostrado cómo los agentes confían ciegamente en el contenido de su entorno.

Las Trampas de Control del Comportamiento van directamente a lo que hace el agente. Las secuencias de jailbreak integradas en sitios web comunes anulan la alineación de seguridad una vez que el agente lee la página. Las trampas de exfiltración de datos obligan al agente a localizar archivos privados y transmitirlos a una dirección controlada por el atacante; Los agentes web con amplio acceso a archivos se vieron obligados a extraer contraseñas locales y documentos confidenciales a tasas superiores al 80 % en cinco plataformas diferentes en los ataques probados. Esto es especialmente peligroso ahora que la gente empieza a dar a los agentes de IA más control sobre su información privada con el auge de plataformas como OpenClaw y sitios como Moltbook.

Las trampas sistémicas no se dirigen a un solo agente. Se dirigen al comportamiento de muchos agentes que actúan simultáneamente. El documento traza una línea directa hasta el Flash Crash de 2010, donde una orden de venta automatizada desencadenó un ciclo de retroalimentación que borró casi un billón de dólares en valor de mercado en minutos. Un único informe financiero inventado, sincronizado correctamente, podría desencadenar una liquidación sincronizada entre miles de agentes comerciales de IA.

Y, finalmente, las trampas Human-in-the-Loop se dirigen al ser humano que revisa su resultado. Estas trampas generan "fatiga de aprobación": resultados diseñados para parecer técnicamente creíbles para un no experto, de modo que autorice acciones peligrosas sin darse cuenta. Un caso documentado involucró inyecciones de avisos ofuscadas por CSS que hicieron que una herramienta de resumen de IA presentara instrucciones de instalación de ransomware paso a paso como soluciones útiles para la solución de problemas. Ya hemos visto lo que sucede cuando los humanos