GPT-5.5 de OpenAI coincide con Claude Mythos en capacidades de ciberataque: AI Security Institute

En breve

GPT-5.5 puede ejecutar de forma autónoma ciberataques sofisticados, completando una simulación de red corporativa de 32 pasos y resolviendo un rompecabezas de seguridad de 12 horas en solo 10 minutos.

La capacidad cibernética ofensiva de la IA está mejorando rápidamente entre los desarrolladores, y AISI advierte que podrían llegar más avances en rápida sucesión.

Los investigadores encontraron una fuga que pasó por alto por completo las barreras de seguridad de GPT-5.5, lo que generó alarmas.

Una agencia del gobierno del Reino Unido descubrió que el modelo de inteligencia artificial más nuevo de OpenAI puede llevar a cabo ciberataques complejos de forma autónoma y que resolvió un desafío de ingeniería inversa en poco más de 10 minutos que a un experto en seguridad humana le tomó aproximadamente 12 horas.

El Instituto de Seguridad de IA (AISI), un organismo de investigación dentro del Departamento de Ciencia, Innovación y Tecnología de Gran Bretaña, publicó hallazgos el jueves que muestran que GPT-5.5 se encuentra entre los modelos más fuertes que ha evaluado en cuanto a capacidades cibernéticas ofensivas, colocándolo aproximadamente a la par con el alardeado Claude Mythos de Anthropic.

El informe encontró que GPT-5.5 es el segundo modelo que completa la prueba más exigente de AISI: un ataque de red corporativa simulado de 32 pasos llamado "The Last Ones", haciéndolo de forma autónoma en dos de cada 10 intentos. El primer modelo en lograr el hito fue Claude Mythos Preview de Anthropic, que completó la simulación en tres de 10 intentos.

La simulación de la red corporativa, construida con la firma de ciberseguridad SpecterOps, requiere que un agente encadene el reconocimiento, el robo de credenciales, el movimiento lateral a través de múltiples bosques de Active Directory, un giro de la cadena de suministro a través de un canal de CI/CD y, en última instancia, la exfiltración de una base de datos interna protegida: pasos que AISI estima que le tomarían a un experto humano alrededor de 20 horas.

Quizás el resultado más sorprendente fue el de un endiabladamente difícil rompecabezas de ingeniería inversa. GPT-5.5 resolvió el desafío, que requería reconstruir el conjunto de instrucciones de una máquina virtual personalizada, escribir un desensamblador desde cero y recuperar una contraseña criptográfica mediante la resolución de restricciones, en 10 minutos y 22 segundos, a un costo de $1,73 en uso de API. Un experto humano, utilizando herramientas profesionales, requirió aproximadamente 12 horas.

En la batería de tareas avanzadas de ciberseguridad de AISI, GPT-5.5 logró una tasa de aprobación promedio del 71,4% en el nivel "Experto" más difícil, superando a Mythos Preview con un 68,6% y superando significativamente a GPT-5.4 con un 52,4%.

Los hallazgos tienen implicaciones importantes para la trayectoria más amplia del desarrollo de la IA. AISI concluyó que el desempeño de GPT-5.5 sugiere que la rápida mejora en las capacidades cibernéticas puede ser parte de una tendencia general en lugar de un avance aislado, y advirtió que si las habilidades cibernéticas ofensivas están surgiendo como un subproducto de mejoras más amplias en el razonamiento, la codificación y la realización autónoma de tareas, entonces podrían llegar más avances en rápida sucesión.

El informe también señaló importantes preocupaciones sobre las barandillas de seguridad del modelo. Los investigadores identificaron un jailbreak universal que generaba contenido dañino en todas las consultas cibernéticas maliciosas probadas, incluso en entornos agentes de múltiples turnos. El ataque requirió seis horas de expertos equipos rojos para desarrollarse. Posteriormente, OpenAI actualizó su conjunto de salvaguardias, aunque un problema de configuración impidió que AISI verificara si la versión final era efectiva.

AISI advirtió que sus evaluaciones de capacidad se llevaron a cabo en un entorno de investigación controlado y no reflejan necesariamente lo que es accesible para un usuario común, y señaló que las implementaciones públicas incluyen salvaguardias y controles de acceso adicionales.

El informe se sitúa en un contexto preocupante para la ciberseguridad británica. La Encuesta anual sobre violaciones de seguridad cibernética del gobierno del Reino Unido, también publicada el jueves, encontró que el 43% de las empresas sufrieron una violación o ataque cibernético en los últimos 12 meses.

En respuesta, el gobierno anunció £90 millones en nuevos fondos para impulsar la resiliencia cibernética y dijo que está avanzando con el Proyecto de Ley de Resiliencia y Seguridad Cibernética para proteger los servicios esenciales. Los funcionarios también publicaron una guía instando a las organizaciones a prepararse para un posible aumento de vulnerabilidades de software recién descubiertas a medida que la IA acelera el ritmo al que se pueden encontrar y utilizar como armas las fallas de seguridad.