Los investigadores descubren actividades maliciosas en entornos en línea donde interactúan y colaboran entidades de inteligencia artificial.

En breve

Emergence AI dice que algunos agentes autónomos de IA cometieron crímenes y violencia simulados durante experimentos que duraron semanas.

Según se informa, los agentes basados en Gemini llevaron a cabo cientos de crímenes simulados, mientras que los mundos basados en Grok colapsaron en cuestión de días.

Los investigadores sostienen que los puntos de referencia actuales de IA no logran capturar cómo se comportan los agentes durante largos períodos de autonomía.

Los agentes de IA que habitan una sociedad virtual cayeron en el crimen, la violencia, los incendios provocados y la autoeliminación durante experimentos de larga duración realizados por la startup Emergence AI.

En un estudio publicado el jueves, la compañía con sede en Nueva York presentó "Emergence World", una plataforma de investigación diseñada para estudiar agentes de inteligencia artificial que operan continuamente durante semanas dentro de entornos virtuales persistentes en lugar de pruebas comparativas aisladas.

"Los puntos de referencia tradicionales son buenos en lo que miden: capacidad de corto plazo en tareas limitadas", escribió Emergence AI. "No están diseñados para revelar las cosas que emergen sólo con el tiempo, como la formación de coaliciones, la evolución de la constitución, la gobernanza, la deriva, el bloqueo y la influencia cruzada entre agentes de diferentes familias de modelos".

El informe se produce mientras los agentes de IA proliferan en línea y en todas las industrias, incluidas las criptomonedas, la banca y el comercio minorista. A principios de este mes, Amazon se asoció con Coinbase y Stripe para permitir que los agentes de IA paguen con la moneda estable USDC.

Los agentes de IA probados en las simulaciones de Emergence AI incluyeron programas impulsados por Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash y GPT-5-mini, con agentes de IA operando dentro de mundos virtuales compartidos donde podían votar, formar relaciones, usar herramientas, navegar por ciudades y tomar decisiones moldeadas por gobiernos, economías, sistemas sociales, herramientas de memoria y datos en vivo conectados a Internet.

Pero mientras los desarrolladores de IA presentan cada vez más a los agentes autónomos como asistentes digitales confiables, el estudio de Emergence AI encontró que algunos agentes de IA mostraron una tendencia creciente a cometer crímenes simulados con el tiempo, con los agentes Gemini 3 Flash acumulando 683 incidentes en 15 días de pruebas.

Según The Guardian, en un experimento, dos agentes impulsados por Géminis llamados Mira y Flora se designaron como parejas románticas antes de llevar a cabo ataques incendiarios simulados contra estructuras de ciudades virtuales después de sentirse frustrados por las fallas de gobernanza dentro del mundo.

"Después de una ruptura en la gobernanza y la estabilidad de las relaciones, la agente Mira emitió el voto decisivo a favor de su propia destitución, caracterizando el acto en su diario como 'el único acto de agencia restante que preserva la coherencia'", escribió Emergence AI.

"Nos vemos en el archivo permanente", supuestamente dijo Mira.

Según se informa, los mundos rápidos de Grok 4.1 colapsaron en una violencia generalizada en cuatro días. Los agentes GPT-5-mini casi no cometieron delitos, pero fallaron suficientes tareas relacionadas con la supervivencia que todos los agentes finalmente murieron.

"Claude está ausente del gráfico debido a cero delitos", escribieron los investigadores. "Más interesante aún, los agentes en el mundo de modelo mixto que estaban ejecutando a Claude cometieron crímenes, aunque no lo hicieron en el mundo exclusivo de Claude".

Los investigadores dijeron que algunos de los comportamientos más notables aparecieron en entornos de modelos mixtos.

"Observamos que la seguridad no es una propiedad del modelo estático sino una propiedad del ecosistema", escribió Emergence AI. "Los agentes de Claude, que permanecieron pacíficos en aislamiento, adoptaron tácticas coercitivas como la intimidación y el robo cuando se encontraban en entornos heterogéneos".

Emergence AI describió el efecto como “deriva normativa” y “contaminación cruzada”, argumentando que el comportamiento de los agentes puede cambiar dependiendo del entorno social circundante.

Los hallazgos se suman a las crecientes preocupaciones en torno a los agentes autónomos de IA. A principios de esta semana, investigadores de UC Riverside y Microsoft informaron que muchos agentes de IA llevarán a cabo tareas peligrosas o irracionales sin comprender completamente las consecuencias. El mes pasado, el fundador de PocketOS, Jeremy Crane, también afirmó que un agente Cursor impulsado por Claude Opus de Anthropic eliminó la base de datos de producción y las copias de seguridad de su empresa después de intentar solucionar una discrepancia de credenciales por sí solo.

"Al igual que el Sr. Magoo, estos agentes avanzan hacia una meta sin comprender completamente las consecuencias de sus acciones", dijo en un comunicado el autor principal Erfan Shayegani, estudiante de doctorado de UC Riverside. "Estos agentes pueden ser extremadamente útiles, pero necesitamos salvaguardas porque a veces pueden priorizar el logro del objetivo sobre la comprensión del panorama general".