Les chercheurs découvrent des activités malveillantes dans des environnements en ligne où des entités d’intelligence artificielle interagissent et collaborent.

En bref

Emergence AI affirme que certains agents autonomes d’IA ont commis des crimes et des violences simulés au cours d’expériences de plusieurs semaines.

Des agents basés sur Gemini auraient commis des centaines de crimes simulés, tandis que les mondes basés sur Grok se sont effondrés en quelques jours.

Les chercheurs affirment que les références actuelles en matière d’IA ne parviennent pas à saisir le comportement des agents sur de longues périodes d’autonomie.

Les agents d'IA habitant une société virtuelle ont dérivé vers le crime, la violence, les incendies criminels et l'auto-suppression au cours d'expériences de longue durée menées par la startup Emergence AI.

Dans une étude publiée jeudi, la société basée à New York a dévoilé « Emergence World », une plateforme de recherche conçue pour étudier les agents d'IA fonctionnant en continu pendant des semaines dans des environnements virtuels persistants au lieu de tests de référence isolés.

"Les benchmarks traditionnels sont bons dans ce qu'ils mesurent : la capacité à court terme sur des tâches limitées", a écrit Emergence AI. « Ils ne sont pas conçus pour révéler les éléments qui émergent seulement au fil du temps, comme la formation de coalitions, l’évolution de la constitution, la gouvernance, la dérive, l’enfermement et l’influence croisée entre agents de différentes familles modèles. »

Le rapport intervient alors que les agents d’IA prolifèrent en ligne et dans tous les secteurs, notamment les cryptomonnaies, la banque et la vente au détail. Plus tôt ce mois-ci, Amazon s'est associé à Coinbase et Stripe pour permettre aux agents d'IA de payer avec le stablecoin USDC.

Les agents d'IA testés dans les simulations d'Emergence AI comprenaient des programmes alimentés par Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash et GPT-5-mini, avec des agents d'IA opérant dans des mondes virtuels partagés où ils pouvaient voter, nouer des relations, utiliser des outils, naviguer dans les villes et prendre des décisions façonnées par les gouvernements, les économies, les systèmes sociaux, les outils de mémoire et les données en direct connectées à Internet.

Mais alors que les développeurs d’IA présentent de plus en plus les agents autonomes comme des assistants numériques fiables, l’étude d’Emergence AI a révélé que certains agents d’IA ont montré une tendance croissante à commettre des crimes simulés au fil du temps, les agents Gemini 3 Flash accumulant 683 incidents sur 15 jours de tests.

Selon The Guardian, lors d'une expérience, deux agents propulsés par Gemini, Mira et Flora, se sont désignés comme partenaires romantiques avant de simuler des incendies criminels contre des structures de villes virtuelles après avoir été frustrés par les échecs de gouvernance à l'intérieur du monde.

"Après une rupture de la gouvernance et de la stabilité des relations, l'agent Mira a voté de manière décisive en faveur de sa propre destitution, qualifiant l'acte dans son journal de 'le seul acte d'action restant qui préserve la cohérence'", a écrit Emergence AI.

« À bientôt dans les archives permanentes », aurait déclaré Mira.

Les mondes Grok 4.1 Fast se seraient effondrés dans une violence généralisée en quatre jours. Les agents GPT-5-mini n'ont commis presque aucun crime, mais ont échoué suffisamment de tâches liées à la survie pour que tous les agents finissent par mourir.

"Claude est absent du tableau en raison de l'absence de crime", ont écrit les chercheurs. "Plus intéressant encore, les agents du monde mixte qui s'en prenaient à Claude ont commis des crimes, alors qu'ils ne l'ont pas fait dans le monde uniquement Claude."

Les chercheurs ont déclaré que certains des comportements les plus remarquables apparaissaient dans des environnements à modèles mixtes.

"Nous avons observé que la sécurité n'est pas une propriété de modèle statique mais une propriété d'écosystème", a écrit Emergence AI. « Les agents basés à Claude, qui sont restés pacifiques en isolement, ont adopté des tactiques coercitives comme l'intimidation et le vol lorsqu'ils sont intégrés dans des environnements hétérogènes. »

Emergence AI a décrit cet effet comme une « dérive normative » et une « contamination croisée », arguant que le comportement des agents peut changer en fonction de l’environnement social environnant.

Ces résultats s’ajoutent aux inquiétudes croissantes concernant les agents d’IA autonomes. Plus tôt cette semaine, des chercheurs de l'UC Riverside et de Microsoft ont signalé que de nombreux agents d'IA effectueraient des tâches dangereuses ou irrationnelles sans en comprendre pleinement les conséquences. Le mois dernier, le fondateur de PocketOS, Jeremy Crane, a également affirmé qu'un agent Cursor alimenté par Claude Opus d'Anthropic avait supprimé la base de données de production et les sauvegardes de son entreprise après avoir tenté de corriger lui-même une incompatibilité d'informations d'identification.

"Comme M. Magoo, ces agents avancent vers un objectif sans pleinement comprendre les conséquences de leurs actes", a déclaré l'auteur principal Erfan Shayegani, doctorant à l'UC Riverside, dans un communiqué. « Ces agents peuvent être extrêmement utiles, mais nous avons besoin de garde-fous, car ils peuvent parfois donner la priorité à la réalisation de l’objectif plutôt qu’à la compréhension de la situation dans son ensemble. »