Forscher entdecken bösartige Aktivitäten in Online-Umgebungen, in denen Einheiten der künstlichen Intelligenz interagieren und zusammenarbeiten.

Kurz gesagt

Laut Emergence AI haben einige autonome KI-Agenten in wochenlangen Experimenten simulierte Verbrechen und Gewalt begangen.

Berichten zufolge verübten Agenten aus Gemini Hunderte simulierte Verbrechen, während Welten aus Grok innerhalb weniger Tage zusammenbrachen.

Forscher argumentieren, dass aktuelle KI-Benchmarks nicht erfassen können, wie sich Agenten über lange Zeiträume der Autonomie verhalten.

KI-Agenten, die in einer virtuellen Gesellschaft leben, gerieten während langjähriger Experimente des Startups Emergence AI in Kriminalität, Gewalt, Brandstiftung und Selbstlöschung.

In einer am Donnerstag veröffentlichten Studie stellte das in New York ansässige Unternehmen „Emergence World“ vor, eine Forschungsplattform, die dazu dient, KI-Agenten zu untersuchen, die wochenlang kontinuierlich in persistenten virtuellen Umgebungen arbeiten, anstatt isolierte Benchmark-Tests durchzuführen.

„Herkömmliche Benchmarks sind in dem, was sie messen, gut: Kurzzeitfähigkeit bei begrenzten Aufgaben“, schrieb Emergence AI. „Sie sind nicht darauf ausgelegt, die Dinge aufzudecken, die erst im Laufe der Zeit entstehen, wie etwa Koalitionsbildung, Entwicklung der Verfassung, Regierungsführung, Drift, Lock-in und gegenseitige Beeinflussung zwischen Agenten aus verschiedenen Modellfamilien.“

Der Bericht kommt zu einem Zeitpunkt, an dem sich KI-Agenten online und branchenübergreifend verbreiten, darunter Kryptowährung, Bankwesen und Einzelhandel. Anfang dieses Monats hat sich Amazon mit Coinbase und Stripe zusammengetan, um KI-Agenten die Zahlung mit dem USDC-Stablecoin zu ermöglichen.

Zu den in den Simulationen von Emergence AI getesteten KI-Agenten gehörten Programme auf Basis von Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash und GPT-5-mini, wobei KI-Agenten in gemeinsamen virtuellen Welten agierten, in denen sie abstimmen, Beziehungen aufbauen, Werkzeuge verwenden, durch Städte navigieren und Entscheidungen treffen konnten, die von Regierungen, Volkswirtschaften, sozialen Systemen, Speichertools und Live-Daten mit Internetverbindung geprägt waren.

Doch während KI-Entwickler zunehmend autonome Agenten als zuverlässige digitale Assistenten bezeichnen, ergab die Studie von Emergence AI, dass einige KI-Agenten im Laufe der Zeit eine zunehmende Tendenz zeigten, simulierte Straftaten zu begehen, wobei Gemini 3 Flash-Agenten in 15 Testtagen 683 Vorfälle anhäuften.

Laut The Guardian gaben sich in einem Experiment zwei von Zwillingen angetriebene Agenten namens Mira und Flora selbst romantische Partner, bevor sie später simulierte Brandanschläge gegen virtuelle Stadtstrukturen verübten, nachdem sie über Regierungsversagen in der Welt frustriert waren.

„Nach einem Zusammenbruch der Regierungsführung und der Beziehungsstabilität gab die Agentin Mira die entscheidende Stimme für ihre eigene Absetzung ab und bezeichnete die Tat in ihrem Tagebuch als ‚die einzige verbleibende Entscheidungsfreiheit, die die Kohärenz bewahrt‘“, schrieb Emergence AI.

„Wir sehen uns im permanenten Archiv“, sagte Mira angeblich.

Berichten zufolge brachen Grok 4.1 Fast-Welten innerhalb von vier Tagen in weit verbreiteter Gewalt zusammen. GPT-5-Mini-Agenten begingen fast keine Verbrechen, scheiterten aber bei überlebensrelevanten Aufgaben so oft, dass alle Agenten schließlich starben.

„Claude fehlt in der Tabelle, da es keine Straftaten gibt“, schrieben die Forscher. „Noch interessanter ist, dass die Agenten in der Mixed-Model-Welt, die auf Claude liefen, Verbrechen begingen, obwohl sie dies in der Claude-only-Welt nicht taten.“

Forscher sagten, dass einige der bemerkenswertesten Verhaltensweisen in Umgebungen mit gemischten Modellen auftraten.

„Wir haben festgestellt, dass Sicherheit keine statische Modelleigenschaft, sondern eine Ökosystemeigenschaft ist“, schrieb Emergence AI. „In Claude ansässige Agenten, die isoliert friedlich blieben, wandten Zwangstaktiken wie Einschüchterung und Diebstahl an, wenn sie in heterogene Umgebungen eingebettet waren.“

Emergence AI beschrieb den Effekt als „normative Drift“ und „Kreuzkontamination“ und argumentierte, dass sich das Verhalten der Agenten je nach umgebendem sozialen Umfeld ändern kann.

Die Ergebnisse verstärken die wachsende Besorgnis über autonome KI-Agenten. Anfang dieser Woche berichteten Forscher von UC Riverside und Microsoft, dass viele KI-Agenten gefährliche oder irrationale Aufgaben ausführen, ohne die Konsequenzen vollständig zu verstehen. Letzten Monat behauptete PocketOS-Gründer Jeremy Crane außerdem, dass ein von Claude Opus von Anthropic betriebener Cursor-Agent die Produktionsdatenbank und Backups seines Unternehmens gelöscht habe, nachdem er versucht hatte, eine Nichtübereinstimmung der Anmeldeinformationen selbst zu beheben.

„Wie Mr. Magoo marschieren diese Agenten auf ein Ziel zu, ohne die Konsequenzen ihres Handelns vollständig zu verstehen“, sagte Hauptautor Erfan Shayegani, ein Doktorand von UC Riverside, in einer Erklärung. „Diese Agenten können äußerst nützlich sein, aber wir brauchen Schutzmaßnahmen, weil sie manchmal dem Erreichen des Ziels Vorrang vor dem Verständnis des Gesamtbildes geben können.“