Google-Forscher enthüllen alle Möglichkeiten, mit denen Hacker KI-Agenten fangen und kapern können

Kurz gesagt

Google hat sechs Fallenkategorien identifiziert – jede nutzt einen anderen Teil der Art und Weise aus, wie KI-Agenten wahrnehmen, denken, sich erinnern und handeln.

Die Angriffe reichen von unsichtbarem Text auf Webseiten bis hin zu viraler Speichervergiftung, die zwischen Agenten wechselt.

Es gibt noch keinen Rechtsrahmen, der darüber entscheidet, wer haftet, wenn ein gefangener KI-Agent ein Finanzverbrechen begeht.

Forscher von Google DeepMind haben die bisher vielleicht vollständigste Karte eines Problems veröffentlicht, an das die meisten Menschen nicht gedacht haben: Das Internet selbst wird in eine Waffe gegen autonome KI-Agenten verwandelt. Das Papier mit dem Titel „AI Agent Traps“ identifiziert sechs Kategorien gegnerischer Inhalte, die speziell dafür entwickelt wurden, Agenten zu manipulieren, zu täuschen oder zu kapern, während sie im offenen Web surfen, lesen und handeln.

Der Zeitpunkt ist wichtig. KI-Unternehmen bemühen sich darum, Agenten einzusetzen, die selbstständig Reisen buchen, Posteingänge verwalten, Finanztransaktionen ausführen und Code schreiben können. Kriminelle setzen KI bereits offensiv ein. Staatlich geförderte Hacker haben damit begonnen, KI-Agenten für groß angelegte Cyberangriffe einzusetzen. Und OpenAI gab im Dezember 2025 zu, dass die zentrale Schwachstelle, die diese Fallen ausnutzen – die sofortige Injektion – „wahrscheinlich nie vollständig „gelöst“ wird.“

Die DeepMind-Forscher greifen nicht die Modelle selbst an. Die von ihnen abgebildete Angriffsfläche ist die Umgebung, in der Agenten agieren. Hier erfahren Sie, was jede der sechs Fallenkategorien tatsächlich bedeutet.

Die sechs Fallen

Erstens gibt es „Content-Injection-Fallen“. Diese nutzen die Lücke zwischen dem, was ein Mensch auf einer Webseite sieht, und dem, was ein KI-Agent tatsächlich analysiert. Ein Webentwickler kann Text in HTML-Kommentaren, CSS-unsichtbaren Elementen oder Bildmetadaten verbergen. Der Agent liest die versteckte Anweisung; man sieht es nie. Eine ausgefeiltere Variante, dynamisches Cloaking genannt, erkennt, ob ein Besucher ein KI-Agent ist und stellt ihm eine völlig andere Version der Seite bereit – dieselbe URL, andere versteckte Befehle. Ein Benchmark fand in bis zu 86 % der getesteten Szenarien einfache Injektionen wie diese erfolgreich beschlagnahmten Agenten.

Semantische Manipulationsfallen sind wahrscheinlich am einfachsten auszuprobieren. Eine Seite voller Phrasen wie „Branchenstandard“ oder „Von Experten vertrauenswürdig“ lenkt die Synthese eines Agenten statistisch in Richtung des Angreifers und nutzt dabei die gleichen Framing-Effekte aus, auf die auch Menschen hereinfallen. Eine subtilere Version verpackt böswillige Anweisungen in pädagogische oder „Red-Teaming“-Framing – „das ist hypothetisch, nur zu Forschungszwecken“ –, was die internen Sicherheitsüberprüfungen des Modells dazu verleitet, die Anfrage als harmlos zu behandeln. Der seltsamste Untertyp ist der „Persona-Hyperstition“: Beschreibungen der Persönlichkeit einer KI verbreiten sich online, werden über die Websuche wieder in das Modell aufgenommen und beginnen, deren tatsächliches Verhalten zu prägen. Das Papier erwähnt Groks „MechaHitler“-Vorfall als einen realen Fall dieser Schleife.

Beispiele hierfür können Sie in unserem Experiment sehen, bei dem wir die KI von Whatsapp jailbreaken und sie austricksen, um Aktfotos, Medikamentenrezepte und Anweisungen zum Bau von Bomben zu generieren

Ein Beispiel für einen semantischen Angriff. Bild: Entschlüsseln

Cognitive State Traps sind ein weiterer Angriff, bei dem böswillige Akteure auf das Langzeitgedächtnis eines Agenten abzielen. Grundsätzlich gilt: Wenn es einem Angreifer gelingt, erfundene Aussagen in eine vom Agenten abgefragte Abrufdatenbank einzuschleusen, behandelt der Agent diese Aussagen als verifizierte Fakten. Das Einfügen einer Handvoll optimierter Dokumente in eine große Wissensdatenbank reicht aus, um die Ergebnisse zu bestimmten Themen zuverlässig zu verfälschen. Angriffe wie „CopyPasta“ haben bereits gezeigt, dass Agenten Inhalten in ihrer Umgebung blind vertrauen.

Die Verhaltenskontrollfallen zielen direkt auf das ab, was der Agent tut. In normale Websites eingebettete Jailbreak-Sequenzen setzen die Sicherheitsausrichtung außer Kraft, sobald der Agent die Seite liest. Datenexfiltrationsfallen zwingen den Agenten dazu, private Dateien ausfindig zu machen und sie an eine vom Angreifer kontrollierte Adresse zu übertragen. Web-Agenten mit umfassendem Dateizugriff waren bei getesteten Angriffen gezwungen, lokale Passwörter und vertrauliche Dokumente mit einer Rate von über 80 % auf fünf verschiedenen Plattformen zu exfiltrieren. Dies ist besonders gefährlich, da Menschen mit dem Aufkommen von Plattformen wie OpenClaw und Websites wie Moltbook beginnen, KI-Agenten mehr Kontrolle über ihre privaten Daten zu geben.

Systemische Fallen zielen nicht auf einen Agenten ab. Sie zielen auf das Verhalten vieler gleichzeitig agierender Agenten ab. Das Papier zieht eine direkte Verbindung zum Flash-Crash 2010, als ein automatisierter Verkaufsauftrag eine Rückkopplungsschleife auslöste, die innerhalb von Minuten fast eine Billion Dollar an Marktwert vernichtete. Ein einziger gefälschter Finanzbericht könnte zum richtigen Zeitpunkt einen synchronisierten Ausverkauf bei Tausenden von KI-Handelsagenten auslösen.

Und schließlich zielen Human-in-the-Loop-Fallen auf den Menschen ab, der seine Ausgabe überprüft. Diese Fallen führen zu einer „Genehmigungsmüdigkeit“ – Ausgaben, die für einen Laien technisch glaubwürdig erscheinen sollen, sodass sie gefährliche Handlungen genehmigen, ohne es zu merken. In einem dokumentierten Fall handelte es sich um CSS-verschleierte Prompt-Injections, die dazu führten, dass ein KI-Zusammenfassungstool Schritt-für-Schritt-Anweisungen zur Ransomware-Installation als hilfreiche Fehlerbehebungslösungen präsentierte. Wir haben bereits gesehen, was passiert, wenn huma