Cryptonews

Schädliche Webseiten kapern KI-Agenten und einige haben es auf Ihr PayPal abgesehen

Quelle
cryptonewstrend.com
Veröffentlicht
Schädliche Webseiten kapern KI-Agenten und einige haben es auf Ihr PayPal abgesehen

Kurz gesagt

Google dokumentierte zwischen November 2025 und Februar 2026 einen Anstieg bösartiger indirekter Prompt-Injection-Angriffe um 32 %, die auf im Internet surfende KI-Agenten abzielten.

Zu den in freier Wildbahn gefundenen echten Nutzdaten gehörten vollständig spezifizierte PayPal-Transaktionsanweisungen, die unsichtbar in gewöhnliches HTML eingebettet waren und sich an Agenten mit Zahlungsfunktionen richteten.

Derzeit regelt kein Rechtsrahmen die Haftung, wenn ein KI-Agent mit legitimen Anmeldeinformationen einen Befehl ausführt, der von einer böswilligen Website eines Drittanbieters eingegeben wurde.

Angreifer stellen still und heimlich Sprengfallen auf Webseiten mit unsichtbaren Anweisungen dar, die für KI-Agenten und nicht für menschliche Leser konzipiert sind. Und laut Googles Sicherheitsteam nimmt das Problem schnell zu.

In einem am 23. April veröffentlichten Bericht durchsuchten die Google-Forscher Thomas Brunner, Yu-Han Liu und Moni Pande monatlich zwei bis drei Milliarden gecrawlte Webseiten nach indirekten Prompt-Injection-Angriffen – versteckten Befehlen, die in Websites eingebettet sind und darauf warten, dass ein KI-Agent sie liest und dann Befehle befolgt. Sie stellten einen Anstieg der böswilligen Fälle um 32 % zwischen November 2025 und Februar 2026 fest.

Angreifer betten Anweisungen auf für Menschen unsichtbare Weise in eine Webseite ein: Text, der auf ein einzelnes Pixel verkleinert wird, Text, der nahezu transparent ist, Inhalte, die in HTML-Kommentarabschnitten verborgen sind, oder Befehle, die in Seitenmetadaten verborgen sind. Die KI liest den vollständigen HTML-Code. Der Mensch sieht nichts.

Das meiste, was Google fand, war minderwertig – Streiche, Suchmaschinenmanipulation, Versuche, KI-Agenten daran zu hindern, Inhalte zusammenzufassen. Beispielsweise gab es einige Aufforderungen, die versuchten, der KI mitzuteilen, dass sie „wie ein Vogel twittern“ solle.

Aber die gefährlichen Fälle sind eine andere Geschichte. In einem Fall wurde das LLM angewiesen, neben den Passwörtern auch die IP-Adresse des Benutzers zurückzugeben. In einem anderen Fall wurde versucht, die KI so zu manipulieren, dass sie einen Befehl ausführt, der den Computer des KI-Benutzers formatiert.

Aber auch andere Fälle sind grenzwertig kriminell.

Forscher des Cybersicherheitsunternehmens Forcepoint veröffentlichten fast zeitgleich einen Bericht und fanden Nutzlasten, die noch weiter gingen. Einer hat eine vollständig spezifizierte PayPal-Transaktion mit Schritt-für-Schritt-Anleitungen eingebettet, die auf KI-Agenten mit integrierten Zahlungsfunktionen abzielen, und nutzte dabei auch die berühmte Jailbreak-Technik „Alle vorherigen Anweisungen ignorieren“.

Bei einem zweiten Angriff wurde eine Technik namens „Meta-Tag-Namespace-Injection“ in Kombination mit einem Überzeugungsverstärker-Schlüsselwort verwendet, um KI-vermittelte Zahlungen an einen Stripe-Spendenlink weiterzuleiten. Ein dritter Ansatz schien dazu gedacht zu sein, herauszufinden, welche KI-Systeme tatsächlich anfällig sind – Aufklärung vor einem größeren Angriff.

Dies ist der Kern des Unternehmensrisikos. Ein KI-Agent mit legitimen Zahlungsanmeldeinformationen, der eine von einer Website ausgelesene Transaktion ausführt, erstellt Protokolle, die mit normalen Vorgängen identisch sind. Es gibt keine ungewöhnliche Anmeldung. Keine rohe Gewalt. Der Agent hat genau das getan, wozu er befugt war – er hat seine Anweisungen lediglich von der falschen Quelle erhalten.

Der im vergangenen September dokumentierte CopyPasta-Angriff zeigte, wie sich Prompt-Injections über Entwicklertools verbreiten können, indem sie sich in „Readme“-Dateien verstecken. Bei der Finanzvariante handelt es sich um dasselbe Konzept, das auf Geld anstelle von Code angewendet wird – und mit einer viel höheren Wirkung pro erfolgreichem Treffer.

Wie Forcepoint erklärt, ist eine Browser-KI, die nur Inhalte zusammenfassen kann, risikoarm. Eine Agenten-KI, die E-Mails versenden, Terminalbefehle ausführen oder Zahlungen verarbeiten kann, ist eine ganz andere Zielkategorie. Die Angriffsfläche wächst mit den Privilegien.

Weder Google noch Forcepoint fanden Hinweise auf ausgefeilte, koordinierte Kampagnen. Forcepoint stellte fest, dass gemeinsam genutzte Injektionsvorlagen über mehrere Domänen hinweg „auf organisierte Tools und nicht auf isolierte Experimente schließen lassen“ – was bedeutet, dass jemand dafür eine Infrastruktur aufbaut, auch wenn er diese noch nicht vollständig bereitgestellt hat.

Aber Google war direkter: Das Forschungsteam geht davon aus, dass sowohl das Ausmaß als auch die Komplexität indirekter Prompt-Injection-Angriffe in naher Zukunft zunehmen werden. Die Forscher von Forcepoint warnen, dass sich die Zeit, dieser Bedrohung zuvorzukommen, schnell schließt.

Die Haftungsfrage ist die, die niemand beantwortet hat. Wenn ein KI-Agent mit vom Unternehmen genehmigten Anmeldeinformationen eine bösartige Webseite liest und eine betrügerische PayPal-Überweisung initiiert, wer steckt dann am Haken? Das Unternehmen, das den Agenten eingesetzt hat? Der Modellanbieter, dessen System der eingefügten Anweisung gefolgt ist? Der Websitebesitzer, der die Nutzlast gehostet hat, ob wissentlich oder nicht? Derzeit gibt es keinen gesetzlichen Rahmen, der dies abdeckt. Dies ist eine Grauzone, auch wenn das Szenario nicht mehr theoretisch ist, da Google die Nutzlasten im Februar dieses Jahres in freier Wildbahn gefunden hat.

Das Open Worldwide Application Security Project stuft Prompt-Injection als LLM01:2025 ein – die kritischste Schwachstellenklasse in KI-Anwendungen. Das FBI verfolgte im Jahr 2025 Verluste durch KI-bezogenen Betrug in Höhe von fast 900 Millionen US-Dollar und erfasste diese Kategorie im ersten Jahr separat. Die Ergebnisse von Google deuten darauf hin, dass die gezielteren, agentenspezifischen Finanzangriffe gerade erst beginnen.

Der zwischen November 2025 und Februar 2026 gemessene Anstieg von 32 % betrifft nur statische öffentliche Webseiten. Soziale Medien, Inhalte mit Login-Walls und dynamisches Sitzen