Totes Internet? Ein Drittel der neuen Websites werden KI-generiert, sagt Stanford

Kurz gesagt

Bis Mitte 2025 waren 35 % der neu veröffentlichten Websites KI-generiert oder KI-unterstützt, ein Anstieg gegenüber Null vor dem Start von ChatGPT im November 2022.

Die bestätigten Auswirkungen sind semantische Kontraktion und künstliche Positivität – keine Fehlinformationen oder stilistische Homogenität, entgegen der Meinung der meisten Menschen.

Bei einer KI-Prävalenz von 35 % verlagert sich das Risiko eines Modellkollapses von einem theoretischen zu einem empirischen Problem für die nächste Generation von Basismodellen.

Einer neuen Studie zufolge ist der Anteil des Internets mittlerweile KI-generiert: 35 %. Das ist der Anteil neu veröffentlichter Websites, die bis Mitte 2025 als KI-generiert oder KI-unterstützt eingestuft werden, so eine Studie der Stanford University, des Imperial College London und des Internet Archive. Der Wert lag vor dem Start von ChatGPT im November 2022 im Wesentlichen bei Null.

„Ich finde die schiere Geschwindigkeit der KI-Übernahme des Internets ziemlich atemberaubend“, sagte Jonáš Doležal, Forscher am Imperial College London und Co-Autor des Artikels, gegenüber 404 Media. „Nachdem es jahrzehntelang von Menschen gestaltet wurde, wurde in nur drei Jahren ein erheblicher Teil des Internets durch KI definiert.“

Die Studie mit dem Titel „The Impact of AI-Generated Text on the Internet“ stützte sich auf Website-Schnappschüsse von 33 Monaten aus der Wayback Machine des Internet Archive und nutzte einen KI-Textdetektor namens Pangram v3, um jede Seite zu klassifizieren.

Die bestätigten Schäden: Stimmung, keine Fakten

Forscher testeten sechs Hypothesen darüber, welche Auswirkungen KI-Inhalte auf das Web haben. Nur zwei hielten der Datenprüfung stand.

Das erste: Wir verwandeln uns in eine Horde dummer NPCs, die sich genauso verhalten ... Oder wissenschaftlicher ausgedrückt: Das Web wird semantisch weniger vielfältig.

KI-generierte Websites zeigten um 33 % höhere Werte für paarweise semantische Ähnlichkeit als von Menschen geschriebene. Die gleichen Ideen werden immer wieder auf fast die gleiche Weise ausgedrückt.

Das Papier deutet darauf hin, dass sich das Online-Overton-Fenster möglicherweise verengt, nicht durch Zensur oder koordinierte Kampagnen, sondern weil Sprachmodelle für Ausgaben optimiert werden, die nahe an ihrer Trainingsverteilung liegen.

Zweitens: Das Web wird aggressiv fröhlich.

KI-Inhalte zeigten positive Stimmungswerte, die um mehr als 107 % höher waren als menschliche Inhalte. Forscher bringen dies mit den gut dokumentierten kriecherischen Tendenzen von LLMs in Verbindung: Sie sind auf menschliche Zustimmungssignale trainiert und produzieren Texte, die sich bereinigt, reibungslos und unerbittlich optimistisch anfühlen.

Ein mit fröhlichen, homogenisierten Inhalten überflutetes Internet kann menschliche Meinungsverschiedenheiten in großem Umfang marginalisieren, ohne dass irgendjemand einen Hebel betätigen muss.

Entgegen der weitverbreiteten öffentlichen Meinung fand die Studie keine statistisch signifikanten Beweise dafür, dass KI-Inhalte dazu führen, dass das Internet weniger sachlich korrekt ist. Forscher fanden keinen sinnvollen Zusammenhang zwischen der KI-Prävalenz und der tatsächlichen Fehlerquote.

Die stilistische Monokultur-Hypothese – KI glättet einzelne Stimmen in ein generisches einheitliches Register – war die Überzeugung, die die Befragten am stärksten vertreten (83 % stimmten zu). Die Daten haben es nicht bestätigt. Eine Analyse auf Charakterebene ergab keinen statistisch signifikanten Anstieg der stilistischen Homogenität im Zusammenhang mit der KI-Prävalenz.

Das Problem des Modellkollapses ist gerade real geworden

Die umfassenderen Herausforderungen gehen über die Qualität des Diskurses hinaus. Bei einer KI-Prävalenz von 35 % verschiebt sich das theoretische Risiko eines Modellzusammenbruchs – bei dem zukünftige Modelle nach dem Training auf KI-generierten Daten schlechter werden – von akademischer Bedeutung zur empirischen Realität. Zukünftige Basismodelle, die auf modernen Web-Crawls trainiert werden, werden unweigerlich Daten aufnehmen, die im Wesentlichen KI-generiert und messbar weniger semantisch vielfältig sind.

Das Team arbeitet nun mit dem Internet Archive zusammen, um die Studie in ein kontinuierliches Live-Überwachungstool umzuwandeln, das den Anteil der KI am Web in Echtzeit und nicht als einmalige Momentaufnahme verfolgt.

Eine parallel zur Studie durchgeführte US-Umfrage ergab, dass die meisten Amerikaner bereits an alle sechs negativen Hypothesen glauben, einschließlich derjenigen, die die Daten nicht stützen. Menschen, die KI selten nutzen, glaubten mit 12 % höherer Wahrscheinlichkeit an die Schäden als häufige Nutzer. Anhänger der toten Internet-Theorie, aufgepasst: Das Internet ist nicht tot, aber 35 % dessen, was neu ist, sind wahrscheinlich in irgendeiner Weise Zombie-Inhalte.