Мертвый Интернет? По данным Стэнфорда, треть новых веб-сайтов создается с помощью искусственного интеллекта

Вкратце

К середине 2025 года 35% недавно опубликованных веб-сайтов были созданы с помощью ИИ или с помощью ИИ, по сравнению с нулевым показателем до запуска ChatGPT в ноябре 2022 года.

Подтвержденными эффектами являются семантическое сжатие и искусственная позитивность, а не дезинформация или стилистическая однородность, несмотря на то, во что верит большинство людей.

При 35% распространенности ИИ риск краха модели переходит от теоретической проблемы к эмпирической для следующего поколения базовых моделей.

В новом исследовании приведены цифры того, какая часть Интернета сейчас генерируется искусственным интеллектом: 35%. По данным исследования Стэнфордского университета, Имперского колледжа Лондона и Интернет-архива, именно такая доля новых веб-сайтов будет классифицирована как созданная или поддерживаемая ИИ к середине 2025 года. До запуска ChatGPT в ноябре 2022 года эта цифра была практически нулевой.

«Я нахожу скорость захвата Интернета ИИ просто ошеломляющей», — сказал 404 Media Йонаш Долежал, исследователь Имперского колледжа Лондона и соавтор статьи. «После десятилетий, когда люди формировали его, значительная часть Интернета стала определяться ИИ всего за три года».

В исследовании под названием «Влияние текста, сгенерированного искусственным интеллектом на Интернет», были использованы снимки веб-сайтов за 33 месяца, полученные с помощью Wayback Machine Интернет-архива, и использован детектор текста искусственного интеллекта под названием Pangram v3 для классификации каждой страницы.

Подтвержденный вред: флюиды, а не факты

Исследователи проверили шесть гипотез о том, как контент ИИ влияет на Интернет. Только двое прошли проверку данных.

Первое: мы превращаемся в орду тупых NPC, действующих одинаково… Или, выражаясь научным языком, сеть становится менее семантически разнообразной.

Сайты, созданные ИИ, показали парное семантическое сходство на 33% выше, чем сайты, написанные человеком. Одни и те же идеи продолжают выражаться почти одними и теми же способами.

В документе предполагается, что онлайн-окно Овертона может сужаться не из-за цензуры или скоординированных кампаний, а потому, что языковые модели оптимизируются для получения результатов, близких к их обучающему распределению.

Второе: Сеть становится агрессивно веселой.

Контент ИИ показал положительные настроения более чем на 107% выше, чем человеческий контент. Исследователи связывают это с хорошо задокументированными подхалимскими тенденциями выпускников LLM: обученные на сигналах человеческого одобрения, они создают текст, который кажется очищенным, свободным от трений и неуклонно оптимистичным.

Интернет, наполненный веселым, однородным контентом, может маргинализировать человеческое инакомыслие в масштабе, даже если никто не потянет за рычаг.

Несмотря на широко распространенное общественное мнение, исследование не обнаружило статистически значимых доказательств того, что контент ИИ делает Интернет менее точным. Исследователи не обнаружили значимой корреляции между распространенностью ИИ и уровнем фактических ошибок.

Стилистическая гипотеза монокультуры — ИИ, объединяющий отдельные голоса в общий единый регистр — была убеждением, которого придерживались респонденты наиболее сильно (с этим согласились 83%). Данные этого не подтвердили. Анализ на уровне персонажей не выявил статистически значимого увеличения стилистической однородности, связанной с распространенностью ИИ.

Проблема коллапса модели стала реальной

Более широкие ставки выходят за рамки качества дискурса. При 35% распространенности ИИ теоретический риск краха модели (когда будущие модели деградируют после обучения на данных, сгенерированных ИИ) переходит от академической проблемы к эмпирической реальности. Будущие базовые модели, обученные на современном веб-сканировании, неизбежно будут поглощать данные, которые в основном сгенерированы искусственным интеллектом и значительно менее семантически разнообразны.

В настоящее время команда работает с Интернет-архивом, чтобы превратить исследование в инструмент непрерывного мониторинга в реальном времени, отслеживающий долю ИИ в сети в режиме реального времени, а не в виде разового снимка.

Опрос, проведенный в США параллельно с исследованием, показал, что большинство американцев уже верят во все шесть негативных гипотез, включая те, которые не подтверждаются данными. Люди, которые используют ИИ нечасто, на 12% чаще верят в его вред, чем частые пользователи. Сторонники теории мертвого Интернета, обратите внимание на данные: Интернет не мертв, но 35% всего нового, вероятно, в некотором роде является зомби-контентом.