¿Internet muerto? Un tercio de los nuevos sitios web están generados por IA, dice Stanford

En breve

A mediados de 2025, el 35% de los sitios web recién publicados fueron generados o asistidos por IA, frente a cero antes del lanzamiento de ChatGPT en noviembre de 2022.

Los efectos confirmados son contracción semántica y positividad artificial, no desinformación ni homogeneidad estilística, a pesar de lo que la mayoría de la gente cree.

Con una prevalencia de IA del 35%, el riesgo de colapso del modelo pasa de ser una preocupación teórica a una preocupación empírica para la próxima generación de modelos básicos.

Un nuevo estudio tiene una cifra sobre la proporción de Internet generada actualmente por IA: 35%. Esa es la proporción de sitios web recientemente publicados clasificados como generados o asistidos por IA para mediados de 2025, según una investigación de la Universidad de Stanford, el Imperial College de Londres y Internet Archive. La cifra era esencialmente cero antes del lanzamiento de ChatGPT en noviembre de 2022.

"La velocidad con la que la IA se apodera de la web me parece bastante asombrosa", dijo a 404 Media Jonáš Doležal, investigador del Imperial College de Londres y coautor del artículo. "Después de décadas de que los humanos le dieran forma, una parte importante de Internet ha sido definida por la IA en sólo tres años".

El estudio, titulado "El impacto del texto generado por IA en Internet", se basó en 33 meses de instantáneas de sitios web tomadas de Wayback Machine de Internet Archive y utilizó un detector de texto de IA llamado Pangram v3 para clasificar cada página.

Los daños confirmados: vibraciones, no hechos

Los investigadores probaron seis hipótesis sobre lo que el contenido de IA afecta a la web. Sólo dos resistieron el escrutinio de datos.

La primera: nos estamos convirtiendo en una horda de PNJ tontos que actúan de la misma manera... O dicho más científicamente, la web se está volviendo menos diversa semánticamente.

Los sitios generados por IA mostraron puntuaciones de similitud semántica por pares un 33% más altas que los escritos por humanos. Las mismas ideas se siguen expresando casi de la misma manera.

El artículo sugiere que la ventana de Overton en línea puede estar reduciéndose, no a través de la censura o campañas coordinadas, sino porque los modelos lingüísticos se optimizan para resultados cercanos a su distribución de capacitación.

El segundo: Internet se está volviendo agresivamente alegre.

El contenido de IA mostró puntuaciones de sentimiento positivo más de un 107% más altas que el contenido humano. Los investigadores relacionan esto con las bien documentadas tendencias aduladoras de los LLM: entrenados en señales de aprobación humana, producen textos que se sienten desinfectados, sin fricciones e implacablemente optimistas.

Una Internet inundada de contenido alegre y homogeneizado puede marginar la disidencia humana a gran escala sin que nadie mueva una palanca.

A pesar de la creencia pública generalizada, el estudio no encontró evidencia estadísticamente significativa de que el contenido de IA esté haciendo que Internet sea menos precisa en cuanto a los hechos. Los investigadores no encontraron una correlación significativa entre la prevalencia de la IA y la tasa de error fáctico.

La hipótesis del monocultivo estilístico (la IA aplana las voces individuales en un registro uniforme genérico) fue la creencia que los encuestados sostuvieron con mayor firmeza (83% estuvo de acuerdo). Los datos no lo confirman. El análisis a nivel de carácter no encontró ningún aumento estadísticamente significativo en la homogeneidad estilística relacionada con la prevalencia de la IA.

El problema del colapso del modelo se volvió real

Lo que está en juego va más allá de la calidad del discurso. Con una prevalencia de IA del 35%, el riesgo teórico de colapso del modelo (donde los modelos futuros se degradan después del entrenamiento con datos generados por IA) pasa de una preocupación académica a una realidad empírica. Los futuros modelos básicos entrenados en rastreos web contemporáneos inevitablemente ingerirán datos sustancialmente generados por IA y considerablemente menos diversos semánticamente.

El equipo ahora está trabajando con Internet Archive para convertir el estudio en una herramienta de monitoreo continuo y en vivo, que rastrea la participación de la IA en la web en tiempo real en lugar de una instantánea única.

Una encuesta estadounidense realizada junto con el estudio encontró que la mayoría de los estadounidenses ya creen en las seis hipótesis negativas, incluidas las que los datos no respaldan. Las personas que utilizan la IA con poca frecuencia tenían un 12% más de probabilidades de creer en los daños que los usuarios frecuentes. Creyentes muertos de la teoría de Internet, conozcan los datos: Internet no está muerto, pero el 35% de lo nuevo probablemente sea contenido zombie de alguna manera.