Internet mort ? Un tiers des nouveaux sites Web sont générés par l'IA, selon Stanford

En bref

À la mi-2025, 35 % des sites Web nouvellement publiés étaient générés ou assistés par l'IA, contre zéro avant le lancement de ChatGPT en novembre 2022.

Les effets confirmés sont une contraction sémantique et une positivité artificielle – et non une désinformation ou une homogénéité stylistique, contrairement à ce que croient la plupart des gens.

Avec une prévalence d’IA de 35 %, le risque d’effondrement du modèle passe d’une préoccupation théorique à une préoccupation empirique pour la prochaine génération de modèles de fondation.

Une nouvelle étude donne un chiffre sur la part d'Internet qui est désormais générée par l'IA : 35 %. C'est la part des sites Web nouvellement publiés classés comme générés ou assistés par l'IA d'ici la mi-2025, selon une étude de l'Université de Stanford, de l'Imperial College de Londres et d'Internet Archive. Ce chiffre était pratiquement nul avant le lancement de ChatGPT en novembre 2022.

"Je trouve la vitesse à laquelle l'IA prend le contrôle du Web tout à fait stupéfiante", a déclaré Jonáš Doležal, chercheur à l'Imperial College de Londres et co-auteur de l'article, à 404 Media. "Après des décennies de travail humain, une partie importante d'Internet a été définie par l'IA en seulement trois ans."

L'étude, intitulée « L'impact du texte généré par l'IA sur Internet », s'est appuyée sur 33 mois d'instantanés de sites Web provenant de la Wayback Machine d'Internet Archive et a utilisé un détecteur de texte IA appelé Pangram v3 pour classer chaque page.

Les méfaits confirmés : des vibrations, pas des faits

Les chercheurs ont testé six hypothèses sur l’impact du contenu de l’IA sur le Web. Seuls deux ont résisté à l’examen minutieux des données.

La première : nous nous transformons en une horde de PNJ stupides agissant de la même manière… Ou, plus scientifiquement, le Web devient moins diversifié sémantiquement.

Les sites générés par l’IA ont montré des scores de similarité sémantique par paire 33 % plus élevés que ceux écrits par des humains. Les mêmes idées continuent à s’exprimer de la même manière.

L'article suggère que la fenêtre d'Overton en ligne pourrait se rétrécir, non pas à cause de la censure ou de campagnes coordonnées, mais parce que les modèles linguistiques optimisent les résultats proches de leur distribution de formation.

La deuxième : le Web devient de plus en plus joyeux.

Le contenu de l’IA a montré des scores de sentiment positif supérieurs de 107 % au contenu humain. Les chercheurs associent cela aux tendances flagorneuses bien documentées des LLM : formés aux signaux d’approbation humains, ils produisent un texte aseptisé, sans friction et implacablement optimiste.

Un Internet inondé de contenus joyeux et homogénéisés peut marginaliser la dissidence humaine à grande échelle sans que personne ne tire sur le levier.

Malgré l’opinion publique largement répandue, l’étude n’a trouvé aucune preuve statistiquement significative que le contenu de l’IA rend Internet moins précis sur le plan factuel. Les chercheurs n’ont trouvé aucune corrélation significative entre la prévalence de l’IA et le taux d’erreurs factuelles.

L’hypothèse de la monoculture stylistique – l’IA aplatissant les voix individuelles dans un registre générique uniforme – était la conviction la plus forte des personnes interrogées (83 % d’accord). Les données ne l'ont pas confirmé. L’analyse au niveau des personnages n’a révélé aucune augmentation statistiquement significative de l’homogénéité stylistique liée à la prévalence de l’IA.

Le problème de l'effondrement du modèle est devenu réel

Les enjeux plus larges vont au-delà de la qualité du discours. Avec une prévalence de l’IA de 35 %, le risque théorique d’effondrement des modèles (où les futurs modèles se dégradent après une formation sur les données générées par l’IA) passe du domaine académique à la réalité empirique. Les futurs modèles de base formés sur les explorations Web contemporaines ingéreront inévitablement des données essentiellement générées par l’IA et nettement moins diversifiées sur le plan sémantique.

L'équipe travaille maintenant avec Internet Archive pour transformer l'étude en un outil de surveillance continue et en direct, suivant la part de l'IA sur le Web en temps réel plutôt que comme un instantané ponctuel.

Une enquête américaine menée parallèlement à l'étude a révélé que la plupart des Américains croient déjà aux six hypothèses négatives, y compris celles que les données ne soutiennent pas. Les personnes qui utilisent rarement l’IA étaient 12 % plus susceptibles de croire aux méfaits que les utilisateurs fréquents. Croyants morts de la théorie de l'Internet, découvrez les données : Internet n'est pas mort, mais 35 % des nouveautés sont probablement du contenu zombie d'une manière ou d'une autre.