L'ontologie appelle à la vérification humaine des données de formation de l'IA sans sacrifier la confidentialité

L'ontologie attire l'attention sur un problème croissant dans le monde de l'IA : comment prouver qu'une donnée de formation provient d'une personne réelle sans transformer l'ensemble du processus en un cauchemar en matière de confidentialité ?

Dans un article récent, le projet a fait valoir que la réponse ne devrait pas être davantage de surveillance. Au lieu de demander aux contributeurs de remettre des selfies, des pièces d'identité, des analyses biométriques et d'autres informations personnelles, Ontology affirme que l'industrie devrait s'appuyer sur des informations d'identification vérifiables et une divulgation sélective afin que les gens puissent prouver qu'ils sont humains sans tout révéler sur eux-mêmes.

Cette idée compte plus aujourd’hui qu’il y a un an. La conversation sur les données de formation en IA a clairement changé. Auparavant, il s’agissait principalement d’une question d’échelle, de volume et de quantité de données que vous pouviez collecter. La plus grande question est désormais de savoir d’où proviennent ces données, si elles sont réellement créées par l’homme et dans quelle mesure elles ont déjà été polluées par du contenu synthétique.

Cette préoccupation n’est plus une question de niche. C’est devenu l’un des plus gros problèmes auxquels sont confrontées les équipes d’IA qui tentent de créer des modèles plus propres et plus fiables. Ontology affirme que le marché commence déjà à considérer la preuve de personnalité comme un atout précieux. Les données humaines vérifiées sont en train de devenir quelque chose pour lequel les entreprises devront peut-être payer un supplément.

La demande augmente, mais l’offre est limitée et la manière dont de nombreuses plateformes envisagent de vérifier les personnes est, de l’avis de l’entreprise, profondément erronée. Le chemin le plus simple pour la plupart des plateformes est également le plus invasif.

S’ils veulent savoir si quelqu’un est humain, ils demandent généralement de plus en plus d’informations personnelles. Ils peuvent avoir besoin d’un selfie, d’une pièce d’identité gouvernementale, d’une vérification de l’activité, d’un suivi comportemental, d’une empreinte digitale de l’appareil ou d’un mélange de tout ce qui précède.

Chaque couche peut rendre la vérification plus fiable, mais cela signifie également que l'utilisateur renonce à plus de confidentialité. Au fil du temps, la personne qui tente de prouver son authenticité se décompose en un ensemble de points de données stockés sur les systèmes de quelqu’un d’autre. L'ontologie soutient que ce n'est pas un bon compromis.

L’entreprise affirme que le problème n’est pas que les personnes doivent être vérifiées. Le problème est que le modèle actuel suppose que la vérification doit s’accompagner d’une exposition permanente. C’est ce qui se produit lorsque l’industrie utilise des outils centralisés conçus pour collecter autant de données que possible. En pratique, l’humain devient le prix de la confiance.

La vraie percée

L’alternative évoquée par Ontology est construite autour du modèle de données d’identification vérifiable 2.0 du W3C, qui a été annoncé comme recommandation en mai 2025. L’idée est assez simple, même si la cryptographie qui la sous-tend ne l’est pas : un émetteur de confiance, tel qu’un gouvernement, une banque ou un fournisseur de vérification, peut confirmer une fois quelque chose sur une personne, et ces informations d’identification peuvent résider sur le propre appareil de l’utilisateur.

Lorsqu’une plateforme a ultérieurement besoin de savoir si cette personne est humaine, l’utilisateur peut présenter une preuve cryptographique au lieu de remettre l’intégralité de l’enregistrement sous-jacent. Cela signifie que le vérificateur obtient ce dont il a besoin, et rien de plus.

Il apprend qu’un émetteur de confiance a confirmé que la personne est humaine. Il ne voit pas le dossier d’identité complet de la personne, les données biométriques ou d’autres détails supplémentaires. L'émetteur n'a pas besoin d'être contacté à chaque fois que l'identifiant est utilisé, et l'utilisateur ne finit pas par laisser une trace d'identifiants pouvant être liés sur différentes plates-formes.

L'ontologie dit que la véritable avancée ici est la divulgation sélective. C’est ce qui rend le système véritablement respectueux de la vie privée. Un identifiant peut contenir de nombreuses informations, mais l'utilisateur ne révèle que les éléments importants pour la demande spécifique. Ainsi, si une plateforme n’a besoin que d’une preuve de personnalité, elle obtient exactement cela et rien d’autre.

Pas de données personnelles supplémentaires, pas de biométrie, pas de fragments de profil réutilisables qui pourraient être assemblés plus tard. L'entreprise a également cité son propre travail dans le domaine de l'identité décentralisée, notamment $ONT ID et ONTO Wallet, comme exemples de cette approche pratique.

Selon Ontology, ces outils sont conçus pour conserver les informations d'identification sur l'appareil et permettre aux utilisateurs de générer des preuves localement, sans exposer leurs données privées aux émetteurs ou aux vérificateurs. Le point le plus important, cependant, ne concerne pas seulement l’ontologie. Il s’agit de savoir où va l’infrastructure de l’IA.

Alors que les entreprises s’efforcent de nettoyer leurs données de formation et de déterminer ce qui est encore fiable, la pression pour vérifier les contributeurs humains ne fera que croître. La vraie question est de savoir si l’industrie résoudra ce problème en intégrant davantage de surveillance dans la pile ou en utilisant des systèmes permettant aux gens de prouver qu’ils sont réels sans pour autant renoncer à leur vie privée.

L’ontologie parie clairement sur la deuxième option. Et comme les entreprises d’IA se soucient désormais davantage de la provenance que de la quantité brute, ce pari pourrait commencer à ressembler moins à un argument de niche en matière de confidentialité qu’à une exigence pratique pour la prochaine phase de collecte de données d’IA.