Die Ontologie fordert eine menschliche Überprüfung von KI-Trainingsdaten, ohne die Privatsphäre zu beeinträchtigen

Die Ontologie macht auf ein wachsendes Problem in der KI-Welt aufmerksam: Wie kann man nachweisen, dass Trainingsdaten von einer realen Person stammen, ohne den gesamten Prozess in einen Albtraum für die Privatsphäre zu verwandeln?

In einem aktuellen Beitrag argumentierte das Projekt, dass die Antwort nicht mehr Überwachung sein sollte. Anstatt die Mitwirkenden aufzufordern, Selfies, Ausweise, biometrische Scans und andere persönliche Daten herauszugeben, sollte sich die Branche laut Ontology auf überprüfbare Anmeldeinformationen und selektive Offenlegung stützen, damit die Menschen beweisen können, dass sie ein Mensch sind, ohne alles über sich selbst preiszugeben.

Diese Idee ist heute wichtiger als noch vor einem Jahr. Die Konversation zwischen KI-Training und Daten hat sich deutlich verändert. Früher ging es hauptsächlich um Umfang, Volumen und darum, wie viele Daten man sammeln konnte. Die größere Frage ist nun, woher diese Daten stammen, ob sie tatsächlich von Menschen erstellt wurden und wie viel davon bereits durch synthetische Inhalte verunreinigt wurde.

Dieses Anliegen ist kein Nischenthema mehr. Es ist zu einem der größten Probleme für KI-Teams geworden, sauberere und zuverlässigere Modelle zu entwickeln. Laut Ontology beginnt der Markt bereits damit, Persönlichkeitsnachweise wie ein wertvolles Gut zu behandeln. Verifizierte menschliche Daten werden für Unternehmen zunehmend zu etwas, wofür sie möglicherweise extra bezahlen müssen.

Die Nachfrage steigt, aber das Angebot ist begrenzt, und die Art und Weise, wie viele Plattformen Personen verifizieren wollen, ist nach Ansicht des Unternehmens äußerst fehlerhaft. Der einfachste Weg ist für die meisten Plattformen auch der invasivste.

Wenn sie wissen wollen, ob jemand ein Mensch ist, fragen sie normalerweise nach immer mehr persönlichen Informationen. Sie benötigen möglicherweise ein Selfie, einen amtlichen Ausweis, eine Lebendigkeitsprüfung, eine Verhaltensverfolgung, einen Gerätefingerabdruck oder eine Mischung aus all dem.

Jede Ebene macht die Überprüfung zwar sicherer, bedeutet aber auch, dass der Benutzer mehr Privatsphäre aufgibt. Im Laufe der Zeit wird die Person, die zu beweisen versucht, dass sie real ist, in eine Reihe von Datenpunkten zerlegt, die auf den Systemen einer anderen Person gespeichert sind. Die Ontologie argumentiert, dass dies der falsche Kompromiss ist.

Das Problem bestehe nicht darin, dass Personen verifiziert werden müssten, sagt das Unternehmen. Das Problem besteht darin, dass das aktuelle Modell davon ausgeht, dass die Verifizierung mit einer dauerhaften Belastung einhergehen muss. Das passiert, wenn die Branche zentralisierte Tools einsetzt, die darauf ausgelegt sind, so viele Daten wie möglich zu sammeln. In der Praxis wird der Mensch zum Preis des Vertrauens.

Der wahre Durchbruch

Die Alternative, auf die Ontology hinweist, basiert auf dem W3C Verifiable Credentials Data Model 2.0, das im Mai 2025 als Empfehlung angekündigt wurde. Die Idee ist ziemlich einfach, auch wenn die dahinter stehende Kryptografie es nicht ist: Ein vertrauenswürdiger Aussteller, wie eine Regierung, eine Bank oder ein Verifizierungsanbieter, kann einmal etwas über eine Person bestätigen, und dieser Berechtigungsnachweis kann auf dem eigenen Gerät des Benutzers gespeichert sein.

Wenn eine Plattform später wissen muss, ob es sich bei dieser Person um einen Menschen handelt, kann der Benutzer einen kryptografischen Beweis vorlegen, anstatt den gesamten zugrunde liegenden Datensatz herauszugeben. Das bedeutet, dass der Prüfer bekommt, was er braucht, und nicht mehr.

Es erfährt, dass ein vertrauenswürdiger Aussteller bestätigt hat, dass es sich bei der Person um einen Menschen handelt. Die vollständige Identitätsdatei, die biometrischen Daten oder andere zusätzliche Details der Person werden nicht angezeigt. Der Aussteller muss nicht jedes Mal kontaktiert werden, wenn der Berechtigungsnachweis verwendet wird, und der Benutzer hinterlässt keine Spur verknüpfbarer Identifikatoren über verschiedene Plattformen hinweg.

Laut Ontologie ist der wahre Durchbruch hier die selektive Offenlegung. Das macht das System wirklich datenschutzfreundlich. Ein Berechtigungsnachweis kann viele Informationen enthalten, der Benutzer gibt jedoch nur die Teile preis, die für die spezifische Anfrage von Bedeutung sind. Wenn eine Plattform also nur einen Identitätsnachweis benötigt, erhält sie genau diesen und nichts anderes.

Keine zusätzlichen persönlichen Daten, keine Biometrie, keine wiederverwendbaren Profilfragmente, die später zusammengefügt werden könnten. Das Unternehmen verwies auch auf seine eigene Arbeit im Bereich der dezentralen Identität, darunter $ONT ID und das ONTO Wallet, als Beispiele für diesen Ansatz in der Praxis.

Laut Ontology sind diese Tools darauf ausgelegt, Anmeldeinformationen auf dem Gerät zu speichern und es Benutzern zu ermöglichen, Beweise lokal zu erstellen, ohne ihre privaten Daten Ausstellern oder Prüfern preiszugeben. Der größere Punkt betrifft jedoch nicht nur die Ontologie. Es geht darum, wohin sich die KI-Infrastruktur entwickelt.

Während Unternehmen darum kämpfen, ihre Trainingsdaten zu bereinigen und herauszufinden, was noch vertrauenswürdig ist, wird der Druck, menschliche Mitwirkende zu überprüfen, nur noch zunehmen. Die eigentliche Frage ist, ob die Branche dieses Problem löst, indem sie mehr Überwachung in den Stack einbaut oder Systeme verwendet, mit denen Menschen beweisen können, dass sie real sind, ohne dabei ihre Privatsphäre aufzugeben.

Die Ontologie setzt eindeutig auf die zweite Option. Und da sich KI-Unternehmen jetzt mehr um die Herkunft als um die reine Menge kümmern, könnte diese Wette weniger wie ein Nischenargument zum Datenschutz aussehen, sondern eher wie eine praktische Anforderung für die nächste Phase der KI-Datenerfassung.