本体呼吁在不牺牲隐私的情况下对人工智能训练数据进行人工验证

本体论正在呼吁人们关注人工智能世界中一个日益严重的问题：如何证明一段训练数据来自真人而不将整个过程变成隐私噩梦？

在最近的一篇文章中，该项目认为答案不应该是更多的监视。本体表示，该行业不应要求贡献者交出自拍照、身份证件、生物识别扫描和其他个人详细信息，而是应依靠可验证的凭据和选择性披露，以便人们可以证明自己是人类，而无需泄露自己的一切。

这个想法现在比一年前更重要。人工智能训练数据的对话已经明显发生了变化。过去主要关注的是规模、数量以及可以收集多少数据。现在更大的问题是这些数据来自哪里，是否真的是人造的，以及其中有多少已经被合成内容污染了。

这种担忧不再是一个小问题。这已经成为试图构建更清洁、更可靠模型的人工智能团队面临的最大难题之一。本体论表示，市场已经开始将人格证明视为宝贵的资产。经过验证的人类数据正在成为公司可能必须支付额外费用的东西。

需求在上升，但供应有限，在该公司看来，许多平台计划验证人员的方式存在严重缺陷。对于大多数平台来说，最简单的途径也是最具侵入性的途径。

如果他们想知道某人是否是人类，他们通常会要求提供越来越多的个人信息。他们可能需要自拍照、政府身份证、活体检查、行为跟踪、设备指纹识别或上述所有内容的某种组合。

每一层可能会让验证更有信心，但也意味着用户放弃更多的隐私。随着时间的推移，试图证明自己真实性的人会被分解成一组存储在其他人的系统上的数据点。本体论认为这是错误的权衡。

该公司表示，问题不在于人员需要经过验证。问题在于当前模型假设验证必须伴随永久暴露。当行业使用旨在收集尽可能多数据的集中式工具时，就会发生这种情况。在实践中，人成为信任的成本。

真正的突破

Ontology 所指的替代方案是围绕 W3C 可验证凭证数据模型 2.0 构建的，该模型于 2025 年 5 月作为建议发布。这个想法非常简单，即使其背后的密码学并非如此：受信任的发行者（例如政府、银行或验证提供商）可以确认有关某人的信息一次，并且该凭证可以存在于用户自己的设备上。

当平台稍后需要知道该人是否是人类时，用户可以提供加密证明，而不是交出整个基础记录。这意味着验证者得到了它所需要的，仅此而已。

它获悉受信任的发行人已确认该人是人类。它看不到该人的完整身份文件、生物识别数据或其他额外详细信息。不需要每次使用凭证时都联系颁发者，并且用户最终不会在不同平台上留下可链接标识符的踪迹。

本体论表示，真正的突破是选择性披露。这就是该系统真正保护隐私的原因。凭证可以包含大量信息，但用户仅透露对特定请求重要的部分。因此，如果一个平台只需要人格证明，那么它就可以做到这一点，而无需其他任何东西。

没有额外的个人数据，没有生物识别信息，没有可以稍后拼接在一起的可重复使用的个人资料片段。该公司还指出了自己在去中心化身份方面的工作，包括 $ONT ID 和 ONTO 钱包，作为这种方法在实践中的例子。

据本体论称，这些工具旨在将凭证保存在设备上，并让用户在本地生成证明，而不会将其私人数据暴露给发行者或验证者。然而，更重要的一点不仅仅是本体论。这是关于人工智能基础设施的发展方向。

随着公司竞相清理训练数据并找出哪些数据仍然可信，验证人类贡献者的压力只会越来越大。真正的问题是，该行业是否通过在堆栈中建立更多监控来解决这个问题，或者通过使用让人们证明他们是真实的而不在此过程中放弃隐私的系统来解决这个问题。

本体显然押注于第二种选择。由于人工智能公司现在更多地担心来源而不是原始数量，这一赌注可能开始看起来不再像一个利基隐私争论，而更像是下一阶段人工智能数据收集的实际要求。