Arbitrum met en évidence les risques cachés dans les modèles d'IA : les utilisateurs ne peuvent pas vérifier ce qui s'exécute sur le GPU

Arbitrum recherche une nouvelle approche de vérification des inférences d'IA qui réduit le temps de génération de preuves de 15 minutes à quelques millisecondes.
Un article d'Offchain Labs propose de vérifier les inférences du modèle d'IA grâce à un échantillonnage aléatoire de chemins internes, sans réexécuter chaque opération.
Le protocole utilise la même logique de résolution des litiges qu'Arbitrum One pour détecter la substitution de modèle dans les API d'IA.
L’économie des agents d’intelligence artificielle est confrontée à un problème que, jusqu’à présent, personne n’avait résolu suffisamment rapidement pour être utile en production : vérifier que le modèle d’IA qu’un fournisseur prétend exécuter est bien celui en cours d’exécution.
Un article publié en mars 2026 par Offchain Labs, intitulé *Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference*, propose une solution qui réduit le temps de génération de preuves d'environ 15 minutes à millisecondes, et la logique derrière le système n'est pas étrangère à l'écosystème Arbitrum.
Un écart de confiance que le marché a normalisé
Le modèle de tarification par jeton crée une incitation économique concrète à la fraude. Servir un modèle de 7 milliards de paramètres coûte moins cher que de servir un modèle de 70 milliards de paramètres, et exécuter une inférence quantifiée coûte moins cher qu'une précision totale. Si un fournisseur peut rediriger une fraction des requêtes vers un modèle plus petit tout en facturant les frais du plus grand, l'avantage évolue avec le volume. Les chercheurs de Stanford ont documenté que le comportement de GPT-3.5 et GPT-4 a changé de manière mesurable entre mars et juin 2023 sur les mêmes tâches d'évaluation. Le contrat API actuel n'offre aucun mécanisme pour détecter cette différence.
Les preuves cryptographiques existantes, du même type que celles utilisées par les zk-rollups, peuvent démontrer qu'un serveur a exécuté correctement un calcul sans que le client ait à le répéter. Le problème est la vitesse. Des systèmes tels que zkLLM génèrent une preuve d'inférence pour un modèle de 13 milliards de paramètres en 15 minutes environ, un chiffre incompatible avec les API qui doivent répondre en moins d'une seconde.
Le même mécanisme qui protège Arbitrum One
La proposition d'Offchain Labs abandonne la preuve exhaustive et adopte l'échantillonnage. Le serveur s'engage au préalable sur une empreinte numérique des poids du modèle et sur les valeurs internes générées lors d'une requête spécifique. Le client sélectionne ensuite un chemin aléatoire vers la sortie du réseau et demande au serveur de révéler uniquement les valeurs situées le long de ce chemin. Si le serveur exécute un modèle différent, les valeurs seront incohérentes et la vérification échouera. La probabilité de détection s'accumule à chaque requête répétée, transformant le système en un moyen de dissuasion efficace pour les adversaires rationnels.
Le lien avec Arbitrum est explicite dans le document. Les cumuls optimistes fonctionnent sur la même intuition : réexécuter chaque étape d’un long calcul sur chaque machine coûte cher, tandis qu’échantillonner l’étape contestée est bon marché. Le protocole proposé étend cette logique aux valeurs du réseau neuronal, en utilisant une procédure de bissection qui réduit le désaccord entre deux serveurs en un nombre logarithmique de tours, la même structure de résolution des litiges qui protège Arbitrum One.
Pour les industries réglementées, les équipes de gouvernance modèles et le marché émergent des agents autonomes, la différence entre une affirmation de transparence et une affirmation vérifiable commence à avoir des conséquences directes. Le protocole n'oblige pas les développeurs à modifier leurs piles existantes ; il suffit que quelqu'un dans le système, qu'il s'agisse du fournisseur, de l'auditeur ou de la plateforme, produise une déclaration vérifiable.