
AdobeStock © Supatman
Pour accompagner la convocation du réseau international des instituts de sécurité de l’IA à Vancouver, au Canada, le réseau a publié les résultats de son troisième exercice d’essais conjoints. L’exercice s’est concentré sur l’évaluation des «agents», une classe de programmes d’IA avancés qui raisonnent, planifient, utilisent des outils et exécutent des tâches de manière autonome. L'objectif est de faire progresser la compréhension mondiale de la façon de tester en toute sécurité et de manière fiable ces systèmes agentsiques émergents, qui posent de nouveaux risques en raison de la réduction de la surveillance humaine.
Ce troisième test s'est concentré sur deux domaines de risque prioritaires:
- Fuite d'informations sensibles et fraude
- Cybersécurité
Cet exercice s’appuie sur les enseignements tirés de deux essais conjoints antérieurs menés par le réseau à San Francisco (novembre 2024) et à Paris (février 2025). L’objectif de ces exercices est de permettre au réseau d’affiner davantage les bonnes pratiques pour tester les systèmes d’IA avancés.
Les méthodes d'évaluation traditionnelles se sont révélées insuffisantes pour saisir la complexité du comportement autonome des agents. Pour y remédier, les membres participants ont réuni leur expertise technique et linguistique collective. Cet exercice a mis l’accent non seulement sur les résultats des tests, mais aussi sur l’amélioration des méthodologies, en reconnaissant que de petits changements dans la conception de l’évaluation peuvent avoir une incidence significative sur les résultats.
Cet effort de collaboration marque une étape importante dans l'avancement de la science de l'évaluation agentique et représente un investissement essentiel dans le développement sûr et fiable de systèmes d'IA avancés.