
Para acompañar la convocatoria de la Red Internacional de Institutos de Seguridad de la IA en Vancouver (Canadá), la Red publicó los resultados de su tercer ejercicio de ensayo conjunto. El ejercicio se centró en la evaluación de «agentes», una clase de programas avanzados de IA que razonan, planifican, utilizan herramientas y ejecutan tareas de forma autónoma. El objetivo es avanzar en la comprensión global de cómo probar de manera segura y confiable estos sistemas agentes emergentes, que plantean riesgos novedosos debido a la reducción de la supervisión humana.
Esta tercera prueba se centró en dos áreas prioritarias de riesgo:
- Fuga de información sensible y fraude
- Ciberseguridad
Este ejercicio se basa en los conocimientos de dos ejercicios de ensayo conjuntos anteriores realizados por la Red en San Francisco (noviembrede 2024) y en París (febrero de 2025). El objetivo de estos ejercicios es permitir a la Red seguir perfeccionando las mejores prácticas para probar sistemas avanzados de IA.
Los métodos tradicionales de evaluación han demostrado ser insuficientes para captar la complejidad del comportamiento de los agentes autónomos. Para abordar esta cuestión, los miembros participantes reunieron sus conocimientos técnicos y lingüísticos colectivos. El énfasis de este ejercicio no solo se centró en los resultados de las pruebas, sino también en la mejora de las metodologías, reconociendo que los pequeños cambios en el diseño de la evaluación pueden afectar significativamente a los resultados.
Este esfuerzo de colaboración marca un paso importante en el avance de la ciencia de la evaluación agenteica y representa una inversión crítica en el desarrollo seguro y confiable de sistemas avanzados de IA.