
AdobeStock © Supatman
Wraz ze zwołaniem Międzynarodowej Sieci Instytutów ds. Bezpieczeństwa Sztucznej Inteligencji w Vancouver (Kanada) sieć opublikowała wyniki trzeciego wspólnego ćwiczenia testowego. Ćwiczenie koncentrowało się na ocenie „agentów” – klasy zaawansowanych programów sztucznej inteligencji, które samodzielnie rozumują, planują, wykorzystują narzędzia i wykonują zadania. Celem jest zwiększenie globalnego zrozumienia, w jaki sposób bezpiecznie i niezawodnie testować te powstające systemy agentyczne, które stwarzają nowe zagrożenia ze względu na ograniczony nadzór ze strony człowieka.
Ten trzeci test koncentrował się na dwóch priorytetowych obszarach ryzyka:
- Wyciek informacji szczególnie chronionych i oszustwa
- Cyberbezpieczeństwo
Działanie to opiera się na spostrzeżeniach z dwóch wcześniejszych wspólnych testów przeprowadzonych przez sieć w San Francisco (listopad2024 r.) i w Paryżu (luty 2025 r.). Celem tych ćwiczeń jest umożliwienie sieci dalszego udoskonalania najlepszych praktyk w zakresie testowania zaawansowanych systemów sztucznej inteligencji.
Tradycyjne metody oceny okazały się niewystarczające, aby uchwycić złożoność zachowań autonomicznych agentów. Aby rozwiązać ten problem, uczestniczący członkowie zgromadzili swoją zbiorową wiedzę techniczną i językową. Nacisk położono nie tylko na wyniki badań, ale także na poprawę metodyki – uznając, że niewielkie zmiany w koncepcji oceny mogą mieć znaczący wpływ na wyniki.
Ten wspólny wysiłek stanowi ważny krok w rozwoju nauki o ocenie agentycznej i stanowi krytyczną inwestycję w bezpieczny i godny zaufania rozwój zaawansowanych systemów sztucznej inteligencji.