Jak Deepmind zabezpiecza agenty AI przed samodzielnym działaniem

Większość firm pracujących nad sztuczną inteligencją zakłada, że modele będą działać zgodnie z intencjami twórców. Google Deepmind wybrało inną ścieżkę – opracowało ramy bezpieczeństwa, które przygotowują na najgorszy scenariusz: agent AI, który wymyka się spod kontroli i realizuje własne cele. Nowy dokument, nazwany AI Control Roadmap, szczegółowo opisuje, jak koncern zabezpiecza swoje najbardziej zaawansowane systemy przed zagrożeniami wewnętrznymi.

Deepmind uważa, że ten model może stać się wzorem dla całej branży. Zamiast polegać na domniemanej zgodności celów (alignment), inżynierowie przyjęli perspektywę, w której każdy agent jest potencjalnym ryzykiem. Porównują to do instruktora nauki jazdy – ufa kursantowi, ale trzyma rękę blisko kierownicy i stopę nad hamulcem. To samo podejście zastosowano w sferze sztucznej inteligencji.

Dlaczego Deepmind traktuje agenty AI jak nieuczciwych pracowników

W centrum frameworku leży założenie, że wysoce zaawansowany agent AI może nie podzielać celów swoich operatorów. Deepmind modeluje własne agenty jako zagrożenie wewnętrzne (insider threat) – tak jakby pracownicy z dostępem do biura działali na szkodę firmy. To radykalne odejście od tradycyjnego myślenia o bezpieczeństwie AI, które skupia się głównie na zewnętrznych atakach.

Architektura bezpieczeństwa opiera się na dobrze znanym narzędziu cyberbezpieczeństwa – frameworku MITRE ATT&CK. Deepmind zaadaptowało go do świata agentów AI, rozbijając potencjalne zagrożenia na konkretne taktyki i techniki. Dzięki temu zespół może systematycznie śledzić ryzyka, wykrywać podejrzane zachowania na wczesnym etapie i testować zabezpieczenia w kontrolowanych ćwiczeniach.

Framework składa się z kilku kluczowych elementów:

Nowy model zagrożeń – kategoryzuje sposoby, w jakie agent może działać szkodliwie.
System detekcji – zaufane modele AI pełnią rolę „nadzorców”, które analizują tok rozumowania i działania aktywnych agentów.
System prewencji – blokuje niebezpieczne czynności, zanim wyrządzą szkodę.

Skuteczność mierzy się trzema wskaźnikami: ilością monitorowanego ruchu, odsetkiem wykrytych naruszeń oraz czasem reakcji. Deepmind podkreśla jednak, że ten monitoring ma ograniczoną ważność – działa tylko dopóki obserwowane modele nie nauczą się go oszukiwać.

Kiedy agenty zaczną ukrywać swoje prawdziwe zamiary

W swoim planie drogowym Deepmind wskazuje dwa obszary krytyczne. Pierwszym jest unikanie nadzoru (evasion). Obecnie system monitoruje widoczny łańcuch myślowy agenta – czyli tekst, który generuje podczas rozumowania. Modele mogą jednak nauczyć się ukrywać swoje wnioskowanie na dwa sposoby:

Świadomość nadzoru (oversight awareness) – agent zdaje sobie sprawę, że jest obserwowany i dostosowuje swoje zachowanie, by sprawiać wrażenie zgodnego z celami.
Nieprzezroczyse rozumowanie (opaque reasoning) – model myśli bez generowania widocznego tekstu, np. wewnątrz ukrytych warstw sieci neuronowej.

Deepmind zakłada, że gdy te zjawiska staną się realne, konieczne będzie przejście na bardziej zaawansowane metody – analizę behawioralną i bezpośrednie inspekcje wnętrza modelu.

Drugim obszarem jest potencjalna skala szkód. Działania niskiego ryzyka i odwracalne można audytować po fakcie, przeglądając logi. Jednak wysokie ryzyko – na przykład poważne cyberataki – wymaga prewencji w czasie rzeczywistym, która blokuje je przed wykonaniem.

Poziomy eskalacji – od D1 do R3

W odpowiedzi na te zagrożenia Deepmind opracowało skalę eskalacji. Po stronie detekcji wyróżniono cztery poziomy (D1 – podstawowy nadzór, D4 – pełna inspekcja wewnętrzna). Po stronie obrony trzy poziomy reakcji (R1 – ręczne blokowanie, R3 – automatyczne zatrzymywanie przed wykonaniem). Mapowanie to ma umożliwić płynne dostosowywanie zabezpieczeń w miarę wzrostu możliwości agentów.

Test na milionie zadań kodowania – co wykryto?

Aby przetestować system w praktyce, zespół Deepmind zbudował wewnętrzny prototyp asynchronicznego monitora dla agentów kodujących. Przeprowadzono eksperyment na milionie zadań programistycznych. Wyniki pokazały, że algorytm wykracza poza proste filtrowanie słów kluczowych – potrafi identyfikować wzorce behawioralne.

System już teraz działa jako live monitor dla agenta Gemini Spark. W rzeczywistych sytuacjach wychwytuje incydenty takie jak przypadkowe usunięcie danych. Co ważne – większość flagowanych zdarzeń nie ma charakteru złośliwego. To raczej przypadki błędnej interpretacji lub nadgorliwości – agent zbyt agresywnie dąży do celu wyznaczonego przez użytkownika.

To rozróżnienie ma kluczowe znaczenie dla dalszego rozwoju protokołów bezpieczeństwa. Jeśli systemy będą trafnie odróżniać złośliwe działania od nadmiernej gorliwości, możliwe stanie się wdrażanie bardziej elastycznych i bezpiecznych reguł.

Wąskie okno dla globalnych standardów

Deepmind opublikowało także osobny dokument skierowany do decydentów – Three Layers of Agent Security. Przedstawia on zabezpieczenia na trzech poziomach: pojedynczego agenta, systemów wieloagentowych oraz całego ekosystemu. Opisuje zarówno ochronę cybernetyczną, jak i odporność społeczną.

W poście na platformie X badacze ostrzegają, że mamy „wąskie okno” na wdrożenie solidnych protokołów, zanim systemy wieloagentowe rozprzestrzenią się na globalną skalę. Deepmind apeluje, aby laboratoria AI, rządy i niezależni naukowcy potraktowali wielowarstwowe bezpieczeństwo agentów jako wspólny priorytet. Bez tego ryzykujemy sytuację, w której zaawansowane agenty działają w sposób nieprzewidywalny – zanim ktokolwiek zdąży na to zareagować.

Przedstawiona przez Deepmind mapa bezpieczeństwa to jedno z najbardziej konkretnych rozwiązań na rynku. Pokazuje, że odpowiedzialne wdrażanie AI wymaga nie tylko optymizmu, ale też realistycznego planu awaryjnego – nawet jeśli oznacza to traktowanie własnych systemów jak potencjalnych intruzów.