Anthropic zamyka dostęp do modeli Fable 5 i Mythos 5

W piątek wieczorem Anthropic niespodziewanie odciął dostęp do swoich najnowszych modeli językowych – Mythos 5 i Fable 5. Ich premiera miała miejsce zaledwie kilka dni wcześniej. Powodem jest dyrektywa Departamentu Handlu Stanów Zjednoczonych, która objęła te modele kontrolą eksportu. Od tej pory mogą być używane wyłącznie na terenie USA. Decyzja wywołała falę pytań o granice bezpieczeństwa i swobody badań nad sztuczną inteligencją.

Dlaczego administracja USA zareagowała tak szybko?

Jak podało Axios, powołując się na przedstawiciela administracji, głównym powodem interwencji są doniesienia o jailbreaku – metodzie omijania wbudowanych zabezpieczeń. Według tych informacji, atakujący mieli rzekomo przełamywać szerokie bariery (tzw. classifier-based safeguards), które blokują w modelach Fable 5 prompty związane z cyberbezpieczeństwem, chemią i biologią. Władze USA obawiały się, że modele mogą posłużyć do opracowania zaawansowanych zagrożeń, i zażądały natychmiastowego wstrzymania ich dystrybucji.

Celem jest zyskanie czasu na „wzmocnienie narodowego aparatu bezpieczeństwa” – jak ujął to anonimowy urzędnik rozmawiający z Axios. Według jego słów, prace nad odpowiednimi zabezpieczeniami mogłyby zakończyć się w ciągu „najbliższych kilku tygodni”. Tymczasem dostęp do wszystkich innych modeli Anthropic, poza Fable 5 i Mythos 5, pozostaje bez zmian.

Co na to samo Anthropic? Stanowisko firmy

W ogłoszeniu opublikowanym w piątkowy wieczór firma przyznała, że otrzymała od rządu jedynie „ustne dowody potencjalnego, wąskiego i nieuniwersalnego jailbreaku”. Opisany atak polega na skłonieniu Fable 5 do przeglądu konkretnego kodu źródłowego pod kątem błędów. Anthropic podkreśla jednak, że widziało dowody tylko na wykrywanie przez model „drobnych i stosunkowo prostych luk” w oprogramowaniu – niczego rewolucyjnego.

Co więcej, przedstawiciele firmy wskazują, że podobne zdolności posiadają inne publicznie dostępne modele, na przykład GPT-5.5 od OpenAI. Z tego punktu widzenia nagłe odcięcie Fable 5 i Mythos 5 wydaje się nieproporcjonalne. Dla Anthropic jedynym sposobem na natychmiastowe dostosowanie się do rządowego nakazu było „gwałtowne wyłączenie obu modeli dla wszystkich klientów” – napisano w komunikacie.

Co to oznacza dla przyszłości regulacji AI?

Opisywany incydent tworzy precedens: administracja USA po raz pierwszy tak szybko i radykalnie interweniuje w dystrybucję modeli AI, powołując się na potencjalne ryzyko związane z ich użyciem. Z jednej strony podnosi to standardy bezpieczeństwa, z drugiej – rodzi pytania o transparentność procedur i realną skalę zagrożenia. Firma, która nie miała czasu na własną weryfikację doniesień, została zmuszona do działania w trybie awaryjnym.

W najbliższych tygodniach możemy spodziewać się dalszych ruchów – zarówno ze strony rządu (wzmocnienie zabezpieczeń), jak i samego Anthropic (być może przywrócenie modeli po uzyskaniu zgody). Sytuacja pokazuje, że relacje między twórcami AI a organami państwowymi coraz częściej będą balansować na granicy innowacyjności i kontroli. Na razie pozostaje śledzić, czy podobne blokady staną się regułą, czy tylko wyjątkowym epizodem.