Claude Fable 5: 70% spadek wydajności przez nowy klasyfikator

Claude Fable 5, najnowszy model językowy Anthropic, powrócił 1 lipca po 19-dniowej przerwie spowodowanej amerykańskimi kontrolami eksportowymi. Jednak zamiast odzyskać dawną pozycję, wyniki modelu w testach wydajności runęły. Okazuje się, że nie chodzi o pogorszenie samej sieci neuronowej, ale o nowy system bezpieczeństwa, który przechwytuje większość zapytań programistycznych i kieruje je do słabszego następcy. Decyzja ta stawia developerów przed trudnym wyborem: czy nadal ufać flagowemu modelowi, czy szukać stabilniejszych alternatyw.

Co pokazały testy BridgeBench?

Platforma oceniająca BridgeMind, specjalizująca się w benchmarkach dla systemów kodowania, powtórzyła swoje testy na wersji Fable 5 z 1 lipca. Wyniki były jednoznaczne – nastąpił gwałtowny regres. Testy debugowania, które mierzą skuteczność naprawy kodu TypeScript pod kątem widocznych i ukrytych błędów, spadły z 86,2% do 25,9%. To spadek aż o 70%. W ogólnym rankingu 42 modeli Fable 5 spadł z 9. na 41. miejsce.

Podobnie wygląda sytuacja w innych obszarach. Wydajność refaktoryzacji – czyli przekształcania kodu przy zachowaniu jego działania – obniżyła się o 48% (z 73,6 do 38,4). Nawet wskaźnik halucynacji, który mierzy podawanie fałszywych informacji, pogorszył się o 19%.

Badacze z BridgeMind podkreślają kluczową różnicę: spadek nie wynika z tego, że model stał się głupszy. Głównym powodem jest nowy klasyfikator bezpieczeństwa, który przechwytuje zapytania, zanim w ogóle dotrą do Fable 5. W przypadku dwunastu zadań debugowania tylko trzy udało się wykonać bez uruchomienia mechanizmu zastępczego. Każde przekierowane wywołanie trafia do modelu Claude Opus 4.8, a benchmark traktuje je jako porażkę – zero punktów – bo zadania nie zakończył właściwy model.

To nie jest ten sam model, który został wycofany. Anthropic jest winny wyjaśnień.

– konto @bridgemindai na platformie X, 2 lipca 2026

Dlaczego Fable 5 wrócił w innej postaci?

Aby zrozumieć te zmiany, trzeba cofnąć się do wydarzeń z początku czerwca. Trzy dni po premierze Fable 5 (9 czerwca) amerykańskie ministerstwo handlu wydało pilną dyrektywę dotyczącą kontroli eksportu. Powodem było odkrycie badaczy z Amazon: technika promptowa polegająca na poproszeniu modelu o „naprawienie tego kodu” pozwalała ominąć zabezpieczenia i uzyskać kod pokazujący sposób wykorzystania luk w oprogramowaniu.

Anthropic nie był w stanie weryfikować narodowości użytkowników w czasie rzeczywistym na masową skalę, więc zawiesił model globalnie. Katie Moussouris, założycielka Luta Security i jedyna zewnętrzna ekspertka, która przeanalizowała badanie Amazona, stwierdziła jednak, że nie doszło do prawdziwego złamania zabezpieczeń. Jej zdaniem zademonstrowane zachowanie było typową pracą obronną – takich zdolności nie da się usunąć bez osłabienia użyteczności modelu dla jego docelowych odbiorców.

Sekretarz handlu Howard Lutnick zniósł kontrole 30 czerwca, a Fable 5 wrócił dzień później. Warunkiem było jednak wdrożenie przez Anthropic nowego klasyfikatora bezpieczeństwa, wyszkolonego specjalnie do wykrywania techniki promptowania zastosowanej przez Amazon. Nowy system blokuje tę metodę w ponad 99% przypadków – potwierdzili to badacze z Centrum Standardów i Innowacji AI przy amerykańskim departamencie handlu. Zapłacono za to jednak wysoką cenę w postaci fałszywych alarmów.

Jak działa klasyfikator i dlaczego blokuje zwykłe zadania programistyczne?

Fable 5 i jego okrojony wariant Claude Mythos 5 korzystają z tego samego rdzenia modelu. Różnicę stanowią klasyfikatory bezpieczeństwa – mniejsze, zautomatyzowane systemy AI, które monitorują zapytania w czasie rzeczywistym i przechwytują te, które mieszczą się w wyznaczonych kategoriach ryzyka: ofensywnym cyberbezpieczeństwie, biologii, chemii oraz destylacji modeli. Gdy zapytanie zostanie zaklasyfikowane jako niebezpieczne, nie dociera do Fable 5, lecz zostaje przekazane modelowi Claude Opus 4.8, a użytkownik otrzymuje stosowną informację.

Anthropic określa to podejście jako „obronę warstwową”. Strefa wyzwalania klasyfikatora jest celowo ustawiona szerzej niż to konieczne, aby zminimalizować ryzyko, że szkodliwe zapytanie prześlizgnie się przez system. W wersji z czerwca mechanizm ten uruchamiał się w mniej niż 5% sesji. Nowa wersja z 1 lipca jest jednak znacznie bardziej konserwatywna – wyszkolono ją właśnie pod kątem konkretnego wzorca promptowania użytego przez Amazon.

Problem polega na tym, że zwykłe zadania debugowania często przypominają strukturalnie właśnie takie „krytyczne” zapytanie. Klasyfikator ocenia nie tylko intencję, ale też formę komunikatu. Dlatego rutynowa naprawa kodu TypeScript, która wygląda jak próba obejścia zabezpieczeń, zostaje odrzucona. Sam Anthropic przyznał w oficjalnym oświadczeniu, że nowy system „będzie częściej flagował nieszkodliwe zapytania podczas typowych zadań programistycznych”. Nie podał jednak żadnych szacunków, jak często będzie dochodzić do takich pomyłek.

Co to oznacza dla programistów i całej branży?

Dla zespołów, które w czerwcu przeprojektowały swoje pipeline’y produkcyjne pod kątem Fable 5, powrót modelu zmienił charakter produktu bez zmiany dokumentacji ani ceny. Fable 5 kosztuje 10 dolarów za milion tokenów wejściowych i 50 dolarów za milion tokenów wyjściowych – dokładnie dwa razy więcej niż Claude Opus 4.8. Choć użytkownicy nie płacą stawki Fable 5 za przekierowane zapytania, w znacznej części przypadków otrzymują możliwości słabszego modelu, nie mogąc przewidzieć, który z nich faktycznie odpowiada.

BridgeMind opisuje sytuację dosadnie: model nie stał się gorszy – został „uwięziony”. Developerzy wykonujący zadania związane z bezpieczeństwem kodu mogą w praktyce stracić dostęp do Fable 5 w ogóle, dopóki Anthropic nie zawęzi strefy wyzwalania klasyfikatora. Firma obiecuje dalsze prace nad udoskonaleniem systemu, ale nie podała konkretnego harmonogramu ani docelowego odsetka fałszywych alarmów.

Cała sytuacja ujawnia też szerszy problem strukturalny. Gdy rząd nakłada awaryjne kontrole eksportowe na komercyjny model AI, a firma trenuje nowy klasyfikator, aby sprostać wymaganiom, techniczny koszt politycznego rozwiązania ponoszą programiści – w postaci mniej wydajnego produktu za tę samą cenę. Nie istnieją przepisy określające, kiedy kontrole eksportowe mogą być stosowane, jak długo może trwać blokada ani jakie standardy techniczne trzeba spełnić, aby je znieść.

Anthropic, Amazon, Microsoft i Google rozpoczęły już prace nad wspólnym systemem oceny powagi naruszeń bezpieczeństwa modeli AI, aby uniknąć improwizowanych rozwiązań w przyszłości. Do 1 sierpnia 2026 roku NSA, Departament Skarbu i CISA mają dostarczyć tajny benchmark określający, które modele powinny przechodzić proces rządowej weryfikacji. Dopóki jednak nie powstanie publicznie dostępna i konsekwentnie stosowana metodologia, każdy zaawansowany model AI będzie narażony na nagłe globalne zawieszenie bez wcześniejszego ostrzeżenia – i to właśnie developerzy będą pierwszymi, którzy zapłacą rachunek.

Najczęściej zadawane pytania

Dlaczego wyniki testów Fable 5 tak gwałtownie spadły po powrocie 1 lipca? Spadek nie odzwierciedla pogorszenia samego modelu. To klasyfikator bezpieczeństwa przechwytuje zapytania programistyczne i przekierowuje je do Claude Opus 4.8. BridgeMind przypisuje każde przekierowane wywołanie zero punktów, bo zadania nie zakończył oceniany model. Gdy Fable 5 rzeczywiście odpowie, radzi sobie tak samo jak w czerwcowej wersji.

Jak uniknąć przekierowań przy standardowym debugowaniu? Obecnie nie ma opublikowanej metody, która pozwoliłaby sprawdzić przed wysłaniem zapytania, czy nie zostanie przechwycone. Developerom przetwarzającym kod związany z bezpieczeństwem szczególnie często trafiają się blokady. Na razie najpewniejszym rozwiązaniem jest korzystanie bezpośrednio z Claude Opus 4.8.

Czy Fable 5 jest nadal dostępny globalnie? Tak. Anthropic przywrócił dostęp 1 lipca po zniesieniu kontroli eksportowej. Do 7 lipca model był wliczony w 50% tygodniowego limitu na wybranych planach, a potem przeszedł na osobne naliczanie opłat. Wciąż czekamy na wznowienie dostępu przez AWS, Google Cloud i Microsoft Foundry.

Źródło