Nowe modele Anthropic – Fable 5 i Mythos 5 biją rekordy

Sztuczna inteligencja wkracza w nową generację. Anthropic, twórca rodziny modeli Claude, właśnie udostępnił dwa nowe systemy: Claude Fable 5 i Claude Mythos 5. To pierwsze modele piątej generacji amerykańskiego startupu. Fable 5 trafia do szerokiego grona użytkowników, podczas gdy Mythos 5 pozostaje w rękach wybranych partnerów – głównie z sektora cyberbezpieczeństwa. Różnice między nimi są znaczące, ale łączy je jedno: oba ustanawiają nowe standardy wydajności.

Dwa modele, dwa przeznaczenia – podobny rdzeń, inne ograniczenia

Zarówno Fable 5, jak i Mythos 5 opierają się na tej samej bazie modelu. Różni je jednak sposób dostrojenia i zabezpieczeń. Fable 5 dostępny jest od razu przez API oraz plany Enterprise. Posiada standardowe ograniczenia bezpieczeństwa, które uniemożliwiają realizację ryzykownych zapytań z zakresu cyberataków czy badań nad bronią biologiczną. Mythos 5 – wcześniej znany jako Claude Mythos Preview – trafia natomiast w ręce garstki partnerów, głównie w ramach programu Project Glasswing, realizowanego we współpracy z rządem USA. W jego przypadku Anthropic celowo usunął część blokad, by umożliwić specjalistom ds. cyberbezpieczeństwa prowadzenie zaawansowanych analiz.

Fable 5 – publiczna potęga z filtrami

Anthropic twierdzi, że Fable 5 pokonuje każdy dotychczas powszechnie dostępny model, jaki kiedykolwiek wypuściła firma. Wyniki testów potwierdzają tę deklarację. Na benchmarku SWE-Bench Pro, który mierzy zdolność do samodzielnego rozwiązywania rzeczywistych zadań inżynierii oprogramowania z publicznych repozytoriów GitHub, Fable 5 osiągnął 80,3% skuteczności. Dla porównania: Claude Opus 4.8 uzyskał 69,2%, GPT 5.5 – 58,6%, a Gemini 3.1 Pro – 54,2%. Jeszcze większą przewagę model pokazał w zadaniach wymagających długiego i złożonego toku rozumowania.

Mythos 5 – cyberbroń w rękach wybranych

Mythos 5 jest reklamowany jako najsilniejszy na świecie model w dziedzinie cyberbezpieczeństwa. Na benchmarku ExploitBench, sprawdzającym umiejętność wykorzystywania luk w oprogramowaniu, uzyskał 78% – to wyraźny skok w porównaniu z 69% dla Mythos Preview i 40% dla Opus 4.8. Dostęp do niego jest stopniowo rozszerzany, ale zawsze w koordynacji z amerykańskim rządem. Obecni użytkownicy Mythos Preview mogą bezpłatnie przejść na nową wersję.

Kodowanie, finanse i wizja – gdzie Fable 5 naprawdę błyszczy

Fable 5 nie tylko wyprzedza konkurencję w testach programistycznych. Równie imponujące są jego wyniki w dziedzinie analizy finansowej i przetwarzania obrazu. Na benchmarku Hebbia’s Finance, który ocenia zdolność modeli do wnioskowania na poziomie doświadczonego analityka finansowego, Fable 5 zdobył najwyższą notę. Szczególnie dobrze radził sobie z interpretacją dokumentów, wykresów i tabel.

Stripe przyspiesza prace inżynierskie o pięć miesięcy

Firma Stripe, dostawca rozwiązań płatniczych, podzieliła się konkretnym przypadkiem użycia. W bazie kodu Ruby liczącej 50 milionów linii Fable 5 wykonał migrację w jeden dzień – zadanie, które pełnemu zespołowi inżynierów zajęłoby ponad dwa miesiące. Łącznie Stripe skompresował pięć miesięcy pracy do zaledwie kilku dni. Na benchmarku FrontierCode, który testuje wymagające zadania programistyczne w warunkach produkcyjnych, Fable 5 uzyskał 29,3%. Claude Opus 4.8 osiągnął 13,4%, GPT 5.5 – zaledwie 5,7%. Co więcej, Fable 5 jest bardziej efektywny tokenowo – przy średnim nakładzie pracy osiąga najwyższy wynik spośród wszystkich modeli granicznych na FrontierCode.

Wizja komputerowa na nowym poziomie

Anthropic twierdzi, że Fable 5 to nowy lider w dziedzinie zadań wizyjnych. Model potrafi wyciągać precyzyjne wartości ze szczegółowych ilustracji naukowych oraz odtwarzać kod źródłowy aplikacji webowej wyłącznie na podstawie zrzutów ekranu. W ramach pokazu możliwości model samodzielnie przeszedł grę Pokémon FireRed, korzystając tylko z obrazów – podczas gdy wcześniejsze wersje wymagały skomplikowanej infrastruktury pomocniczej i dodatkowych danych.

Przełom w nauce – Mythos 5 samodzielnie prowadzi badania

Najciekawsze doniesienia dotyczą jednak zastosowań naukowych. Mythos 5, wyposażony w narzędzia do projektowania białek i bioinformatyczne, dorównał lub przewyższył doświadczonych operatorów w testach laboratoryjnych – i to bez żadnej pomocy człowieka. W jednym z eksperymentów model sam wybierał miejsca wiązania, uruchamiał narzędzia do projektowania białek i samodzielnie poprawiał błędy. Z 14 celów białkowych aż 9 przyniosło obiecujące kandydatury na leki, które obecnie są dalej badane.

Autonomiczne hipotezy naukowe

Anthropic twierdzi, że Mythos 5 jest pierwszym modelem, który konsekwentnie generuje nowatorskie i przekonujące hipotezy naukowe – to zdolność, która w przypadku współczesnych dużych modeli językowych budzi wiele kontrowersji. W zaślepionych testach naukowcy Anthropic w około 80% przypadków preferowali hipotezy z zakresu biologii molekularnej pochodzące od Mythos 5 nad tymi z modeli klasy Opus. Co więcej, jedna z hipotez – dotycząca nowego mechanizmu działania białka E. coli – została potwierdzona przez niezależne badanie.

Genomika na autopilocie

W dziedzinie genomiki Mythos 5 pracował samodzielnie przez ponad tydzień. Model skompilował dane pojedynczych komórek dla milionów komórek z 138 gatunków zwierząt, a następnie zaprojektował i wytrenował własny model uczenia maszynowego do identyfikacji komórek o tej samej funkcji u odległych ewolucyjnie organizmów. Wynik – jak podaje Anthropic – przewyższył model opublikowany niedawno w prestiżowym czasopiśmie Science, mimo że był od niego 100 razy mniejszy. Firma planuje opublikować te wyniki w ciągu najbliższych miesięcy.

Cennik, dostępność i zabezpieczenia – ile zapłacimy za tę moc?

Koszt korzystania z nowych modeli jest wyraźnie wyższy niż w przypadku Claude Opus 4.8. Za milion tokenów wejściowych (input) trzeba zapłacić 10 dolarów, za milion tokenów wyjściowych (output) – 50 dolarów. To mniej niż połowa ceny Claude Mythos Preview, ale dwukrotność stawek za Opus 4.8 (5/25 dolarów). Rzeczywisty koszt zależy od liczby zużywanych tokenów na zadanie. W planach subskrypcyjnych na Claude.ai nowe modele liczą się jako podwójne zużycie – dokładne przeliczenie na tokeny nie jest jednak jasne.

Jak działa system bezpieczeństwa Fable 5

Anthropic świadomy jest ryzyka, jakie niosą modele klasy Mythos – od cyberataków po badania nad bronią biologiczną. Dlatego Fable 5 wyposażono w nowe klasyfikatory AI, które automatycznie oznaczają niebezpieczne zapytania i przekierowują je do słabszego modelu Claude Opus 4.8. Ponad 95% sesji nie jest dotkniętych tym mechanizmem. Klasyfikatory obejmują trzy obszary: cyberbezpieczeństwo, biologię i chemię oraz destylację (próby wyodrębnienia możliwości modelu przez podmioty trzecie). W interfejsie webowym i aplikacjach użytkownik otrzymuje powiadomienie o przełączeniu na Opus 4.8. W API takie zapytanie jest domyślnie blokowane, choć programiści mogą włączyć przełączanie po stronie serwera.

W testach cybernetycznych Fable 5 uzyskał zerową skuteczność w zadaniach ofensywnych. Zewnętrznym testerom nie udało się znaleźć uniwersalnego jailbreaka (obejścia zabezpieczeń) przez ponad 1000 godzin. Dodatkowo Anthropic wdrożył niewidoczną dla użytkownika warstwę ochrony: prośby dotyczące budowy zaawansowanych modeli językowych (np. tworzenia potoków pretreningowych, infrastruktury treningowej) nie są blokowane, ale ich skuteczność jest ograniczana poprzez modyfikację promptów, użycie wektorów sterujących lub parametryczne dostrajanie (PEFT). Firma przyznaje, że filtry są na razie zbyt agresywne i mogą blokować nieszkodliwe zapytania. Dodatkowo wprowadzono 30-dniowy okres przechowywania danych dla wszystkich modeli Mythos, co ma ułatwić wykrywanie nowych ataków.

Fable 5 jest dostępny od razu przez API i w planach Enterprise opartych na zużyciu. Subskrybenci planów Pro, Max, Team oraz Enterprise (na liczbę stanowisk) otrzymają go stopniowo. Do 22 czerwca model jest wliczony w cenę, a od 23 czerwca wymaga użycia kredytów. W dalszej perspektywie Anthropic planuje przywrócić go do regularnych subskrypcji, gdy będzie dysponować wystarczającą przepustowością.

Nowa generacja Claude to nie tylko lepsze wyniki w testach. To modele, które zmieniają sposób myślenia o automatyzacji pracy programistów, finansistów i naukowców. Mythos 5 zaskakuje zdolnością do samodzielnego prowadzenia badań – od projektowania leków po analizę genomów. Fable 5 oferuje podobną moc, ale w bezpiecznym, publicznym opakowaniu. Pytanie, które pozostaje otwarte: czy takie tempo rozwoju sprawi, że za rok będziemy rozmawiać o modelach szóstej generacji? A może granice bezpieczeństwa okażą się trudniejsze do utrzymania niż same osiągi?

Źródło