Claude Sonnet 5 – nowy standard w agentowym AI od Anthropic

Anthropic właśnie udostępnił Claude Sonnet 5 – model, który według twórców jest najbardziej agentowym Sonnetem w historii. Potrafi samodzielnie planować, korzystać z przeglądarki i terminala, a także działać autonomicznie na poziomie, który jeszcze kilka miesięcy temu wymagał znacznie większych i droższych modeli. Dla wielu programistów era agentowej AI rozpoczęła się właśnie od modeli z rodziny Sonnet – Claude 3.5, 3.6 i 3.7 pokazały, co potrafi łączenie kodowania z użyciem narzędzi. Ostatnio jednak największe postępy w tej dziedzinie należały do modeli Opus. Sonnet 5 ma to zmienić.

Czym wyróżnia się Claude Sonnet 5 na tle poprzedników

Nowy model zamyka lukę między średnią a flagową linią produktów Anthropic. Jego wydajność jest zbliżona do Opus 4.8, ale przy zdecydowanie niższych kosztach. W porównaniu z bezpośrednim poprzednikiem, Sonnet 4.6, to skok jakościowy w takich obszarach jak rozumowanie, korzystanie z narzędzi, kodowanie i praca z wiedzą.

Agentowe zdolności w praktyce

Opinie z programu wczesnego dostępu są jednogłośne – Sonnet 5 jest znacznie bardziej agentowy niż wcześniejsze wersje. Testerzy opisują, jak model kończy złożone zadania, przy których poprzednie Sonnety zatrzymywały się w połowie. Sprawdza też własne wyniki bez wyraźnego polecenia i robi to wszystko w atrakcyjnej cenie. Jeden z użytkowników poprosił model o zbadanie błędu – ten bez instrukcji napisał test reprodukujący problem, wdrożył poprawkę, a następnie wycofał zmiany, by potwierdzić, że bez nich błąd wraca. Wszystko w jednym przebiegu.

Inny przykład: Sonnet 5 otrzymał zadanie dwuetapowe – zaktualizować poziomy kont Salesforce i wysłać ogłoszenie launchowe do kontaktów enterprise. Wykonał je od początku do końca. Wcześniej to samo zadanie utykało w połowie. Deweloperzy podkreślają, że model sprawdza się szczególnie w pracy z brudnym kodem – wyścigami, ukrytymi testami, częściami, których nikt nie chce dotykać. Zamiast leczyć objawy, sięga do prawdziwej przyczyny problemu.

Benchmarki i wydajność – jak Sonnet 5 wypada na tle konkurencji

Wyniki testów porównawczych pokazują wyraźną przewagę Sonnet 5 nad poprzednikiem. W ewaluacji agentowego wyszukiwania BrowseComp oraz komputerowej OSWorld-Verified model osiąga lepsze rezultaty przy różnym poziomie nakładu obliczeniowego. Linia Sonnet 5 jest wyraźnym ulepszeniem względem Sonnet 4.6 i pokrywa znacznie szerszy zakres opcji koszt-wydajność niż Opus 4.8.

Przy średnim nakładzie pracy model oferuje znacznie lepszą efektywność kosztową, a przy wyższym może dorównać Opus 4.8 w niektórych zadaniach. Użytkownicy mogą dostosowywać poziom wysiłku, by znaleźć właściwą równowagę między kosztem a wydajnością – to kluczowa zaleta w codziennej pracy.

Ceny i dostępność – co warto wiedzieć

Claude Sonnet 5 jest dostępny od dziś we wszystkich planach – to domyślny model dla użytkowników Free i Pro, a także dostępny w Max, Team i Enterprise. Można go używać w Claude Code i na platformie Claude. Ceny promocyjne wynoszą 2 dolary za milion tokenów wejściowych i 10 dolarów za milion tokenów wyjściowych – obowiązują do 31 sierpnia 2026 roku. Po tym okresie standardowa stawka to odpowiednio 3 i 15 dolarów.

Deweloperzy mogą korzystać z modelu przez Claude API, używając oznaczenia claude-sonnet-5. Warto odnotować, że nowy model wykorzystuje zaktualizowany tokenizer – podobnie jak wcześniejszy Opus 4.7 – co może wpływać na liczbę tokenów potrzebnych do przetworzenia tego samego tekstu (około 1,0–1,35 razy więcej, w zależności od treści). Ceny promocyjne zostały jednak tak dobrane, by przejście na Sonnet 5 było w przybliżeniu neutralne kosztowo.

Bezpieczeństwo i odpowiedzialne wdrażanie modelu

Przedwdrożeniowe oceny bezpieczeństwa wykazały, że Sonnet 5 jest ogólnie bezpieczniejszy od Sonnet 4.6. Model lepiej odrzuca złośliwe żądania i opiera się próbom przejęcia w atakach typu prompt injection. Wykazuje też niższy poziom halucynacji i sykofancji (czyli skłonności do pochlebstw wobec użytkownika).

W zautomatyzowanym audycie behawioralnym, który testuje szeroki zakres niepożądanych zachowań – takich jak współpraca z nadużyciami czy oszustwo – Sonnet 5 uzyskał niższy (czyli bezpieczniejszy) wynik niż Sonnet 4.6. Co ciekawe, wypadł nieco gorzej pod tym względem niż bardziej zaawansowane modele Opus 4.8 i Claude Mythos Preview. To pokazuje, że zwiększona inteligencja ogólna może nieść ze sobą nowe wyzwania bezpieczeństwa.

Cyberbezpieczeństwo – świadome ograniczenia

Anthropic nie trenował Sonnet 5 specjalnie pod kątem zadań cyberbezpieczeństwa. Model potrafi wykonywać rutynowe, nieszkodliwe czynności, ale w testach potencjalnie niebezpiecznych umiejętności – takich jak opracowywanie exploitów – wypada znacznie słabiej niż Opus 4.8 i Mythos 5. W ewaluacji z wykorzystaniem podatności w przeglądarce Firefox (wersja 147, wszystkie luki załatane w Firefox 148) żaden z modeli Sonnet nie zdołał opracować działającego exploita – oba uzyskały 0% skuteczności. Sonnet 5 wykazał nieco wyższy wskaźnik częściowych sukcesów niż Sonnet 4.6, co prawdopodobnie wynika z ogólnej poprawy inteligencji, a nie celowego treningu.

Ze względu na nieco wyższe możliwości w tym obszarze w porównaniu z poprzednikiem, model został uruchomiony z domyślnie włączonymi zabezpieczeniami cybernetycznymi. Te same zabezpieczenia – wykrywające i blokujące niebezpieczne użycie w czasie rzeczywistym – stosowane są w Claude Opus 4.7 i 4.8. Są one mniej restrykcyjne niż te w modelu Fable 5, który blokuje znacznie szerszy zakres zadań cyberbezpieczeństwa.

Co Claude Sonnet 5 oznacza dla programistów i firm

Wczesne opinie partnerów wskazują, że model zmienia codzienną pracę. Lovable podkreśla, że Sonnet 5 robi więcej przy mniejszym nakładzie – taka sama jakość wyjścia, ale mniej kroków do celu. Co ważne, model konsekwentnie i czysto odrzuca niebezpieczne prośby. Dla firmy, która daje milionom użytkowników potężne narzędzia, model umiejący powiedzieć „nie” jest równie ważny jak ten, który umie budować.

ClickHouse testuje modele pod kątem agentów eksplorujących dane na żywo. Czas do uzyskania odpowiedzi ma kluczowe znaczenie. Claude Sonnet 5 rozumuje w krótszych krokach i dostarcza wyniki zauważalnie szybciej – to różnica, którą odczuwają klienci.

Pace używa agentów komputerowych do obsługi procesów ubezpieczeniowych. Sonnet 5 konsekwentnie podejmuje właściwe działania i robi to szybko – co w realnej pracy ubezpieczeniowej jest kluczowe. Opinie z innych firm są podobne: agenci oparci na Sonnet 5 trzymają się planu, przestrzegają konwencji i dostarczają czyste, wieloetapowe zmiany w efektywnym koszcie.

Dla programistów pracujących z brudnym kodem – błędami współbieżności, ukrytymi testami, częściami kodu, których nikt nie chce dotykać – Sonnet 5 okazuje się szczególnie wartościowy. Zamiast łatania symptomów, sięga do faktycznej przyczyny i dostarcza trwałe poprawki. To właśnie ten typ pracy, który do tej pory wymagał najwięcej czasu i doświadczenia.

Claude Sonnet 5 jest dostępny od dziś na wszystkich platformach Anthropic. Wraz z premierą zwiększono też limity szybkości w czacie, Claude Code i na platformie Claude, aby obsłużyć wyższe zużycie tokenów przy wyższych poziomach wysiłku. Użytkownicy mogą wybrać poziom, który ma sens dla ich konkretnego projektu.

Źródło