Sakana Fugu – jeden model API do orkiestracji AI

Japoński startup Sakana AI zaprezentował system, który może zmienić sposób, w jaki myślimy o wykorzystaniu sztucznej inteligencji. Narzędzie o kryptonimie Fugu nie jest kolejnym modelem językowym – to inteligentny dyrygent, który w czasie rzeczywistym decyduje, których najlepszych modeli użyć do konkretnego zadania. Zamiast polegać na jednym, wszechstronnym LLM-ie, Fugu dynamicznie tworzy zespół specjalistów i koordynuje ich pracę, a użytkownik widzi tylko jeden, spójny interfejs API. Czy takie podejście faktycznie przynosi lepsze rezultaty niż największe modele od OpenAI czy Google? Wyniki testów mówią same za siebie.

Czym właściwie jest Sakana Fugu i jak działa?

Sakana Fugu to platforma multi-agentowa (wieloagentowa) oferowana jako jeden model API. Zamiast ręcznie dobierać narzędzia do kodowania, analizy danych czy pisania raportów, programiści przekazują całą złożoność systemowi. Fugu samodzielnie decyduje, które modele włączyć do puli, jakie role im przypisać i w jaki sposób mają ze sobą współpracować. Co kluczowe – robi to bez ingerencji człowieka. System uczy się optymalnych wzorców koordynacji na podstawie danych, a nie z góry narzuconych reguł.

Naukowe podstawy: TRINITY i Conductor

Za Fugu stoją dwie prace badawcze zaakceptowane na konferencji ICLR 2026. Pierwsza z nich, TRINITY, opisuje lekki koordynator ewolucyjny, który w trakcie wieloetapowych zadań przydziela modelom role: Thinker (myśliciel – analizuje problem), Worker (wykonawca – realizuje zadanie) i Verifier (weryfikator – sprawdza poprawność). Dzięki temu system może elastycznie przerzucać zasoby w zależności od tego, czy pracuje nad kodem, matematyką czy zadaniem wymagającym głębokiego rozumowania. Druga praca, Conductor, idzie o krok dalej – wykorzystuje uczenie przez wzmacnianie, by system sam odkrywał naturalnojęzykowe strategie koordynacji. Conductor tworzy własne schematy komunikacji między agentami i projektuje ukierunkowane prompty, które pozwalają grupie różnych modeli osiągać wyniki lepsze niż którykolwiek z nich indywidualnie. To fundamentalna różnica w stosunku do tradycyjnych systemów opartych na sztywnych, zaprojektowanych ręcznie przepływach pracy.

Jak Fugu radzi sobie w praktyce? Wyniki ilościowe i jakościowe

Twórcy Fugu przeprowadzili serię rygorystycznych testów porównawczych. W każdej kategorii system mierzył się z czołowymi modelami dostępnymi publicznie, takimi jak GPT-5.5, Gemini 3.1 Pro czy Opus 4.8. Co ważne, Fugu nie korzysta z tych modeli w swojej puli agentów – testuje jedynie swoją zdolność do bycia lepszym od nich dzięki orkiestracji.

Kodowanie i inżynieria oprogramowania

W benchmarku SWE-Bench Pro Fugu Ultra uzyskał 73,7%, podczas gdy Opus 4.8 – 69,2%, a GPT-5.5 – 58,6%. W LiveCodeBench Pro różnica jest mniej spektakularna, ale wciąż na korzyść Fugu (90,8% wobec 88,4% dla GPT-5.5). Szczególnie imponująco wypada test TerminalBench 2.1 – Fugu Ultra z wynikiem 82,1% zostawia w tyle Gemini 3.1 Pro (70,3%). Oznacza to, że system nie tylko lepiej generuje kod, ale także skuteczniej radzi sobie z jego uruchamianiem i testowaniem w rzeczywistym środowisku.

Rozumowanie, nauka i wiedza ogólna

W teście Humanity’s Last Exam Fugu Ultra osiągnął 50,0%, wyprzedzając Opus 4.8 (49,8%) i GPT-5.5 (41,4%). W GPQA-D (zadania z biologii, chemii i fizyki na poziomie doktoranckim) obie wersje Fugu uzyskały 95,5%, podczas gdy konkurencja notowała 92-94%. Co ciekawe, w SciCode (naukowe kodowanie) Fugu Ultra (58,7%) nieznacznie ustępuje Gemini 3.1 Pro (58,9%), ale wyraźnie pokonuje GPT-5.5 (56,1%). To dowód, że dywersyfikacja agentów nie zawsze daje przewagę w wąskich specjalizacjach, ale w szerokim spektrum zadań jest bezkonkurencyjna.

Przykłady jakościowe: od Rubika po audyt kodu

W serii demonstracji jakościowych Fugu Ultra pokazał, że potrafi samodzielnie udoskonalać algorytm uczenia małego modelu GPT – w ciągu 14 godzin przeprowadził 123 eksperymenty na pojedynczym GPU H100, znajdując optymalne ustawienia (wielkość partii, głębokość sieci, tempo uczenia). Średni wynik BPB (bits-per-byte) dla Fugu Ultra wyniósł 0,9774, minimalnie lepiej niż Model C (0,9781) – ale w najkorzystniejszym pojedynczym przebiegu sięgnął 0,9748, bijąc wszystkich rywali.

Inny test dotyczył rozszyfrowania historycznego listu pisanego w języku japońskim z 1610 roku. Fugu Ultra odtworzył kolejność czytania z dokładnością 0,80 według miary NED (1,0 to perfekcja). Pozostałe modele – Model A (0,24) i Model B (0,24) – kompletnie sobie nie radziły, a Model C nie wygenerował żadnego działającego rozwiązania. To pokazuje, że Fugu nie tylko łączy modele, ale potrafi wykorzystać ich mocne strony nawet w zadaniach wymagających znajomości specyficznego kontekstu kulturowego.

W trzech kolejnych przykładach – samodzielnym napisaniu solvera do kostki Rubika (średnio 19,72 ruchów wobec 19,76 dla Modelu A, łączne 300 kostek), utworzeniu mechanicznej przesłony w CAD-zie i grze w szachy na ślepo (4 partie z rzędu bez patrzenia na planszę) – Fugu Ultra konsekwentnie przewyższał konkurencję, a często był jedynym modelem, który w ogóle dostarczył działające rozwiązanie. W teście giełdowym (symulacja 50 tygodni) portfel zarządzany przez Fugu Ultra urósł z 10 000 do 11 943 dolarów (średnia +19,43%), podczas gdy inne modele nie przekroczyły +15%.

Opinie użytkowników: co mówią programiści i specjaliści?

Wśród cytowanych opinii pojawiają się konkretne głosy z różnych branż. Jeden z inżynierów oprogramowania zauważył, że Fugu Ultra przy przeglądzie kodu znalazł ponad 20 problemów, podczas gdy poprzednie narzędzie wskazywało tylko trzy. Badacz z sektora przemysłowego podkreślił, że analiza obejmująca 20 artykułów i kilka patentów, która normalnie zajmuje 3-4 dni, przy użyciu Fugu została wykonana w kilka godzin – a system wykrył powiązania między publikacjami, które umknęłyby człowiekowi. Dla decydentów szczególnie istotne może być spostrzeżenie dyrektora z firmy platformowej: Fugu wykazuje wyjątkową stabilność persony w długich sesjach, co przy budowie agentów (systemów autonomicznych) jest często ważniejsze niż surowe wyniki benchmarków. Badacz zajmujący się reprodukcją wyników naukowych docenił zdolność systemu do autonomicznej pracy przez cztery godziny – od przeczytania artykułu, przez implementację, aż po trenowanie i analizę luk. Z kolei inżynier bezpieczeństwa opisał, jak na podstawie jednego, precyzyjnego polecenia Fugu przeprowadził pełny audyt bezpieczeństwa – od rekonesansu, przez testy XSS i SQL injection, po raport z dowodami i krokami ponownego testowania – pozostając w wyznaczonym zakresie i unikając destrukcyjnych działań.

Dostępność i cennik: jak zacząć pracę z Fugu?

Sakana Fugu jest dostępny przez API zgodne z OpenAI. Oznacza to, że programiści mogą używać istniejących klientów i narzędzi, po prostu zmieniając endpoint. Nie ma potrzeby migracji SDK.

Dwa modele do wyboru: Fugu i Fugu Ultra

Fugu to wersja zbalansowana – łączy wysoką wydajność z niskim opóźnieniem. Sprawdzi się jako domyślny wybór do codziennej pracy, integracji z Codexem do kodowania i recenzji, a także w responsywnych chatbotach. Użytkownicy mogą dodatkowo wykluczać poszczególnych agentów z puli, by spełnić wymogi dotyczące danych, prywatności czy zgodności z regulacjami. Fugu Ultra stawia wyłącznie na maksymalną jakość odpowiedzi – koordynuje szerszą pulę wyspecjalizowanych agentów, co zwiększa czas odpowiedzi, ale daje najlepsze rezultaty w trudnych, wieloetapowych zadaniach. Wcześni użytkownicy wykorzystują go m.in. do konkursów Kaggle, reprodukcji prac naukowych, analiz cyberbezpieczeństwa i badań patentowych.

Elastyczne modele płatności

Sakana oferuje dwa podejścia do rozliczeń. Plan subskrypcyjny (miesięczny) dostępny w trzech poziomach: Standard (20 dolarów/miesiąc – okazjonalne zapytania), Pro (100 dolarów – 10-krotność limitu Standard, do regularnych sesji kodowania) i Max (200 dolarów – 30-krotność limitu Standard, dla wymagających długich zadań). Wszystkie poziomy dają dostęp zarówno do Fugu, jak i Fugu Ultra. Alternatywnie istnieje plan pay-as-you-go oparty na tokenach, który sprawdza się przy zmiennym obciążeniu. W przypadku Fugu, gdy aktywnych jest wielu agentów, klient nie płaci wielokrotności – stawka jest ustalana według najwyższego modelu w puli. Dla Fugu Ultra ceny wynoszą 5 dolarów za 1M tokenów wejściowych, 30 dolarów za 1M wyjściowych, 0,50 dolara za cache – z wyższymi stawkami przy kontekście powyżej 272 tys. tokenów (odpowiednio 10, 45 i 1,00 dolara).

Warto odnotować, że w chwili premiery system nie jest dostępny w krajach Unii Europejskiej i Europejskiego Obszaru Gospodarczego ze względu na dostosowywanie do regulacji RODO. Firma zapowiada, że pracuje nad zgodnością, ale na razie klienci spoza UE/EOG mogą korzystać bez przeszkód.

Podsumowanie: czy to przyszłość AI jako usługi?

Sakana Fugu udowadnia, że nie trzeba wybierać jednego, uniwersalnego modelu. Zamiast tego można zbudować inteligentny system, który sam dobiera narzędzia do zadania, a efekty często przewyższają to, co oferują najwięksi gracze. Model cenowy – bez kumulowania opłat za wielu agentów – oraz zgodność z API OpenAI obniżają próg wejścia. Dla polskich czytelników zainteresowanych AI to sygnał, że era eksperymentowania z pojedynczymi LLM-ami może powoli ustępować miejsca inteligentnej orkiestracji. Kwestią otwartą pozostaje, jak szybko podobne podejście stanie się standardem i czy twórcy sprostają wyzwaniom regulacyjnym w Europie. Na razie Fugu wygląda na narzędzie, które warto mieć na radarze – zwłaszcza jeśli pracujesz nad złożonymi projektami wymagającymi koordynacji wielu kompetencji AI.