Fugu od Sakana AI łączy modele językowe - wyniki robią wrażenie

Wyobraź sobie system, który sam decyduje, kiedy poradzi sobie z zadaniem, a kiedy potrzebuje zwołać zespół specjalistów. I robi to tak sprawnie, że dla użytkownika wszystko wygląda jak praca z jednym modelem. Tak właśnie działa Fugu – nowa platforma od tokijskiego startupu Sakana AI, która dynamicznie koordynuje pracę wielu dużych modeli językowych (LLM).

To nie jest kolejna wersja pojedynczego modelu, a raczej inteligentny dyrygent, który rozdziela zadania między dostępne modele, sprawdza wyniki i składa je w spójną odpowiedź. W branży, gdzie dominują monolityczne systemy od OpenAI, Anthropic czy Google, podejście Sakana AI może zmienić reguły gry.

Jak działa Fugu – orchestrator zamiast pojedynczego modelu

Fugu sam w sobie jest modelem językowym, ale jego głównym zadaniem nie jest generowanie treści – to decydowanie, które modele z dostępnej puli najlepiej nadają się do konkretnego zapytania. Gdy użytkownik wysyła polecenie, Fugu analizuje je i podejmuje decyzję: albo wykonuje zadanie samodzielnie, albo buduje tymczasowy zespół wyspecjalizowanych modeli. Cały proces – selekcja, delegacja, weryfikacja i synteza – odbywa się w tle, bez ingerencji użytkownika. Ten wchodzi w interakcję z systemem przez standardowe API zgodne z OpenAI.

Dwa warianty do różnych zadań

Sakana AI udostępnia Fugu w dwóch odsłonach. Podstawowa wersja stawia na niskie opóźnienia i solidną codzienną wydajność w zadaniach takich jak programowanie, przegląd kodu czy chatboty. Z kolei wariant Ultra został zaprojektowany z myślą o maksymalnej jakości odpowiedzi przy złożonych, wieloetapowych problemach. Wczesni użytkownicy wykorzystywali go między innymi do reprodukcji publikacji naukowych, analizy cyberbezpieczeństwa oraz wyszukiwania patentów i literatury.

Elastyczność i kontrola nad pulą modeli

Istotna cecha Fugu to wymienna pula agentów. Zespoły, które muszą spełniać określone wymogi prywatnościowe czy zgodności z regulacjami, mogą wykluczyć z puli konkretne modele. To ważne w sektorach takich jak finanse czy administracja publiczna, gdzie dostęp do danych podlega ścisłym ograniczeniom. Sam startup ma już doświadczenie w tego typu architekturach – wcześniejszy system ALE-Agent zajął 21. miejsce wśród tysiąca ludzkich ekspertów w konkursie programistycznym.

Wyniki benchmarków – Fugu Ultra w czołówce światowej

Opublikowane przez Sakana AI wyniki testów porównawczych pokazują, że Fugu Ultra dorównuje, a w niektórych obszarach przewyższa modele Anthropic Fable 5 i Mythos Preview. Co istotne, żaden z tych modeli Anthropic nie znajduje się w puli agentów Fugu – po prostu nie są publicznie dostępne. Gdyby trafiły do zestawu, wyniki prawdopodobnie byłyby jeszcze wyższe.

Kodowanie i rozumowanie na najwyższym poziomie

W benchmarku SWE Bench Pro, który mierzy zdolność do rozwiązywania rzeczywistych problemów programistycznych, Fugu Ultra uzyskał 73,7 punktu wobec 69,2 dla Opus 4.8 i 58,6 dla GPT 5.5. W teście LiveCodeBench podstawowy Fugu osiągnął 92,9, a Ultra 93,2 – to wyraźnie więcej niż 87,8 dla Opus 4.8 czy 85,3 dla GPT 5.5. Równie imponująco wyglądają rezultaty w GPQA-D (95,5 dla obu wariantów Fugu) oraz w MRCRv2, gdzie Ultra zdobył 93,6 wobec 94,8 GPT 5.5.

Naukowe i specjalistyczne zastosowania

W teście Humanity’s Last Exam, zaprojektowanym jako ekstremalne wyzwanie dla modeli AI, Fugu Ultra uzyskał 50,0 punktów – minimalnie więcej niż Opus 4.8 (49,8) i wyraźnie więcej niż GPT 5.5 (41,4). W SciCode, mierzącym umiejętność pisania kodu naukowego, oba warianty Fugu wyprzedziły pozostałe modele. Tylko w benchmarku τ³ Banking, który sprawdza zadania finansowe, wyniki były nieco niższe, ale wciąż porównywalne z konkurencją.

Odpowiedź na ryzyko uzależnienia od jednego dostawcy

Fugu ma jednak w rękawie argument wykraczający poza same liczby. Sakana AI pozycjonuje swój orchestrator jako zabezpieczenie przed uzależnieniem od pojedynczego dostawcy modeli AI. To nie jest akademickie rozważanie – firma wskazuje na niedawne kontrole eksportowe, które objęły modele Anthropic Fable i Mythos. Dostęp do najlepszych systemów AI może zniknąć z dnia na dzień z powodu decyzji regulacyjnych czy polityki międzynarodowej.

„Dla organizacji czy państwa poleganie na API jednej firmy w obszarze krytycznej infrastruktury, finansów czy zarządzania to realna podatność na zagrożenia. To ryzyko nie jest już hipotetyczne – to rzeczywistość.”

Ponieważ pula modeli w Fugu jest w pełni wymienna, system może automatycznie przełączyć się na inne modele, jeśli jeden z dostawców zniknie z rynku. To istotna zaleta w świecie, gdzie dostęp do zaawansowanych systemów AI staje się przedmiotem geopolitycznych rozgrywek.

Ograniczenia podejścia – realizm zamiast hurraoptymizmu

Warto jednak zachować trzeźwe spojrzenie. Rzeczywista wydajność Fugu zależy całkowicie od tego, jakie modele znajdują się w puli. Jeśli kilku głównych dostawców jednocześnie ograniczy dostęp, opcje Fugu również się skurczą. Jak przyznają sami twórcy, orchestrator taki jak Fugu zwiększa odporność systemu, ale nie jest równoznaczny z pełną suwerennością technologiczną. To raczej inteligentne zabezpieczenie niż cudowne rozwiązanie problemu zależności od dostawców.

Co mówią pierwsi użytkownicy – kodowanie, bezpieczeństwo i automatyzacja

Około 500 beta testerów miało już okazję sprawdzić Fugu w rzeczywistych warunkach. System okazał się najskuteczniejszy w długich, wieloetapowych procesach – takich jak automatyczne badanie danych, analiza bezpieczeństwa czy przegląd kodu. Jeden z programistów relacjonuje, że Fugu Ultra wykrywa znacznie więcej błędów podczas code review niż GPT 5.5. „Gdzie inne narzędzia zgłaszają około trzech problemów, Fugu wskazuje ponad dwadzieścia” – twierdzi użytkownik.

We własnych testach Sakana AI Fugu pokonał Gemini 3.1 Pro, Opus 4.8 oraz GPT 5.5 w zadaniach związanych z automatycznymi badaniami, projektowaniem mechanicznym i prognozowaniem finansowym. Firma pokazała też nagranie, na którym Fugu rozwiązuje i wizualizuje kostkę Rubika szybciej niż którykolwiek z pojedynczych modeli.

„Beta wyraźnie pokazała, że wieloagentowa orkiestracja ma największe znaczenie, gdy zadanie jest złożone, długotrwałe i trudne do rozwiązania za pomocą pojedynczego wywołania modelu” – podsumowuje Sakana AI. Obie wersje Fugu są już dostępne przez jedno API, a firma oferuje abonamenty dla codziennych użytkowników oraz rozliczenia według użycia dla większych obciążeń.

Wizja na przyszłość – ekosystem zamiast jednego modelu

Techniczne podstawy Fugu wyrastają z badań Sakana AI nad uczeniem się orkiestracji modeli, a konkretnie z dwóch prac zaprezentowanych na konferencji ICLR 2026 – Trinity i Conductor. To podejście wpisuje się w szerszą wizję startupu: stosowania naturalnych zasad, takich jak zachowanie roju, ewolucja i inteligencja zbiorowa, w systemach AI.

Firma założona przez byłych badaczy Google – Lliona Jonesa i Davida Ha – stawia na współpracę zamiast rywalizacji. Jones był współautorem przełomowego artykułu „Attention Is All You Need” z 2017 roku, który dał światu architekturę Transformer. Dla Sakana AI potężna sztuczna inteligencja to nie problem pojedynczego modelu, ale współpracującego ekosystemu, który potrafi więcej niż suma jego części. Pytanie tylko, czy reszta branży pójdzie w tę samą stronę.