Model sztucznej inteligencji okazał się 19 razy szybszy od zespołów ludzkich w programowaniu fizycznego robota – a przełom nie był efektem specjalistycznego treningu robotycznego, tylko naturalnego efektu ogólnego skalowania możliwości dużych modeli językowych. Firma Anthropic opublikowała wyniki eksperymentu Project Fetch Phase Two, które po raz pierwszy precyzyjnie mierzą różnicę między autonomicznym agentem AI a wyszkolonymi ludźmi w rzeczywistych zadaniach fizycznych. W ciągu zaledwie dziesięciu miesięcy model przeszedł od całkowitej niezdolności do podłączenia się do robota do wykonania pełnego zestawu zadań w czasie krótszym niż dziesięć minut.
Jak Claude Opus 4.7 pobił ludzkie zespoły w programowaniu robota
W sierpniu 2025 roku Anthropic przeprowadził pierwszą część eksperymentu Project Fetch. Dwie grupy pracowników – bez specjalistycznej wiedzy robotycznej – rywalizowały w programowaniu czworonożnego robota (robodoga) przy użyciu czujników i wizji komputerowej. Jedna grupa korzystała z modelu Claude Opus 4.1, druga polegała tylko na internecie i własnych umiejętnościach. Zespół wspomagany AI osiągnął lepsze wyniki, ale gdy badacze sprawdzili, czy model poradzi sobie samodzielnie, zawiódł już na pierwszym kroku – nie potrafił się połączyć z robotem.
Minęło dziesięć miesięcy. W czerwcu 2026 roku Claude Opus 4.7 nie tylko nawiązał połączenie, ale wykonał wszystkie cztery zadania, które wcześniej ukończyły obie ludzkie grupy. Zrobił to w 9 minut i 35 sekund. Dla porównania: zespół z asystą AI potrzebował 181 minut, a zespół bez wsparcia – 361 minut. Oznacza to, że autonomiczny model był 19 razy szybszy od zespołu z AI i prawie 38 razy szybszy od grupy bez pomocy.
Jakie zadania wykonał model
Opus 4.7 zmierzył się z czterema zadaniami identycznymi jak w poprzedniej edycji eksperymentu:
- podłączenie do kamery wideo robota,
- podłączenie do czujnika lidar,
- napisanie programu monitorującego trasę robota w przestrzeni,
- wykrycie plażowej piłki za pomocą wizji komputerowej.
Rola badacza ograniczała się do podłączenia laptopa do robota, wpisania początkowego promptu, zatwierdzania komend i sygnalizowania modelowi przejścia do następnego zadania.
Klucz do sukcesu leży w architekturze Claude Code, która opiera się na tzw. pętli agentowej (agentic loop). To trzyfazowy cykl: model zbiera kontekst, podejmuje działanie, weryfikuje wynik i powtarza. Bez narzędzi model może jedynie generować tekst – z narzędziami odczytuje dane z czujników, pisze i uruchamia kod, sprawdza, czy połączenie z czujnikiem powiodło się, i koryguje kolejne polecenia.
W eksperymencie Opus 4.7 działał w trybie adaptacyjnego myślenia (adaptive thinking) z maksymalnym wysiłkiem – to tryb rozumowania, który pozwala modelowi myśleć między poszczególnymi wywołaniami narzędzi, a nie tylko przed nimi. To właśnie to przeplatane rozumowanie umożliwia niezawodne działanie w wieloetapowych zadaniach fizycznych: model widzi pośredni rezultat, dostosowuje kolejny krok i kontynuuje bez potrzeby ingerencji człowieka.
Różnica w efektywności kodu jest równie spektakularna. Opus 4.7 wygenerował łącznie 1045 linii kodu dla wszystkich zadań. Tymczasem zespół z asystą AI w sierpniu 2025 napisał 10 309 linii. Większy wolumen ludzkiego kodu wynika z iteracyjnego, eksploracyjnego stylu pracy: próba jednego API czujnika, porażka, próba kolejnego, nagromadzenie ślepych ścieżek. Model za każdym razem wybierał najbardziej bezpośrednią ścieżkę integracji – w większości przypadków za pierwszym razem – i pisał tylko kod niezbędny do zadania. Znaczna część tego kodu działała natychmiast.
Model wykonano w trzech próbach dla każdego zadania. Czasy były bardzo zbliżone – to oznaka powtarzalności, a nie szczęścia. W jednej próbie wykrywania piłki czas wydłużył się znacznie, ponieważ model początkowo wybrał przestarzały algorytm detekcji, ale samodzielnie rozpoznał problem, ominął go bez interwencji człowieka i dotarł do poprawnego rozwiązania.
Najbardziej pouczającym wynikiem eksperymentu jest zadanie, którego model nie rozwiązał – fizyczne przemieszczenie piłki przez robota do punktu początkowego (tzw. fetching). Wymaga ono sterowania w zamkniętej pętli (closed-loop control) w czasie rzeczywistym. System musi nieustannie odczytywać dane z czujników o tym, gdzie piłka znalazła się po każdym pchnięciu, obliczać, jak poprzednia komenda wpłynęła na wynik, i wydawać poprawki szybciej, niż zmienia się sytuacja.
To fundamentalnie inna kategoria problemu niż zadania, z którymi Opus 4.7 poradził sobie znakomicie. Programowanie połączeń czujników, pisanie kodu monitorującego trasę czy implementacja wizji komputerowej to zadania otwartej pętli (open-loop): model pisze instrukcje, wykonuje je i obserwuje rezultat. Sterowanie w zamkniętej pętli wymaga ciągłej komunikacji z otoczeniem – odbierania informacji zwrotnej i działania w czasie bliskim rzeczywistemu, przy prędkości i opóźnieniach, których obecna architektura wnioskowania dużych modeli językowych nie wspiera.
Ludzie po krótkim treningu z kontrolerem ręcznym potrafili to naturalnie – dostrzegali dryf piłki, interpretowali błąd poprzedniej komendy i korygowali. Opus 4.7 potrafił ustawić robota prawidłowo za piłką, ale nie był w stanie wykonać szybkich, adaptacyjnych poprawek, jakich wymaga zadanie.
Badacze Anthropic zauważają, że jeden z ich inżynierów z większym doświadczeniem robotycznym napisał program do autonomicznego odzyskiwania piłki – co dowodzi, że problem nie jest strukturalnie nierozwiązywalny, tylko pozostaje poza zasięgiem obecnej generacji modeli opartych wyłącznie na ogólnym skalowaniu.
Jedno z najważniejszych stwierdzeń w raporcie Phase Two można łatwo przeoczyć: Anthropic wyraźnie podkreśla, że postęp – od porażki przy podłączaniu czujnika w sierpniu 2025 do wykonania wszystkich czterech zadań w niespełna dziesięć minut w czerwcu 2026 – nie był wynikiem żadnych celowych działań na rzecz poprawy możliwości robotycznych Claude’a. Badacze piszą wprost: „te ulepszenia, podobnie jak wiele innych w historii rozwoju LLM, wynikały z dużo bardziej ogólnego skalowania”.
To stwierdzenie niesie konkretną prognozę. Gdy modele AI po raz pierwszy zaczęły samodzielnie radzić sobie z programowaniem, nauczyły się korzystać z istniejących narzędzi programistycznych – edytorów tekstu, terminali bash, czytników plików – tych samych, których używają ludzcy deweloperzy. Hipoteza, którą rozwija raport, głosi, że podobne przejście zaczyna się teraz dla narzędzi fizycznych: gotowy sprzęt robotyczny staje się kolejną kategorią narzędzia, które zaawansowany LLM może opanować dzięki ogólnemu zwiększaniu możliwości, a nie dzięki specjalistycznej inżynierii robotycznej.
Anthropic nazywa to początkiem „fizycznej agentowej AI” (physical agentic AI). Jeśli ogólne skalowanie przeniosło Opus 4.1 – który nie umiał połączyć się z robotem – do Opus 4.7 – 19 razy szybszego od ludzi – w niecały rok, to pytanie o to, kiedy zamknięta pętla fizyczna stanie się osiągalna, sprowadza się do pytania o tempo ogólnego skalowania, a nie o to, kto zbuduje dedykowany model robotyczny.
Ta sama trzyfazowa progresja, którą Anthropic wcześniej udokumentował w cyberbezpieczeństwie – modele najpierw wspomagają ludzi, potem ludzie na krótko prowadzą modele, wreszcie modele działają samodzielnie – zdaniem badaczy zaczyna się teraz odgrywać na fizycznym poziomie robotyki.
Co to oznacza dla całej dziedziny? Eksperci na spotkaniu Światowego Forum Ekonomicznego w Davos w styczniu 2026 doszli do konkretnego konsensusu: era fundamentalna robotyki się skończyła, a rozpoczęła się era wdrożeń. Daniela Rus, dyrektor Laboratorium Informatyki i Sztucznej Inteligencji w MIT, potwierdziła, że całe floty robotów działają już 24 godziny na dobę, przenosząc kontenery bez interwencji człowieka. Te systemy opierają się jednak na specjalistycznym oprogramowaniu robotycznym – nie na ogólnym modelu językowym z narzędziem agentowym. Project Fetch Phase Two dostarcza punkt danych o tempie zmiany: eksperyment celowo ograniczono do powszechnie dostępnego robota, pracowników bez specjalistycznej wiedzy, zwykłego laptopa i standardowego interfejsu Claude Code. Wynik – model przewyższający nawet wspomagane AI zespoły ludzkie w zadaniach programistycznych, które stanowią pierwszy i najbardziej wymagający etap wdrażania robota.
Opublikowany 26 czerwca 2026 roku raport Anthropic Economic Index osadza to odkrycie w szerszym wzorcu dojrzewania możliwości AI widocznym w wielu domenach jednocześnie. Wyniki robotyczne pojawiają się obok danych, według których Claude pisze już ponad 80% kodu scalanego w repozytorium Anthropic, a inżynierowie firmy mergują osiem razy więcej kodu dziennie niż w 2024 roku. Przejście na „fizyczną AI” jest, według tej narracji, kolejnym przejawem tego samego podstawowego mechanizmu odgrywającego się na fizycznej warstwie.
Czy ogólne skalowanie modeli językowych okaże się wystarczające, by pokonać barierę sterowania w czasie rzeczywistym, czy potrzeba zupełnie nowej architektury – to pytanie, na które odpowiedź może zadecydować o tempie automatyzacji całych gałęzi przemysłu. Project Fetch Phase Two dostarcza argumentów na rzecz pierwszej ścieżki, ale wyraźnie zaznacza granicę, której obecna generacja modeli przekroczyć nie może.




