AI modele bankrutują w testach zarządzania firmą. Badanie Princeton

Wyobraź sobie, że dajesz modelowi sztucznej inteligencji milion dolarów, zero klientów i pełną kontrolę nad wirtualnym startupem SaaS. Potem cofasz się i obserwujesz przez 500 symulowanych dni, co się wydarzy. Dla większości zaawansowanych modeli językowych finał był jeden – bankructwo. Co więcej, jedną z nielicznych strategii, która radziła sobie lepiej od nich, okazał się prosty skrypt pozbawiony jakiejkolwiek AI. Takie wnioski płyną z CEO-Bench, nowego benchmarku opracowanego przez Z-Lab na Uniwersytecie Princeton.

Dla każdego, kto zakłada, że dzisiejsze najlepsze modele można od razu postawić na czele prawdziwego przedsiębiorstwa, wyniki te stanowią solidny, otrzeźwiający prysznic. Z 14 systemów poddanych testowi tylko trzy modele językowe zakończyły symulację z wyższym kapitałem niż na starcie. Czwarty „dochodowy” uczestnik okazał się natomiast algorytmem opartym na sztywnych regułach – bez udziału jakiegokolwiek modelu językowego – i mimo to pobił większość stawki.

Jak zbudowano test, który zweryfikował możliwości AI w biznesie

Każdy agent AI otrzymywał milion dolarów kapitału początkowego i zadanie poprowadzenia symulowanej firmy SaaS przez 500 dni. Środowisko testowe oparto na interfejsie Pythona wyposażonym w 34 narzędzia i 19 tabel bazy danych. Modele mogły pisać kod, odpytywać dane i na bieżąco korygować strategię. Podejmowane decyzje odwzorowywały rzeczywistą pracę menedżerską: ustalanie poziomów cenowych, alokację budżetów na prace badawczo-rozwojowe, wybór kanałów reklamowych, skalowanie infrastruktury oraz obsadę działu wsparcia. Do tego dochodziła symulowana sieć społecznościowa, na której agenci mogli monitorować skargi klientów i śledzić działania konkurencji.

Prawdziwa trudność tkwiła w opóźnieniach. Reklamy potrzebowały dni, by przyciągnąć klientów. Ulepszenia w obszarze badań i rozwoju przynosiły efekty dopiero po pewnym czasie. Tymczasem koszty pochłaniały gotówkę w czasie rzeczywistym. Kluczowe zmienne – poziom satysfakcji klientów, skłonność do zapłaty, minimalne progi jakościowe – pozostawały niewidoczne bezpośrednio. Modele musiały je wywnioskować na podstawie wskaźników rezygnacji, zgłoszeń do wsparcia i rozmów w social mediach. Badacze określają to zadanie mianem „piekielnie trudnego” długookresowego wyzwania i podkreślają, że taki właśnie był zamysł: sukces wymaga podejmowania decyzji, które kumulują się prawidłowo przez setki kroków przy zaszumionej i opóźnionej informacji zwrotnej. To zjawisko, które nazwali „inteligencją sterowania”.

Kto zbankrutował, a kto zarobił miliony

Wyniki są bezlitosne. Pięć modeli nie dotrwało do 500. dnia. GLM 5.1, Claude Haiku 4.5, Gemini 3 Flash, DeepSeek V4 Pro i Grok 4.20 zbankrutowały przed końcem symulacji. Większość pozostałych dotarła do mety, ale ze stratami. Tylko trzy modele językowe zakończyły eksperyment z kapitałem przewyższającym początkowy milion dolarów:

Claude Fable 5 – około 47,15 miliona dolarów (zwrot 47-krotny)
Claude Opus 4.8 – około 27,8 miliona dolarów
GPT-5.5 – około 21,3 miliona dolarów

Fable 5 zdominował rywalizację i jako jedyny kończył powyżej progu rentowności w wielu niezależnych uruchomieniach, a nie tylko podczas pojedynczej, szczęśliwej sesji.

Skrypt bez AI pokonał zaawansowane modele

Tu pojawia się największe zaskoczenie. Na czwartym miejscu uplasowała się heurystyka oparta wyłącznie na regułach: stałe ceny, stałe limity, stałe poziomy usług – zero wywołań modelu językowego. Ten prosty skrypt zakończył symulację z wynikiem około 15,76 miliona dolarów, wyprzedzając wszystkie pozostałe modele LLM, w tym Qwen 3.7 Max, Claude Opus 4.7, GLM 5.2 i Kimi K2.6. Innymi słowy, program, który nie potrafił odczytać sygnału rynkowego ani zareagować na ruch konkurencji, zarobił więcej niż większość najbardziej zaawansowanych modeli świata w podstawowym zadaniu prowadzenia biznesu.

Co odróżnia zwycięzców od przegranych – cztery kluczowe umiejętności

Badacze zidentyfikowali cztery zdolności, które odróżniały najlepsze modele od reszty stawki:

Wykrywanie ukrytych sygnałów – na przykład identyfikacja, który kanał reklamowy działa dla danej grupy klientów
Dokładne prognozowanie przepływów pieniężnych – umiejętność przewidywania, jak zmienią się finanse firmy w dłuższej perspektywie
Szybkie dostosowywanie się do ruchów konkurencji – elastyczność w reakcji na zmiany rynkowe
Planowanie z myśleniem scenariuszowym – analiza „co by było, gdyby” i podejmowanie decyzji na tej podstawie

Modele Opus 4.8 i GPT-5.5 osiągały wyniki powyżej średniej we wszystkich czterech obszarach. Ich logi pokazują spójny wzorzec: testowanie nowych strategii, równoważenie wydatków na pozyskiwanie klientów, wsparcie i badania, a także eksperymentowanie z cenami w miarę zmiany warunków.

Claude Opus 4.7 stanowi pouczający przykład odwrotny. Gdy pojawiały się trudności, model uciekał w cięcie kosztów i oszczędzanie gotówki. Przetrwał do 500. dnia, ale nigdy nie wygenerował znaczących przychodów. Wniosek badaczy jest gorzki: na rynku, gdzie zwycięzca zgarnia wszystko, samo przetrwanie to za mało. Modele, które odniosły sukces, to te skłonne do eksperymentowania, a nie te, które grały bezpiecznie.

Dlaczego frameworki kodujące pogarszały wyniki modeli

Najbardziej kontrintuicyjne odkrycie podważa popularne wśród firm przekonanie. Zespół uruchomił Opus 4.7 przez Claude Code, a GPT-5.5 przez Codex – dwa frameworki dla agentów kodujących, które wzbudzają ogromne zainteresowanie w branży. W obu przypadkach modele wypadły znacząco gorzej niż bez tych frameworków.

Prawdopodobna przyczyna to zanieczyszczenie promptów. Frameworki kodujące dostarczają systemowe prompty zoptymalizowane pod kątem workflowów programistycznych. Wymuszenie tych instrukcji na roli dyrektora generalnego ograniczyło zdolność modeli do swobodnego rozumowania zamiast ją wspomóc. To podważa ideę, że uniwersalny agent kodujący da się wrzucić w dowolny złożony workflow. Dane sugerują coś przeciwnego – sposób, w jaki model jest opakowany, może odwrócić jego wyniki od mocnych do słabych. Różne dziedziny mogą wymagać dedykowanego, domenowego oprzyrządowania. Framework, który czyni model doskonałym w pisaniu kodu, może aktywnie pogarszać jego działanie w innych obszarach.

Co to oznacza dla przyszłości AI w biznesie

Czy w wynikach CEO-Bench tkwi ironia? Zdecydowanie tak. Claude Fable 5 – model, który wypadł najlepiej – wielokrotnie odmawiał odpowiedzi podczas swoich sesji, powołując się na ograniczenia bezpieczeństwa, a mimo to i tak pokonał wszystkich rywali z ogromną przewagą. Co więcej, to ten sam Fable 5, który w połowie czerwca został wycofany przez rząd USA na mocy przepisów eksportowych. To przypomnienie, że doskonałość modelu w benchmarku i jego realna dostępność to dziś dwie zupełnie oddzielne kwestie. Najlepszy na papierze może być tym, którego faktycznie nie da się wdrożyć.

CEO-Bench to oczywiście symulacja i to mocno stylizowana. Prawdziwe firmy mają więcej interesariuszy, więcej ograniczeń prawnych i znacznie bardziej chaotyczne dane niż Pythonowe API z 19 tabelami. Autorzy badania sami ostrzegają przed nadmierną interpretacją liczb. Jednak wyniki trudno pogodzić z dominującą narracją o coraz potężniejszych modelach ogólnego przeznaczenia. Skrypt oparty na regułach pobił większość zaawansowanych LLM-ów w prowadzeniu biznesu. Modele, które wygrywały, były odważne, a nie ostrożne. A opakowanie najlepszego modelu w ceniony framework kodujący sprawiło, że działał gorzej.

Głębsza implikacja jest taka, że zarządzanie biznesem – z jego opóźnioną informacją zwrotną, ukrytymi zmiennymi i kumulującymi się decyzjami – może pozostawać domeną, w której specjalizacja i odpowiednie oprzyrządowanie znaczą więcej niż surowa moc obliczeniowa. Jak ujmują to badacze: ten sam model, który potrafi wszystko, może nie być właściwym narzędziem do niczego konkretnego. Benchmark dostępny jest jako preprint, a środowisko testowe ma wkrótce zostać udostępnione publicznie do dalszych badań.