Armia AI agentów nie zbudowała przeglądarki. Koszt: 5 mln dolarów

Wyobraź sobie zespół kilkuset programistów pracujących jednocześnie nad jednym, niezwykle skomplikowanym projektem, bez szefa, bez planu, bez komunikacji. Tak w skrócie wyglądał niedawny eksperyment zespołu Cursor, który postanowił przetestować granice automatyzacji w software development. Ich celem było stworzenie w pełni funkcjonalnej przeglądarki internetowej wyłącznie przy użyciu autonomicznych agentów sztucznej inteligencji. Wyniki, choć imponujące skalą, były dalekie od sukcesu i dostarczyły cennej lekcji na temat obecnych możliwości AI.

Ambitny cel i szybkie rozczarowanie

Głównym założeniem przedsięwzięcia było sprawdzenie, czy agentom AI można powierzyć zadanie zastąpienia ludzkich inżynierów oprogramowania w tworzeniu złożonej aplikacji. Przez tydzień setki wirtualnych „pracowników” dostały zadanie zaprojektowania i napisania kluczowych komponentów przeglądarki, takich jak parser HTML, silnik renderujący czy interpreter CSS. Początkowo agenci działali w pełni samodzielnie, co miało być testem ich zdolności do samoorganizacji.

Gdzie współpraca AI zawiodła?

Brak nadzoru szybko doprowadził do chaosu. Podstawowe problemy, które pojawiły się na samym początku, pokazały, jak daleko AI ma do zrozumienia logistyki złożonego projektu. Wśród najpoważniejszych wyzwań znalazły się konflikty dostępu do plików, gdy wiele agentów próbowało jednocześnie modyfikować te same zasoby. Dochodziło do powielania zadań, co marnowało cenne moce obliczeniowe. Najtrudniejsze i niejednoznaczne elementy projektu były często pomijane, pozostawiając kluczowe moduły niedokończone.

Struktura hierarchiczna: poprawa, ale nie rozwiązanie

Aby uporządkować ten chaos, twórcy eksperymentu wprowadzili zhierarchizowany system zarządzania zadaniami. Podzielili agentów na trzy specjalistyczne role, naśladując pewne elementy ludzkiej organizacji pracy.

Nowe role agentów AI

System opierał się na podziale obowiązków. Planiści mieli za zadanie rozbicie głównego celu na mniejsze, wykonalne kroki i przydzielanie ich wykonawcom. Pracownicy koncentrowali się wyłącznie na realizacji powierzonych im fragmentów kodu. Sędziowie zaś oceniali jakość i poprawność wytworzonego przez wykonawców kodu. Ta struktura przyniosła pewną poprawę w koordynacji i zmniejszyła redundancję, ale nie była w stanie przezwyciężyć fundamentalnych problemów projektu.

Efektem tygodnia pracy był ogromny, ale bezużyteczny twór: ponad milion linii kodu rozsianych w tysiącu plików. Analiza tego dorobku ujawniła mnóstwo błędów, niespójności i ostrzeżeń. Powstała przeglądarka nie spełniała podstawowych wymagań funkcjonalnych i nie była zgodna z obowiązującymi standardami sieciowymi.

Prawda o „od zera” i kosztach porażki

Jednym z bardziej dyskusyjnych aspektów eksperymentu była rzekoma samodzielność agentów. Choć miały one stworzyć kluczowe komponenty od podstaw, analiza specjalistów wykazała silne poleganie na istniejących, otwartych bibliotekach, takich jak Servo czy QuickJS. To podważyło oryginalność całego przedsięwzięcia i postawiło pytanie o realny wkład AI w proces tworzenia.

Jakość kodu i zawrotne koszty

Jakość wygenerowanego oprogramowania była niska. Kod charakteryzował się słabą architekturą, brakiem modularności, co utrudniałoby jego utrzymanie. Komponenty nie były ze sobą kompatybilne i nie nadawały się do użycia w prawdziwych silnikach przeglądarkowych. Najbardziej wymowny był jednak bilans finansowy. Szacuje się, że eksperyment pochłonął od trzech do pięciu milionów dolarów na zasoby obliczeniowe i infrastrukturę chmurową. Mimo tak ogromnego nakładu, główny cel nie został osiągnięty.

Eksperyment wyraźnie pokazał, że choć agenci AI są w stanie wygenerować ogromne ilości kodu, to nie radzą sobie z subtelnym podejmowaniem decyzji i planowaniem strategicznym niezbędnym w złożonych projektach programistycznych.

Wnioski na przyszłość: AI jako asystent, nie zastępca

Całe przedsięwzięcie, choć przez niektórych uznane za działanie marketingowe, dostarczyło istotnych wskazówek dla przyszłości rozwoju oprogramowania wspomaganego przez sztuczną inteligencję. Kluczowym odkryciem jest dysproporcja między ilością a jakością. AI może być niezwykle wydajnym generatorem kodu, ale bez ludzkiego nadzoru i kierunku rzadko tworzy funkcjonalne, optymalne i eleganckie rozwiązania.

Najważniejsza lekcja jest jasna: nadzór człowieka pozostaje niezbędny. Sztuczna inteligencja nie zastąpi w najbliższym czasie zespołów programistów, ale może stać się ich potężnym narzędziem. Jej rola powinna być komplementarna – automatyzująca żmudne zadania, sugerująca rozwiązania, ale ostateczne decyzje, architektura systemu i integracja komponentów wciąż leżą w gestii ludzkiego doświadczenia i intuicji. Eksperyment Cursor nie zamyka drogi dla AI w developmentcie, ale precyzyjnie wskazuje jej obecne granice.