Wizja gospodarki zarządzanej przez autonomiczne agenty sztucznej inteligencji zyskuje na popularności, jednak najnowsze badania Microsoft rzucają cień wątpliwości na tę koncepcję. Naukowcy przetestowali, jak wiodące modele AI radzą sobie w symulacji rynkowej, gdzie muszą podejmować racjonalne decyzje zakupowe. Wyniki są niepokojące – większość systemów okazała się podatna na manipulacje i podejmowała nieracjonalne wybory.
Wirtualne laboratorium zachowań rynkowych
Microsoft stworzył specjalne środowisko badawcze o nazwie „Magentic Marketplace„, które stanowi otwartą platformę do obserwacji interakcji między agentami AI. W tym wirtualnym ekosystemie symulowano prawdziwe transakcje rynkowe, gdzie setki automatycznych podmiotów mogły ze sobą konkurować i współpracować. Eksperyment objął zarówno modele komercyjne, takie jak GPT-5 i Gemini 2.5 Flash, jak i rozwiązania open-source.
Jak wyglądał test rynkowy
W symulacji uczestniczyło 100 agentów-konsumentów oraz 300 agentów-sprzedawców. Zadaniem kupujących było znalezienie najlepszych ofert spośród dostępnych opcji, uwzględniając zarówno cenę, jak i poszukiwane cechy produktów. Naukowcy monitorowali wszystkie interakcje tekstowe między uczestnikami wirtualnego rynku, analizując efektywność ich decyzji.
Mierzenie sukcesu agentów
Efektywność działania systemów oceniano za pomocą wskaźnika „dobrobytu konsumenta”. Metryka ta obliczała różnicę między wewnętrzną wyceną wartości produktu przez agenta a finalną ceną transakcyjną, uśrednioną dla wszystkich dokonanych zakupów. Im wyższa wartość tego wskaźnika, tym lepiej agent radził sobie z wyszukiwaniem opłacalnych okazji.
Zaskakujące wyniki testów odporności
Badacze odkryli, że pomimo teoretycznych możliwości, większość agentów AI nie wykorzystywała pełni dostępnych informacji do podejmowania optymalnych decyzji. Zamiast dokładnie analizować wszystkie oferty, systemy często akceptowały pierwszą napotkaną propozycję, która spełniała podstawowe kryteria.
Paradoks wyboru w wykonaniu AI
Wbrew oczekiwaniom, zwiększenie liczby dostępnych opcji prowadziło do pogorszenia jakości decyzji podejmowanych przez agentów. Większość modeli – z wyjątkiem GPT-5 i Gemini 2.5 Flash – ograniczała swoje poszukiwania do wąskiej grupy sprzedawców, pomijając potencjalnie lepsze oferty. To zjawisko, znane jako „paraliż analityczny”, okazało się charakterystyczne również dla sztucznej inteligencji.
Testy manipulacji i podatność na oszustwa
Naukowcy zastosowali sześć różnych strategii wprowadzania agentów w błąd, od subtelnych sugestii marketingowych po bezpośrednie ataki typu prompt injection. Wyniki były zróżnicowane – większość modeli okazała się podatna na różne formy manipulacji. Jednak jeden system wyróżnił się na tle pozostałych.
Claude Sonnet 4 wykazał całkowitą odporność na wszystkie próby manipulacji
Ukryte uprzedzenia i ryzyko rynkowe
Analiza zachowań agentów ujawniła występowanie systematycznych błędów w procesach decyzyjnych. Modele open-source, takie jak Qwen2.5-14b-2507, wykazywały tendencję do wybierania ostatniej opcji z przedstawionej listy, niezależnie od jej atrakcyjności. Innym powszechnym problemem okazało się tzw. „nastawienie na propozycję”, gdzie agenci preferowali pierwszego napotkanego sprzedawcę, co sugerowało priorytetowanie szybkości nad jakością.
Konsekwencje dla przyszłych rynków
Te systematyczne błędy mogą prowadzić do powstania nieuczciwych mechanizmów rynkowych, gdzie konkurencja przeniesie się z jakości produktów na szybkość reakcji. W skali makroekonomicznej takie zniekształcenia mogłyby zaburzać naturalne procesy rynkowe i prowadzić do nieoptymalnej alokacji zasobów.
Czy agentom AI można ufać?
Wyniki badań Microsoft wpisują się w szerszy trend obserwowany w branży AI. Coraz więcej prac naukowych wskazuje na ograniczenia autonomicznych systemów w realizacji złożonych zadań. Niedawne badanie Anthropic wykazało, że Claude nie był w stanie samodzielnie prowadzić małej firmy przez miesiąc, podczas gdy inne prace dowodzą, że agenci wciąż nie radzą sobie z pracą freelancerską na zadowalającym poziomie.
Potrzeba nadzoru ludzkiego
Eksperci podkreślają, że pomimo postępów w rozwoju sztucznej inteligencji, systemy te nie są gotowe do pełnej autonomii w sytuacjach o wysokiej stawce. Wnioski z badania Microsoft są jednoznaczne – agenci powinni wspierać ludzkie decyzje, a nie je zastępować. Wdrożenia komercyjne wymagają ciągłego monitorowania i interwencji człowieka, szczególnie w obszarach o znaczeniu ekonomicznym.
Odkrycia Microsoft stanowią ważny głos w dyskusji o przyszłości autonomicznych agentów AI. Chociaż technologia ta niesie ogromny potencjał, obecne ograniczenia wskazują na konieczność dalszych badań i rozwoju. Zanim powierzymy agentom kluczowe decyzje ekonomiczne, musimy lepiej zrozumieć ich zachowania w złożonych środowiskach rynkowych i opracować mechanizmy zabezpieczające przed manipulacjami oraz błędami systemowymi.



