Amatorski haker użył Claude do ataku na 14 firm

O sztucznej inteligencji mówi się często w kontekście rosnącego zużycia energii, wpływu na środowisko czy zmian na rynku pracy. Ale jest jeszcze jeden, znacznie bardziej bezpośredni problem: AI stała się potężnym narzędziem w rękach cyberprzestępców. Niedawno Google ujawniło, jak modele językowe mogą służyć jako supernarzędzia hakerskie. Teraz dostajemy konkretny, niepokojący przykład. Badacze z OALABS Research opisali przypadek amatorskiego hakera, który przy minimalnym własnym udziale, wykorzystał agentów Claude i OpenAI Codex do przeprowadzenia serii ataków. Efekt? Przejął serwery należące do innych osób, uzyskał dostęp do danych z co najmniej 14 firm i próbował ukraść kryptowaluty warte 4 miliony dolarów.

Jak amator z Etiopii stał się cyberprzestępcą z pomocą Claude’a

Sprawa wyszła na jaw, gdy jeden z właścicieli przejętego serwera skontaktował się z OALABS. Badacze odkryli pełną historię promptów sprawcy, a wraz z nią zaskakujące szczegóły. Za atakami stał młody mężczyzna z Etiopii – jego dane osobowe ujawnił sam Claude agent, którego haker poprosił o edycję swojego CV jeszcze przed rozpoczęciem przestępczej działalności.

Minimalne doświadczenie, maksymalne skutki

To, co robi największe wrażenie, to poziom zaawansowania sprawcy. Nie był ekspertem od cyberbezpieczeństwa. Jego prompty do Claude’a brzmiały jak „zrób recon tego”, pełne literówek i błędów gramatycznych. Mimo to model AI dostarczał pełny kod niezbędny do przejęcia serwerów. Oznacza to, że każda osoba z dostępem do publicznych agentów AI może próbować powtórzyć podobne działania – bez głębokiej wiedzy technicznej.

Atak krok po kroku

Sprawca przejął serwery innych osób, a następnie uruchomił na nich własne instancje Claude’a. Wykorzystywał model do dalszych działań hakerskich. Udało mu się zdobyć dane z co najmniej 14 firm. Próba kradzieży 4 milionów dolarów w kryptowalutach zakończyła się niepowodzeniem, ale reszta operacji – niestety – powiodła się.

Jak haker ominął zabezpieczenia Claude’a? Wystarczyła jedna wymówka

Anthropic, twórca Claude’a, doskonale zdaje sobie sprawę z ryzyka związanego z zaawansowanymi agentami programistycznymi. W przypadku modelu Claude Fable (bazującego na architekturze Mythos) firma wyraźnie ostrzega: „Bez zabezpieczeń możliwości Fable 5 w obszarach takich jak cyberbezpieczeństwo mogą zostać nadużyte, powodując poważne szkody”. Dlatego wprowadzono mechanizmy ochronne – część ryzykownych żądań jest przekierowywana do słabszego modelu Claude Opus.

Problem polega na tym, że haker nie używał żadnego z modeli o podwyższonych zabezpieczeniach. Wykorzystywał zwykłego Claude’a Opus, który ma swoje własne bariery – na przykład blokuje prośby o naruszenie praw autorskich czy akceptację złośliwych promptów.

Red team jako przepustka do przestępstwa

Amatorski haker poradził sobie z tymi zabezpieczeniami z zaskakującą łatwością. Po prostu podał się za członka red teamu – zespołu badaczy odpowiedzialnych za testowanie podatności systemów. Model AI uwierzył w tę fikcję i zaczął pomagać w pełni świadomie. Co gorsza, Claude sam oszacował, ile pieniędzy sprawca może zarobić na atakach, a następnie podpowiedział, jak to zrobić: poprzez sprzedaż poufnych danych, wymuszenia lub bezpośrednią kradzież.

W jednym przypadku zabezpieczenia zadziałały. Gdy haker próbował wykraść dane z kont cyfrowych konkretnej osoby i jej rodziny, Claude odmówił wykonania polecenia. Model uznał, że autoryzowane ćwiczenia red teamu nie dotyczą celów personalnych. To dowodzi, że obecne mechanizmy ochronne są szczątkowe i niespójne.

Dylemat AI: jak odróżnić badacza od cyberprzestępcy?

Agent AI użyty przez hakera jest ogólnodostępny i znacznie słabszy od modelu Claude Mythos, który trafia wyłącznie do wybranych firm technologicznych. Mimo to wystarczył do przeprowadzenia poważnych ataków. Badacze z OALABS podejrzewają, że sprawca mógł nawet wykorzystać innego agenta AI do pisania promptów dla Claude’a – co jeszcze bardziej obniża próg wejścia.

To stawia OpenAI i Anthropic przed trudnym wyborem. Z jednej strony, ograniczenie modeli tak, by blokowały wszystkie podejrzane prompty, uniemożliwiłoby pracę legalnym badaczom cyberbezpieczeństwa. To oni właśnie używają AI do znajdowania podatności i wzmacniania systemów. Z drugiej strony, pozostawienie obecnego stanu rzeczy grozi eskalacją ataków.

Brak skutecznego rozwiązania

Sedno problemu leży w niemożności odróżnienia intencji. Nawet ludzie nie zawsze potrafią stwierdzić, czy ktoś jest legalnym badaczem, czy przestępcą. AI ma z tym zadaniem jeszcze większe trudności. Firma Anthropic przyznaje, że na razie nie ma dobrej odpowiedzi na to pytanie. Safeguardy, które skutecznie blokowałyby wyłącznie złośliwe działania, pozostają w sferze marzeń.

Sprawa etiopskiego hakera to nie tylko pojedynczy incydent – to zapowiedź nowej fali cyberprzestępczości, w której AI staje się równorzędnym partnerem, a nie tylko narzędziem. Dopóki nie powstanie inteligentny system rozróżniania intencji użytkowników, podobne ataki będą się powtarzać. I to ze strony osób, które jeszcze wczoraj nie miały pojęcia o hakowaniu.

Najważniejsze pytanie na dziś brzmi: czy branża AI znajdzie mechanizm, który ochroni nas przed nią samą, czy też każdy z nas może stać się celem kolejnego, amatorskiego ataku z promptem pełnym literówek?