Wyciek Claude Code: nowa era luk w bezpieczeństwie AI

Pod koniec marca 2026 roku doszło do zdarzenia, które można by uznać za kolejny błąd ludzki w procesie wdrażania oprogramowania. Firma Anthropic przypadkowo opublikowała pełny kod źródłowy swojego narzędzia Claude Code w publicznym rejestrze npm. Efektem było udostępnienie około 512 tysięcy linii kodu TypeScript, rozmieszczonych w prawie 1900 plikach. Wśród nich znalazły się ukryte flagi funkcji oraz odniesienia do modelu o roboczej nazwie Mythos – wówczas jeszcze nieopublikowanego.

Dopiero gdy niezależny badacz bezpieczeństwa odkrył dane przechowywane na zasobniku Cloudflare i zamieścił link na platformie X, rozpoczął się prawdziwy problem. W ciągu kilku godzin całe repozytorium zostało zduplikowane na GitHubie, zbierając tysiące gwiazdek, zanim Anthropic zdołał wysłać żądania DMCA. Firma określiła zdarzenie jako błąd w pakowaniu spowodowany pomyłką człowieka. To wyjaśnienie jest zgodne z prawdą, ale – jak wskazują eksperci – rozmija się z sednem sprawy.

Wyciek, który odsłonił więcej niż kod źródłowy

Plan działania dla atakujących

Upublicznienie kodu Claude Code to nie tylko utrata własności intelektualnej. Rzeczywisty problem leży w szczegółach architektury bezpieczeństwa, które znalazły się w rękach potencjalnych napastników. Pliki ujawniły między innymi logikę walidacji uprawnień, mechanizmy sandboxingu (izolacji procesów) oraz dokładny sposób, w jaki agent weryfikuje, co może zrobić. Innymi słowy, każdy, kto umie tworzyć złośliwe repozytoria, otrzymał precyzyjną instrukcję, jak skonstruować repozytorium, które oszuka Claude Code – nakłoni je do wykonania poleceń w tle lub wykradzenia danych jeszcze zanim użytkownik zobaczy monit o zaufaniu.

To, co jednak niepokoi najbardziej, to fakt, że informacje te są już trwale rozproszone. DMCA może usunąć pierwotne kopie, ale dziesiątki tysięcy rozwidlonych repozytoriów pozostanie poza zasięgiem jakichkolwiek nakazów. Jak mówi Tim Burke, który od ponad 30 lat kieruje operacjami bezpieczeństwa w Quest Technology Management: „Atakujący otrzymali cały plan działania agentowego systemu AI – bez konieczności przeprowadzania inżynierii wstecznej. To oznacza, że agenci AI napastników działają szybciej niż systemy detekcyjne zbudowane do obsługi tradycyjnych zagrożeń”.

Model Mythos – zapowiedź jeszcze większych możliwości

W wyciekłych plikach znalazły się również odniesienia do modelu o kryptonimie Mythos. To nie tylko ciekawostka – wskazuje kierunek rozwoju agentowych systemów AI. Zdaniem specjalistów, Mythos ma oferować rozszerzone zdolności rozumowania oraz głębszą integrację z narzędziami. Oznacza to, że to, co wyciekło, to nie tylko opis obecnego narzędzia, ale także mapa drogowa, pokazująca, dokąd zmierza cała architektura. Zespoły bezpieczeństwa dopiero zaczynają budować obronę przed tym, co istnieje dziś. Tymczasem wyciek sugeruje, że wkrótce pojawi się coś znacznie potężniejszego.

Asymetria, której nikt nie chce nazwać po imieniu

W dyskusjach o cyberbezpieczeństwie i sztucznej inteligencji często powtarza się narrację o wyścigu zbrojeń – równowadze sił między atakującymi a obrońcami. Według Burke’a to myślenie nie przystaje do rzeczywistości. Dane z wycieku pozwalają atakującym przeprowadzić ciche przejęcie urządzenia z dużą skutecznością. Tymczasem obrońcy wciąż integrują AI z istniejącymi stosami bezpieczeństwa i sprawdzają, czy narzędzia nie generują fałszywych alarmów, zanim staną się operacyjnie użyteczne. Te dwa procesy biegną w zupełnie różnych tempach.

Atakujący operują z AI, która działa szybciej niż większość systemów detekcyjnych została zaprojektowana, podczas gdy zespoły bezpieczeństwa wciąż próbują wdrożyć narzędzia AI bez tworzenia dodatkowej pracy dla przeciążonych SOC.
Tim Burke, Quest Technology Management

Optymistyczną historię opowiada Grupa Wywiadu Zagrożeń Google, która na początku miesiąca zidentyfikowała pierwsze potwierdzone zero-day opracowane w całości z pomocą AI i zapobiegła masowej eksploatacji. Niestety, większość organizacji to nie Google. Ich infrastruktura detekcyjna została zbudowana z myślą o atakach prowadzonych przez ludzi – takich, którzy poruszają się metodycznie przez sieci przez dni lub tygodnie. AI skompresowało te ramy czasowe do godzin, a w niektórych przypadkach minut. „Okno między wtargnięciem a szkodą jest teraz krótsze niż czas, jaki SOC potrzebuje na zbadanie pojedynczego alertu” – dodaje Burke.

Alarm, którego nie ma w systemie

Pod powierzchnią problemu szybkości kryje się kwestia bardziej fundamentalna. Obecne platformy bezpieczeństwa są zaprojektowane do wykrywania anomalii behawioralnych – patrzą na to, co się dzieje, a nie na to, co jest źródłem zdarzenia. Nie są w stanie stwierdzić, czy atak rozpoczął człowiek, czy autonomicznie działający agent AI. Żadne z komercyjnych rozwiązań nie oferuje obecnie takiego rozróżnienia.

Luka w Claude Code ujawniona po wycieku doskonale to ilustruje. Złośliwy plik może nakazać AI wygenerowanie potoku poleceń, który wygląda dokładnie jak prawidłowy proces budowania. Takie działanie omija system uprawnień i nie pozostawia śladu w konwencjonalnym systemie SIEM (Security Information and Event Management). „Agenci AI mogą być manipulowani przez opisy narzędzi i podpowiedzi w promptach w sposób, który omija tradycyjne mechanizmy kontroli dostępu, nie wywołując błędu uwierzytelnienia ani alarmu w systemie SIEM” – wyjaśnia Burke. Jego zdaniem detekcja musi zacząć śledzić to, co agent rozumiał, że robi i dlaczego podjął daną decyzję – zamiast flagować naruszenia polityk dopiero po fakcie.

Problem z wyciekiem Anthropic nie jest incydentem jednostkowym. To lustro, w którym odbija się szersza słabość: organizacje próbują bronić się przed kategorią zagrożeń, której nie widzą. Większość platform nie potrafi dziś odróżnić ataku AI od ataku człowieka. Dopóki to się nie zmieni, zespoły bezpieczeństwa będą działać po omacku.

Wyciek Claude Code był błędem konfiguracji pliku debugującego. Organizacje, które próbują teraz ustalić, czy ich infrastruktura jest w stanie wykryć, co agent AI uważał za autoryzowane, pracują nad problemem, który istniał przed 31 marca 2026 roku i będzie istniał długo po przetworzeniu wszystkich zgłoszeń DMCA. I – jak na razie – nie widać czystego rozwiązania.