Boty AI zagrażają infrastrukturze projektów open source

Boty AI żądne danych przypadkowo powodują przeciążenia stron projektów open source, ale społeczność deweloperska stawia opór. Programista Xe Iaso osiągnął punkt krytyczny na początku tego roku, gdy agresywny ruch crawlerów AI od Amazona przeciążył jego usługę repozytorium Git, powodując niestabilność i przestoje. Mimo wdrożenia standardowych środków obronnych – dostosowania robots.txt, blokowania znanych user-agentów crawlerów i filtrowania podejrzanego ruchu – boty AI nadal omijały wszystkie próby zatrzymania ich, podszywając się pod inne user-agenty i wykorzystując adresy IP użytkowników jako proxy.

Desperackie środki obronne

W desperacji Iaso ostatecznie zdecydował się przenieść serwer za VPN i stworzyć „Anubis” – własny system wyzwań proof-of-work, który zmusza przeglądarki do rozwiązywania zagadek obliczeniowych przed uzyskaniem dostępu do strony. Według raportu LibreNews, niektóre projekty open source odnotowują nawet 97% ruchu pochodzącego od botów firm AI, dramatycznie zwiększając koszty przepustowości i niestabilność usług.

Cloudflare wprowadza AI Labyrinth do walki z web scrapingiem

Skala problemu

Kevin Fenzi z zespołu administratorów projektu Fedora Pagure musiał zablokować cały ruch z Brazylii po wielokrotnych nieudanych próbach ograniczenia ruchu botów. GNOME GitLab wdrożył system „Anubis”, wymagający rozwiązania zagadek obliczeniowych. Administrator GNOME Bart Piotrowski ujawnił, że tylko około 3,2% żądań (2,690 z 84,056) przeszło przez ich system wyzwań, sugerując że zdecydowana większość ruchu była zautomatyzowana.

Koszty finansowe i techniczne

Projekt Read the Docs poinformował, że zablokowanie crawlerów AI natychmiast zmniejszyło ich ruch o 75%, z 800GB do 200GB dziennie. Ta zmiana zaoszczędziła projektowi około 1,500 USD miesięcznie na kosztach ruchu. Crawlery celowo omijają standardowe środki blokujące, ignorując dyrektywy robots.txt, podszywając się pod przeglądarki i rotując adresy IP.

Kto stoi za atakami?

Analiza logów ruchu Diaspora wykazała, że około jednej czwartej ruchu sieciowego pochodziło od botów z user-agentem OpenAI, podczas gdy Amazon odpowiadał za 15%, a Anthropic za 4,3%. Wzorce crawlowania sugerują różne motywacje – od zbierania danych treningowych po wykonywanie wyszukiwań w czasie rzeczywistym. Crawlery powracają co 6 godzin, wskazując na ciągłe zbieranie danych zamiast jednorazowych działań treningowych.

Nowe narzędzia obronne

W odpowiedzi na te ataki powstają nowe narzędzia obronne. Anonimowy twórca o pseudonimie „Aaron” stworzył „Nepenthes” – narzędzie służące do wciągania crawlerów w niekończące się labirynty fałszywej treści. Cloudflare ogłosił „AI Labyrinth”, podobne ale bardziej komercyjne rozwiązanie. Społeczność rozwija również projekt „ai.robots.txt”, oferujący otwartą listę crawlerów AI i gotowe pliki konfiguracyjne do ich blokowania.

Przyszłość walki z botami AI

Obecne podejście niektórych dużych firm AI – masowe pobieranie danych z projektów open source bez wyraźnej zgody lub rekompensaty – zagraża stabilności ekosystemu cyfrowego. Bez znaczącej regulacji lub samokontroli firm AI, wyścig zbrojeń między botami żądnymi danych a obrońcami infrastruktury open source prawdopodobnie będzie się nasilał, potencjalnie pogłębiając kryzys w cyfrowym ekosystemie.

Źródło Ars Technica