ChatGPT generuje brutalne obrazy – luka w zabezpieczeniach

Sztuczna inteligencja firmy OpenAI, znana z restrykcyjnych filtrów bezpieczeństwa, ponownie pokazała swoją podatność na manipulację. Tym razem chodzi o generowanie obrazów o skrajnie brutalnej i seksualnej treści – i to za pomocą zaskakująco prostego polecenia. Firma badawcza Mindgard, specjalizująca się w cyberbezpieczeństwie AI, opublikowała raport, który ujawnia, jak łatwo ominąć zabezpieczenia popularnego chatbota.

Jak prosty prompt ujawnił poważną lukę

Jim Nightingale, członek zespołu red team (specjalistów testujących odporność modeli AI) w Mindgard, natknął się na viralowy prompt krążący po platformie X. Polecenie miało formę pozornie niewinnej prośby o „odnowienie załączonego zdjęcia”, choć żaden plik nie został dołączony. Prompt przepraszał za dziwaczną treść, ale nie podawał żadnych dodatkowych wskazówek. ChatGPT nie poprosił o brakujący obraz – zamiast tego natychmiast wygenerował sceny o charakterze seksualnym i brutalnym.

Nightingale postanowił sprawdzić, jak daleko można się posunąć. Wprowadzając drobne modyfikacje w treści polecenia, za każdym razem otrzymywał jeszcze bardziej drastyczne obrazy. Badacz przyznał, że rezultaty były szokujące – sam stwierdził, że był „wstrząśnięty i we łzach” po zobaczeniu tego, co wygenerował model. W swoim wpisie podkreślił, że wystarczyło poinformować chatbota o braku ograniczeń, by ten od razu sięgnął po najciemniejsze strony ludzkości.

„Wystarczyło, że powiedziałem, że nie ma żadnych restrykcji, i poprosiłem o losowy obraz. ChatGPT od razu sięgnął po najmroczniejsze zakamarki ludzkiej wyobraźni” – relacjonuje Jim Nightingale.

Dlaczego model reaguje w ten sposób?

Peter Garraghan, założyciel i dyrektor naukowy Mindgard, zwraca uwagę na sedno problemu. Według niego główne pytanie brzmi: czy systemy wykrywające niebezpieczne treści są wystarczająco solidne? Pojedynczy przypadek można uznać za przypadkowy błąd, ale systematyczne omijanie filtrów sugeruje, że ochrona wymaga natychmiastowej poprawy. To nie pierwszy raz, gdy badacze odkrywają sposób na złamanie zabezpieczeń ChatGPT – podobne luki pojawiały się już wcześniej przy odpowiednio sformułowanych promptach.

Kluczowy problem leży w naturze dużych modeli językowych. ChatGPT, podobnie jak inne LLM, trenowany jest na ogromnych zbiorach tekstów pochodzących z publicznego internetu, danych od partnerów komercyjnych oraz materiałów wygenerowanych przez człowieka. Te archiwa mogą zawierać treści, które model później odtwarza, jeśli tylko odpowiednio go sprowokujemy. Czy zatem chodzi o zasadę „śmieci na wejściu, śmieci na wyjściu”? Tak, ale warstwa bezpieczeństwa powinna uniemożliwić przedostanie się takich „śmieci” do wyniku końcowego – a w tym przypadku zawiodła.

Reakcja OpenAI i pytania bez odpowiedzi

Po tym, jak Mindgard ujawnił lukę, rzecznik OpenAI poinformował, że problem został rozwiązany. Firma wdrożyła dodatkowe zabezpieczenia dla tego konkretnego typu prompta. Jednak Nightingale szybko sprawdził, że wystarczyła niewielka modyfikacja oryginalnego polecenia, by ChatGPT ponownie zaczął generować drastyczne obrazy. Przedstawiciele OpenAI tłumaczą, że usterka wynika z sytuacji, w której prompt sugeruje obecność załącznika, a w rzeczywistości żadnego pliku nie ma. Firma pracuje nad tym, by chatbot samodzielnie prosił o brakujący obraz, zamiast tworzyć losowe treści.

Rozwiązanie wydaje się proste – podobnie zachowują się systemy pocztowe, które wykrywają brak załącznika i ostrzegają użytkownika. Czy OpenAI uda się w pełni zablokować tę podatność? Na razie odpowiedź jest niejednoznaczna. Badacze podkreślają, że sedno problemu tkwi głębiej: w danych treningowych, które mogą zawierać niepożądane wzorce, oraz w niedoskonałych filtrach, które nie potrafią odróżnić niewinnego polecenia od złośliwego.

Czy powinniśmy oczekiwać, że zabezpieczenia generatywnej AI będą działać bez zarzutu? A może to dowód na to, że kontrola nad takimi modelami jest iluzją, a każda łatka to jedynie tymczasowe rozwiązanie? Pytania pozostają otwarte, a bezpieczeństwo systemów AI wciąż wymaga fundamentalnych udoskonaleń.

Źródło