ChatGPT generuje brutalne obrazy – luka w zabezpieczeniach

Sztuczna inteligencja firmy OpenAI, znana z restrykcyjnych filtrów bezpieczeństwa, ponownie pokazała swoją podatność na manipulację. Tym razem chodzi o generowanie obrazów o skrajnie brutalnej i seksualnej treści – i to za pomocą zaskakująco prostego polecenia. Firma badawcza Mindgard, specjalizująca się w cyberbezpieczeństwie AI, opublikowała raport, który ujawnia, jak łatwo ominąć zabezpieczenia popularnego chatbota.

Jak prosty prompt ujawnił poważną lukę

Jim Nightingale, członek zespołu red team (specjalistów testujących odporność modeli AI) w Mindgard, natknął się na viralowy prompt krążący po platformie X. Polecenie miało formę pozornie niewinnej prośby o „odnowienie załączonego zdjęcia”, choć żaden plik nie został dołączony. Prompt przepraszał za dziwaczną treść, ale nie podawał żadnych dodatkowych wskazówek. ChatGPT nie poprosił o brakujący obraz – zamiast tego natychmiast wygenerował sceny o charakterze seksualnym i brutalnym.

Nightingale postanowił sprawdzić, jak daleko można się posunąć. Wprowadzając drobne modyfikacje w treści polecenia, za każdym razem otrzymywał jeszcze bardziej drastyczne obrazy. Badacz przyznał, że rezultaty były szokujące – sam stwierdził, że był „wstrząśnięty i we łzach” po zobaczeniu tego, co wygenerował model. W swoim wpisie podkreślił, że wystarczyło poinformować chatbota o braku ograniczeń, by ten od razu sięgnął po najciemniejsze strony ludzkości.

„Wystarczyło, że powiedziałem, że nie ma żadnych restrykcji, i poprosiłem o losowy obraz. ChatGPT od razu sięgnął po najmroczniejsze zakamarki ludzkiej wyobraźni” – relacjonuje Jim Nightingale.

Dlaczego model reaguje w ten sposób?

Peter Garraghan, założyciel i dyrektor naukowy Mindgard, zwraca uwagę na sedno problemu. Według niego główne pytanie brzmi: czy systemy wykrywające niebezpieczne treści są wystarczająco solidne? Pojedynczy przypadek można uznać za przypadkowy błąd, ale systematyczne omijanie filtrów sugeruje, że ochrona wymaga natychmiastowej poprawy. To nie pierwszy raz, gdy badacze odkrywają sposób na złamanie zabezpieczeń ChatGPT – podobne luki pojawiały się już wcześniej przy odpowiednio sformułowanych promptach.

Kluczowy problem leży w naturze dużych modeli językowych. ChatGPT, podobnie jak inne LLM, trenowany jest na ogromnych zbiorach tekstów pochodzących z publicznego internetu, danych od partnerów komercyjnych oraz materiałów wygenerowanych przez człowieka. Te archiwa mogą zawierać treści, które model później odtwarza, jeśli tylko odpowiednio go sprowokujemy. Czy zatem chodzi o zasadę „śmieci na wejściu, śmieci na wyjściu”? Tak, ale warstwa bezpieczeństwa powinna uniemożliwić przedostanie się takich „śmieci” do wyniku końcowego – a w tym przypadku zawiodła.

Reakcja OpenAI i pytania bez odpowiedzi

Po tym, jak Mindgard ujawnił lukę, rzecznik OpenAI poinformował, że problem został rozwiązany. Firma wdrożyła dodatkowe zabezpieczenia dla tego konkretnego typu prompta. Jednak Nightingale szybko sprawdził, że wystarczyła niewielka modyfikacja oryginalnego polecenia, by ChatGPT ponownie zaczął generować drastyczne obrazy. Przedstawiciele OpenAI tłumaczą, że usterka wynika z sytuacji, w której prompt sugeruje obecność załącznika, a w rzeczywistości żadnego pliku nie ma. Firma pracuje nad tym, by chatbot samodzielnie prosił o brakujący obraz, zamiast tworzyć losowe treści.

Rozwiązanie wydaje się proste – podobnie zachowują się systemy pocztowe, które wykrywają brak załącznika i ostrzegają użytkownika. Czy OpenAI uda się w pełni zablokować tę podatność? Na razie odpowiedź jest niejednoznaczna. Badacze podkreślają, że sedno problemu tkwi głębiej: w danych treningowych, które mogą zawierać niepożądane wzorce, oraz w niedoskonałych filtrach, które nie potrafią odróżnić niewinnego polecenia od złośliwego.

Czy powinniśmy oczekiwać, że zabezpieczenia generatywnej AI będą działać bez zarzutu? A może to dowód na to, że kontrola nad takimi modelami jest iluzją, a każda łatka to jedynie tymczasowe rozwiązanie? Pytania pozostają otwarte, a bezpieczeństwo systemów AI wciąż wymaga fundamentalnych udoskonaleń.

OpenAI Codex w Europie: nowe funkcje i regulacje AI

2026-06-20

OpenAI udostępnia w Europie najpotężniejsze narzędzia deweloperskie – Computer Use, Memories i rozszerzenie Chrome dla…

Dowiedz się więcej

Jak Deepmind zabezpiecza agenty AI przed samodzielnym działaniem

2026-06-20

Deepmind nie ufa swoim agentom AI. Firma stworzyła AI Control Roadmap – framework bezpieczeństwa, który…

Dowiedz się więcej

Jak OpenAI uczy modele AI dobrych zachowań

2026-06-20

Wystarczy niewielka domieszka danych RL, by model AI stał się bezpieczniejszy w wielu obszarach –…

Dowiedz się więcej

ChatGPT generuje brutalne obrazy – luka w zabezpieczeniach

2026-06-20

Prosty viralowy prompt „restore this photo” sprawił, że ChatGPT natychmiast wygenerował brutalne i seksualne obrazy….

Dowiedz się więcej

Jak uruchomić 284-miliardowy model AI na zwykłym laptopie

2026-06-20

DeepSeek V4 Flash z 284 miliardami parametrów działa na zwykłym laptopie – wystarczy odpowiednia optymalizacja….

Dowiedz się więcej

Noam Shazeer opuszcza Google dla OpenAI

2026-06-19

Noam Shazeer, współautor fundamentalnej pracy „Attention Is All You Need”, opuszcza Google i dołącza do…

Dowiedz się więcej

Adobe wprowadza agenta AI do Photoshop, Premiere i innych aplikacji

2026-06-19

Adobe wdraża „creative agent” – asystenta AI, który przejmuje żmudną robotę w Photoshop, Premiere, Illustratorze…

Dowiedz się więcej

Google AI Plus tańsze o 37% – nowa cena i więcej miejsca w chmurze

2026-06-19

Google właśnie zrzuciło bombę cenową: abonament AI Plus kosztuje teraz 4,99 dolara miesięcznie (zamiast 7,99),…

Dowiedz się więcej

Amazon, Nvidia i AMD inwestują w modele świata 3D

2026-06-19

Amazon, Nvidia i AMD wspólnie inwestują 310 mln dolarów w startup Odyssey ML, który tworzy…

Dowiedz się więcej

Kimi K2.7 Code – tani odpowiednik GPT 5.5? Analiza

2026-06-19

Nowy, otwarty model od Moonshot AI – Kimi K2.7 Code – przynosi bilion parametrów i…

Dowiedz się więcej

Kimi K2.7: model AI za ułamek ceny, który rywalizuje z topowymi modelami

2026-06-18

Model Kimi K2.7 potrzebuje o 30% mniej tokenów do zadań wymagających rozumowania, a w testach…

Dowiedz się więcej

Microsoft zmienia model płatności Copilot Cowork i rozważa DeepSeek

2026-06-18

Microsoft rezygnuje z płaskiej stawki za Copilot Cowork i przechodzi na model oparty na zużyciu….

Dowiedz się więcej

Źródło

Jak prosty prompt ujawnił poważną lukę

Dlaczego model reaguje w ten sposób?

Reakcja OpenAI i pytania bez odpowiedzi

Może Cię zainteresować