Jak OpenAI uczy modele AI dobrych zachowań

Czy możemy sprawić, by modele sztucznej inteligencji były nie tylko wydajne, ale też przewidywalnie bezpieczne w wielu różnych sytuacjach? To pytanie od lat nurtuje badaczy zajmujących się alignmentem (dopasowaniem zachowań AI do ludzkich intencji). Najnowsze wyniki eksperymentów przeprowadzonych przez zespół OpenAI sugerują, że odpowiedź jest twierdząca – o ile zastosujemy odpowiedni rodzaj treningu. Badacze postanowili sprawdzić, czy dobre cechy behawioralne, podobnie jak te negatywne, potrafią przenosić się na obszary, z którymi model nie miał wcześniej styczności.

Jak dobre zachowania przenikają do nowych dziedzin

Specjaliści z OpenAI sięgnęli po uczenie przez wzmacnianie (reinforcement learning, RL), aby wytrenować model na realistycznych dialogach. Każda rozmowa służyła do testowania konkretnych, pożądanych cech: prawdomówności, pokory epistemicznej (świadomości granic własnej wiedzy), korygowalności, przejrzystości w rozumowaniu, uczciwości i troski o dobro człowieka. Scenariusze obejmowały takie dziedziny jak medycyna, edukacja, nauka, prawo i inżynieria.

Co kluczowe – tylko niewielką część danych z tymi „korzystnymi cechami” dodano do standardowego procesu treningu RL. Mimo to, według opublikowanych badań, model poprawił wyniki w 44 z 53 niezależnych benchmarków mierzących m.in. skłonność do oszustwa, pochlebstwa (sycophancy), nagradzanie się (reward hacking) oraz zachowania w kontekście zdrowotnym. Co więcej, trening wyłącznie na danych medycznych przełożył się na lepsze wyniki także w testach niezwiązanych ze zdrowiem – na przykład w wykrywaniu prób oszukiwania systemu. Odwrotna zależność również się potwierdziła: trening bez żadnych danych medycznych czy naukowych nie obniżył wydajności w tych obszarach.

Badacze konkludują, że RL wzmacnia uniwersalne wzorce zachowań, które działają niezależnie od konkretnej domeny. Innymi słowy – jeśli nauczymy model być uczciwym w rozmowie o lekach, będzie bardziej uczciwy również podczas analizy prawnej, choć prawniczych danych nie widział.

Odporność na szkodliwe sterowanie

Drugi ważny wniosek dotyczy wytrzymałości modelu na próby manipulacji. Zespół OpenAI poddał wytrenowaną w ten sposób sieć serii wrogich promptów (adversarial prompts), które u podstawowego modelu powodowały poważne niestabilności. W przypadku modelu z „korzystnymi cechami” efekt był znacznie słabszy. Próby szkodliwego fine-tuningu (dostrajania) także miały ograniczoną skuteczność w niszczeniu wcześniej wpojonych wartości.

Co istotne, model zachował pełną sterowalność w zakresie zadań pomocnych – nie stał się sztywny ani nieużyteczny. Badacze nazwali to zjawisko „selektywną trwałością” (selective persistence): system opiera się próbom narzucenia szkodliwych zachowań, nie tracąc przy tym elastyczności potrzebnej do wykonywania poleceń użytkownika.

Inna ścieżka niż u Anthropic

Podejście OpenAI wyraźnie różni się od strategii stosowanej przez konkurencyjne Anthropic. Po pierwsze, OpenAI opiera się na mierzalnych cechach behawioralnych, wzmacnianych empirycznie poprzez RL w realistycznych scenariuszach. Anthropic z kolei stawia na jawną „konstytucję Claude’a” – pisany dokument wartości, który pełni rolę nadrzędnej instrukcji dla modelu.

Po drugie, OpenAI kładzie nacisk na benchmarki: 44 z 53 testów wykazało poprawę, która uogólnia się na różne dziedziny i metody ewaluacji. Anthropic preferuje podejście bardziej zasadnicze, w którym model ma rozumieć, dlaczego pewne zachowania są pożądane – opiera się to na tekstach konstytucyjnych i starannie dobranych przykładach treningowych. Firma twierdzi, że taka metoda czyni modele odporniejszymi na ataki.

Bezpośrednie porównanie skuteczności obu tych strategii nie zostało jeszcze przeprowadzone. Wyniki OpenAI pokazują jednak, że nawet niewielka domieszka danych RL z wyselekcjonowanymi cechami może przynieść wymierne korzyści w zakresie bezpieczeństwa i odporności na manipulację, otwierając nową ścieżkę w badaniach nad alignmentem.

Czy połączenie obu podejść – empirycznego wzmacniania cech i konstytucyjnych zasad – dałoby jeszcze lepsze rezultaty? Na razie to pytanie pozostaje bez odpowiedzi, ale kierunek badań nad bezpieczeństwem AI właśnie się poszerza.