W tym tygodniu OpenAI wypuściło na rynek model, który jego CEO, Sam Altman, nazwał „najmądrzejszym na świecie”. Mowa o pełnej wersji serii o1 – programie generatywnej AI, który według twórców ma działać znacznie bardziej zbliżenie do ludzkiego myślenia niż jakiekolwiek wcześniejsze oprogramowanie. Firma od dawna przygotowywała grunt pod ten moment, a kluczową datą był 12 września, kiedy to zaprezentowano wczesne wersje tych modeli. Mark Chen, obecnie starszy wiceprezes ds. badań w OpenAI, podkreślał wówczas, że o1 różni się fundamentalnie od standardowego ChatGPT – potrafi „rozumować”, co jest cechą charakterystyczną ludzkiej inteligencji. Altman poszedł jeszcze dalej, ogłaszając „świt Ery Inteligencji”, w której AI pomoże ludzkości rozwiązać problemy klimatyczne i skolonizować kosmos.
Na pierwszy rzut oka retoryka ta przypomina typowy marketing, na którym OpenAI zbudowało swoją wycenę sięgającą 157 miliardów dolarów. Firma otacza swoją technologię aurą tajemnicy, a o1 jest jej najbardziej sekretnym wydaniem. Jak ujęła to Emily M. Bender, lingwistka obliczeniowa z University of Washington i znana krytyczka branży AI – to „sztuczka magiczna”. Przeciętny użytkownik może nie zauważyć ogromnej różnicy między o1 a modelami takimi jak GPT-4o. Jednak pod powierzchnią dzieje się coś istotnego. Niezależni badacze, choć mniej entuzjastyczni niż Altman, przyznają, że o1 to „zupełnie inna liga” i „prawdziwy postęp”. Dla OpenAI stawka jest jednak wyższa niż kiedykolwiek – firma mierzy się z falami kontrowersji, odejściami kluczowych pracowników i ogólnym spowolnieniem postępu w branży AI. Produkty różnych firm stają się do siebie podobne, a presja na uzasadnienie ogromnych kosztów technologii rośnie.
Dlaczego era predykcji dobiega końca?
Przez ostatnie miesiące przyglądałem się, jak OpenAI postrzega przyszłość generatywnej AI. Od wiosny, gdy firma promowała modele multimodalne (działające na tekście, obrazach i innych mediach), prowadziłem rozmowy z pracownikami OpenAI, naukowcami i analizowałem publiczne badania. Wydanie o1 dało najjaśniejszy wgląd w to, jaki rodzaj syntetycznej „inteligencji” firma chce budować. Kluczowym przesłaniem jest to, że seria o1 to przyszłość. Chen wprost stwierdził, że OpenAI skupia się teraz na tej „nowej paradygmacie”, a Altman napisał, że firma „priorytetyzuje” o1 i jego następców. Era GPT ustępuje miejsca erze rozumowania.
Model predykcyjny – fundament, który się chwieje
Modele językowe (LLM) napędzające ChatGPT „uczą się” poprzez pochłanianie ogromnych ilości tekstu, określanie statystycznych zależności między słowami i przewidywanie, które słowo najprawdopodobniej pojawi się jako następne. Im większy model, tym lepsze rezultaty – więcej danych, więcej procesorów, więcej energii. GPT-4o potrafi już pisać notatki, opowiadania, rozwiązywać zagadki i podsumowywać arkusze kalkulacyjne. Badacze rozszerzyli tę zasadę na obrazy i filmy. Chen twierdził, że „przewidywanie prowadzi do zrozumienia” – aby dokończyć historię lub namalować portret, model musi pojąć coś fundamentalnego o fabule, osobowości czy teorii koloru. Przykładem miał być program, który przewidując piksele, nauczył się odróżniać psy od kotów.
Jednak ta teoria ma poważne rysy. Melanie Mitchell, informatyczka z Santa Fe Institute, zauważa, że przewidywanie tekstu nie musi oznaczać jego rozumienia. GPT-4 lepiej tworzy akronimy z pierwszych liter wyrazów niż z drugich, co sugeruje, że nie rozumie reguły, a jedynie naśladuje częste wzorce. Gdy model myli się w liczeniu liter w słowie „strawberry” lub generuje film, w którym sok z pomarańczy topi się w stół, trudno uwierzyć, że pojmuje on fizykę czy chemię. Krytycy, jak Gary Marcus, nazywają te modele „wzmocnionym autouzupełnianiem”. Altman odpowiedział na to ironicznie, pisząc na Twitterze: „Jestem stochastic parrot (statystyczną papugą) i ty też”. To absurdalne porównanie, ale spór ten przesłania ważniejszy fakt – dla OpenAI i inwestorów nie liczy się to, czy AI dorówna ludzkiemu umysłowi, ale czy produkty będą się rozwijać.
Model o1 – od papugi do szczura w labiryncie
Nowe modele rozumujące, takie jak o1, wykazują dramatyczną poprawę w zadaniach z kodowania, matematyki i nauk ścisłych. Zyskują uznanie genetyków, fizyków i ekonomistów. Co jednak ważniejsze, o1 nie został zaprojektowany do lepszego przewidywania słów. Według doniesień The Information, Bloomberg, TechCrunch i Reuters, główne firmy AI (OpenAI, Google, Anthropic) odkrywają, że techniczne podejście napędzające rewolucję AI osiąga swoje granice. Modele takie jak GPT-4o przestają stawać się bardziej inteligentne wraz ze wzrostem rozmiaru. Brakuje wysokiej jakości danych treningowych, a powiększanie modeli nie przekłada się już na wzrost mocy. o1 jest pierwszą poważną próbą pokonania tego muru.
Jak działa „myślący” model?
Mark Chen wyjaśnił, że poprzednie modele GPT miały „kluczową lukę” – uczyły się przez naśladowanie tego, co ludzie napisali w przeszłości. o1 działa inaczej. „Sposób, w jaki trenujemy 'myślenie’, nie polega na uczeniu się przez imitację” – powiedział Chen. Model rozumujący nie przewiduje ludzkich myśli, ale samodzielnie je wytwarza (lub symuluje). Szczegóły techniczne są objęte tajemnicą handlową, ale niezależni badacze, tacy jak Delip Rao z University of Pennsylvania, potwierdzają, że o1 jest „kategorycznie inny” od serii GPT.
Proces trenowania o1 przypomina uczenie szachowego programu – model rozwiązuje miliony problemów metodą prób i błędów, otrzymując informację zwrotną. Subbarao Kambhampati, informatyk z Arizona State University, porównuje to do szczura, który po przebiegnięciu 10 000 labiryntów wypracowuje optymalną strategię. W przeciwieństwie do modeli predykcyjnych, które generują słowa w stałym tempie bez zastanowienia, o1 eksploruje różne ścieżki, zanim znajdzie najlepszą. Może poświęcić więcej czasu na „myślenie” nad trudniejszymi pytaniami. Mike Knoop, współtwórca konkursu testującego zdolności rozumowania AI, mówi o „przeszukiwaniu wielu potencjalnych łańcuchów rozumowania w locie”. To nowy sposób skalowania – nie tylko przez większe modele, ale przez więcej czasu i zasobów w trakcie użytkowania.
Nowe ograniczenia i stare problemy
Mimo całej grandiozowości, o1 ma znajome ograniczenia. Tom McCoy, lingwista obliczeniowy z Yale, który testował wersję preview o1, zauważa, że model lepiej radzi sobie z zadaniami, dla których ma więcej przykładów w danych treningowych. Łatwiej deszyfruje kody, gdy odpowiedź jest poprawnym gramatycznie zdaniem, niż gdy jest przypadkowym zbiorem słów. Statystyczny fundament pozostaje.
François Chollet, były informatyk z Google i współtwórca konkursu AI, ujmuje to tak: „Model taki jak o1 potrafi samodzielnie zapytać, aby udoskonalić sposób wykorzystania tego, co wie. Ale wciąż jest ograniczony do ponownego stosowania tego, co wie”. Niezależne analizy potwierdzają, że o1 poprawił się względem GPT-4o, ale w testach abstrakcyjnego rozumowania wciąż ma trudności. Badacze z Apple odkryli, że dodanie nieistotnych informacji do zadań matematycznych (np. informacji o planowanej darowiźnie przy obliczaniu ceny bułek) sprawia, że model popełnia błędy. o1 może nie rozumieć głęboko strategii szachowej, a jedynie zapamiętywać i stosować ogólne zasady.
Wąskie zastosowanie czy uniwersalny przełom?
Nawet jeśli przyjmiemy, że o1 rozumie logikę stojącą za swoimi odpowiedziami, a nie tylko ją naśladuje, może być on dalej od ogólnej inteligencji niż ChatGPT. Jego ulepszenia ograniczają się do dziedzin, w których można obiektywnie potwierdzić poprawność rozwiązania – jak matematyka czy kodowanie. Nie ma obiektywnej miary dla pięknej poezji czy empatii. Jak zauważył Rao z University of Pennsylvania, o1 jest prawdopodobnie węższy w zastosowaniu niż GPT-4o, co sam OpenAI sugeruje w swoim ogłoszeniu, pisząc: „W wielu typowych przypadkach GPT-4o będzie bardziej przydatny w najbliższym czasie”.
Mimo to OpenAI patrzy w przyszłość. Chen mówi, że modele rozumujące „eksplorują różne hipotezy jak człowiek”. Pełna wersja o1 akceptuje już dane multimodalne. A jeśli skalowanie modeli językowych rzeczywiście uderza w ścianę, to właśnie rozumowanie staje się kierunkiem, w którym zwracają się konkurenci. Dario Amodei, CEO Anthropic, wskazał o1 jako możliwą drogę naprzód. Google wypuścił eksperymentalne wersje Gemini, które wykazują cechy „szczura w labiryncie” – dłuższy czas odpowiedzi, szczegółowe łańcuchy rozumowania. Microsoft i chińskie firmy, jak Alibaba, również podążają tą ścieżką.
Jeśli to ma być droga do superinteligencji, pozostaje ona osobliwa. Emily Bender porównuje to do „miliona małp piszących przez milion lat dzieła Szekspira”. OpenAI skraca ten czas do sekund. Firma chwali się, że model o1 uzyskał lepszy wynik od większości ludzi w teście kodowania, ale tylko wtedy, gdy pozwolono mu na 10 000 prób zamiast 50. Żaden człowiek nie byłby w stanie wygenerować tylu możliwości w rozsądnym czasie – i to jest właśnie sedno. Dla OpenAI nieograniczony czas i zasoby to przewaga nad biologią. Firma planuje budowę centrów danych wymagających mocy pięciu dużych reaktorów jądrowych każde. Wczoraj, wraz z premierą pełnego o1, OpenAI ogłosiło nowy, drogi abonament ChatGPT za 200 dolarów miesięcznie, który daje dostęp do wersji o1 zużywającej jeszcze więcej mocy obliczeniowej. Pieniądze kupują inteligencję. „Mamy teraz dwie osie skalowania” – mówi Chen: czas treningu i czas działania, małpy i lata, papugi i szczury. Dopóki płynie finansowanie, efektywność schodzi na dalszy plan.
Szczury w labiryncie również mogą w końcu uderzyć w ścianę. Wczesne testy OpenAI pokazały, że skalowanie o1 przynosi malejące zyski – liniowa poprawa w trudnym egzaminie z matematyki wymagała wykładniczo rosnącej mocy obliczeniowej. To, że superinteligencja mogłaby wymagać przebudowy sieci energetycznych na całym świecie i generować ogromne straty finansowe, najwyraźniej nie zniechęca startupu ani jego inwestorów. Ambicja i akumulacja stają się ważniejsze niż sama technologia. Wzrost i dług są warunkiem wstępnym i dowodem na istnienie potężniejszych maszyn. Może pod spodem kryje się jakaś substancja, a nawet inteligencja. Ale nie musi – aby to spekulacyjne koło zamachowe kręciło się dalej.

