Yann LeCun, laureat nagrody Turinga i były główny specjalista Meta ds. AI, postanowił rzucić wyzwanie obecnemu kierunkowi rozwoju sztucznej inteligencji. Zamiast ulepszać duże modele językowe (LLM), takie jak GPT, zamierza budować nowy paradygmat – Joint Embedding Predictive Architecture (JEPA). Na ten cel przeznaczył miliard dolarów. Jego zdaniem modele językowe oparte na przewidywaniu kolejnych słów nie są w stanie pojąć, jak działa świat. JEPA ma to zmienić, ucząc się na surowych danych wizualnych i tworząc abstrakcyjne reprezentacje rzeczywistości. Czy ta koncepcja wyznaczy nowy etap w rozwoju AI?
Dlaczego modele językowe nie wystarczą
LeCun od lat krytykuje podejście dominujące w branży, które zakłada, że im większy model językowy – tym bliżej prawdziwej inteligencji. Jego kontrargument jest prosty: przewidywanie następnego tokena w sekwencji tekstowej to wyrafinowane dopasowywanie wzorców, a nie myślenie przyczynowo-skutkowe. Według badacza LLM nie rozumieją świata – jedynie odtwarzają statystyczne prawidłowości wyuczone z ogromnych korpusów tekstu.
Hallucynacje i brak zakotwiczenia w rzeczywistości
Jedną z najpoważniejszych wad modeli językowych są tak zwane halucynacje – generowanie pewnych siebie, ale fałszywych informacji. LeCun tłumaczy, że źródłem tego zjawiska jest brak „zakotwiczenia” w realnym świecie. Modele językowe nie mają dostępu do wiedzy o fizycznych obiektach, ruchu ani związku przyczynowym – operują wyłącznie na symbolach.
Brak możliwości planowania i działania
Nawet najbardziej zaawansowane LLM nie potrafią zaplanować sekwencji ruchów robota czy przewidzieć, co stanie się, gdy szklanka spadnie ze stołu. Ich użyteczność w zadaniach wymagających interakcji ze światem fizycznym jest więc mocno ograniczona. LeCun podkreśla, że dalsze skalowanie modeli przynosi coraz mniejsze korzyści – efekt malejących zwrotów z inwestycji w moc obliczeniową staje się faktem.
Czym właściwie jest JEPA i jak działa
Joint Embedding Predictive Architecture (JEPA) to całkowicie inne podejście. Zamiast przewidywać słowa, system uczy się przewidywać abstrakcyjne reprezentacje stanów świata – w oparciu o surowe nagrania wideo. Inspiracją jest sposób, w jaki uczą się niemowlęta: obserwują, manipulują przedmiotami i wyciągają wnioski z niepowodzeń. JEPA ma robić to samo, tylko w skali milionów godzin materiału wideo.
Kluczowa różnica? JEPA nie potrzebuje ogromnych, ręcznie opisanych zbiorów danych do każdego nowego zadania. Po nauczeniu się ogólnych zasad fizyki (np. „przedmioty spadają w dół”, „ciała stałe nie przenikają się”) model może z łatwością dostosować się do konkretnych scenariuszy – na przykład uczyć robota chwytania kubków bez konieczności trenowania od zera.
Sześć modułów budujących inteligencję
Architektura JEPA składa się z sześciu połączonych komponentów, które współpracują, by symulować i działać w dynamicznym otoczeniu:
- Configurator – ustala priorytety zadania, kierując uwagę systemu na konkretne cele i dostosowując się do zmieniających się wymagań.
- Perception Module – odbiera i interpretuje dane ze środowiska (np. obraz z kamery), tworząc podstawę do podejmowania decyzji.
- World Model – symuluje i przewiduje przyszłe zdarzenia bazując na wyuczonych reprezentacjach fizycznego świata.
- Cost Module – ocenia potencjalne działania pod kątem wykonalności i efektywności, optymalizując proces decyzyjny.
- Actor – wykonuje wybrany plan, przekształcając przewidywania w konkretne działania w rzeczywistości.
- Short-Term Memory – przechowuje informacje o wcześniejszych krokach i kontekście, zapewniając ciągłość i elastyczność.
Dzięki modułowej budowie JEPA może łatwo adaptować się do nowych zadań bez konieczności całkowitego przekwalifikowywania. To sprawia, że jest znacznie bardziej skalowalna niż tradycyjne LLM.
Filozoficzna zmiana: od języka do świata fizycznego
JEPA to nie tylko inna architektura – to fundamentalna zmiana w myśleniu o tym, czym jest inteligencja. LeCun uważa, że prawdziwe zrozumienie wymaga ucieleśnionego poznania: model musi operować pojęciami takimi jak położenie, ruch, siła, przyczyna i skutek. Modele językowe operują w oderwaniu od tych kategorii, a ich „rozumowanie” jest iluzją generowaną przez statystyczne korelacje.
Ta perspektywa podważa przekonanie, że dalsze powiększanie LLM doprowadzi do przełomu. LeCun argumentuje, że bez osadzenia w realnym świecie żaden model – niezależnie od rozmiaru – nie osiągnie poziomu inteligencji porównywalnego z człowiekiem. JEFA ma być dowodem na to, że można postawić na inne priorytety.
Wyzwania i możliwe konsekwencje dla branży AI
Mimo ambitnych założeń, droga do wdrożenia JEFA jest usłana przeszkodami. Modelowanie dynamiki fizycznej w czasie rzeczywistym wymaga ogromnych mocy obliczeniowych – to może ograniczyć skalowalność systemu nawet przy budżecie miliarda dolarów. Również złożoność tworzenia dokładnych symulacji świata fizycznego jest gigantycznym wyzwaniem inżynieryjnym.
Jeśli jednak JEPA odniesie sukces, może przesunąć akcent całej branży z trenowania kolejnych wersji GPT na budowanie systemów rozumiejących przestrzeń i przyczynowość. Wpływ na robotykę, autonomiczne pojazdy, symulacje inżynieryjne czy nawet gry komputerowe byłby ogromny. Z drugiej strony – jeśli koncepcja nie sprawdzi się w praktyce, inwestycja miliarda dolarów może okazać się drogim eksperymentem, który tylko ugruntuje dominację LLM.
Pytanie, które stoi przed badaczami i inwestorami, brzmi: czy możliwe jest osiągnięcie prawdziwej inteligencji bez zrozumienia świata fizycznego, czy też potrzebujemy zupełnie nowej ścieżki? Odpowiedź na nie może zaważyć na kierunku rozwoju AI w nadchodzących dekadach.
Niezależnie od finalnego wyniku, projekt LeCuna pokazuje, że w środowisku AI wciąż jest miejsce na odważne, kontrowersyjne wizje. JEFA może okazać się kamieniem milowym – albo kosztownym ślepym zaułkiem. Jedno jest pewne: społeczność będzie śledzić jego postępy z zapartym tchem.

