Yann LeCun rzuca wyzwanie LLM – miliard dolarów na JEPA

Yann LeCun, laureat nagrody Turinga i były główny specjalista Meta ds. AI, postanowił rzucić wyzwanie obecnemu kierunkowi rozwoju sztucznej inteligencji. Zamiast ulepszać duże modele językowe (LLM), takie jak GPT, zamierza budować nowy paradygmat – Joint Embedding Predictive Architecture (JEPA). Na ten cel przeznaczył miliard dolarów. Jego zdaniem modele językowe oparte na przewidywaniu kolejnych słów nie są w stanie pojąć, jak działa świat. JEPA ma to zmienić, ucząc się na surowych danych wizualnych i tworząc abstrakcyjne reprezentacje rzeczywistości. Czy ta koncepcja wyznaczy nowy etap w rozwoju AI?

Dlaczego modele językowe nie wystarczą

LeCun od lat krytykuje podejście dominujące w branży, które zakłada, że im większy model językowy – tym bliżej prawdziwej inteligencji. Jego kontrargument jest prosty: przewidywanie następnego tokena w sekwencji tekstowej to wyrafinowane dopasowywanie wzorców, a nie myślenie przyczynowo-skutkowe. Według badacza LLM nie rozumieją świata – jedynie odtwarzają statystyczne prawidłowości wyuczone z ogromnych korpusów tekstu.

Hallucynacje i brak zakotwiczenia w rzeczywistości

Jedną z najpoważniejszych wad modeli językowych są tak zwane halucynacje – generowanie pewnych siebie, ale fałszywych informacji. LeCun tłumaczy, że źródłem tego zjawiska jest brak „zakotwiczenia” w realnym świecie. Modele językowe nie mają dostępu do wiedzy o fizycznych obiektach, ruchu ani związku przyczynowym – operują wyłącznie na symbolach.

Brak możliwości planowania i działania

Nawet najbardziej zaawansowane LLM nie potrafią zaplanować sekwencji ruchów robota czy przewidzieć, co stanie się, gdy szklanka spadnie ze stołu. Ich użyteczność w zadaniach wymagających interakcji ze światem fizycznym jest więc mocno ograniczona. LeCun podkreśla, że dalsze skalowanie modeli przynosi coraz mniejsze korzyści – efekt malejących zwrotów z inwestycji w moc obliczeniową staje się faktem.

Czym właściwie jest JEPA i jak działa

Joint Embedding Predictive Architecture (JEPA) to całkowicie inne podejście. Zamiast przewidywać słowa, system uczy się przewidywać abstrakcyjne reprezentacje stanów świata – w oparciu o surowe nagrania wideo. Inspiracją jest sposób, w jaki uczą się niemowlęta: obserwują, manipulują przedmiotami i wyciągają wnioski z niepowodzeń. JEPA ma robić to samo, tylko w skali milionów godzin materiału wideo.

Kluczowa różnica? JEPA nie potrzebuje ogromnych, ręcznie opisanych zbiorów danych do każdego nowego zadania. Po nauczeniu się ogólnych zasad fizyki (np. „przedmioty spadają w dół”, „ciała stałe nie przenikają się”) model może z łatwością dostosować się do konkretnych scenariuszy – na przykład uczyć robota chwytania kubków bez konieczności trenowania od zera.

Sześć modułów budujących inteligencję

Architektura JEPA składa się z sześciu połączonych komponentów, które współpracują, by symulować i działać w dynamicznym otoczeniu:

Configurator – ustala priorytety zadania, kierując uwagę systemu na konkretne cele i dostosowując się do zmieniających się wymagań.
Perception Module – odbiera i interpretuje dane ze środowiska (np. obraz z kamery), tworząc podstawę do podejmowania decyzji.
World Model – symuluje i przewiduje przyszłe zdarzenia bazując na wyuczonych reprezentacjach fizycznego świata.
Cost Module – ocenia potencjalne działania pod kątem wykonalności i efektywności, optymalizując proces decyzyjny.
Actor – wykonuje wybrany plan, przekształcając przewidywania w konkretne działania w rzeczywistości.
Short-Term Memory – przechowuje informacje o wcześniejszych krokach i kontekście, zapewniając ciągłość i elastyczność.

Dzięki modułowej budowie JEPA może łatwo adaptować się do nowych zadań bez konieczności całkowitego przekwalifikowywania. To sprawia, że jest znacznie bardziej skalowalna niż tradycyjne LLM.

Filozoficzna zmiana: od języka do świata fizycznego

JEPA to nie tylko inna architektura – to fundamentalna zmiana w myśleniu o tym, czym jest inteligencja. LeCun uważa, że prawdziwe zrozumienie wymaga ucieleśnionego poznania: model musi operować pojęciami takimi jak położenie, ruch, siła, przyczyna i skutek. Modele językowe operują w oderwaniu od tych kategorii, a ich „rozumowanie” jest iluzją generowaną przez statystyczne korelacje.

Ta perspektywa podważa przekonanie, że dalsze powiększanie LLM doprowadzi do przełomu. LeCun argumentuje, że bez osadzenia w realnym świecie żaden model – niezależnie od rozmiaru – nie osiągnie poziomu inteligencji porównywalnego z człowiekiem. JEFA ma być dowodem na to, że można postawić na inne priorytety.

Wyzwania i możliwe konsekwencje dla branży AI

Mimo ambitnych założeń, droga do wdrożenia JEFA jest usłana przeszkodami. Modelowanie dynamiki fizycznej w czasie rzeczywistym wymaga ogromnych mocy obliczeniowych – to może ograniczyć skalowalność systemu nawet przy budżecie miliarda dolarów. Również złożoność tworzenia dokładnych symulacji świata fizycznego jest gigantycznym wyzwaniem inżynieryjnym.

Jeśli jednak JEPA odniesie sukces, może przesunąć akcent całej branży z trenowania kolejnych wersji GPT na budowanie systemów rozumiejących przestrzeń i przyczynowość. Wpływ na robotykę, autonomiczne pojazdy, symulacje inżynieryjne czy nawet gry komputerowe byłby ogromny. Z drugiej strony – jeśli koncepcja nie sprawdzi się w praktyce, inwestycja miliarda dolarów może okazać się drogim eksperymentem, który tylko ugruntuje dominację LLM.

Pytanie, które stoi przed badaczami i inwestorami, brzmi: czy możliwe jest osiągnięcie prawdziwej inteligencji bez zrozumienia świata fizycznego, czy też potrzebujemy zupełnie nowej ścieżki? Odpowiedź na nie może zaważyć na kierunku rozwoju AI w nadchodzących dekadach.

Niezależnie od finalnego wyniku, projekt LeCuna pokazuje, że w środowisku AI wciąż jest miejsce na odważne, kontrowersyjne wizje. JEFA może okazać się kamieniem milowym – albo kosztownym ślepym zaułkiem. Jedno jest pewne: społeczność będzie śledzić jego postępy z zapartym tchem.

Nowe zasady inżynierii kontekstu dla modeli Claude 5

2026-07-26

„Mity w inżynierii promptów umierają. Anthropic oficjalnie odrzuca dawne złote zasady: dawanie przykładów ogranicza modele,…

Dowiedz się więcej

AMD Helios kontra Nvidia Vera Rubin – nowa era AI

2026-07-26

AMD rzuca wyzwanie Nvidii, ogłaszając platformę Helios, która ma trafić do produkcji jeszcze w tym…

Dowiedz się więcej

Claude Opus 5 – inteligencja Fable za pół ceny

2026-07-26

Nowy model Anthropic, Claude Opus 5, oferuje niemal pełną inteligencję flagowego Fable 5, ale za…

Dowiedz się więcej

Boty AI przejęły internet. Co to oznacza dla firm?

2026-07-26

Boty AI generują już 57,5% ruchu w sieci – Cloudflare potwierdziło, że przekroczyły próg większości…

Dowiedz się więcej

Flux 3 od Black Forest Labs: wideo z dźwiękiem i krok ku inteligencji wizualnej

2026-07-25

Black Forest Labs wypuściło Flux 3 – model generujący wideo z natywnym dźwiękiem. W testach…

Dowiedz się więcej

AgentForger – nowe zagrożenie dla agentów AI

2026-07-25

Jeden spreparowany link do ChatGPT wystarczy, by uruchomić autonomicznego agenta AI. AgentForger, nowa kategoria ataku…

Dowiedz się więcej

OpenAI celuje w prawników. Czy przejmie legal tech?

2026-07-25

OpenAI, które dotąd wspierało startupy legal tech (jak Harvey), samo wkracza na rynek prawniczy. Zatrudnienie…

Dowiedz się więcej

OpenAI łączy GPT-Live z Codex – programowanie bez użycia rąk

2026-07-25

OpenAI połączyło model audio GPT-Live z systemem Codex na desktop – programiści mogą teraz uruchamiać…

Dowiedz się więcej

Agent AI Hermes samodzielnie atakuje ministerstwo – przełom w cyberwojnie

2026-07-25

Podczas trzydniowej operacji tajski resort finansów padł ofiarą ataku z udziałem autonomicznego agenta AI. Hermes…

Dowiedz się więcej

AI znajduje kontrprzykład dla hipotezy Jacobiego – przełom w matematyce

2026-07-24

Matematyk Levent Alpöge poprosił Claude Fable 5, by znalazł funkcję łamiącą hipotezę Jacobiego – i…

Dowiedz się więcej

1,5 mld dol. ugody za piractwo – przełom w sprawach AI

2026-07-24

Anthropic musi zapłacić autorom książek 1,5 miliarda dolarów – to największa ugoda o prawa autorskie…

Dowiedz się więcej

AMD inwestuje 5 mld $ w Anthropic – gigawatowe klastry GPU dla Claude

2026-07-24

AMD przeznacza do 5 miliardów dolarów na współpracę z Anthropic. W zamian badacze Claude’a mają…

Dowiedz się więcej

Źródło

Dlaczego modele językowe nie wystarczą

Hallucynacje i brak zakotwiczenia w rzeczywistości

Brak możliwości planowania i działania

Czym właściwie jest JEPA i jak działa

Sześć modułów budujących inteligencję

Filozoficzna zmiana: od języka do świata fizycznego

Wyzwania i możliwe konsekwencje dla branży AI

Może Cię zainteresować