Przez lata rozwój sztucznej inteligencji był nierozerwalnie związany z procesorami graficznymi (GPU) firmy Nvidia. To one napędzały trenowanie ogromnych modeli językowych. Jednak gigantyczna transakcja Nvidii, warta 20 miliardów dolarów, na przejęcie firmy Groq pokazuje, że branża stoi u progu fundamentalnej zmiany. Głównym celem nie jest już samo tworzenie modeli AI, lecz ich efektywne uruchamianie w świecie rzeczywistym – proces zwany inferencją.
Dlaczego inferencja zmienia reguły gry
Inferencja to moment, gdy wytrenowany już model AI wykonuje swoją pracę: odpowiada na pytanie, generuje tekst, analizuje obraz. To właśnie ta faza bezpośrednio dotyka użytkowników końcowych i decyduje o komercyjnym sukcesie produktów opartych na sztucznej inteligencji. Analitycy z RBC Capital wskazują, że rynek związany z inferencją może wkrótce znacząco przewyższyć ten związany z trenowaniem modeli.
Różne potrzeby: budowanie mózgu a jego używanie
Trenowanie modelu przypomina budowanie skomplikowanego mózgu. Wymaga ogromnej, elastycznej mocy obliczeniowej, którą doskonale zapewniają uniwersalne GPU. Inferencja jest natomiast jak wykorzystywanie tego mózgu w dynamicznej, rzeczywistej sytuacji. Kluczowe stają się wtedy zupełnie inne parametry: minimalne opóźnienie (latencja), przewidywalny czas odpowiedzi, oszczędność energii i niski koszt pojedynczej operacji. Elastyczność GPU, ich zaleta w fazie trenowania, staje się w inferencji obciążeniem, wprowadzając opóźnienia i niepotrzebne zużycie zasobów.
Groq i architektura LPU: precyzyjna linia montażowa dla AI
Firma Groq, założona przez byłych inżynierów Google, od początku skupiła się wyłącznie na układach scalonych dedykowanych inferencji. Jej flagowy produkt, Language Processing Unit (LPU), działa na innej zasadzie niż GPU. Można go porównać do precyzyjnej linii montażowej, gdzie każda operacja jest zaplanowana z góry i wykonywana w stałej, optymalnej kolejności. Ta pozorna sztywność, która byłaby wadą przy trenowaniu, jest ogromną zaletą przy inferencji, gwarantując niespotykaną szybkość i powtarzalność.
Potwierdzenie ze strony wizjonerów branży
Tony Fadell, twórca iPoda i inwestor w Groq, określił tę transakcję jako przesunięcie płyt tektonicznych w przemyśle półprzewodnikowym. Stwierdził, że GPU zdecydowanie wygrały pierwszą falę związaną z trenowaniem, ale prawdziwa gra o wolumen rozegra się na polu inferencji, do której GPU z założenia nie są zoptymalizowane. Fadell nazywa nową generację chipów terminem „IPU” (Inference Processing Unit).
„Płyty tektoniczne przemysłu półprzewodnikowego znów się przesunęły” – napisał Tony Fadell. „GPU zdecydowanie wygrały pierwszą falę centrów danych AI: trenowanie. Ale inferencja zawsze miała być grą o prawdziwy wolumen, a GPU z założenia nie są do niej zoptymalizowane”.
Hibrydowa przyszłość centrów danych AI
Decyzja Nvidii nie oznacza porzucenia GPU. Przeciwnie, sygnalizuje nadejście ery hybrydowych centrów danych. W takiej architekturze różne typy układów scalonych będą współpracować, każdy optymalizowany pod konkretny rodzaj zadania. Procesory graficzne nadal będą niezbędne do trenowania modeli i elastycznych zadań, podczas gdy wyspecjalizowane chipy, jak LPU od Groq, przejmą obsługę wymagającej, szybkiej inferencji w czasie rzeczywistym.
Strategia Nvidii: kontrola ekosystemu, a nie tylko hardware’u
Kluczową przewagą Nvidii w tym nowym krajobrazie może nie być sam hardware, lecz kontrola nad oprogramowaniem, sieciami i całym ekosystemem deweloperskim, który pozwala różnym komponentom sprawnie ze sobą współdziałać. Firma rozwija technologie, takie jak NVLink Fusion, umożliwiające bezpośrednie łączenie zewnętrznych, specjalistycznych chipów z jej GPU. Dzięki przejęciu Groq, Nvidia oferuje klientom kompleksowe rozwiązanie – zarówno „łopaty” do kopania (trenowanie na GPU), jak i „linie montażowe” (inferencja na LPU).
„GPU są fenomenalnymi akceleratorami. Zaprowadziły nas daleko w rozwoju AI. Po prostu nie są odpowiednimi maszynami do szybkiej inferencji. Istnieją inne architektury, które się do tego nadają. A Nvidia właśnie wydała 20 mld dolarów, żeby to potwierdzić” – skomentował Andrew Feldman, CEO firmy Cerebras.
Reakcja konkurencji i dojrzałość rynku
Analitycy TD Cowen wskazują, że decyzja Nvidii o zaakceptowaniu nie tylko specjalistycznego chipa, ale całkowicie nowej architektury, pokazuje, jak duży i dojrzały stał się rynek inferencji. Dawna maksyma, że „dzisiejsze chipy do trenowania są jutrzejszymi silnikami inferencji”, traci aktualność. Chris Lattner, który współtworzył oprogramowanie dla chipów TPU Google, podkreśla, że na tę zmianę składają się dwie tendencje: AI nie jest pojedynczym obciążeniem, a specjalizacja sprzętu prowadzi do ogromnych zysków w efektywności.
Przejęcie Groq można zatem odczytać jako strategiczny, wręcz „pokorny” ruch – jak określił to Fadell – ze strony prezesa Nvidii, Jensena Huanga. Zamiast pozwolić, by wyspecjalizowani gracze stopniowo podgryzali jego dominację, Huang postanowił włączyć fundamentalnie inną technologię do własnego portfolio, zabezpieczając pozycję firmy na nadchodzącą, hybrydową erę obliczeń AI.




