Nvidia Rubin: nowy gigant AI z 336 mld tranzystorów

Rynek hardware’u dla sztucznej inteligencji nie zwalnia tempa. Podczas targów CES Nvidia zaprezentowała następcę architektury Blackwell – nowy, flagowy procesor graficzny o nazwie kodowej Rubin. Układ ma zapewniać pięciokrotny wzrost wydajności w zadaniach wnioskowania AI, potwierdzając strategię firmy polegającą na corocznym wprowadzaniu przełomowych generacji akceleratorów. Premiera Rubina to odpowiedź na galopujące zapotrzebowanie na moc obliczeniową, napędzane przez coraz większe i bardziej złożone modele neuronowe.

Rubin: nowy król wydajności AI

Sercem nowej platformy jest procesor graficzny Rubin, który pod względem parametrów technicznych stanowi ogromny skok naprzód. Układ integruje aż 336 miliardów tranzystorów, co przekłada się na imponującą moc obliczeniową wynoszącą 50 petaflopsów przy przetwarzaniu danych w formacie NVFP4. Dla porównania, poprzednia architektura Blackwell osiągała do 10 petaflopsów. W zadaniach trenowania modeli Rubin jest o 250% szybszy, oferując 35 petaflopsów mocy.

Silnik transformatorów z adaptacyjną kompresją

Część tej wydajności zawdzięcza się ulepszonemu modułowi znanemu jako Transformer Engine, który pojawił się już w Blackwellow. W nowej odsłonie zyskał on funkcję sprzętowo przyśpieszonej, adaptacyjnej kompresji. Mechanizm ten dynamicznie zmniejsza objętość przetwarzanych danych, redukując liczbę bitów wymaganych do obliczeń. Dzięki temu modele AI mogą działać szybciej, ponieważ muszą przetwarzać mniej informacji bez utraty ich istotności.

„Rubin pojawia się w idealnym momencie, ponieważ zapotrzebowanie na moc obliczeniową AI do trenowania i wnioskowania przebija wszelkie szacunki” – stwierdził Jensen Huang, prezes Nvidii. „Dzięki naszemu rocznemu cyklowi dostarczania nowej generacji superkomputerów AI, Rubin robi ogromny krok w kierunku następnej granicy rozwoju sztucznej inteligencji”.

Architektura systemowa: od chipu do racku

Nvidia nie ogranicza się do sprzedaży pojedynczych procesorów, lecz oferuje kompleksowe, rackowe systemy AI. Flagowym rozwiązaniem będzie Vera Rubin NVL72 – appliance łączący 72 układy Rubin z 36 nowymi procesorami centralnymi Vera. Cała konfiguracja zawiera łącznie 220 bilionów tranzystorów. Aby zarządzać tak potężnym i złożonym sprzętem, firma wprowadza szereg usprawnień na poziomie systemowym.

Przewaga w projektowaniu i niezawodność

Projektanci zadbali o łatwość serwisowania. Moduły, w których umieszczone są chipy, mają bezprzewodową konstrukcję, co według Nvidii skraca czas montażu i napraw nawet osiemnastokrotnie w porównaniu z rozwiązaniami opartymi na Blackwellow. Nad poprawną pracą całego systemu czuwa ulepszony podsystem RAS Engine, który automatycznie monitoruje stan zdrowia komponentów w czasie rzeczywistym i zapewnia mechanizmy tolerancji na awarie.

Sieć szybsza niż globalny internet

Kluczem do wydajności rozproszonych modeli AI jest szybkość komunikacji między chipami. System Vera Rubin NVL72 oferuje przepustowość na poziomie 260 terabitów na sekundę – wartość większa niż szacunkowe zagregowane pasmo całego internetu. Komunikację tę obsługuje trio nowych chipów sieciowych: NVLink 6 Switch (do łączenia GPU w obrębie racka), Spectrum-6 (przełącznik Ethernet do łączenia racków) oraz ConnectX-9 (tzw. SuperNIC, odciążający serwery od zadań sieciowych).

Specjalizowane akceleratory dla optymalizacji AI

Oprócz głównych procesorów, Nvidia rozszerza portfolio o wyspecjalizowane układy, które mają odciążyć system i przyspieszyć konkretne operacje. BlueField-4 to DPU (Data Processing Unit), który przejmuje zadania związane z cyberbezpieczeństwem, zarządzaniem pamięcią masową i siecią. Układ ten napędza nową platformę pamięci masowej o nazwie Inference Context Memory Storage Platform.

Rewolucja w pamięci podręcznej LLM

Platforma ta ma na celu optymalizację tzw. pamięci podręcznej klucz-wartość (key-value cache) w dużych modelach językowych. Mechanizm uwagi (attention) w LLM często powtarza te same obliczenia. Pamięć podręczna pozwala zapisać wynik takiego obliczenia raz, a następnie wielokrotnie go wykorzystywać, zamiast za każdym razem liczyć od nowa. Dedykowany system pamięci masowej ma radykalnie przyspieszyć ten proces i zwiększyć efektywność sprzętową.

Ekosystem i dostępność

Oferta Nvidii obejmuje także mniejszy system DGX Rubin NVL8 z ośmioma procesorami Rubin. Obie platformy stanowią podstawę nowej architektury referencyjnej DGX SuperPOD, służącej do budowy klastrów AI. Uzupełnia ją platforma programowa Mission Control do zarządzania całą infrastrukturą. Firma zapowiada, że pierwsze systemy zasilane architekturą Rubin rozpoczną dostawy w drugiej połowie 2026 roku.

Premiera Rubina potwierdza nieubłagane tempo innowacji w segmencie hardware’u dla AI. Nvidia, poprzez ścisłe sprzężenie projektowania chipów, systemów i oprogramowania, stara się utrzymać dominującą pozycję, oferując nie pojedyncze komponenty, a kompletne, zoptymalizowane „fabryki AI”. Dla developerów i firm wdrażających zaawansowane modele oznacza to ciągły wyścig z czasem – najnowsza architektura szybko staje się standardem, który wyznacza nowe, wcześniej nieosiągalne możliwości.

Źródło