Nowy standard ACE od Intela i AMD – czy CPU dogonią GPU w AI?

Dyskusja o sprzęcie do sztucznej inteligencji przez lata zdominowana była przez karty graficzne. Procesory pełniły w niej rolę raczej drugoplanową, często ograniczającą się do najprostszych obliczeń. Intel i AMD postanowiły to zmienić, ogłaszając nowy standard x86 o nazwie Advanced Compute Extensions (ACE). Jego celem jest przywrócenie CPU do gry w kluczowych obszarach uczenia maszynowego, szczególnie tam, gdzie GPU są albo zbyt wolne, albo nieopłacalne.

Dlaczego CPU potrzebują własnych rozszerzeń AI?

Głównym problemem, który ACE ma rozwiązać, nie jest sama wydajność obliczeniowa, ale przepływ danych. Przerzucanie informacji między procesorem a kartą graficzną to nie trywialna operacja – kosztuje czas i energię. W przypadku zadań wymagających szybkiej odpowiedzi, na przykład inferencji (wnioskowania) na małych modelach działających na brzegu sieci (edge), ten narzut staje się wąskim gardłem.

Problem transferu danych

Kiedy aplikacja AI działa na CPU, a następnie przekazuje dane do GPU w celu przyspieszenia, każda taka podróż generuje opóźnienia. W systemach czasu rzeczywistego lub na urządzeniach o ograniczonej mocy – jak smartfony, kamery czy routery – te opóźnienia mogą przekreślić korzyści z zastosowania akceleratora. ACE pozwala zatrzymać obliczenia AI bezpośrednio na procesorze, eliminując potrzebę ciągłej komunikacji między chipami.

Nowe podejście do macierzy

Dotychczas CPU do operacji macierzowych, kluczowych dla sieci neuronowych, wykorzystywały rozszerzenia AVX. Zostały one jednak zaprojektowane do innych celów – głównie do przetwarzania wektorów i multimediów. ACE podchodzi do sprawy inaczej: zachowuje istniejącą strukturę rejestrów AVX10, ale dodaje dedykowany sprzęt do mnożenia macierzy. Dzięki temu programiści nie muszą uczyć się zupełnie nowych formatów danych czy modeli programowania.

Znaczenie dla małych modeli

Specyfikacja ACE nie ma ambicji zastąpienia GPU w wielkoskalowym trenowaniu dużych językowych modeli (LLM). Jej mocną stroną są właśnie modele mniejsze, wrażliwe na opóźnienia i działające w środowiskach, gdzie karta graficzna jest albo niedostępna, albo jej użycie stanowi nieuzasadniony narzut. To może mieć ogromne znaczenie dla aplikacji edge computing oraz dla pojedynczych użytkowników.

Jak ACE zmienia architekturę x86?

Technicznie ACE opiera się na jednej z najważniejszych operacji w sztucznej inteligencji – mnożeniu macierzy. Dotychczas procesory potrafiły wykonywać te rachunki, ale robiły to nieefektywnie. Nowe rozszerzenie wprowadza dedykowane obwody, które przetwarzają dane w znacznie większych blokach.

Wydajność na poziomie instrukcji

Porównując ACE z AVX10, różnica robi wrażenie: dla tego samego zestawu wektorów wejściowych nowy standard może wykonać nawet szesnastokrotnie więcej operacji. Należy jednak pamiętać, że nie przełoży się to bezpośrednio na szesnastokrotne przyspieszenie całej aplikacji – rzeczywista wydajność zależy od wielu innych czynników, takich jak dostęp do pamięci czy organizacja pętli. Niemniej pokazuje to, jak duży skok efektywności jest możliwy na poziomie pojedynczego rozkazu.

Kompatybilność wsteczna i uniwersalność

Jedną z kluczowych decyzji projektantów było zachowanie 512-bitowych wejść, co ułatwia integrację z istniejącym oprogramowaniem i sprzętem. Co więcej, specyfikacja ma być neutralna względem konkretnej implementacji – innymi słowy, każdy producent może zaimplementować ACE we własny sposób, ale programista będzie widział ten sam interfejs. To istotne dla frameworków takich jak PyTorch czy TensorFlow, które będą mogły celować w jeden, spójny zestaw instrukcji zamiast optymalizować kod pod wiele wariantów AVX.

Obsługa różnych typów danych

Modele AI operują na coraz bardziej zróżnicowanych formatach liczbowych. ACE wspiera szeroki wachlarz: od INT8 i INT32, przez FP8, FP16 i FP32, aż po BF16. Dodatkowo zawiera natywne wsparcie dla formatów blokowo-skalowanych Open Compute Project MX, których brakowało w AVX10. Dla specjalistów od inferencji oznacza to większą elastyczność – mogą dobierać format do potrzeb danego modelu, zamiast ograniczać się do wąskiej puli opcji.

Konsekwencje dla branży i developerów

Nie ma wątpliwości, że GPU pozostaną niezastąpione w szkoleniu dużych sieci neuronowych. ACE nie zmienia tego faktu. Sygnalizuje jednak, że procesory wciąż mają potencjał do ewolucji w obszarze AI, a odpowiednie zmiany architektoniczne mogą uczynić je znacznie bardziej użytecznymi niż dotychczas.

Łatwiejszy kod, mniej optymalizacji

Dla programistów największą zaletą ACE jest spójność. Zamiast pisać różne wersje kodu dla procesorów z różnym wsparciem AVX (albo omijać CPU całkowicie), będą mogli celować w jeden standard. To skraca czas rozwoju i zmniejsza ryzyko błędów, zwłaszcza w projektach, gdzie AI działa obok tradycyjnych obliczeń na tym samym chipie.

Więcej opcji w heterogenicznych systemach

Współczesne platformy coraz częściej korzystają z jednostek NPU (neuronowych), ale te są dalekie od standaryzacji. Przeniesienie obciążenia na NPU często wiąże się z dodatkowymi komplikacjami zależnymi od konkretnego producenta. ACE daje alternatywę – gdy szybkość i prostota są ważniejsze od maksymalnej efektywności, można po prostu zostawić zadanie na CPU.

Co z GPU?

Nie należy spodziewać się, że ACE sprawi, iż karty graficzne staną się zbędne. W dużych centrach danych, gdzie liczy się surowa moc, GPU nadal będą dominować. Nowy standard to raczej odpowiedź na potrzebę optymalizacji w obszarach niszowych, ale szybko rosnących – takich jak asystenci głosowi działający lokalnie, autonomiczne roboty czy inteligentne czujniki przemysłowe. To właśnie tam każda zaoszczędzona milisekunda i każdy wat mają realne znaczenie.

Ogłoszenie ACE przez Intela i AMD pokazuje, że rynek akceleratorów AI nie będzie monopolem GPU. Procesory, przy odpowiednich rozszerzeniach, mogą przejąć część zadań, szczególnie tych mniej wymagających, ale bardziej wrażliwych na opóźnienia i pobór energii. W ciągu najbliższych lat prawdopodobnie zobaczymy pierwsze chipy z natywnym wsparciem ACE, a frameworki AI zaczną automatycznie wybierać między CPU a GPU w zależności od rodzaju obciążenia. Dla branży to dobra wiadomość – więcej opcji oznacza większą elastyczność i szansę na tańsze, prostsze wdrożenia AI w codziennych urządzeniach.