Sarvam AI stawia na mniejsze, otwarte modele dla języków lokalnych

Na globalnej arenie sztucznej inteligencji dominują wielkie korporacje ze Stanów Zjednoczonych i Chin. Indyjskie laboratorium Sarvam AI postanowiło pójść inną drogą, stawiając na mniejsze, wydajne i otwarte modele, dostosowane do specyficznych potrzeb lokalnych. Podczas India AI Impact Summit w New Delhi startup zaprezentował nową generację dużych modeli językowych (LLM), które mają konkurować nie tyle rozmiarem, co praktycznym zastosowaniem w realnym świecie, szczególnie w obsłudze języków Indii.

Nowa generacja modeli: od tekstu do mowy i wizji

Sarvam znacząco poszerzył swoją ofertę w porównaniu do poprzedniego, znacznie mniejszego modelu. Obecny pakiet obejmuje nie tylko zaawansowane modele językowe, ale także komponenty multimodalne, które przybliżają AI do naturalnej interakcji z człowiekiem.

Wydajne architektury typu mixture-of-experts

Sercem nowej oferty są dwa modele językowe: jeden o 30 miliardach parametrów i drugi, większy, o 105 miliardach. Kluczową ich cechą jest zastosowanie architektury „mieszanki ekspertów” (mixture-of-experts). Dzięki niej, podczas każdego zapytania aktywowana jest tylko wybrana część całej sieci neuronowej. To rozwiązanie radykalnie obniża koszty obliczeniowe i zużycie energii, czyniąc modele bardziej ekonomicznymi w działaniu, co jest kluczowe dla szerokiego wdrożenia.

Specjalizacja pod konkretne zadania

Modele różnią się nie tylko rozmiarem, ale i przeznaczeniem. Mniejszy, 30-miliardowy model został wyposażony w okno kontekstu wynoszące 32 tysiące tokenów, co optymalizuje go pod kątem aplikacji wymagających płynnej, niemal natychmiastowej konwersacji, jak asystenci głosowi. Większy model oferuje imponujące okno 128 tysięcy tokenów, przeznaczone do zadań wymagających złożonego, wieloetapowego rozumowania i analizy długich dokumentów.

Kompletny zestaw narzędzi multimodalnych

Oprócz modeli tekstowych, Sarvam zaprezentował także dedykowany model zamiany tekstu na mowę (text-to-speech) oraz model rozpoznawania mowy (speech-to-text). Uzupełnieniem jest model wizyjny, zdolny do analizy i interpretacji treści dokumentów. Ten zestaw tworzy kompletną platformę do budowy zaawansowanych, głosowych interfejsów AI w językach lokalnych.

Lokalny trening i wsparcie rządowej inicjatywy

W przeciwieństwie do wielu firm, które dostrajają istniejące, ogólne modele, Sarvam podkreśla, że jego systemy zostały wytrenowane od zera. Proces ten opierał się na ogromnych zbiorach danych, zawierających biliony tokenów tekstu w wielu językach Indii. Dzięki temu modele mają głębokie zrozumienie lokalnych kontekstów, idiomów i specyfiki językowej.

Całe przedsięwzięcie było możliwe dzięki wsparciu rządowego programu IndiaAI Mission, który zapewnił niezbędną moc obliczeniową. Infrastrukturę dostarczył operator centrów danych Yotta, a wsparcie technologiczne pochodziło od Nvidii. To przykład strategicznej współpracy publiczno-prywatnej, mającej na celu budowę narodowych kompetencji w dziedzinie sztucznej inteligencji.

„Chcemy być rozważni w tym, jak zwiększamy skalę. Nie chcemy robić tego bezmyślnie. Pragniemy zrozumieć zadania, które naprawdę mają znaczenie w praktyce, i właśnie pod nie budować nasze rozwiązania” – powiedział podczas prezentacji Pratyush Kumar, współzałożyciel Sarvam.

Strategia otwartości i przyszłe kierunki rozwoju

Sarvam zapowiedział, że zamierza udostępnić swoje flagowe modele (30B i 105B) na zasadach open-source. Choć szczegóły dotyczące publikacji danych treningowych i pełnego kodu nie są jeszcze znane, sama deklaracja otwarcia modeli wzmacnia trend demokratyzacji dostępu do zaawansowanej AI. Pozwala to lokalnym deweloperom i firmom na swobodne budowanie i adaptowanie rozwiązań dla swoich potrzeb.

Plany startupu sięgają jednak dalej niż same ogólne modele językowe. Firma zapowiedziała tworzenie wyspecjalizowanych systemów, w tym modeli skupionych na generowaniu kodu oraz narzędzi dla przedsiębiorstw, zgrupowanych pod nazwą Sarvam for Work. Kolejnym projektem jest Samvaad – platforma dla konwersacyjnych agentów AI. Te kroki pokazują pragmatyczne podejście: od ogólnej, otwartej bazy technologicznej do konkretnych produktów tworzących wartość biznesową.

Założone w 2023 roku Sarvam AI zebrało dotąd ponad 50 milionów dolarów finansowania od tak uznanych funduszy jak Lightspeed Venture Partners, Khosla Ventures i Peak XV Partners, co świadczy o dużym zaufaniu inwestorów do obranej przez firmę strategii.

Perspektywy dla rynku: specjalizacja kontra gigantyzm

Premiera modeli Sarvam to więcej niż tylko kolejny produkt na rynku AI. To wyraźny sygnał, że obok wyścigu o największą liczbę parametrów istnieje równoległa, być może bardziej zrównoważona ścieżka rozwoju. Polega ona na tworzeniu wydajnych, specjalizowanych i otwartych systemów, doskonale dopasowanych do konkretnych języków, kultur i przypadków użycia.

Strategia indyjskiego startupu pokazuje, że przyszłość AI może być wielobiegunowa. Zamiast jednego, uniwersalnego modelu dominującego na całym świecie, możemy obserwować rozwój ekosystemu mniejszych, lokalnie zorientowanych rozwiązań. Dla polskiego czytelnika jest to szczególnie inspirujący przykład, jak budować kompetencje i produkty w dziedzinie sztucznej inteligencji, koncentrując się na własnych potrzebach i zasobach, jednocześnie korzystając z globalnego trendu otwartości i współpracy.

Źródło