Google wzbogaciło swoje Gemini API o możliwość multimodalnego wyszukiwania (multimodal retrieval). To oznacza, że zapytania mogą dotyczyć zarówno treści tekstowych, jak i graficznych w ramach jednej, wspólnej przestrzeni wektorowej. Dla firm i twórców aplikacji AI to istotna zmiana – zamiast oddzielnie przeszukiwać bazy tekstów i obrazów, mogą teraz łączyć te źródła w jednym, spójnym zapytaniu. Nowa funkcjonalność wspiera zaawansowane przypadki użycia, takie jak analiza plików PDF z wykresami, skanowanych stron czy dokumentów technicznych z adnotacjami.
Czym jest multimodalne wyszukiwanie w Gemini API?
Multimodalne wyszukiwanie (multimodal retrieval) to możliwość zadawania pytań dotyczących danych zarówno tekstowych, jak i wizualnych w jednym zapytaniu. Gemini API tworzy dla obu typów treści wspólną przestrzeń wektorową (shared vector space). Gdy użytkownik wysyła zapytanie, system wyszukuje najbardziej odpowiednie fragmenty tekstu i obrazy jednocześnie, zwracając wyniki z kontekstem – niezależnie od formatu źródła.
Jak to działa w praktyce?
Wyobraźmy sobie analizę instrukcji obsługi urządzenia przemysłowego. Dokument zawiera opisy krok po kroku oraz towarzyszące im schematy. Dzięki multimodalnemu RAG (retrieval-augmented generation) możesz zapytać o konkretną procedurę i otrzymać odpowiedź opartą zarówno na tekście instrukcji, jak i na odpowiednim diagramie – wszystko w ramach jednego zapytania. To znacznie usprawnia pracę, szczególnie w branżach, gdzie dokumentacja łączy słowo pisane z elementami graficznymi, np. w inżynierii, służbie zdrowia czy prawie.
Precyzja dzięki filtrowaniu metadanymi i cytatom stron
Nowa wersja API wprowadza dwa kluczowe udogodnienia: filtrowanie oparte o metadane oraz cytaty na poziomie strony (page-level citations). Pierwsze pozwala programistom dołączać do dokumentów pary klucz-wartość, np. „dział: finanse” lub „region: Europa”. Dzięki temu zapytania można zawęzić do konkretnych kategorii, co w przypadku dużych repozytoriów firmowych skutecznie redukuje szum informacyjny. Przykład: zamiast przeszukiwać całą bazę w poszukiwaniu specyfikacji technicznych, wystarczy filtr „dział: inżynieria”, a system zwróci tylko istotne wyniki.
Cytaty stron – większa wiarygodność odpowiedzi
Drugie udogodnienie to cytaty na poziomie strony. Gdy API zwraca wynik, wskazuje nie tylko treść, ale również konkretną stronę źródłowego dokumentu. To kluczowe dla zastosowań wymagających weryfikacji, np. w kancelariach prawnych analizujących umowy czy badaczach przeglądających publikacje naukowe. Zamiast tracić czas na ręczne szukanie cytatu, użytkownik od razu wie, z której strony pochodzi informacja. Jak podają specjaliści od prompt engineeringu, funkcja ta znacząco podnosi precyzję i wiarygodność odpowiedzi generowanych przez model.
Jak działa pipeline przetwarzania multimodalnego?
Gemini API korzysta z ustrukturyzowanego potoku (pipeline), który krok po kroku przekształca złożone dokumenty w odpowiedzi gotowe do wykorzystania. Oto jego główne etapy:
- Ingest (wczytywanie): Przesyłasz dokumenty – pliki PDF, obrazy, skany – do API.
- Chunking (dzielenie): Tekst jest rozbijany na fragmenty w oparciu o tokeny, a obrazy na mniejsze kafelki (tiles).
- Embedding (osadzanie): Zarówno tekst, jak i obrazy są przekształcane w wektory za pomocą osadzeń Gemini i umieszczane w wspólnej przestrzeni wektorowej.
- Storing (przechowywanie): Wektory trafiają do dedykowanego magazynu (file search store) wraz z przypisanymi metadanymi.
- Querying (wyszukiwanie): Gdy zadajesz pytanie, API znajduje najlepiej dopasowane fragmenty, stosując filtrowanie metadanymi i zwracając wyniki wzbogacone o cytaty stron.
Dzięki takiemu podejściu system radzi sobie nawet z bardzo złożonymi dokumentami, które łączą w sobie tekst, diagramy i tabele. Cały proces jest zautomatyzowany i skalowalny – nie wymaga ręcznego przygotowywania danych.
Zastosowania w praktyce i modele cenowe
Nowa funkcjonalność znajduje zastosowanie w wielu branżach. Oto najważniejsze obszary, w których multimodalny RAG może przynieść wymierne korzyści:
- Zarządzanie dokumentami firmowymi: Automatyczne wyszukiwanie w roszczeniach ubezpieczeniowych, specyfikacjach inżynieryjnych czy raportach medycznych.
- Analiza treści wizualnych: Wyszukiwanie konkretnych wykresów, schematów lub obrazów z adnotacjami.
- Filtrowanie z metadanymi: Selektywne przeszukiwanie zbiorów według działu, regionu czy daty.
- Synteza informacji: Łączenie wniosków z wielu źródeł (tekst + obrazy) w jedną spójną odpowiedź.
Przykładowo w służbie zdrowia można w jednym zapytaniu pobrać zarówno tekstową historię pacjenta, jak i towarzyszące jej obrazy diagnostyczne, co przyspiesza decyzje kliniczne. W inżynierii wystarczy zapytać o konkretny fragment instrukcji wraz z odpowiednim schematem – odpowiedź będzie zawierać obie części.
Elastyczny cennik – od małych zespołów po korporacje
Nowa wersja API jest dostępna w elastycznym modelu cenowym. Pliki nie mogą przekraczać 100 MB każdy, co zapewnia efektywne przetwarzanie. Dla początkujących użytkowników przygotowano darmowy tier (free tier) z 1 GB przestrzeni dyskowej. Co istotne, przechowywanie wektorów i generowanie osadzeń na żądanie (query-time embeddings) są bezpłatne. Opłaty naliczane są dopiero za wczytywanie dokumentów (ingestion) oraz zużycie tokenów podczas generowania odpowiedzi. Takie podejście sprawia, że API jest dostępne zarówno dla startupów testujących możliwości, jak i dużych firm zarządzających petabajtami danych.
Jeśli już korzystasz z poprzedniej wersji Gemini file search API, migracja do nowej wersji przebiega płynnie – nowe funkcje wpisują się w istniejące workflowy, nie wymagając gruntownych zmian w infrastrukturze.
Podsumowując: wprowadzenie multimodalnego RAG w Gemini API to krok w stronę bardziej naturalnej i wydajnej pracy z dokumentami. Łączenie tekstu i obrazów w jednej przestrzeni wektorowej, precyzyjne filtrowanie metadanymi oraz cytaty na poziomie strony czynią z tego narzędzia solidną podstawę dla nowoczesnych systemów zarządzania wiedzą. Dla firm z branży prawnej, medycznej, inżynieryjnej i wielu innych – to realna szansa na automatyzację procesów analizy dokumentów bez utraty kontroli nad jakością wyników.

