Google wbudowuje sterowanie komputerem w Gemini 3.5 Flash

Google postanowiło pójść o krok dalej w automatyzacji pracy z komputerem. Nowa wersja modelu Gemini 3.5 Flash zyskała wbudowaną funkcję Computer Use – możliwość samodzielnego widzenia, analizowania i obsługi ekranu. Dotychczas podobne zdolności oferował dopiero osobny model Gemini 2.5, teraz są one integralną częścią podstawowego wariantu Flash. Dla programistów i firm oznacza to prostszą drogę do budowania agentów AI, którzy nie tylko czytają kod, ale też fizycznie klikają, nawigują i testują aplikacje w różnych środowiskach.

Jak działa Computer Use w Gemini 3.5 Flash

Funkcja Computer Use pozwala modelowi na interakcję z interfejsem graficznym komputera – zarówno w przeglądarce, jak i na pulpicie czy urządzeniach mobilnych. Gemini 3.5 Flash widzi cały ekran, rozumie jego zawartość i może wykonywać czynności, które do tej pory wymagały ręcznej obsługi. Połączenie tej zdolności z istniejącymi narzędziami Google – takimi jak wywołania funkcji (function calls), wyszukiwarka czy Mapy – umożliwia tworzenie agentów działających w wielu środowiskach jednocześnie.

Przykładowe zastosowania to automatyzacja testów oprogramowania (np. przechodzenie przez formularze czy sprawdzanie działania przycisków) oraz usprawnianie procesów biurowych – od wypełniania dokumentów po obsługę systemów CRM. Dzięki bezpośredniej integracji z Gemini API i platformą Gemini Enterprise Agent deweloperzy mogą wdrażać takie rozwiązania bez potrzeby korzystania z oddzielnych narzędzi do sterowania ekranem.

Wyniki na tle konkurencji – benchmark OSWorld

Google opublikowało wyniki Gemini 3.5 Flash w teście OSWorld, który mierzy zdolność modeli do samodzielnego wykonywania zadań na ekranie komputera. Nowy model uzyskał 78,4 punktu, wyprzedzając wyraźnie poprzednika – Gemini 3 Flash (65,1) – oraz konkurencyjny GPT-5.4 mini (72,1).

Liderem rankingu pozostaje Anthropic Opus 4.8 z wynikiem 83,4, a tuż za nim plasuje się GPT-5.5 (78,7). Na równi z Gemini 3.5 Flash znalazł się Sonnet 4.6 (również 78,4), natomiast Gemini 3.1 Pro zdobył 76,2 punktu. Oznacza to, że najnowszy model Google zajmuje solidne, trzecie miejsce w zestawieniu – tuż za najsilniejszymi graczami na rynku.

Co ważne, różnica między Gemini 3.5 Flash a liderem wynosi zaledwie 5 punktów, co w kontekście kosztów i szybkości modelu Flash może być dla wielu firm atrakcyjną alternatywą.

Zabezpieczenia przed atakami i opcje wdrożeniowe

Sterowanie komputerem przez AI rodzi oczywiste ryzyka – szczególnie ataki typu prompt injection, gdzie złośliwa treść na ekranie może nakłonić model do niepożądanych działań. Google zastosowało kilka warstw ochrony. Podstawą jest trening kontradyktoryjny (adversarial training), który uczy model rozpoznawania prób manipulacji. Dla klientów korporacyjnych dostępne są dwie opcjonalne osłony:

Wymóg potwierdzenia przez użytkownika przed wykonaniem wrażliwych lub nieodwracalnych akcji (np. usunięcie pliku, wysłanie e-maila).
Automatyczne zatrzymanie zadania w momencie wykrycia pośrednich ataków prompt injection (indirect prompt injections).

Google rekomenduje też stosowanie piaskownicy (sandboxingu), stały nadzór człowieka oraz ścisłe kontrole dostępu. Szczegółowe wytyczne znajdują się w oficjalnej dokumentacji best practices.

Dostępność i pierwsze kroki

Funkcja Computer Use jest już dostępna za pośrednictwem Gemini API oraz platformy Gemini Enterprise Agent. Google udostępniło również demo w serwisie Browserbase oraz referencyjną implementację na GitHubie, która pozwala deweloperom szybko przetestować możliwości nowego modelu w praktyce.

Dla firm rozważających automatyzację procesów biurowych czy testów oprogramowania Gemini 3.5 Flash z Computer Use stanowi interesującą opcję – łączy przyzwoitą skuteczność z niskim progiem wejścia. W nadchodzących miesiącach możemy spodziewać się podobnych integracji u konkurencji, co przyspieszy rozwój autonomicznych agentów programistycznych.