Gemini-SQL2: Google bije konkurencję w zamianie języka na SQL

Google Research właśnie pochwaliło się nowym osiągnięciem w dziedzinie zamiany języka naturalnego na SQL. System nazwany Gemini-SQL2, zbudowany na modelu Gemini 3.1 Pro, przetwarza ludzkie pytania na działające zapytania do baz danych. Wynik? Aż 80,04% skuteczności w najtrudniejszym teście – benchmarku BIRD. To znacząco więcej, niż oferują obecni liderzy rynku.

Rekord na tle konkurencji – kto jest daleko w tyle?

Gemini-SQL2 plasuje się na szczycie rankingu BIRD, który mierzy, jak dokładnie systemy radzą sobie z generowaniem poprawnych zapytań SQL z opisów w języku naturalnym. Google informuje, że ich rozwiązanie osiąga 80,04% dokładności wykonania (execution accuracy). To wyraźnie wyprzedza dotychczasowych liderów:

GPT-5.5-xhigh od OpenAI – około 72,8%
Claude Opus 4.6 od Anthropic – około 70,9%
Modele od Databricks, AWS, Tencent i Alibaba – wszystkie notują jeszcze niższe wyniki

Różnica między pierwszym a drugim miejscem wynosi blisko 8 punktów procentowych. To spora przepaść, która pokazuje, że Google ma obecnie najbardziej zaawansowane narzędzie do analizy danych w języku codziennym.

Dlaczego zamiana języka na SQL wciąż jest trudna?

Badacze z Google Research podkreślają, że przełożenie potocznego opisu na precyzyjne zapytanie SQL to jedno z najtrudniejszych zadań dla sztucznej inteligencji. Problem leży w złożoności danych – często są one wielowarstwowe, a zapytania muszą uwzględniać skomplikowaną logikę biznesową. Nie wystarczy, że wygenerowany kod SQL wygląda poprawnie; musi również wykonać się bez błędów i zwrócić oczekiwane wyniki.

Gemini-SQL2 radzi sobie właśnie z tym wyzwaniem – łączy zrozumienie kontekstu z precyzją wykonania. To krok w stronę narzędzi, które pozwolą osobom nietechnicznym swobodnie zadawać pytania o dane, bez znajomości składni SQL.

Co dalej z Gemini-SQL2? Brak publicznego dostępu i dokumentacji

Na razie Google nie ogłosiło planów publicznego udostępnienia tego systemu. Zespół badawczy nie opublikował też żadnego artykułu naukowego ani szczegółowej dokumentacji technicznej. To oznacza, że rekordowy wynik może pozostać jedynie laboratoryjnym osiągnięciem – przynajmniej na razie.

Mimo to samo istnienie tak dokładnego modelu sugeruje, że Google zamierza rozbudowywać funkcje języka naturalnego w swoich usługach danych. Jeśli technologia trafi do BigQuery, Looker czy innych produktów Google Cloud, zmieni to sposób, w jaki analitycy i menedżerowie pracują z danymi.

Perspektywy – czy to początek nowej ery w analizie danych?

Wynik 80% na benchmarku BIRD to nie tylko techniczny rekord. To sygnał, że granica między językiem naturalnym a zapytaniami do baz danych staje się coraz cieńsza. Jeśli podobne modele staną się powszechnie dostępne, wkrótce każdy pracownik biurowy będzie mógł pytać system: „pokaż mi sprzedaż z ostatniego kwartału dla regionu północnego” i otrzymać natychmiastową, poprawną odpowiedź.

Na razie jednak musimy poczekać, aż Google zdecyduje się na szersze udostępnienie swojego rozwiązania. Konkurencja – OpenAI i Anthropic – nie pozostanie bierna, więc wyścig o najlepszy text-to-SQL dopiero się rozkręca.