Count Anything – nowy model AI potrafi liczyć obiekty na zdjęciach

Wielkie modele językowe potrafią opisywać zdjęcia, odczytywać wykresy czy wyciągać tekst z fotografii. Wielomodalność stała się standardem w dzisiejszych systemach AI. Jednak jedno – z pozoru proste – zadanie wciąż sprawia im trudność: wiarygodne liczenie obiektów na obrazie. Błędy w tym zakresie mają realne skutki – lekarz musi policzyć komórki na skanie, rolnik ocenić plony, a urbanista przeanalizować natężenie ruchu. Do tej pory każde z tych zastosowań wymagało osobnego, wyspecjalizowanego narzędzia. Zespół badaczy z Uniwersytingu Tsinghua oraz innych instytucji postanowił to zmienić, tworząc model o nazwie Count Anything.

Jak działa połączenie dwóch liczników

Kluczowym pomysłem Count Anything jest synergia dwóch komplementarnych metod liczenia. Jedna z nich specjalizuje się w dużych, wyraźnie widocznych obiektach i rysuje wokół nich ramki (bounding boxes). Druga radzi sobie z małymi, gęsto upakowanymi elementami – oznacza każdy wykryty obiekt pojedynczą kropką. System pobiera od użytkownika opis tekstowy (np. „policz samochody na parkingu”), a następnie aktywuje obie ścieżki jednocześnie.

Ostateczny wynik powstaje przez scalenie przewidywań obu liczników w jeden zbiór punktów. Prosta reguła zapobiega podwójnemu liczeniu tego samego obiektu: jeśli oba liczniki oznaczą ten sam cel, w zestawieniu końcowym zostaje tylko to oznaczenie, które ma wyższy poziom pewności. Całość opiera się na wstępnie wytrenowanym modelu Meta o nazwie SAM3, który potrafi przetwarzać obrazy i tekst jednocześnie. Zamiast uczyć całego systemu od nowa, badacze dodali do niego niewielkie moduły adapterowe odpowiedzialne wyłącznie za zadanie liczenia.

Dwie strategie, jeden wynik

Pierwsza metoda – regionowa – tworzy prostokątne obwiednie wokół obiektów. Sprawdza się, gdy cele są duże i dobrze odcinają się od tła, jak budynki na zdjęciu satelitarnym. Druga – pikselowa – stawia kropkę na każdym wykrytym elemencie, co działa lepiej przy mikroskopijnych komórkach czy ziarnach zbóż. Połączenie obu technik pozwala Count Anything działać skutecznie w bardzo różnych domenach wizualnych, bez konieczności przełączania się między osobnymi narzędziami.

CLOC – największy zbiór danych do liczenia obiektów

Aby nauczyć model tak szerokiego zakresu, autorzy musieli najpierw przygotować odpowiedni zestaw treningowy. Istniejące publiczne zbiory danych były przeważnie tworzone pod jeden konkretny cel – albo komórki nowotworowe, albo zdjęcia satelitarne. Naukowcy scalili je, wyczyścili niespójne etykiety i opublikowali rezultat pod nazwą CLOC (mówią, że to największy istniejący zbiór do zadań liczenia sterowanego tekstem).

CLOC zawiera około 220 tysięcy zdjęć, 619 kategorii i 15 milionów oznaczonych obiektów w sześciu domenach: codzienne fotografie, zdjęcia satelitarne i dronowe, próbki tkanek medycznych, obrazy mikroskopowe, zdjęcia rolnicze (np. kłosy pszenicy) oraz zdjęcia kultur bakteryjnych. W miarę zwiększania ilości danych treningowych z CLOC, błędy modelu spadały znacząco – dowód na to, jak ważne są duże, zróżnicowane zbiory dla uczenia ogólnych umiejętności wizyjnych.

Jak Count Anything wypada na tle konkurencji

W testach porównawczych przeprowadzonych przez zespół, Count Anything wyraźnie wyprzedza takie systemy jak CountGD, CLIP-Count czy Grounding DINO. Średnio model myli się o około dziewięć obiektów na zapytaną kategorię w obrazie. Najlepszy z konkurencyjnych modeli popełnia ponad dwa razy więcej błędów. W przypadku zadań czystego zliczania tłumów Count Anything pozostaje konkurencyjny, ale nie dorównuje najlepszym wyspecjalizowanym rozwiązaniom.

Badacze wskazują też na ograniczenia. Gdy zapytanie jest niejednoznaczne lub dotyczy bardzo wąskiej dziedziny (specjalistycznej terminologii), model może przeoczyć obiekty lub źle je sklasyfikować. W scenach ekstremalnie gęstych, z dużym zasłanianiem się obiektów, trudno odróżnić, czy dwie prognozy odnoszą się do tego samego celu, czy do dwóch różnych. Kod Count Anything jest dostępny w repozytorium GitHub.

Szerszy kontekst – jak AI radzi sobie z widzeniem

Count Anything to nie jedyny przykład, który ujawnia, jak wiele podstawowych zadań wizyjnych wciąż stanowi wyzwanie dla sztucznej inteligencji. Niedawny benchmark BabyVision pokazał, że w testach z udziałem 80 dzieci większość czołowych modeli osiągnęła wyniki poniżej przeciętnego trzylatka. Nawet topowe modele, jak Gemini 3 Pro, ledwo przekroczyły 50% poprawności, podczas gdy dorośli zdobyli ponad 94%. Różnica była szczególnie widoczna przy liczeniu zasłoniętych trójwymiarowych klocków – najlepszy model osiągnął zaledwie 20,5%, a ludzie nie popełnili ani jednego błędu.

Count Anything stanowi ważny krok w kierunku uniwersalnych systemów widzenia komputerowego. Łącząc dwie metody liczenia i trenując na ogromnym, zróżnicowanym zbiorze danych, badacze pokazują, że jeden model może obsłużyć wiele zastosowań – od medycyny po rolnictwo. Pytanie otwarte brzmi: jak daleko możemy przesunąć tę granicę i czy wkrótce zobaczymy AI, które w podstawowych zadaniach wizyjnych dorówna ludzkiemu postrzeganiu?