Kimi K2.7 Code – otwarty model programistyczny 12 razy tańszy niż konkurencja

Chińska firma Moonshot AI właśnie udostępniła nowy model sztucznej inteligencji – Kimi K2.7 Code. To następca modelu K2.6, zaprojektowany głównie do zadań programistycznych i agentowych przepływów pracy. Największą rewolucją nie są jednak same wyniki, a cena – nawet dwunastokrotnie niższa niż w przypadku flagowych modeli zachodnich. Czy tani model może być „wystarczająco dobry” do codziennej pracy dewelopera?

K2.7 Code dostępny jest w formie otwartych wag na platformie Hugging Face. Oznacza to, że każdy programista może go pobrać, zmodyfikować i wdrożyć na własnym sprzęcie. Firma nadal rekomenduje wersję K2.6 do zadań ogólnych, niezwiązanych z kodowaniem – najnowszy model skupia się wyłącznie na programowaniu i pracy z agentami AI.

Wyniki benchmarków – postęp, ale nie dominacja

Wewnętrzny test firmy – Kimi Code Bench v2 – pokazuje skok wydajności z 50,9 do 62,0 punktów (wzrost o ponad 11 punktów). Podobną poprawę widać w innych standardowych miarach: na Program Bench wynik wzrósł z 48,3 do 53,6, a na MLS Bench Lite z 26,7 do 35,1. To solidne osiągnięcie, zwłaszcza biorąc pod uwagę, że model ma tę samą architekturę, co poprzednik.

Agentowe testy – tam, gdzie K2.7 Code błyszczy

Model osiąga jeszcze lepsze rezultaty w zadaniach agentowych. W benchmarku MCP Atlas uzyskał 76,0 punktów (wobec 69,4), a w MCPMark Verified – 81,1 (wzrost z 72,8). W tym drugim teście, który symuluje pracę w rzeczywistych środowiskach programistycznych (Notion, GitHub, system plików, bazy Postgres, automatyzacja przeglądarki Playwright), K2.7 Code faktycznie wyprzedza Claude Opus 4.8 (81,1 vs 76,4). Jednak do wyniku GPT-5.5 (92,9) wciąż sporo brakuje.

Porównanie z zachodnimi liderami – czyste kodowanie

W bezpośrednim zestawieniu z GPT-5.5 i Claude Opus 4.8 chiński model wypada słabiej w tradycyjnych zadaniach kodowych. Na przykład w Program Bench GPT-5.5 zdobywa 69,1 wobec 53,6 dla K2.7 Code. W Kimi Code Bench v2 różnica wynosi 69,0 do 62,0. Trzeba jednak pamiętać, że Program Bench to ekstremalnie trudny test – agent musi odtworzyć działanie programu na podstawie skompilowanego pliku binarnego i dokumentacji, bez dostępu do kodu źródłowego.

Jak podkreślają badacze, wyniki benchmarków nie zawsze przekładają się na rzeczywistą użyteczność. Dla konkretnych zadań deweloperskich model może być w pełni wystarczający – zwłaszcza biorąc pod uwagę różnicę w cenie.

Architektura MoE – bilion parametrów, ale tylko 32 miliardy aktywne

K2.7 Code wykorzystuje architekturę Mixture-of-Experts (MoE). Łącznie ma 1 bilion parametrów, ale przy każdym tokenie aktywowanych jest jedynie 32 miliardy. Model składa się z 384 ekspertów, z których wybieranych jest osiem na każdym kroku. Kontekst wynosi 256 tysięcy tokenów.

Model jest multimodalny – potrafi przetwarzać obrazy i wideo, a nie tylko tekst. Używa do tego własnego kodera wizyjnego o nazwie MoonViT (400 milionów parametrów). Ponieważ architektura jest identyczna z K2.5 i K2.6, konfiguracje wdrożeniowe można kopiować bez zmian.

Mniej zbędnego myślenia, więcej efektywności

Jedną z najważniejszych ulepszeń jest bardziej efektywne rozumowanie. K2.7 Code zużywa około 30% mniej tokenów myślenia niż poprzednik – oznacza to mniej „przemyśleń” niepotrzebnie zwiększających koszt. Model działa w trybie wymuszonym myślenia, a funkcja preserve_thinking zachowuje pełny tok rozumowania między kolejnymi rundami konwersacji. To szczególnie przydatne w scenariuszach agentowych, gdzie agent musi pamiętać kontekst wielu kroków.

Moonshot AI zapowiedziało także niedługo tryb 6-krotnie szybszy („6x High-Speed Mode”), który ma jeszcze bardziej obniżyć opóźnienia.

Cena – nawet 12 razy taniej niż flagowe modele

Jeśli wyniki benchmarków nie robią wrażenia, liczby związane z ceną już tak. API K2.7 Code kosztuje $0,95 za milion tokenów wejściowych i $4,00 za milion tokenów wyjściowych. Przy trafieniu w pamięć podręczną (cache) cena wejścia spada do $0,19.

Dla porównania: GPT-5.5 to $5/$30, Claude Opus 4.8 $5/$25, a zawieszony już Claude Fable 5 aż $10/$50. Na samych tokenach wyjściowych Fable 5 jest ponad 12 razy droższy. Różnica jest tak duża, że za ten sam budżet można uruchomić model Moonshot wielokrotnie częściej.

Jak zauważają analitycy, cena za token staje się równie ważnym czynnikiem konkurencyjnym jak jakość modelu. To sygnał narodzin prawdziwej „gospodarki tokenowej” – gdzie opłacalność decyduje o wyborze narzędzia. Kluczowe pytanie brzmi nie „czy to najlepszy model”, ale „czy jest wystarczająco dobry do mojego zadania”. Odpowiedź można uzyskać tylko testując go na własnych danych.

Dostępność i licencja – otwartość z jednym wyjątkiem

K2.7 Code działa przez API Kimi, wiersz poleceń Kimi Code CLI oraz silniki inferencyjne vLLM i SGLang. Dostępna jest również natywna kwantyzacja INT4, która pozwala uruchomić model na tańszym sprzęcie. Wagi można pobrać bezpośrednio z Hugging Face.

Licencja to zmodyfikowane MIT. Pozwala na swobodne używanie, modyfikacje i redystrybucję. Jest jeden warunek: jeśli produkt komercyjny wykorzystujący K2.7 Code lub jego pochodne ma ponad 100 milionów aktywnych użytkowników miesięcznie lub przynosi ponad 20 milionów dolarów miesięcznego przychodu, w interfejsie użytkownika musi pojawić się wyraźne oznaczenie „Kimi K2.7 Code”. Dla większości deweloperów i małych firm oznacza to pełną swobodę.

Zdjęcie: Moonshot AI / Hugging Face (porównanie z benchmarkami)

Czy tani model to przyszłość programowania AI?

Kimi K2.7 Code nie jest bezkonkurencyjny w każdym teście, ale jego przewaga cenowa sprawia, że staje się realną alternatywą dla kosztownych zachodnich modeli. W zadaniach agentowych radzi sobie zaskakująco dobrze, a otwarta licencja i wsparcie dla kwantyzacji obniżają próg wejścia. Dla wielu deweloperów i zespołów kluczowym kryterium nie będzie absolutna moc, ale relacja jakości do kosztu – a w tej dziedzinie Moonshot AI właśnie postawił nową poprzeczkę.

W miarę dojrzewania rynku modeli językowych, wybór coraz częściej będzie sprowadzał się do odpowiedzi na proste pytanie: „czy ten model działa wystarczająco dobrze w moim konkretnym przypadku użycia?” K2.7 Code z pewnością zasługuje na to, by zadać je w swoim projekcie.