GPT Bidi 1 – model głosowy ChatGPT słucha i mówi naraz

OpenAI najwyraźniej pracuje nad jedną z najpoważniejszych aktualizacji funkcji głosowych w ChatGPT. W aplikacji wykryto nowy model audio, który ma umożliwić znacznie bardziej naturalną komunikację ze sztuczną inteligencją. Odkrycie zbiega się z doniesieniami o szerszych zmianach w platformie – OpenAI chce dodać więcej funkcji agentowych, które automatyzują zadania użytkowników. GPT Bidi 1 może diametralnie zmienić wrażenia z rozmów głosowych z ChatGPT.

Czym jest GPT Bidi 1 i jak działa?

Specjaliści z TestingCatalog, którzy zauważyli nowy wpis w ustawieniach ChatGPT, opisują GPT Bidi 1 jako najnowszy dwukierunkowy model mowy. Nazwa „Bidi” najprawdopodobniej pochodzi od angielskiego słowa „bidirectional” (dwukierunkowy), co oddaje kluczową cechę modelu – potrafi on jednocześnie mówić i słyszeć, a także rozumieć docierające do niego informacje w czasie rzeczywistym.

Według wewnętrznych raportów, na które powołują się odkrywcy, model określany jest jako „ogromny skok w inteligencji” oraz „następna generacja głosu”. To sugeruje, że różnica w stosunku do dotychczasowych możliwości głosowych ChatGPT będzie znacząca.

Jak rozpoznać, że działa?

W ustawieniach aplikacji pojawiły się dwie opcje: Standard oraz Advanced. Użytkownicy, którzy wybrali GPT Bidi 1, zauważyli, że interfejs głosowy zmienia kolor na żółty. To prosty wizualny sygnał, że aktywny jest nowy model.

Jak GPT Bidi 1 zmienia sposób rozmowy z ChatGPT?

Głównym problemem obecnych asystentów głosowych jest nienaturalność interakcji. Użytkownik musi czekać, aż AI skończy mówić, by zadać kolejne pytanie – przerwanie wypowiedzi często prowadzi do dezorientacji systemu. GPT Bidi 1 został zaprojektowany, by rozwiązać właśnie te trudności.

Reagowanie w trakcie rozmowy

Raport wskazuje, że model potrafi powiedzieć „okay”, gdy użytkownik zrobi pauzę w rozmowie – to drobiazg, który znacząco upłynnia dialog. Co więcej, asystent może modyfikować instrukcje w locie. Przykład: gdy ktoś napisze „policz od jednego do dziesięciu”, system wykona polecenie, a następnie samodzielnie zaproponuje „policz od dziesięciu w dół” – bez zbędnej przerwy i utraty wątku.

Lepsza pamięć kontekstu

Dotychczasowym wyzwaniem w rozmowach głosowych było utrzymanie kontekstu – AI często zapominała, o czym była mowa kilka chwil wcześniej. GPT Bidi 1 radzi sobie z tym znacznie lepiej, przechowując w pamięci poprzednie fragmenty konwersacji. Nowy model lepiej zarządza też pauzami – rzadziej przerywa użytkownikowi, który po prostu zastanawia się nad odpowiedzią.

Kiedy GPT Bidi 1 trafi do wszystkich użytkowników?

Jak podaje TestingCatalog, nowy model jest już stopniowo wdrażany u części użytkowników ChatGPT. To sugeruje, że OpenAI prowadzi testy przed szerszym udostępnieniem. Firma nie ogłosiła jeszcze oficjalnie GPT Bidi 1 i może wprowadzać zmiany przed publiczną premierą. Sam fakt pojawienia się modelu w aplikacji wskazuje jednak, że premiera może być bliżej, niż wcześniej przypuszczano.

OpenAI wyraźnie stawia na użyteczność funkcji głosowych – nie chodzi tylko o sam głos, ale o praktyczne korzyści, jakie niesie. Choć ChatGPT startował jako narzędzie tekstowe, wiele firm technologicznych widzi w komunikacji głosowej główny sposób interakcji z agentami AI w przyszłości. Zaawansowany model mowy może wypełnić lukę między wysoką wydajnością modeli tekstowych OpenAI a przeciętnym doświadczeniem głosowym, które oferują dziś.

Jeśli GPT Bidi 1 spełni obietnice, rozmowa z ChatGPT stanie się znacznie bardziej płynna i naturalna. Asystent, który potrafi słuchać i mówić jednocześnie, pamiętać kontekst i reagować na przerwy w wypowiedzi, będzie o wiele bardziej przypominał ludzkiego rozmówcę niż cyfrowego asystenta.