OpenAI dodaje tri glasovna modela u svoj API

Dana 7. maja 2026, OpenAI je dodao tri glasovna modela u realnom vremenu u svoj API. Događaj je značajan ne zato što OpenAI sada ima glasovne mogućnosti — one postoje već neko vreme — već zbog toga šta novi modeli mogu da urade unutar razgovora.

Tri nova dodatka su GPT-Realtime-2, GPT-Realtime-Translate i GPT-Realtime-Whisper.

GPT-Realtime-2 opisan je kao model koji koristi “zaključivanje na nivou GPT-5 klase”, što ga pozicionira znatno iznad prethodnih glasovnih modela u obradi složenih zahteva tokom razgovora. OpenAI navodi da je cilj premestiti glasovne interakcije u realnom vremenu “od jednostavnog formata pitanje-odgovor ka glasovnim interfejsima koji zaista mogu da obavljaju posao” — što znači da glasovni sloj postaje sposoban za vrstu zaključivanja koja je ranije bila rezervisana za tekstualne interakcije.

GPT-Realtime-Translate obezbeđuje prevođenje u realnom vremenu sa podrškom za više od 70 ulaznih jezika i 13 izlaznih.

GPT-Realtime-Whisper pruža transkribovanje govora u tekst uživo.

Modeli se naplaćuju po različitim shemama: GPT-Realtime-2 po tokenima, a modeli za prevođenje i transkripciju po minutima. Ta razlika ima praktične implikacije za produktno planiranje — glasovni asistent koji obrađuje složene upite imaće suštinski drugačiju jediničnu ekonomiku od servisa za transkripciju koji obrađuje veliki obim kratkih poziva.

Za product menadžere, ključni signal je da glasovni proizvod koji je ranije zahtevao značajne inženjerske napore da dostigne “kvalitet asistenta” sada ima pristupačniji put kroz API. Kombinacija glasovnog zaključivanja visokog nivoa i transkripcije uživo otvara slučajeve upotrebe u obrazovanju, korisničkoj podršci i direktnim prenosima, gde interakcija ne može biti svedena na jednostavan par pitanje-odgovor.

OpenAI je ugradio automatski nadzor razgovora za otkrivanje kršenja pravila — relevantno za timove koji grade u regulisanim industrijama ili kreiraju potrošačke proizvode gde je rizik od zloupotrebe produktno razmatranje.