Product Growth: AI evals majstorska klasa — najvažnija nova veština za product managere u 2026.
Šta video pokriva
Ova majstorska klasa objavljena je 19. februara 2026. na Akaš Guptinom kanalu Product Growth i bavi se AI evaluacijama (evals): kako product manageri treba da projektuju, implementiraju i skaliraju sisteme testiranja koji proveravaju da li AI funkcije zaista rade onako kako je zamišljeno — pre i posle lansiranja. Gost je Ankit Šukla, osnivač HelloPM-a.
Polazna premisa je da se većina grešaka AI funkcija svodi na jednu prazninu: timovi lansiraju AI bez pouzdanog načina merenja kvaliteta izlaza. Tradicionalni QA i A/B testiranje nisu dovoljni za nedeterminističke sisteme, gde isti ulazni upit može da daje različite odgovore. Evals popunjavaju tu prazninu tako što definišu kako izgleda „dobar” rezultat i sistematski testiraju usklađenost sa tim definicijama.
Za koga je ovaj video
Za product managere koji grade ili poseduju AI funkcije, bez obzira na tehnički background. Sadržaj je praktičan, a ne teorijski — svaki koncept prati korak-po-korak pristup implementaciji. Posebno je koristan za PM-ove kojima treba da uspostave procese evaluacije od nule, ili koji su zamoljeni da definišu standarde kvaliteta za AI sistem bez prethodnog iskustva u toj oblasti.
Ključni zaključci
-
Evals se dele u tri kategorije koje služe različitim svrhama. Offline evals se pokreću pre lansiranja na kuriranim test datasetima; online evals prate produkcioni saobraćaj u realnom vremenu; a ljudske evals obezbeđuju periodične spot-provere kvaliteta izlaza. Svaka kategorija pokriva slabosti koje druge ne pokrivaju, a oslanjanje samo na jednu kategoriju nije dovoljno za AI funkcije sa značajnim posledicama po korisnike.
-
Korisna rubrika za evaluaciju počinje scenarijima, a ne metrikama. Proces počinje identifikovanjem konkretnih korisničkih scenarija, potom se za svaki pišu 4 do 6 kategorija ocenjivanja s referentnim primerima koji ilustruju kako u praksi izgledaju ocene 1, 3 i 5. Test inter-rater pouzdanosti — kada dva ocenjivača nezavisno ocenjuju iste izlaze i upoređuju rezultate — proverava da li rubrika daje konzistentne rezultate kod različitih recenzenata.
-
Prava metrika zavisi od tipa zadatka. Sistemi preuzimanja informacija — pretraga, preporuke — zahtevaju merenja precision i recall. Otvorena generacija teksta bolje reaguje na semantičke metrike sličnosti poput BERTScore-a. Visoko specifični zadaci mogu zahtevati prilagođene metrike vezane za konkretne ishode, a ne za opšte zamene za kvalitet.
-
LLM sudije mogu automatizovati evaluaciju u velikom obimu nakon kalibracije. LLM sudija koristi jezički model za ocenjivanje izlaza drugog modela. Kalibracija znači poređenje ocena sudije sa bejzlanom koji su anotirali ljudi radi potvrde usklađenosti, a zatim periodično testiranje radi otkrivanja drifta. Nekalibrisan LLM sudija stvara iluziju strogosti evaluacije bez njene suštine.
-
Praćenje u produkciji zahteva tri odvojena sloja. Sistemske metrike pokrivaju latenciju i stopu grešaka. Metrike kvaliteta prate automatizovane ocene evaluacije na živim izlazima. Poslovne metrike beleže stopu uspešnog izvršavanja zadataka i zadovoljstvo korisnika. Automatska upozorenja i redovi za ljudsku proveru označenih izlaza upotpunjuju petlju praćenja — bez sva tri sloja, problemi u jednoj dimenziji mogu ostati neotkriveni dok ostali izgledaju uredno.
Vredi gledati ako…
Pripremate se za lansiranje AI funkcije i nemate formalni proces evaluacije, ili ako vaš tim teško definiše šta znači „dobar rezultat” za vaš specifičan slučaj upotrebe. Korisno je i pri pripremi poslovnog slučaja za evaluacionu infrastrukturu, jer su opisani okviri dovoljno konkretni za direktan prevod u razgovor o resursima.