Dscout: Zašto istraživači treba da vode AI evaluacije

Objavljen u januaru 2026. na Dscout blogu People Nerds, ovaj članak Nathana Reiffa — starijeg UX istraživača i product managera u Dscoutu — tvrdi da je najvažnije mesto za primenu istraživačkih veština danas ne proučavanje korisnika AI proizvoda, već evaluacija samih AI sistema. Dok timovi žure da isporuče AI funkcije, Reiff zastupa stav da istraživači uključeni u evaluacijske procese rano mogu sprečiti ozbiljne neuspehe koje automatske metrike jednostavno neće otkriti.

Argument

AI evaluacije — koje se u inženjerskim kontekstima češće nazivaju “evals” — obično uključuju tri metode: ljudske evaluacije, evaluacije po principu LLM-as-a-judge i automatizovane evaluacije zasnovane na kodu. Svaka meri da li AI sistem proizvodi tačne, korisne ili bezbedne rezultate. Većina timova ove zadatke tretira kao čisto tehničke. Reiff osporava tu pretpostavku.

Ljudske evaluacije zahtevaju od procenjivača da čita ili sluša AI rezultate i procenjuje njihov kvalitet — zadatak koji izgleda jednostavno, ali traži upravo one veštine koje istraživači koriste svakodnevno: prepoznati kada je odgovor tehnički tačan, ali kontekstualno pogrešan; identifikovati granične slučajeve izvan trening distribucije; formulisati kriterijume koji odražavaju šta korisnici zapravo trebaju od sistema. Inženjeri efikasno pišu testove zasnovane na kodu, ali su često loše pozicionirani da definišu šta znači “kvalitet” iz perspektive korisnika.

Povezivanje evaluacija i UX istraživanja

Članak predlaže da istraživači tretiraju evals kao most, a ne odvojenu disciplinu. Istraživač ugrađen u AI tim može početi sa ljudskim evaluacijama tokom ranog razvoja modela, prikupljajući kvalitativne signale o tome koji rezultati “ne funkcionišu” i zašto. Ti signali potom oblikuju kriterijume za LLM-as-a-judge sisteme i na kraju strukturisane skupove podataka koji se koriste u evaluacijama zasnovanim na kodu. Ovaj napredak pomera istraživačku funkciju od konzumenta rezultata modela ka onom ko oblikuje njeno ponašanje.

Reiff je direktan u pogledu toga zašto ovo nadilazi kvalitet pojedinačnog proizvoda: timovi koji tretiraju AI funkcije kao inženjerske rezultate, a ne korisničko iskustvo, stvaraju sisteme koji rade ispravno prema internim metrikama, ali frustriraju ili dovode u zabludu korisnike. Istraživač u ulozi onoga što Reiff naziva “benevolentnim diktatorom” u ranim evaluacijama može preusmeriti taj kurs pre nego što promene postanu skupe.

Kome je ovo korisno

Članak je najvredniji za UX istraživače koji se osećaju marginalizovano u razvojnim ciklusima AI — pozivaju ih nakon donošenja odluka, traže od njih da testiraju proizvode umesto da ih oblikuju. Reiff nudi konkretan ulaz: zatražiti učešće u evaluacijskim procesima, makar neformalno, i pokazati kako se istraživački kriterijumi razlikuju od inženjerskih. Za menadžere istraživanja, članak pruža poslovni argument za ugrađivanje istraživača u AI timove od samog početka razvoja modela, a ne u fazi korisničkog testiranja.

Produkt timovi koji grade AI funkcionalnosti takođe će naći korisno uokvirivanje za to gde učešće istraživača stvara najveći efekat — ne u finalnom usability testu, već u evaluacijama koje određuju šta AI radi pre nego što ga prvi korisnik uopšte dotakne.