TechCrunch: Microsoft objavljuje ASSERT, open-source framework za testiranje ponašanja AI

Microsoft je objavio ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) — open-source framework koji prevodi zahtevana ponašanja AI opisana na prirodnom jeziku u automatizovane test-case-ove. Timovi opisuju šta njihova aplikacija treba i ne treba da radi — na primer, da alat za istraživanje dokumenata ne sme da šalje mejlove eksternim kontaktima, treba da ograniči poverljivi sadržaj na izvršne direktore i da formira sažete rezimee — a ASSERT generiše, pokreće i ocenjuje test-case-ove prema tim zahtevima.

Alat beleži lance odlučivanja AI sistema, uključujući međukorake i pozive alata, što olakšava istraživanje uzroka neuspeha. Može se koristiti tokom razvoja, posle deploymenta i kao kontinualni monitor u produkciji.

Motivacija leži u procep koji produktni timovi koji grade AI fiče redovno susreću: opšti AI benchmarkovi mere sposobnosti modela, ali ne i to da li se konkretna aplikacija ponaša ispravno unutar sopstvenih ograničenja. Agent za korisničku podršku koji koristi isti model kao konkurent može se u produkciji ponašati sasvim drugačije — nakon primene zahteva u pogledu tona, pravila eskalacije i ograničenja pristupa podacima. ASSERT rešava ovaj problem dopuštajući timovima da definišu sopstvene specifikacije ponašanja na istom prirodnom jeziku koji već koriste za zahteve.

Za product manager-e, praktična implikacija je mogućnost pretvaranja zahteva u pogledu ponašanja — kakvi se obično pišu u PRD — u izvršive testove. Ovaj posao je ranije zahtevao inženjerski napor ili se u potpunosti preskakao. Alat je dostupan kao open source na GitHub-u.