TechCrunch: Microsoft выпускает ASSERT — open-source фреймворк для тестирования поведения AI

Microsoft выпустила ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) — open-source фреймворк, преобразующий описания требований к поведению AI на естественном языке в автоматизированные тест-кейсы. Команды формулируют, что их приложение должно и не должно делать — например, что инструмент для работы с документами не должен отправлять письма внешним контактам, должен ограничивать доступ к конфиденциальным данным и формировать краткие резюме, — а ASSERT генерирует, запускает и оценивает тест-кейсы против этих требований.

Инструмент фиксирует цепочки решений AI-системы, включая промежуточные действия и вызовы инструментов, — что упрощает анализ причин сбоев. Он может работать в процессе разработки, после деплоя и как постоянный монитор в продакшне.

Мотивация кроется в пробеле, с которым регулярно сталкиваются продуктовые команды, создающие AI-фичи: общие AI-бенчмарки измеряют возможности модели, но не то, насколько конкретное приложение ведёт себя правильно в рамках своих ограничений. Агент поддержки клиентов на базе той же модели, что и у конкурента, в продакшне может вести себя совершенно иначе — после применения требований к тону, правил эскалации и ограничений доступа к данным. ASSERT решает эту проблему, позволяя командам описывать поведенческие спецификации на том же естественном языке, который они уже используют для требований.

Для product manager’ов практическое значение состоит в возможности превращать поведенческие требования — как правило, прописываемые в PRD, — в исполняемые тесты. Раньше это требовало инженерных усилий или просто не делалось. Инструмент доступен как open source на GitHub.