Automattic Design: когда AI проходит пользовательский тест вместо человека

Интерфейс настройки персонажа в инструменте Roast Me от Automattic

Большинство данных о пользовательском опыте поступает из одного из двух источников: реальных user-тестов, которые требуют времени и средств, или внутренних ревью дизайна, которые предвзяты в пользу создателей. Между этими двумя подходами живёт множество мелких UX-проблем, которые никто не замечает.

Инженер Automattic Сильвестр Уилмотт описывает Roast Me — Chrome-расширение, которое запускает симулированные user-тесты на любом сайте. Встроенный в браузер агент работает со страницей так же, как это делал бы человек: наводит курсор, кликает, вводит текст и проходит через заданный сценарий. Пока это внутренний инструмент, но подходы, заложенные в него, имеют более широкое применение.

Что умеет инструмент

Пользователь выбирает персонажа — из готовых вариантов или создаёт своего — задаёт задачу и наблюдает, как агент кликает по интерфейсу, пытаясь её выполнить. Характеристики персонажа включают возраст, уровень технической грамотности, дальтонизм и другие нарушения зрения. Эти характеристики напрямую влияют на то, что агент «видит» и какие действия ему доступны. Персонаж, работающий только с клавиатурой, не может использовать клик и ховер: ему приходится перемещаться с помощью Tab, Enter и клавиш-стрелок.

В процессе теста скриншоты и комментарии агента появляются в боковом чате, формируя полную запись того, что агент делал и как «воспринимал» происходящее. После завершения теста можно расспросить агента о его опыте, дать ему новые задачи или экспортировать сессию.

Как это устроено

Roast Me управляет страницей через Chrome DevTools Protocol. При запуске теста расширение подключает отладчик к активной вкладке — это позволяет делать скриншоты, читать DOM и дерево доступности, а также генерировать события ввода. По завершении теста отладчик отключается, и вкладка возвращается пользователю.

На каждом шаге агент получает скриншот с выделенными и пронумерованными интерактивными элементами, а также структурированный список тех же элементов из дерева доступности. Агент выбирает из словаря примерно из двадцати действий — клик, ввод текста, прокрутка, ховер, перетаскивание, нажатие клавиши, выбор опции, загрузка файла — и может объединять до четырёх из них в один шаг. Список доступных действий фильтруется с учётом характеристик персонажа.

В системе работают два агента. Первый выполняет тест, возвращая JSON с рассуждением, действиями, полем для собственных заметок агента и оценкой настроения. Второй подключается после теста: играя ту же роль персонажа в режиме интервью с полным транскриптом сессии в системном промпте, он может отвечать на вопросы «от имени» персонажа. Если вопрос требует нового прохода по сайту, запускается свежий тест.

Что дал практический опыт

Первая версия постоянно зависала. Агент мог кликать на одну и ту же неактивную кнопку пять раз подряд или прокрутить мимо нужного элемента и не вернуться к нему. Решение оказалось простым: небольшой детектор циклов, который хеширует последние действия и состояние страницы, а затем подталкивает агента, когда тот начинает повторяться. После этого следующая версия научилась делать паузу и переосмыслять свой подход — это улучшило качество тестов сильнее, чем любая настройка промптов.

Главный вывод касался не модели, а персонажей. Изначально автор строил насыщенные персонажи с биографиями и мотивацией, но результаты тестов менялись именно из-за ограничений. Убрать мышь — и агент вынужден работать с клавиатуры, а сайт должен быть готов к этому. Убрать цветовое зрение — и агент перестаёт понимать, какая кнопка выполняет деструктивное действие.

Интересными оказались не персонажи с наибольшим набором характеристик, а те, у кого больше всего убрали.

Честная оговорка

Симулированные тесты не заменяют реальных. Агент «видит» веб через скриншот и список элементов, а не через глаза, внимание и предшествующий опыт. Он хорошо выявляет высокоуровневые UX-проблемы, проблемы доступности и критику дизайна «свежими глазами». Воспроизвести то интуитивное замешательство, которое реальный посетитель испытывает в первые три секунды на сайте, он не способен.

Что стоит взять на вооружение

Персонажи раскрываются через ограничения, а не через добавление деталей: убрать мышь, цветовое зрение или технический опыт — это обнаружит в продукте то, что никакая биография персонажа не выявит, именно ограничения и становятся источником данных.

Детектор циклов необходим любому агенту, который выполняет больше нескольких шагов. Подсказка попробовать другой подход работает лучше, чем позволить агенту бесконечно расходовать контекстное окно.

Такие тесты стоит использовать там, где реальное тестирование нецелесообразно: быстрые ревью, проверки доступности, обратная связь на ранних стадиях. Для всего, что действительно важно, реальные пользователи по-прежнему незаменимы.