Built In: как UX-исследования делают агентный ИИ лучше

UX-исследования и агентный ИИ: почему доверие пользователей определяет успех проекта

Принципиальное отличие агентного ИИ от всего, что было раньше, — в том, кто действует. Раньше мы создавали инструменты, которые ждали команд. Сейчас мы создаём агентов, которые оценивают цель, разбивают её на шаги и выполняют действия без запроса разрешения.

Инженерные команды сосредоточены почти исключительно на том, чтобы сделать агентов мощнее. Но, судя по практике разных исследовательских программ, проекты тормозят не из-за недостатков модели. Они тормозят потому, что пользователи не доверяли системе, не понимали, что она только что сделала, или ощущали потерю контроля над своей работой.

По данным McKinsey Global Survey on AI 2025, 62% организаций уже экспериментируют с агентами. При этом Gartner ожидает, что более 40% этих проектов будут свёрнуты к 2027 году — не из-за технических недостатков, а из-за неопределённой бизнес-ценности. Бенчмарков для точности модели достаточно, а вот данных о том, почему реальные пользователи отказываются от агентов, почти нет. Этот информационный пробел сам по себе является частью проблемы, которую должны решать UX-исследования.

Дилемма делегирования

В традиционном программном обеспечении пользователь — оператор: он кликает, печатает, направляет каждое действие. С агентом он становится делегирующим. Делегирование — принципиально иной когнитивный опыт, чем самостоятельное выполнение.

Пользователь передаёт контроль в обмен на эффективность. На практике люди проводят жёсткие границы там, где им комфортно делегировать. Хороший пример — электронная почта. Большинство пользователей рады позволить агенту сортировать входящие, но когда речь заходит о том, чтобы агент отвечал на письма от их имени, отношение меняется кардинально.

Этот порог у каждого свой и зависит от задачи и отрасли. UX-исследования определяют, где именно проходят эти границы, чтобы продуктовые команды не выстраивали дизайн на основе предположений.

Проектирование агентов для предсказуемой непредсказуемости

Агентный ИИ бросает вызов одному из ключевых принципов UX: эти системы теоретически недетерминированы. Дайте агенту одну и ту же задачу в понедельник и в пятницу — и он может решить её по-разному. Для специалистов, привыкших к тому, что одинаковые вводные дают одинаковые результаты, это создаёт реальное проектное напряжение. В 2025 году NN/g сформулировал этот вопрос чётко: как оценивать систему, которая меняется с течением времени?

Поскольку гарантировать согласованность действий невозможно, нужно гарантировать согласованность намерений. Это переосмысление имеет практические последствия для измерений. Вместо того чтобы отслеживать, выполнял ли агент задачу одинаково дважды, нужно изучать, считают ли пользователи, что агент понял, чего они хотели. Операционализировать это можно через оценку уверенности после задачи (соответствие цели), протоколы «думай вслух», где пользователи описывают ожидаемые и фактические результаты, и сравнительные исследования разных путей агента с замером воспринимаемого соответствия. Метрика — воспринимаемое соответствие, а не поведенческая согласованность.

В одном эксперименте 10 участникам предложили одинаковые четыре задачи с голосовым AI-агентом и отслеживали, как тон, язык и уровень детализации агента менялись от сессии к сессии. Одни пользователи получали краткие, чёткие ответы; другие — на те же вопросы — получали более длинные, разговорные. В одном случае агент полностью выдумал деталь, и доверие пользователя мгновенно упало — и к этой задаче, и ко всем последующим. Измерялось не то, говорил ли агент одно и то же каждый раз, а то, верили ли пользователи, что он понял их цель, и как быстро это доверие рушилось при ошибке.

От взаимодействий к отношениям

Большинство цифровых продуктов транзакционны: нашёл рейс, купил, пошёл дальше. Агентный ИИ ближе к найму нового члена команды: агент адаптируется к предпочтениям пользователя, пользователь изучает особенности агента, и отношения развиваются неделями.

Традиционные методы исследования не были рассчитаны на такие временные рамки. Специалисты, изучавшие автоматизацию в авиации, узнают знакомую проблему: усталость от мониторинга. Чем надёжнее система, тем хуже люди замечают её ошибки. Агентный ИИ добавляет ещё один уровень: в отличие от автопилота, агенты не следуют одной и той же процедуре каждый раз. Пользователи не просто наблюдают — они надзирают за чем-то непредсказуемым, при этом решая, сколько надзора вообще нужно.

В практике наблюдений участники в рамках одной сессии переключались между избыточным доверием и тревожной проверкой каждого действия. Если проверять каждое действие агента, он не экономит время. Ключевой исследовательский вопрос — какие сигналы прозрачности (цитирование источников, объяснение логики принятых решений) дают пользователям достаточно уверенности, чтобы сократить надзор. Во фреймворках доверия к голосовому ИИ прослеживаются одни и те же паттерны: осознание контекста, чёткие индикаторы состояния и корректное восстановление после ошибок — вот что отличает агентов, которыми пользуются один раз, от тех, на которых полагаются постоянно.

Методы исследования для агентного мира

Четыре подхода стабильно доказывают свою ценность в этой новой реальности. Через все из них проходит одно противоречие: agentiv AI-команды работают быстро. Агент может обновиться три раза за время четырёхнедельного исследования, поэтому каждый метод должен давать actionable-сигнал с высокой скоростью.

Discovery-исследования для продуктов с нуля

Этот этап происходит до того, как кто-то пишет код, и именно его команды пропускают чаще всего. Вопрос не в том, «как должен работать этот агент?», а в том, «должен ли этот агент существовать?». Кто реальная аудитория? С чем они борются? Хотят ли они вообще, чтобы ИИ управлял этой задачей? Одна команда создала мощного агента для рабочего процесса, где пользователи не хотели автономии — им нужны были более удобные инструменты. Контекстуальные интервью и валидация концепции выявили бы это. Две недели исследований могут сэкономить месяцы ненужной разработки.

AI-оценки под руководством исследований

Большинство фреймворков оценки проверяют точность: правильно ли ответил агент? Этот вопрос важен, но плохо предсказывает удержание пользователей. Без человекоцентричных критериев агенты могут производить так называемый «agent slop» — некачественный результат в масштабе, генерируемый системами без надлежащих ограничений.

Оценки под руководством исследований добавляют человеческое измерение: насколько подходил тон? Было ли объяснение понятно нетехническому пользователю? Продолжил ли агент действие там, где должен был запросить подтверждение? Такие оценки нужно проводить непрерывно, замыкая обратную связь от пользователей в настройку модели и систему ограничений. Без этой петли получаются зелёные дашборды и продукт, к которому никто не возвращается.

Лонгитюдные дневниковые исследования

Юзабилити-тест фиксирует момент. Дневниковое исследование фиксирует дугу: первоначальный энтузиазм, затем осознание того, что агент иногда ошибается — и делает это уверенно. Ежедневные записи выявляют точные переломные моменты: когда доверие пошатнулось, что это спровоцировало и возможно ли восстановление.

Воркшопы совместного проектирования

Соберите вместе пользователей и продуктовые команды, чтобы определить границы полномочий: где агент может действовать самостоятельно, а где ему нужно явное разрешение. Одна из рабочих структур — «отложить, предложить, выполнить». Для решений с высокими ставками агент представляет данные и ждёт; для средних — предлагает ранжированные варианты; для рутинных — выполняет самостоятельно и докладывает. Эффективность этого подхода — не в самом фреймворке, а в том, что пользователи участвовали в установлении границ.

Человеческий бенчмарк

Инженерные команды отдают приоритет показателям MMLU и точности. Они важны для производительности модели, но плохо предсказывают, будет ли кто-то использовать агента спустя первую неделю. Агенты с высокими бенчмарками бросались из-за того, что взаимодействие с ними ощущалось непрозрачным или самонадеянным.

Есть ещё одно измерение, которое большинство команд пока не учитывают: доступность. Как пользователь с программой чтения с экрана надзирает за агентом, совершающим автономные действия в реальном времени? Как человек с когнитивными особенностями справляется с решениями о делегировании? Не исследовать эти вопросы сейчас — значит создавать технологию, которая работает для одних и исключает других по замыслу, причём речь идёт не об исключениях, а о миллионах пользователей.

По данным Gartner, к 2028 году 15% ежедневных рабочих решений будут приниматься агентами автономно — по сравнению с нулём в 2024 году. Техническая инфраструктура развивается быстро. Но ни одна из этих разработок не принесёт результата, если люди не будут ей доверять, и ни одна не будет справедливой, если работает только для части пользователей.

Победят не просто самые мощные агенты, а те, которым люди доверяют достаточно, чтобы на них полагаться.