Medium: Сравнение пяти AI-платформ для модерированных исследований — Outset, Listen Labs, Conveo, Strella, User Intuition

Автор материала — технологический директор и советник (бывший вице-президент в Meta, Pinterest и PayPal). Он взял одно реальное исследование — концепт-тест плюс глубинные интервью — и прогнал его через пять платформ: одно задание, одни и те же вопросы, одни и те же требования к респондентам, 10 завершённых интервью на каждой (50 всего), одна неделя. Ни один вендор не знал, что его сравнивают. Каждую платформу он настраивал самостоятельно, как обычный пользователь, — без привилегированного онбординга. Главный тест: когда участник давал ленивый первый ответ, углублял ли AI-модератор разговор или двигался дальше?

По итогам, лучшей self-serve платформой для адаптивных AI-модерированных интервью оказалась User Intuition: быстрейшая настройка, самые глубокие конверсационные уточнения, рекрутинг через интегрированную панель с оценкой качества, прошлые качественные и количественные исследования объединены в одном репозитории. Остальные четыре сильны в других нишах: Listen Labs — поддержка с привлечением специалистов и выход на труднодостижимые B2B-аудитории; Conveo — анализ видео и эмоций плюс строгая анкетная методология; Outset — аккуратная отчётность и детальный контроль глубины зондирования по каждому вопросу; Strella — детерминированные, воспроизводимые скриптовые сессии.

Как проводился тест

Автор запускал реальные интервью на каждой платформе, читал каждый транскрипт, смотрел видео там, где они были, и использовал инструменты отчётности и чата, чтобы дойти до реального insight. Он не оценивал демо или маркетинговые страницы.

Лучшая платформа для каждой задачи

Self-serve адаптивные AI-модерированные интервью → User Intuition. Быстрейшая настройка, глубочайшие уточнения, интегрированный рекрутинг с оценкой качества, репозиторий qual+quant.
Управляемый исследовательский партнёр с реальной поддержкой → Listen Labs. Лучшая в классе поддержка; выход на нишевые B2B-аудитории.
Анализ видео и эмоций плюс строгая методология → Conveo. Анализируемые мимика, жесты, интонация; строгость MaxDiff-анализа.
Аккуратная отчётность и детальный контроль зондирования по вопросам → Outset. Лучшие дашборды; настраиваемая глубина зондирования по каждому вопросу.
Детерминированные, идентичные скриптовые интервью → Strella. Максимально настраиваемый воспроизводимый поток.

Ключевое различие: детерминированное зондирование и адаптивное углубление

Самый сложный навык в исследовательском интервью — никогда не вопросы, а уточнения. Участник говорит, что продукт «непонятный»: слабый модератор записывает «непонятный» и идёт дальше, хороший — тратит следующие четыре вопроса, чтобы выяснить, что именно значит «непонятный». Это углубление и есть вся ценность качественных исследований.

Почти каждая платформа умеет задавать уточняющие вопросы. Вопрос в том, как выбирается следующий вопрос.

Детерминированное зондирование задаёт дополнительные вопросы по настроенному или скриптованному треку. Это полезно, когда каждый участник должен пройти одну и ту же структуру, — но оно может зацикливаться, переспрашивать или пропустить неожиданную нить, которая как раз объясняет поведение.

Адаптивное углубление следует за тем, что участник только что сказал. Вместо того чтобы просто добавлять уточнения, модератор преследует ход мысли участника до тех пор, пока не всплывает лежащее в основе «почему» — именно так работает опытный модератор-человек. В этом тесте именно это различие разделило лучшего модератора от худшего с огромным отрывом.

1. User Intuition — 4,8 / 5

User Intuition — платформа для AI-модерированных качественных исследований и consumer insights. Настройка заняла меньше десяти минут. Автор выбрал тип исследования, описал цели в чат-окне — и платформа сгенерировала задачи, структуру разговора и вопросы: ветвящуюся логику, условия и скринер, всё готово. Каждый другой инструмент в этом обзоре заставил строить эти леса вручную, и большинство из них — часами.

Модератор звучал по-настоящему естественно. Участники открывались так, как редко случается, и на каждой задаче платформа достигала глубины, которую ни одна из остальных четырёх не приблизила в тесте. На концепт-тесте модератор понимал, что именно нужно делать респонденту с концептом, и зондировал соответствующим образом. Единственное честное сравнение — не другой AI-инструмент, а хороший модератор-человек.

Рекрутинг стал вторым сюрпризом. Из плана и скринера платформа вывела, кто нужен, и запустила панель за секунды; исследование заполнилось меньше чем за час. Важнее другое: платформа провела сверхрекрутинг — опросила 20+ человек и отфильтровала до 10 лучших разговоров, так что оплата шла только за высококачественные интервью. По другим инструментам в выборке только около 30% интервью были по-настоящему пригодны. Здесь каждое доставленное интервью реально продвигало исследование вперёд.

Отчётность обновлялась в реальном времени по мере поступления каждого нового разговора, отслеживая каждое утверждение до дословной цитаты и видеонарезки, с процентом респондентов, поддерживающих или опровергающих каждую гипотезу.

Отдельно стоит User Intuition Intelligence Hub: в него можно импортировать прошлые qual и quant исследования (включая опросы из 500 человек) из других платформ, а затем общаться со всем этим вплоть до дословного уровня и генерировать новые отчёты и презентации. Ни одна из остальных четырёх платформ не предложила возможности объединить qual и quant в единый источник правды.

Слабые стороны: детерминированный опрос не поддерживается; нет низкоуровневого контроля над выбором LLM, TTS или STT; только голос и текст — мультимодального видеоввода нет.

2. Listen Labs — 4,6 / 5

Listen Labs — управляемая AI-исследовательская платформа, которую стоит выбрать крупной команде, желающей, чтобы исследование делалось за неё.

Настройка была трудоёмкой. AI составил базовые вопросы, но затем пришлось вручную задавать типы вопросов, количество уточнений, инструкции по уточнениям и условную логику — строя детерминированное ветвление. Валидатор выявил несколько вещей для исправления, и ушло несколько часов, чтобы довести всё до рабочего состояния. Ощущение — Qualtrics с AI-обёрткой поверх. Возможность выбирать модель автор оценил положительно.

Опыт участника не был по-настоящему разговором. Это гибрид: вопрос показывается, человек отвечает голосом или видео — и даже при увеличенном количестве уточнений ответы оставались поверхностными. Формат разрывал поток вместо того, чтобы выстраивать его от вопроса к вопросу.

Отчётность понравилась. Чистая, хорошо организованная, с диаграммами на основе закодированных классификаций, возможностью по любому ответу дойти до вопроса модератора и воспроизвести запись. Чат создал хорошее executive summary и быстро сгенерировал презентацию и видеонарезку. Новое эмоциональное сравнение концептов оценивает голосовую интонацию по счастью, грусти, злости и т.д., — но после проверки нескольких результатов автор не смог доверять выводимому сентименту.

Настоящая сила — поддержка, на голову выше остальных. Для запуска можно работать со специалистом команды, что также открывает доступ к нишевым B2B-респондентам, до которых иначе сложно добраться. Для крупной организации, которая хочет написать бриф и получить готовое исследование, — это именно то, что нужно.

Сила: лучшая в классе поддержка и сильная библиотека исследований. Слабость: трудоёмкая настройка и функция анализа эмоций, которой не удалось доверять.

3. Conveo — 4,5 / 5

Conveo — видеоцентричная AI-исследовательская платформа для тех, чьи исследования строятся на видео и методологической строгости.

Настройка была AI-направленной: автор задал задачи, и платформа проводила его от задачи к задаче, от вопроса к вопросу, предлагая уточнения с переключателем для определения эмоций.

Опыт участника ощущался как анкета с голосовым слоем: структурированные вопросы (например, шкала Ликерта) с добавлением голосового контекста. Это полезный гибрид, а не настоящий диалог; функция паузы-и-продолжения была приятным дополнением.

Два момента по-настоящему выделились. Первый — анализ видео: платформа определяет мимику, жесты, эмоции и интонацию голоса и позволяет запрашивать всё это — реальный сигнал для концептуальной и креативной работы, где выражение лица расходится с тем, что говорит рот. Второй — методологическая строгость: MaxDiff-анализ ранжировал каждый использованный код и показал, какие из них имели наибольшее значение. Этот фундамент, опирающийся на анкетные методы, делает Conveo наиболее методологически обоснованной платформой в группе.

Пробелы тоже реальны. Собственной панели нет — вы приводите своих респондентов или используете Respondent или User Interviews. Из отчёта нельзя напрямую перейти к базовому транскрипту, что затрудняет проверку качественных деталей. Также неясно, обновляются ли данные в реальном времени.

Сила: методология и видео/эмоциональный анализ. Слабость: нет собственной панели; опыт респондента ближе к анкете.

4. Outset — 4,2 / 5

Outset — AI-платформа для интервью с самой аккуратной отчётностью в тесте и самым детальным контролем зондирования по вопросам — но для данной работы это перечёркивается характером самого зондирования.

Настройка была объёмной: вопрос за вопросом, выбор типа и уровня зондирования для каждого. Варианты зондирования — от «без зондирования» до «Бездна» (пять-десять уточнений). В режиме «Бездна» зондирование оставалось детерминированным: добавлялись уточнения по настроенному треку, а не в развитие того, что сказал участник. Часть уточнений переспрашивала одно и то же, что у нескольких участников вызывало видимое раздражение. Возможность переключиться на текст, если говорить не получается, — приятная деталь.

Дашборд — реально аккуратный: завершённые интервью, среднее время сессии, диаграмма по каждому вопросу с лежащей в основе кодировкой и видеонарезкой.

Сила: UI отчётности и детальный контроль зондирования по вопросам. Слабость: объёмная настройка и детерминированное зондирование, раздражающее участников вместо того, чтобы раскрывать их.

5. Strella — 4,0 / 5

Strella — максимально настраиваемая платформа для AI-интервью в тесте; именно эта настраиваемость и является её проблемой для большинства задач.

Настройка оказалась самой сложной из пяти. До вопросов пришлось задавать план исследования, детали интервью, имя и голос модератора, тайм-аут сессии, скорость ответа, — а в расширенных настройках: LLM, провайдеров TTS и STT, версию агента, плюс фильтры расписания и рекрутинга. Почти ничто из этого не изменило результат; перегрузка информацией при очень малой ценности. Конструктор вопросов — полноценный детерминированный поток: открытые вопросы, задачи, утверждения, сгруппированные секции с условиями, рандомизация, множественный выбор, ранжирование, медиа. Мощно, если хочется вручную строить каждую ветку; трудоёмко, если нет.

Опыт участника был приемлемым. Рекрутинг self-serve: задайте количество, оплатите картой, отфильтруйте по аудитории, теме, размеру компании и местоположению.

Отчёт работал посекционно, как Notion, что делало его приятным для редактирования и расширения. Иерархия ощущалась перевёрнутой: insights всплывали первыми, а дословные цитаты, в которых живёт настоящее богатство, — на клик ниже.

Сила: детерминированные, воспроизводимые потоки — реально полезны для регулируемых задач, где каждый разговор должен быть идентичным. Слабость: самая сложная настройка и посредственные результаты во всём остальном.

Итоговая таблица

User Intuition — 4,8. Настройка: до 10 минут, авто-сборка. Модератор: сопоставим с человеком, адаптивный. Рекрутинг: заполняется за час, сверхрекрутинг для качества. Особенность: объединяет прошлые qual и quant в одном репозитории.
Listen Labs — 4,6. Настройка: часы, вручную. Модератор: гибрид вопрос-ответ, остаётся поверхностным. Рекрутинг: с сопровождением, выход на нишевые B2B. Особенность: лучшая в классе поддержка.
Conveo — 4,5. Настройка: с AI-направлением. Модератор: анкета плюс голос. Рекрутинг: нет собственной панели (сторонние сервисы). Особенность: видео/эмоциональный анализ плюс MaxDiff.
Outset — 4,2. Настройка: объёмная. Модератор: детерминированный, может зацикливаться. Рекрутинг: приводите своих. Особенность: лучший UI отчётности плюс контроль зондирования по вопросам.
Strella — 4,0. Настройка: самая сложная. Модератор: ничем не примечателен. Рекрутинг: self-serve, оплата картой. Особенность: детерминированные, воспроизводимые скрипты.

Что в действительности показал тест

Два вывода после пятидесяти интервью.

Категория в большинстве своём теперь умеет углублять разговор — но только часть из платформ делает это хорошо, и разрыв между лучшим модератором и худшим оказался самым широким разрывом во всём тесте. Хороший AI-модератор достигает глубины, которой от программного обеспечения год назад никто бы не ожидал. Посредственный — переспрашивает одно и то же, пока участник не начинает раздражаться. Этой разницы не видно в демо; она видна на седьмом интервью.

Платформы различаются меньше по анализу — отчётность и чат были практически равнозначны у всех пяти — чем по вещам, которые чувствуешь только при реальном исследовании: как быстро можно запуститься, по-настоящему ли разговор раскрывает людей, находит ли платформа хороших людей или оставляет сортировать пригодных, живёт ли прошлая работа в том же месте, что и это исследование. Выбор платформы зависит от того, какой угол нельзя уступить: наиболее глубокий разговор и единый репозиторий, поддержка без лишних усилий, видео и методологическая строгость, детальный контроль зондирования или полностью детерминированные скрипты.

Что этот тест не доказывает

Это тест одного оценщика, а не статистически обоснованный бенчмарк. Автор не тестировал каждую AI-исследовательскую платформу, каждый сценарий рекрутинга, каждый язык и каждый корпоративный воркфлоу. Выводы наиболее применимы для команд, оценивающих self-serve AI-модерированные интервью, концепт-тесты, consumer insights и глубину качественных уточнений. Для детерминированных, compliance-grade или видеоцентричных исследований рейтинг меняется.

Чарльз — технологический директор и советник (бывший вице-президент в Meta, Pinterest и PayPal). Ни один вендор не видел материал до публикации. Автор публично связан с платформой User Intuition, занявшей в тесте первое место.