Как провести MaxDiff-исследование: приоритизация фич через best-worst шкалирование

Что такое MaxDiff?

MaxDiff (Maximum Difference Scaling, также известный как Best-Worst Scaling) — это количественный опросный метод для ранжирования списка элементов по относительной важности, предпочтению или привлекательности. Вместо того чтобы просить респондентов оценить каждый элемент по пятибалльной шкале (что даёт «плоские» данные, где всё выглядит «важным»), MaxDiff показывает небольшие наборы из 3–5 элементов и заставляет респондента выбрать лучший и худший в каждом наборе. Повторяя это сравнение многократно в разных комбинациях, метод даёт полностью ранжированный список с числовыми оценками, отражающими, насколько каждый элемент важнее следующего, — без культурных и личностных искажений, которые портят рейтинговые шкалы. MaxDiff — это стандартный инструмент для приоритизации фич, тестирования сообщений, поиска драйверов ценности и любой ситуации, когда команде нужно знать, что для пользователей важнее всего, когда приходится выбирать.

На какой вопрос отвечает метод?

Какие из этих фич, заявлений или ценностных предложений важнее всего для пользователей, когда они не могут выбрать всё?
Насколько элемент A важнее элемента B — не просто что выше, а размер разрыва?
Какие фичи должны попасть в MVP, а какие можно вырезать без серьёзной боли?
Какое маркетинговое сообщение лучше всего резонирует с целевой аудиторией, а какое не работает?
По-разному ли расставляют приоритеты разные сегменты пользователей, и где самые большие расхождения?
Какие болевые точки имеют наибольший негативный эффект, а какие — фоновый шум?

Когда использовать MaxDiff

Когда команде нужно расставить приоритеты в списке из 10–30 фич, драйверов ценности, сообщений или болевых точек, но протестировать всё через юзабилити или A/B-тест невозможно.
Когда предыдущие опросы с рейтинговой шкалой дали плоский результат — все элементы 4–5 из 5 — и команда всё ещё не понимает, что важнее всего.
Когда стейкхолдеры спорят о приоритетах фич, и решению нужны количественные доказательства, а не мнения.
Когда нужно сравнить приоритеты по разным сегментам пользователей одним инструментом, который даёт стабильные сопоставимые оценки на сегмент.
Когда решения по ценообразованию или упаковке зависят от понимания, какие фичи приносят больше всего воспринимаемой ценности.
Когда команде дизайна нужно выбрать 3–5 сообщений для тестирования в копирайте или рекламе из списка в 15 кандидатов.

Не подходит, если список короче 8 элементов — тогда быстрее простой rank-order вопрос. MaxDiff также не объясняет, почему пользователи предпочитают одно другому, поэтому его нужно сочетать с качественным исследованием. Наконец, оценки MaxDiff относительные, а не абсолютные — метод говорит, какой элемент предпочтительнее в протестированном списке, но не говорит, хорош ли сам список. Если весь список посредственный, лучший элемент всё равно займёт первое место, даже если ни один пользователь не выбрал бы его в реальной жизни.

Что вы получаете (артефакты)

Ранжированный список всех элементов с числовыми оценками, обычно по шкале от -100 до +100.
Визуальный график с оценкой каждого элемента и разрывами между ними.
Сегментированные таблицы оценок: тот же ранжированный список отдельно по каждому сегменту.
Симуляция доли предпочтений: модель, показывающая, какой процент пользователей выбрал бы каждый элемент.
Метрики Top-3 и Top-5 reach: процент респондентов, поместивших каждый элемент в свой личный топ-3 или топ-5.
Письменный отчёт, связывающий оценки с продуктовыми решениями: какие фичи строить, резать или откладывать.

Участники и сроки

Участники: 100 минимум для одного сегмента, 200+ для устойчивого ранжирования, 100–200 на сегмент для сравнения подгрупп.
Длина опроса: 10–20 наборов на респондента, 3–5 элементов в наборе. Респондент завершает MaxDiff-блок за 5–10 минут.
Размер списка: 8–30 элементов на исследование.
Подготовка: 1–3 дня на дизайн списка и настройку инструмента.
Полевая работа: 1–2 недели на сбор данных.
Анализ и отчёт: 2–5 дней.

Как провести MaxDiff (по шагам)

1. Определите решение, на которое повлияет исследование

MaxDiff дорого запускать, если результат не изменит решение. Запишите, что команда сделает по-другому в зависимости от исхода — «если фичи A и B попадут в топ-5, мы построим их в Q2; если в нижние 10 — вырежем из роадмапа». Это делает исследование полезным и предотвращает ловушку «запустим, посмотрим, что интересного».

2. Соберите список элементов

Сделайте 8–30 элементов для тестирования — фичи, сообщения, болевые точки, ценностные предложения. Каждый должен быть взаимоисключающим (без перекрытий), самодостаточным (понятным без контекста) и написанным в похожей длине и стиле, чтобы респондентов не сбивал формат. Избегайте пар противоположных элементов. Прокатайте список на 5 внутренних пользователях и уберите всё непонятное.

3. Настройте опрос

Используйте инструмент с поддержкой MaxDiff (Conjointly, Sawtooth Lighthouse Studio, Qualtrics, Displayr, OpinionX, SurveyMonkey, Pollfish). Настройте число элементов в наборе (обычно 4) и число наборов на респондента по формуле r·x / n·p = s, где r — целевая надёжность 200 показов на элемент, x — число элементов, n — элементов в наборе, p — ожидаемая выборка. Округляйте вверх. Для большинства исследований получается 10–20 наборов.

4. Напишите чёткое введение для респондентов

Объясните, что одни и те же элементы будут появляться в разных комбинациях и это намеренно. Без такого предупреждения респондент видит элемент трижды, решает, что опрос сломан, и либо уходит, либо начинает кликать наугад. 2–3 предложения перед первым набором решают эту проблему.

5. Рекрутируйте и собирайте данные

Привлекайте через свой канал (панельный провайдер, рассылка клиентам, in-app intercept, Prolific, UserInterviews). Сопоставьте выборку с популяцией, на которую влияет решение — рекрутировать платящих клиентов, когда вопрос касается активации новых пользователей, даёт обманчивые результаты. Поле 1–2 недели, ежедневный мониторинг качества.

6. Запустите анализ

Современные инструменты считают оценки автоматически — либо простой формулой (best − worst) / appearances, либо более сложной моделью Hierarchical Bayes (HB). HB даёт индивидуальные оценки на респондента и позволяет сегментацию и симуляцию выбора; простая формула — популяционные средние, которые легче объяснять стейкхолдерам. До 200 респондентов простой формулы обычно хватает. Для 500+ с сегментацией — HB.

7. Читайте оценки тремя способами

Смотрите среднюю оценку (общий ранг), top-3 reach (процент респондентов, поместивших элемент в свой топ-3) и различия по сегментам. Одна только средняя оценка прячет важные нюансы — элемент со средней оценкой может быть любим одним сегментом и игнорируем всеми остальными.

8. Сравните с порогом случайности

Посчитайте порог случайности, разделив 100% на число элементов. Элементы значительно выше этого порога — явные победители; значительно ниже — явные проигравшие; те, что вокруг порога, статистически неотличимы от случайности и должны отчитываться как «нет явного предпочтения».

9. Отчёт и решение

Напишите короткий отчёт, связывающий каждую находку с решением, которое команда зафиксировала на шаге 1. Начните с элементов, которые надо строить, резать или откладывать. Включите график оценок, различия по сегментам и зону «нет сигнала». Стейкхолдеры читают только первую страницу — пишите плотно.

Как AI меняет этот метод

AI compatibility: partial — AI способен сгенерировать список элементов, посчитать оценки, сегментировать респондентов и написать отчёт. Он не может заменить живых респондентов, чьи предпочтения и есть смысл метода. Синтетические респонденты (LLM-генерированные ответы) уже многократно показали неспособность предсказывать реальные человеческие выборы в MaxDiff. Используйте AI, чтобы ускорить workflow вокруг живых данных, а не заменить их.

Что может AI

Генерация исходного списка: LLM берёт описание продукта и выдаёт 30 кандидатов фич, ценностных предложений или болевых точек. Исследователь редактирует и обрезает список вместо старта с пустой страницы.
Прокатка списка: модель читает кандидатов и помечает перекрытия, противоположности, несовпадения формата и неоднозначные формулировки до того, как любой респондент увидит опрос.
Подсчёт оценок и Hierarchical Bayes: open-source библиотеки (R choicetools, Python pymc) и коммерческие инструменты (Sawtooth, Displayr, Q, Conjointly) автоматизируют математику.
Сегментный анализ в масштабе: AI прогоняет одну и ту же модель по десяткам сегментов и поднимает наверх только те, что значимо отличаются от среднего.
Драфт отчёта: LLM, которому передали таблицу оценок, сегментные срезы и контекст решения, может выдать первый драфт нарративного отчёта с группировкой «строить / резать / докопать».

Что требует исследователя-человека

Определение решения: выбор того, на какое решение влияет исследование — стратегический акт, зависящий от роадмапа, ресурсов и политик стейкхолдеров.
Живые респонденты: синтетические респонденты систематически промахиваются мимо реальных компромиссов. Ipsos и другие публиковали доказательства того, что LLM-сгенерированные данные MaxDiff не совпадают с человеческими.
Интерпретация «почему»: оценки MaxDiff говорят, что предпочитают пользователи, а не почему. Связка с интервью — человеческая работа.
Выбор инструмента и статистики: решение между простой формулой и Hierarchical Bayes зависит от размера исследования и потребностей в сегментации.
Защита результата перед стейкхолдерами: перевод «утилита X равна 38, а Y равна 12» в роадмап-решение требует чтения комнаты и связки с бизнес-целями.

AI-усиленный workflow

До AI MaxDiff-исследование занимало много недель: интервью со стейкхолдерами для драфта списка, ручной просмотр на перекрытия, настройка опроса, поле, статистический анализ (часто отдаваемый на аутсорс), написание отчёта. Аналитик тратил время на сборку, а не на инсайт.

С AI в петле аналитик кидает одностраничное описание продукта в ChatGPT и получает обратно 30 кандидатов за минуты; пересылает их обратно с просьбой пометить перекрытия и неоднозначность; после поля экспортирует ответы в Hierarchical Bayes через Sawtooth или Displayr. Первый драфт отчёта генерирует LLM, которого аналитик правит по тону и проверяет на точность. Весь workflow сжимается с 4 недель до 5–7 дней, освобождая аналитика для интерпретации и разговоров со стейкхолдерами — той части, что реально двигает решения.

Что не меняется — сами данные. Синтетические респонденты — попросить LLM «ответь как 35-летний SaaS power user» — выдают данные, которые выглядят правдоподобно, но не совпадают с реальными человеческими результатами MaxDiff. Респонденты должны быть живыми людьми, рекрутированными и мотивированными как для любого опроса. AI ускоряет всё вокруг них, но не заменяет их.

Инструменты

Опросные платформы с MaxDiff: Sawtooth Lighthouse Studio (оригинальный и самый строгий вендор, используется академией и крупными агентствами), Qualtrics CoreXM, Displayr (с встроенным Hierarchical Bayes), Q research software, Conjointly, OpinionX (бесплатный тариф), SurveyMonkey MaxDiff, Pollfish, SurveyKing.

Статистические библиотеки: R-пакет choicetools Криса Чапмана, R-пакеты bayesm и flipMaxDiff, Python pymc для кастомных байесовских моделей.

Рекрутинг: Prolific, UserInterviews, Respondent.io, dscout, традиционные панели (Cint, Dynata, Toluna), in-product intercept (Sprig, Maze).

Анализ и визуализация: встроенные отчёты Sawtooth, дашборды Displayr, Tableau или Looker, Excel для простой формулы.

AI-помощь: ChatGPT или Claude для генерации списка, поиска перекрытий, интерпретации результатов и драфта отчёта; Gemini для перевода между рынками.

Хорошо сочетается с

Survey (Sv): MaxDiff сам по себе опросный метод, но ранжирование часто поднимает follow-up вопросы, требующие открытых вопросов сразу после блока MaxDiff.
In-depth Interview (Di): MaxDiff говорит, что предпочитают пользователи; интервью — почему. Запуск 5–8 интервью с респондентами из топ- и нижних сегментов после опроса превращает оценки в действенный инсайт.
Concept Testing (Ct): когда MaxDiff выявляет топ-5 фич, тестирование концепций строит быстрые мокапы и проверяет, что предсказанное предпочтение проявляется в реальном взаимодействии.
Kano Model (Ka): Kano классифицирует фичи как базовые, performance или delight; MaxDiff ранжирует их по относительной важности. Вместе они отвечают и на «ожидаемо ли это?», и на «чего пользователи хотят больше всего?».
Persona Building (Ps): персоны описывают сегменты качественно; MaxDiff с сегментацией по персоне показывает количественно, какие приоритеты различаются по персоне.

Пример из практики

B2B SaaS для управления проектами имел бэклог из 47 кандидатов фич и бюджет роадмапа на 8. Продуктовая команда уже два месяца спорила, что строить, и каждый PM защищал свой набор. Глава продукта решил запустить MaxDiff, чтобы решить вопрос данными.

Команда сократила список до 28 фич через внутренний обзор, затем запустила MaxDiff с 4 фичами в наборе, 13 наборами на респондента и 320 клиентами из активной базы — разделёнными на три сегмента: соло-пользователи, тимлиды и админы аккаунтов на 10+ юзеров. Hierarchical Bayes показал, что у топ-5 фич утилита от 42 до 68, а нижние 8 фич сгрудились около нуля без статистически значимой разницы со случайностью.

Главной находкой стало расхождение по сегментам. Соло-пользователи в первую очередь хотели улучшения личного управления задачами (оценка 71); тимлиды хотели approval workflows (оценка 64); админы — управление правами пользователей (оценка 58). Топ-линейный ранг сливал это в обманчивый «всем нужно X». Команда решила построить топ-элемент каждого сегмента (3 фичи), плюс 2 фичи, попавшие в топ-7 у всех трёх сегментов (общий фокус), и убрала из роадмапа 8 нижних фич полностью. Через шесть месяцев NPS трёх сегментов вырос на 12, 9 и 14 пунктов соответственно — это подтвердило, что сегментированный подход выбрал правильную работу.

AI-промпты для этого метода

4 готовых AI-промптов с placeholder’ами — скопируйте и подставьте свой контекст. Все промпты для «MaxDiff» →.