Сколько названий можно протестировать на одном респонденте: разбор методологии

Вопрос всплывает в исследовательских чатах регулярно: сколько названий категории, вкуса или продукта реально оценить одному респонденту без потери качества данных? Общая интуиция «чем меньше, тем лучше» верная. Но если за ней нет конкретной цифры, разговор с заказчиком или коллегой быстро уходит в «обычно пять-шесть, кажется». Этой статьёй я закрываю пробел: разбираю, откуда берутся пороги, что говорят разработчики методологий и отраслевая практика, и как выбрать формат под свою задачу.

Представим типичный кейс. У бренда есть шесть вариантов названия для клубничного мороженого — «Клубничка», «Клубничный драйв», «Клубничный фреш», «Клубничный взрыв», «Лесная сказка», «Ягодный поцелуй» — и нужно понять, какое воспринимается лучше всего. Варианты тесно сгруппированы в одной категории, часть буквально описательная, часть образная. Это не гипотетическая задача, а рабочий бриф, с которым сталкивается большинство команд на этапе нейминга.

Универсального стандарта нет

Первое, что стоит сказать прямо: единой методологической цифры «максимум N названий на респондента» в литературе не существует. Порог зависит от трёх переменных: формата теста, сложности стимула (голое слово или слово плюс продуктовый контекст), и длины шкалы оценки на каждый вариант.

Есть при этом эмпирические коридоры, которые устойчиво встречаются в источниках. Дальше — три основных формата с конкретными цифрами и ссылками, по возрастанию допустимого числа названий на одного человека.

Формат 1. Монадический тест: одно название — один респондент

Каждая подгруппа аудитории видит ровно одно название. Респондент оценивает его по шкалам (привлекательность, соответствие продукту, запоминаемость, намерение купить), не сравнивая ни с чем. Итоговое сравнение делается между ячейками выборки, а не внутри головы отдельного человека.

Эта схема считается золотым стандартом именно для нейминга, потому что ближе всего воспроизводит реальную ситуацию: в магазине потребитель видит упаковку с одним названием, а не список из шести. Агентство Northbound в гайде по дизайну naming research настаивает на монадике для количественной валидации названий — по их логике, любое сравнение с соседями вынуждает включать аналитическое мышление, которого нет при реальной встрече с брендом.

Практические ориентиры по числу названий и выборке:

Qualtrics Product Naming рекомендует тестировать от 3 до 15 названий при типовой выборке около 300 завершённых анкет.
Fastuna, онлайн-платформа для агильных тестов названий, работает как монадический тест с максимумом 10 названий — каждый респондент оценивает одно.

Ограничение формата одно, но серьёзное: стоимость. Шесть названий при 100–150 респондентов на ячейку — это 600–900 интервью. Для бюджета пилотного теста такой объём не всегда реалистичен.

Формат 2. Последовательно-монадический тест: несколько названий подряд

Респондент видит несколько названий по очереди, в рандомизированном порядке, и оценивает каждое по одинаковой шкале. Это компромисс между чистотой монадики и экономией выборки.

Именно здесь вопрос «сколько максимум» становится содержательным. Источники дают разные цифры в зависимости от того, что считается стимулом.

Для полных концептов (название + описание + иллюстрация + ценообразование) консервативные рекомендации строже. Руководство UserIntuition по концепт-тестингу прямо ограничивает последовательные дизайны тремя-четырьмя концептами на респондента: «качество оценки падает после третьего концепта, а усталость становится заметным фактором».

Для голых названий — когда стимул это слово или словосочетание плюс одна строчка продуктового контекста — допустимо значительно больше. SurveyMonkey даёт операционную формулу: количество концептов, умноженное на число метрик, должно быть меньше 30 вопросов. При пяти метриках на название (привлекательность, соответствие категории, уникальность, запоминаемость, намерение купить) это даёт потолок в шесть названий. При трёх метриках — до десяти.

Zappi предупреждает об экспозиционном эффекте: в последовательном тесте «средний» вариант на фоне двух слабых получает завышенную оценку, а на фоне сильных — заниженную. Эффект усиливается по мере роста числа стимулов, поэтому вендор рекомендует последовательный тест как инструмент скрининга ранних идей, а не как замену монадике для финальной валидации.

Практический потолок для названий: шесть-восемь штук на респондента при обязательной ротации порядка и включении «разогревочного» названия-пустышки. Разогревочный стимул предъявляется первым, его оценки выбрасываются из анализа — он нужен, чтобы абсорбировать завышение, характерное для первой позиции. Эта техника описана в том же гайде UserIntuition как стандартная корректировка праймси-эффекта.

Формат 3. MaxDiff: названия в парных дуэлях

MaxDiff, или best-worst scaling, решает другую задачу. Респонденту показывают подмножество из четырёх-пяти названий и просят выбрать лучшее и худшее. Это повторяется восемь-пятнадцать раз с разными комбинациями, так что каждое название встречается в нескольких наборах. Дальше статистическая модель (обычно иерархический байесовский метод) восстанавливает относительные предпочтения и выдаёт оценку каждому названию на единой шкале от 0 до 100.

Этот подход был предложен Финном и Лувьером в 1992 году и стал отраслевым стандартом для задач, где нужно сравнить много близких вариантов без усталости респондента. Sawtooth Software, устанавливающая стандарты в области методов дискретного выбора, описывает MaxDiff как инструмент для оценки списков из 15–40 элементов, который справляется и с сотнями при продвинутых дизайнах.

Ключевая эмпирическая работа — исследование Хжана 2006 года, опубликованное Sawtooth, — сравнила на реальных респондентах варианты с тремя, четырьмя, пятью и семью элементами в одном экране. Вывод получился определённый: четыре-пять элементов работают оптимально, семь увеличивают процент бросивших опрос и удлиняют задачу нелинейно. Итоговая формула времени опроса: длина в секундах равна 9,4 × число вопросов плюс 17,5 × число элементов на вопрос.

Отдельно стоит упомянуть коммерческую вариацию — Ipsos Duel, специализированный продукт для тестирования названий. Он работает не как монадика и не как классический MaxDiff, а как серия парных дуэлей с замером времени отклика. Прямое заявленное предпочтение комбинируется со временем реакции, которое используется как косвенный индикатор неосознанной вовлечённости — тот слой, который Likert-шкала увидеть не может.

Для задачи с шестью названиями клубничного мороженого MaxDiff — методологически самый сильный выбор. Он принуждает респондента к реальному выбору с отказом от альтернативы, чего не дают балльные шкалы: при похожих вариантах шкалы Ликерта сжимаются, и все шесть получают примерно 4 из 5. Обзор MaxDiff от SurveyLab формулирует это прямо: «MaxDiff справляется с длинными списками из 20–30 пунктов лучше традиционных методов, которые в таких случаях упираются в усталость респондентов».

Особая проблема: близкие варианты в одной категории

Набор из «Клубничка» — «Клубничный фреш» — «Клубничный взрыв» — это не конкурентные бренды на разных полках, а соседние позиции на одном плече FMCG-матрицы. Их семантическая близость создаёт специфический риск, который редко обсуждают в общих гайдах по name testing.

В последовательно-монадическом формате с пятибалльной шкалой шесть близких вариантов склеиваются. Респондент не умеет тонко дискриминировать между «приятным» и «чуть более приятным», особенно когда оба стимула про клубничное мороженое. В итоге пять из шести получают Top-2 Box около 60 процентов — это ничего не говорит о реальном ранжировании.

Дополнительный риск в вашем наборе: образные названия («Лесная сказка», «Ягодный поцелуй») на фоне описательных попадают в другой когнитивный слот и получают либо сильно завышенную, либо сильно заниженную оценку. Контрастный эффект в последовательном тесте выражен тем сильнее, чем разнороднее стимулы.

Для наборов такого типа методологически корректнее монадика или MaxDiff. Если бюджет не вытягивает монадику на шесть ячеек — MaxDiff с 200–300 респондентами решит задачу с большей чувствительностью, чем экономия в последовательном тесте.

Системная оговорка про любой количественный name-тест

Есть более глубокое ограничение, которое стоит держать в голове при проектировании любого тестирования названий.

Канеман описывает две системы мышления: System 1 — быстрая, интуитивная, эмоциональная, и System 2 — медленная, аналитическая. В реальной ситуации встречи с брендом потребитель работает System 1. Название либо «заходит», либо нет, за доли секунды. Анкетная форма с шкалами и рейтингами вынуждает включать System 2 — и в этой системе всегда побеждает самое описательное название, то, которое легче всего интерпретировать аналитически.

Цитата из Northbound: «Наш System 2 любит описательные названия, которые прямо говорят, что это. А наш System 1 — тот, кто действительно судит, — часто предпочитает что-то другое». Это значит: если бы ваш набор тестировался по полной шкале, «Клубничный фреш» или «Клубничный взрыв» почти наверняка обойдут «Лесную сказку» — не потому что они сильнее, а потому что они легче легитимизируются в анкетной форме.

Частичный противовес этому системному смещению — комбинирование стандартных шкал с замером времени отклика как прокси для System 1 и открытыми ассоциативными вопросами. Именно такую комбинацию использует Ipsos Duel, а также методология NameStormers, где балльные шкалы дополняются замером времени реакции.

Конкретная рекомендация для шести названий в одной категории

Три варианта, от самого методологически сильного к самому экономному:

Монадический тест на шесть ячеек. Каждая ячейка — 100–150 респондентов, всего 600–900 интервью. Семь метрик на название: привлекательность, соответствие категории, соответствие вкусу, запоминаемость, уникальность, намерение купить, плюс одна открытая ассоциативная. Убирает сравнительный эффект, даёт абсолютные оценки, сопоставимые с нормами категории.
MaxDiff со всеми шестью названиями. Четыре названия в экране, десять-двенадцать раундов, 200–300 респондентов. Получите процентную шкалу относительной привлекательности с гораздо лучшей чувствительностью между близкими вариантами типа «Клубничный драйв» и «Клубничный взрыв», чем дают шкалы. Рекомендуется как основной инструмент именно для вашего кейса.
Последовательно-монадический тест. Все шесть названий плюс одно разогревочное, ротация порядка, сокращение метрик до трёх-четырёх. 200–300 респондентов. Потолок формата — именно шесть названий, больше разумный риск. Помните про экспозиционный эффект: результаты скажут вам, какое из шести относительно сильнее, но не дадут абсолютного уровня привлекательности, который можно сравнить с нормами.

Во всех трёх вариантах обязательно показывать название не изолированно, а вместе с коротким описанием продукта и, идеально, с упаковочным макетом. Lab42 в гайде по name testing напрямую пишет: «Важная часть теста названий — дать респондентам контекст: короткое описание продукта или услуги, которые название должно представлять». Без этого вы тестируете реакцию на слово в вакууме, а не на бренд.

Связанные материалы на этом сайте: гайд по MaxDiff и гайд по concept testing — подробнее про сэмплы, сценарии применения и ограничения каждого метода.