Nielsen Norman Group: ИИ помогает писать опросники, но по-прежнему требует экспертизы
Генеративные ИИ-инструменты привлекательны для UX-исследователей, которым нужно быстро запустить опрос. При наличии чёткой исследовательской цели и правильно сформулированного промпта ChatGPT и Claude генерируют приличный черновик за несколько секунд.
Тем не менее приличный черновик — это только отправная точка. ИИ справляется с рядом аспектов проектирования опросников на удивление хорошо, однако в других областях демонстрирует слабости. Понимание того, где ИИ работает, а где ошибается, принципиально важно. Без этого понимания инструмент ускоряет процесс написания, одновременно внося проблемы, которые подрывают качество survey и, в конечном счёте, исследовательских инсайтов.
Где генеративный ИИ может помочь в создании опросника
При чётких инструкциях генеративные ИИ-инструменты справляются с несколькими базовыми аспектами написания survey. В большинстве случаев они умеют:
- Генерировать релевантные вопросы, охватывающие несколько измерений исследовательской темы
- Формулировать вопросы ясным, нейтральным и понятным языком
- Избегать ряда типичных проблем, например двойных вопросов (double-barreled wording)
- Группировать вопросы по смежным темам
- Предлагать сочетание закрытых и открытых вопросов
- Предлагать несколько вариантов формулировок вопросов и вариантов ответа
Это реальные сильные стороны. Для исследователей, которым нужна отправная точка — особенно в условиях ограниченного времени, — ИИ-черновики способны существенно ускорить разработку survey, давая хорошую начальную структуру.
Актуальные ограничения генеративного ИИ в разработке опросников
Несмотря на сильные стороны, ИИ-опросники часто упускают важные аспекты грамотного проектирования. Эти недостатки не всегда очевидны, что и делает их опасными: survey может выглядеть отполированным на первый взгляд, при этом содержать тонкие проблемы, снижающие качество данных или впечатление респондента.
Для изучения того, как эти проблемы проявляются на практике, автор статьи протестировала ChatGPT 5.4 (Thinking mode), Claude Sonnet 4.6 (Extended Thinking mode) и Claude Opus 4.6 (Extended Thinking mode) с одним и тем же промптом для написания опросника. Промпт запускался как минимум дважды в каждом инструменте, чтобы отследить вариативность результатов.
Использованный промпт был направлен на создание survey для стадии discovery при разработке телемедицинской платформы: цель — выяснить, какие барьеры мешают пользователям получать медицинскую помощь онлайн и что сделало бы опыт более полезным, надёжным и удобным.
В созданных черновиках survey проявился ряд проблем.
ИИ недооценивает нагрузку на респондентов
Существенное ограничение: генеративный ИИ склонен недооценивать, насколько survey будет ощущаться трудоёмкой для респондентов. Поскольку ИИ не проходит survey в роли респондента, он может не замечать формы когнитивного трения, которые делают опрос утомительным или вызывающим раздражение на практике.
Например, ИИ-инструменты могут:
- Недооценивать длину survey. ИИ может уверенно утверждать, что survey займёт не больше 10 минут, хотя содержит слишком много вопросов. В других случаях он генерирует чрезмерно длинный черновик и предлагает рекомендации по сокращению. В обоих случаях нужна человеческая проверка для реальной оценки нагрузки и удаления лишнего.
- Рекомендовать табличные вопросы (grid questions). ИИ может предлагать использовать табличные вопросы для представления вопросов со шкалой оценки, хотя этот формат лучше избегать: он повышает нагрузку на респондентов и провоцирует «прямолинейное» поведение (straightlining) — когда участники механически выбирают один и тот же ответ по всем пунктам, не задумываясь.
- Генерировать слишком много вариантов для вопросов с множественным выбором. ИИ может создавать длинные списки вариантов ответа — более 10 позиций — для multiselect-вопросов. Даже если варианты правдоподобны, слишком большой выбор затрудняет восприятие и оценку, особенно при нескольких таких вопросах подряд.
- Размещать демографические вопросы слишком рано. ИИ-инструменты могут рекомендовать задавать демографические вопросы в начале survey. Однако их лучше размещать в конце (если они не используются как вопросы-скринеры): там они воспринимаются менее навязчиво и реже отпугивают участников на раннем этапе.
- Использовать непоследовательные инструкции для вопросов с множественным выбором. В черновике survey может быть требование «Выберите ровно 3» для одного multiselect-вопроса и «Выберите не более 2» для другого без видимых причин для различия. Такая непоследовательность делает survey менее предсказуемой, повышает когнитивную нагрузку и ведёт к ошибкам при выборе ответа.
ИИ может генерировать некорректные варианты ответа
Другая проблема: ИИ способен создавать варианты ответа, которые на первый взгляд выглядят разумно, но не обеспечивают высококачественное измерение. Написание хороших вариантов ответа — это больше, чем подбор правдоподобных позиций. Варианты должны быть полными, взаимоисключающими там, где это необходимо, сбалансированными, легко интерпретируемыми и отражать то, как респонденты естественно думают о теме. Такие нюансы опытный специалист по проектированию опросников замечает чаще, даже когда черновик звучит отполированно.
Например, ИИ может:
- Пропускать вариант «Другое», когда он необходим. ИИ может генерировать список правдоподобных вариантов ответа без включения пункта «Другое», если список не является исчерпывающим. Это затрудняет точный ответ для тех, кому ни один из предложенных вариантов не подходит полностью.
- Создавать семантически несбалансированные шкалы оценки. В одном из тестов ИИ предложил конечные точки шкалы «Очень плохо» и «Отлично». Эти обозначения не являются параллельными, что делает шкалу неравномерной и влияет на интерпретацию вариантов ответа.
- Изобретать собственные варианты для шкалы оценки. ИИ может придумывать нестандартные шкалы вместо использования хорошо зарекомендовавших себя форматов — шкал Лайкерта или семантического дифференциала. Пусть такие обозначения звучат отполированно, они труднее интерпретируются респондентами и снижают надёжность результатов.
- Использовать неверные категории для форматов в стиле Лайкерта. ИИ может создавать варианты ответа, похожие на стандартный формат Лайкерта, но без ожидаемых категорий. Например, один из инструментов сгенерировал: «Категорически не согласен», «Отчасти не согласен», «Ни согласен, ни не согласен», «Отчасти согласен» и «Категорически согласен» — пропустив «Не согласен» и «Согласен». Это несоответствие стандартной практике затрудняет интерпретацию шкалы.
В ходе тестирования Claude Opus 4.6 (Extended Thinking) рекомендовал табличный вопрос с семантически несбалансированными вариантами ответа — две проблемы, снижающие качество survey. Кроме того, он предложил формат в стиле Лайкерта с пропущенными стандартными категориями «Согласен» и «Не согласен».
ИИ может упускать форматы ответов, заслуживающие рассмотрения
ИИ не всегда рассматривает полный спектр форматов ответов, которые могут хорошо подойти для конкретного survey. В результате он может упускать методологически сильные форматы, хорошо соответствующие исследовательской цели.
Например, ИИ может не рассматривать:
- Семантический дифференциал. Ни один из протестированных ИИ-инструментов не рассмотрел возможность использования шкалы семантического дифференциала, даже в сценариях, где она была бы сильным выбором. Этот формат особенно ценен тем, что снижает acquiescence bias (тенденцию соглашаться) и social desirability bias (социально желательные ответы).
- Простое ранжирование. ИИ-инструменты не всегда рассматривают вопросы с простым ранжированием (например, «Расположите следующие пункты от “Самого важного” до “Наименее важного”»), хотя этот формат полезен, когда цель — понять относительные приоритеты участников.
Рекомендации по работе с ИИ при написании опросников
Ниже приведены 7 рекомендаций по использованию генеративных ИИ-инструментов в проектировании survey. Ключевой принцип: использовать ИИ как инструмент для черновика, но всегда полагаться на человеческую экспертизу для надзора.
1. Начните с чёткой исследовательской цели
ИИ работает лучше всего, когда ему дают конкретную цель, понятный контекст и достаточно информации о том, что нужно изучить. Чем точнее описана задача, тем выше вероятность, что инструмент сгенерирует релевантные и практически применимые вопросы.
Промпт может включать:
- Исследовательские вопросы
- Бизнес-решения или продуктовые решения, которые будут приняты по результатам
- Целевую аудиторию
- Аспекты исследовательской цели, которые не стоит делать очевидными для участников
- План анализа (например, если вы не планируете собирать качественные данные, укажите это, чтобы ИИ не предлагал открытые вопросы)
- Желаемую длину survey
2. Явно просите следовать лучшим практикам проектирования опросников
Не предполагайте, что модель сама будет генерировать качественные вопросы. Укажите ей включить лучшие практики проектирования survey.
Можно прямо попросить избегать конкретных распространённых проблем: двойных вопросов, наводящих формулировок, расплывчатых понятий, слишком длинных списков вариантов и форматов, создающих ненужную нагрузку. Если у вас есть платная подписка на Claude, можно создать Claude Skill с документацией этих лучших практик.
3. Используйте ИИ для генерации альтернатив, а не финальных вопросов
Одно из наиболее полезных применений генеративного ИИ — создание нескольких вариантов одного вопроса или набора ответов. Это делается с помощью простого промпта: «Предложи 5 альтернативных формулировок для этого вопроса survey». Такой подход упрощает сравнение формулировок, выявление тонких проблем и более эффективную доработку черновика.
Во многих случаях лучший итоговый вопрос получается из комбинации сильных частей нескольких альтернатив.
4. Тщательно проверяйте формулировки вопросов и варианты ответов
Даже если вопрос с виду звучит убедительно, его формулировка и варианты ответа могут быть некорректными. Проверяйте: достаточно ли ясен, конкретен и нейтрален вопрос; являются ли варианты ответа исчерпывающими, взаимоисключающими там, где нужно, сбалансированными, семантически параллельными и соответствующими тому, как респонденты думают о теме.
5. Оценивайте survey с точки зрения нагрузки на респондентов
Проверяйте, действительно ли survey вписывается в желаемую длину и насколько легко её проходить.
Обращайте внимание на признаки избыточной нагрузки: слишком много вопросов, длинные списки для multiselect, непоследовательные инструкции, навязчивые вопросы в начале или форматы — например, таблицы, — которые, вероятно, будут раздражать респондентов.
6. Рассматривайте разные форматы ответов
Не ограничивайтесь форматами, которые случайно предложил ИИ. В ряде случаев другой формат — например, семантический дифференциал или простое ранжирование — лучше соответствует исследовательской цели, чем стандартная структура, выданная инструментом.
7. Проводите пилотное тестирование с реальными людьми
Независимо от того, насколько отполированным выглядит черновик, нужно видеть, как на него реагируют реальные участники. Пилотное тестирование может выявить непонимание или трения, которые ИИ просто не способен обнаружить. Пилотирование — обязательный этап в процессе проектирования survey вне зависимости от того, использовался ли ИИ, поскольку команды не могут заранее знать, как участники будут интерпретировать вопросы.
Вывод
Генеративный ИИ способен создавать действительно сильные черновики survey и, при правильном промптинге, может быть ценным ускорителем в процессе проектирования. Он помогает исследователям быстро генерировать полезные вопросы, исследовать альтернативные формулировки и создавать начальную структуру, на которую иначе ушло бы значительно больше времени.
Но эти сильные результаты надёжны только тогда, когда опытный человек активно проверяет и дорабатывает их. ИИ может поддерживать работу, однако только специалист по проектированию опросников отличает черновик, который выглядит хорошим, от черновика, который даст действительно полезные и достоверные данные. Наиболее эффективный способ использовать генеративный ИИ — не как замену экспертизы в области survey, а как мощного партнёра по созданию черновиков, который работает лучше всего под квалифицированным человеческим руководством.