Nielsen Norman Group: ИИ помогает писать опросники, но по-прежнему требует экспертизы

ИИ в написании опросников — исследование Nielsen Norman Group

Генеративные ИИ-инструменты привлекательны для UX-исследователей, которым нужно быстро запустить опрос. При наличии чёткой исследовательской цели и правильно сформулированного промпта ChatGPT и Claude генерируют приличный черновик за несколько секунд.

Тем не менее приличный черновик — это только отправная точка. ИИ справляется с рядом аспектов проектирования опросников на удивление хорошо, однако в других областях демонстрирует слабости. Понимание того, где ИИ работает, а где ошибается, принципиально важно. Без этого понимания инструмент ускоряет процесс написания, одновременно внося проблемы, которые подрывают качество survey и, в конечном счёте, исследовательских инсайтов.

Где генеративный ИИ может помочь в создании опросника

При чётких инструкциях генеративные ИИ-инструменты справляются с несколькими базовыми аспектами написания survey. В большинстве случаев они умеют:

Генерировать релевантные вопросы, охватывающие несколько измерений исследовательской темы
Формулировать вопросы ясным, нейтральным и понятным языком
Избегать ряда типичных проблем, например двойных вопросов (double-barreled wording)
Группировать вопросы по смежным темам
Предлагать сочетание закрытых и открытых вопросов
Предлагать несколько вариантов формулировок вопросов и вариантов ответа

Это реальные сильные стороны. Для исследователей, которым нужна отправная точка — особенно в условиях ограниченного времени, — ИИ-черновики способны существенно ускорить разработку survey, давая хорошую начальную структуру.

Актуальные ограничения генеративного ИИ в разработке опросников

Несмотря на сильные стороны, ИИ-опросники часто упускают важные аспекты грамотного проектирования. Эти недостатки не всегда очевидны, что и делает их опасными: survey может выглядеть отполированным на первый взгляд, при этом содержать тонкие проблемы, снижающие качество данных или впечатление респондента.

Для изучения того, как эти проблемы проявляются на практике, автор статьи протестировала ChatGPT 5.4 (Thinking mode), Claude Sonnet 4.6 (Extended Thinking mode) и Claude Opus 4.6 (Extended Thinking mode) с одним и тем же промптом для написания опросника. Промпт запускался как минимум дважды в каждом инструменте, чтобы отследить вариативность результатов.

Использованный промпт был направлен на создание survey для стадии discovery при разработке телемедицинской платформы: цель — выяснить, какие барьеры мешают пользователям получать медицинскую помощь онлайн и что сделало бы опыт более полезным, надёжным и удобным.

В созданных черновиках survey проявился ряд проблем.

ИИ недооценивает нагрузку на респондентов

Существенное ограничение: генеративный ИИ склонен недооценивать, насколько survey будет ощущаться трудоёмкой для респондентов. Поскольку ИИ не проходит survey в роли респондента, он может не замечать формы когнитивного трения, которые делают опрос утомительным или вызывающим раздражение на практике.

Например, ИИ-инструменты могут:

Недооценивать длину survey. ИИ может уверенно утверждать, что survey займёт не больше 10 минут, хотя содержит слишком много вопросов. В других случаях он генерирует чрезмерно длинный черновик и предлагает рекомендации по сокращению. В обоих случаях нужна человеческая проверка для реальной оценки нагрузки и удаления лишнего.
Рекомендовать табличные вопросы (grid questions). ИИ может предлагать использовать табличные вопросы для представления вопросов со шкалой оценки, хотя этот формат лучше избегать: он повышает нагрузку на респондентов и провоцирует «прямолинейное» поведение (straightlining) — когда участники механически выбирают один и тот же ответ по всем пунктам, не задумываясь.
Генерировать слишком много вариантов для вопросов с множественным выбором. ИИ может создавать длинные списки вариантов ответа — более 10 позиций — для multiselect-вопросов. Даже если варианты правдоподобны, слишком большой выбор затрудняет восприятие и оценку, особенно при нескольких таких вопросах подряд.
Размещать демографические вопросы слишком рано. ИИ-инструменты могут рекомендовать задавать демографические вопросы в начале survey. Однако их лучше размещать в конце (если они не используются как вопросы-скринеры): там они воспринимаются менее навязчиво и реже отпугивают участников на раннем этапе.
Использовать непоследовательные инструкции для вопросов с множественным выбором. В черновике survey может быть требование «Выберите ровно 3» для одного multiselect-вопроса и «Выберите не более 2» для другого без видимых причин для различия. Такая непоследовательность делает survey менее предсказуемой, повышает когнитивную нагрузку и ведёт к ошибкам при выборе ответа.

ИИ может генерировать некорректные варианты ответа

Другая проблема: ИИ способен создавать варианты ответа, которые на первый взгляд выглядят разумно, но не обеспечивают высококачественное измерение. Написание хороших вариантов ответа — это больше, чем подбор правдоподобных позиций. Варианты должны быть полными, взаимоисключающими там, где это необходимо, сбалансированными, легко интерпретируемыми и отражать то, как респонденты естественно думают о теме. Такие нюансы опытный специалист по проектированию опросников замечает чаще, даже когда черновик звучит отполированно.

Например, ИИ может:

Пропускать вариант «Другое», когда он необходим. ИИ может генерировать список правдоподобных вариантов ответа без включения пункта «Другое», если список не является исчерпывающим. Это затрудняет точный ответ для тех, кому ни один из предложенных вариантов не подходит полностью.
Создавать семантически несбалансированные шкалы оценки. В одном из тестов ИИ предложил конечные точки шкалы «Очень плохо» и «Отлично». Эти обозначения не являются параллельными, что делает шкалу неравномерной и влияет на интерпретацию вариантов ответа.
Изобретать собственные варианты для шкалы оценки. ИИ может придумывать нестандартные шкалы вместо использования хорошо зарекомендовавших себя форматов — шкал Лайкерта или семантического дифференциала. Пусть такие обозначения звучат отполированно, они труднее интерпретируются респондентами и снижают надёжность результатов.
Использовать неверные категории для форматов в стиле Лайкерта. ИИ может создавать варианты ответа, похожие на стандартный формат Лайкерта, но без ожидаемых категорий. Например, один из инструментов сгенерировал: «Категорически не согласен», «Отчасти не согласен», «Ни согласен, ни не согласен», «Отчасти согласен» и «Категорически согласен» — пропустив «Не согласен» и «Согласен». Это несоответствие стандартной практике затрудняет интерпретацию шкалы.

В ходе тестирования Claude Opus 4.6 (Extended Thinking) рекомендовал табличный вопрос с семантически несбалансированными вариантами ответа — две проблемы, снижающие качество survey. Кроме того, он предложил формат в стиле Лайкерта с пропущенными стандартными категориями «Согласен» и «Не согласен».

ИИ может упускать форматы ответов, заслуживающие рассмотрения

ИИ не всегда рассматривает полный спектр форматов ответов, которые могут хорошо подойти для конкретного survey. В результате он может упускать методологически сильные форматы, хорошо соответствующие исследовательской цели.

Например, ИИ может не рассматривать:

Семантический дифференциал. Ни один из протестированных ИИ-инструментов не рассмотрел возможность использования шкалы семантического дифференциала, даже в сценариях, где она была бы сильным выбором. Этот формат особенно ценен тем, что снижает acquiescence bias (тенденцию соглашаться) и social desirability bias (социально желательные ответы).
Простое ранжирование. ИИ-инструменты не всегда рассматривают вопросы с простым ранжированием (например, «Расположите следующие пункты от “Самого важного” до “Наименее важного”»), хотя этот формат полезен, когда цель — понять относительные приоритеты участников.

Вывод

Генеративный ИИ способен создавать действительно сильные черновики survey и, при правильном промптинге, может быть ценным ускорителем в процессе проектирования. Он помогает исследователям быстро генерировать полезные вопросы, исследовать альтернативные формулировки и создавать начальную структуру, на которую иначе ушло бы значительно больше времени.

Но эти сильные результаты надёжны только тогда, когда опытный человек активно проверяет и дорабатывает их. ИИ может поддерживать работу, однако только специалист по проектированию опросников отличает черновик, который выглядит хорошим, от черновика, который даст действительно полезные и достоверные данные. Наиболее эффективный способ использовать генеративный ИИ — не как замену экспертизы в области survey, а как мощного партнёра по созданию черновиков, который работает лучше всего под квалифицированным человеческим руководством.

Nielsen Norman Group: ИИ помогает писать опросники, но по-прежнему требует экспертизы

Где генеративный ИИ может помочь в создании опросника

Актуальные ограничения генеративного ИИ в разработке опросников

ИИ недооценивает нагрузку на респондентов

ИИ может генерировать некорректные варианты ответа

ИИ может упускать форматы ответов, заслуживающие рассмотрения

Рекомендации по работе с ИИ при написании опросников

1. Начните с чёткой исследовательской цели

2. Явно просите следовать лучшим практикам проектирования опросников

3. Используйте ИИ для генерации альтернатив, а не финальных вопросов

4. Тщательно проверяйте формулировки вопросов и варианты ответов

5. Оценивайте survey с точки зрения нагрузки на респондентов

6. Рассматривайте разные форматы ответов

7. Проводите пилотное тестирование с реальными людьми

Вывод