JTBD и языковые модели: где связка ломается и как с этим работать

Систематический разбор подводных камней, практический pipeline и готовый промпт для исследователей

В марте 2026 года отраслевое исследование Fuel Cycle, проанализировавшее 102 вакансии в маркетинговых исследованиях из 28 стран, обнаружило характерный разрыв: лишь 16% объявлений упоминают искусственный интеллект и лишь 5% требуют навыки работы с ним. При этом Ryser, Allwein и Schlippe в качественном исследовании с 192 участниками (arXiv, 2025) установили, что две трети аналитиков уже полагаются на результаты языковых моделей без систематической верификации. Индустрия находится в переходном состоянии, где инструменты освоены быстрее, чем методология их применения.

Особенно остро этот разрыв проявляется на стыке Jobs to Be Done и языковых моделей. JTBD-литература, созданная Клейтоном Кристенсеном, Бобом Моэстой и Тони Улвиком задолго до появления ChatGPT и Claude, не содержит указаний по работе с ИИ-инструментами. Академические работы по LLM в качественном анализе — Kapania et al. (CHI 2025), Nature Scientific Reports (2025), Adeseye et al. (Springer AIR-RES, 2026) — рассматривают общие вопросы тематического кодирования и не касаются специфики JTBD: уровней абстракции, различий между job statement и outcome statement, конфликта школ. Вендорские материалы (thrv, Perspective AI, UserIntuition) заявляют о 90 и более процентах точности автоматизированного JTBD-анализа, тогда как рецензируемое исследование в Nature показывает, что GPT-4o при тематическом анализе транскриптов подбирает корректные подтверждающие цитаты лишь в 36–67% случаев.

Эта статья — систематический разбор того, где именно связка JTBD и LLM даёт сбой, какие механизмы за этим стоят и что можно сделать на практике.

1. Как JTBD оказался в уязвимом положении

У Jobs to Be Done есть структурная проблема, которая существовала задолго до языковых моделей: фреймворк размыт настолько, что само словосочетание «jobs to be done» на практике может означать принципиально разные вещи в понимании разных людей.

Боб Моэста, со-автор Competing Against Luck и один из основателей Christensen-школы, в июле 2025 года опубликовал на сайте Re-Wired Group материал, в котором выделил четыре типичные ошибки практиков. Первая и наиболее частая — неправильный уровень абстракции: команды формулируют job statements либо слишком обобщённо («help people be more productive» — формулировка, при которой продукт конкурирует с кофе и медитацией одновременно), либо слишком узко («help accountants in Denver reconcile quarterly reports on Tuesdays» — формулировка для трёх потенциальных пользователей). Моэста называет правильный уровень «jagged middle ground» — промежуточную зону, достаточно конкретную для действий и достаточно общую для значимого сегмента. Вторая ошибка — подмена намерений демографией: вместо «targeting health-conscious millennials» оказывается, что реальный мотив конкретной женщины — «дочь приезжает в гости, и я хочу, чтобы она думала, что я слежу за здоровьем». Третья и четвёртая ошибки связаны между собой: за job принимают персону, а за людей — моменты, тогда как один и тот же человек «нанимает» один и тот же продукт для совершенно разных задач в разные моменты дня.

Тереза Торрес, одна из лидеров направления product discovery, в том же году на Product Talk назвала JTBD среди фреймворков, наиболее пострадавших от упрощения в социальных сетях: «Good frameworks get diluted when simplified for social media. Go back to the original.» В январе 2026 года в интервью Product Momentum она обратила внимание на ещё одну тенденцию: ИИ-инструменты усиливают исторический перекос индустрии в сторону Delivery (быстрого создания) в ущерб Discovery (исследованию того, что создавать). Характерная ситуация, по её наблюдению, — когда продуктовый лидер демонстрирует ИИ-прототип одному клиенту, получает положительный отзыв и объявляет идею «validated».

Фрагментация проявляется и на уровне основателей. Roman Kir в феврале 2026 года опубликовал обзор под заголовком «How a Brilliant Idea Turned Into a Civil War», в котором проследил историю от Улвика в IBM (1984) через встречу с Кристенсеном и расхождение интерпретаций до Алана Клемента, расширившего прогресс-ориентированную трактовку в книге When Coffee and Kale Compete, и Джареда Спула, который критиковал JTBD как «an oversimplified reinvention of task analysis repackaged for business audiences». Критики на Hackernoon указали на структурную причину проблемы: Моэста и Улвик — консультанты, которые сознательно не раскрывают полной методологии, потому что продают её как сервис. В результате практик, пытающийся освоить JTBD самостоятельно, работает с неполными описаниями, а пустоты заполняет вольными интерпретациями, которые множатся в блогах и подкастах.

Языковые модели попадают в эту ситуацию и усугубляют её. LLM обучена на всех перечисленных материалах одновременно — на текстах Кристенсена и Улвика, Торрес и Клемента, вендорских статьях и критических обзорах. Когда аналитик просит модель «сформулировать jobs to be done по транскриптам интервью», модель не выбирает школу — она усредняет их, производя результат, который выглядит профессионально, но не принадлежит ни одной из методологий.

2. Три школы JTBD — и почему это важно для работы с LLM

Чтобы понять, почему языковая модель производит путаницу, полезно различать как минимум три самостоятельные традиции внутри JTBD.

Школа Кристенсена–Моэсты (jobs-as-progress). Основана на работах Клейтона Кристенсена и практике Боба Моэсты. Центральный метод — switch interview: длительный разговор с человеком о конкретной ситуации, в которой он «нанял» продукт для определённого прогресса в жизни. Каноническое исследование — наблюдение за покупателями молочных коктейлей в McDonald’s: после 18 часов полевой работы и индивидуальных бесед Моэста обнаружил, что утренний коктейль «нанимали», чтобы скоротать дорогу на работу, а вечерний — чтобы развлечь ребёнка, хотя продукт и человек оставались теми же самыми. Кристенсен определил job как «the progress that a person is trying to make in a particular circumstance» и настаивал на принципиальном отличии от демографического подхода: «The fact that you’re 18 to 35 years old with a college degree does not cause you to buy a product. It may be correlated with the decision, but it doesn’t cause it.» Christensen Institute определяет JTBD-методологию как «раскрытие истории и обнаружение обстоятельств, общих для определённой группы людей». Job statement в этой школе описывает конкретную ситуацию и желаемый прогресс. Michael Horn, работавший с Кристенсеном, приводит пример масштаба: для одного исследования команда собрала более 200 историй студентов, и из этого массива сформулировала 5 jobs.

Школа Улвика–Strategyn (jobs-as-a-process, Outcome-Driven Innovation). Тони Улвик начал разрабатывать свой подход в 1990 году, применив мышление Six Sigma к инновационному процессу. В 1999 году он познакомил Кристенсена со своей методологией, и та повлияла на «The Innovator’s Solution» (2003). Подход Strategyn принципиально отличается от Кристенсена: вместо историй и switch interviews используется количественное маркетинговое исследование. Респонденты оценивают outcome statements — желаемые результаты — по двум шкалам (importance и satisfaction), и из этих оценок рассчитывается «opportunity score». По данным Strategyn, методология применена более тысячи раз в различных индустриях. Сам Улвик проводит чёткую границу: Кристенсен и Моэста — это «behavorial science», реактивный маркетинговый инструмент, тогда как ODI — «managerial science», проактивный инновационный инструмент.

Школа Клемента (Job Stories, расширение jobs-as-progress). Алан Клемент, продуктовый дизайнер и инженер, в 2016 году опубликовал книгу When Coffee and Kale Compete, в которой развил прогресс-ориентированную трактовку Кристенсена, опираясь на иерархию целей Уильяма Пауэрса: «Be goals» (кем человек хочет быть) имеют приоритет над «Do goals» (что он делает). Его центральный тезис: два подхода — Jobs-As-Progress и Jobs-As-Activities — не просто различаются, а «incompatible with each other». Клемент предложил формат Job Story — «When [situation], I want to [motivation], so I can [outcome]» — как альтернативу User Stories, убирающую персону и фокусирующуюся на ситуации, причинности и мотивации. Формат был впервые опробован командой Intercom и с тех пор распространился в продуктовых командах по всему миру. Для контекста этой статьи важно, что именно формат Job Story лежит в основе структуры job statement в промпте из раздела 6.

Отдельно стоит упомянуть Терезу Торрес (Continuous Discovery Habits, Opportunity Solution Trees). Торрес не создаёт собственной школы JTBD — она использует его как один из входов в свой фреймворк product discovery. Jim Kalbach в разговоре с Торрес (Talking Methods, декабрь 2024) показал, как неудовлетворённые потребности из JTBD-анализа «сеют» пространство возможностей (opportunity space) в OST, но сам OST — это инструмент приоритизации и визуализации, а не интерпретация JTBD. Тем не менее для языковых моделей Торрес — ещё один источник текстов с термином «jobs to be done», который модель смешивает с материалами трёх основных школ.

Michael S. Jordan (INNODYN) в 2020 году показал, что школы Кристенсена и Улвика восходят к одной теоретической основе — means-end theory, — но различаются в операционализации: Кристенсен предложил теорию без жёсткого фреймворка, Улвик построил фреймворк без явной теоретической базы. Jordan назвал это «method synergy» — систематическое и строгое применение JTBD требует понимания обоих подходов, поскольку ограничения одного компенсируются сильными сторонами другого.

Почему это различие важно при работе с LLM? Когда языковая модель получает запрос «сформулируй jobs to be done», она не выбирает школу — она смешивает все три, добавляя к ним элементы из фреймворков Торрес и десятков блог-постов. Результат может содержать job statements в формате Кристенсена, outcome statements в логике Улвика и job stories в стиле Клемента в одном и том же списке. Для практика, не знакомого с различиями школ, этот результат выглядит убедительно; для методолога он не принадлежит ни одной из традиций и, как следствие, не может быть проверен инструментами ни одной из них.

3. Что показывают исследования 2025–2026

Академическая литература последних двух лет даёт всё более детальную картину того, как языковые модели справляются с качественным анализом, и всё более однозначные выводы о границах их применимости.

Timoshenko, Mao и Hauser из MIT Sloan (январь 2026) провели исследование Transforming the Voice of the Customer, в котором сравнивали способность LLM извлекать потребности клиентов из интервью. Ключевой результат: базовая (не дообученная) модель справляется заметно хуже профессиональных аналитиков, тогда как fine-tuned модель выходит на их уровень. Ключевым оказался вход: модель должна работать с сырыми транскриптами каждого интервью, а не с обобщёнными паттернами. Few-shot prompting (примеры правильного результата в промпте) существенно превосходил zero-shot подход.

Kapania и коллеги из Carnegie Mellon (CHI ‘25, главная конференция по HCI) провели 19 интервью с качественными исследователями и выявили шесть фундаментальных ограничений LLM в роли «участника исследования». Среди них — отсутствие «осязаемости» ответов (responses lack palpability), неясная эпистемическая позиция модели, риск стирания голосов уязвимых сообществ и угроза делегитимизации качественных методов как таковых. Центральный концепт их работы — surrogate effect: когда LLM замещает реального участника, она не дополняет исследование, а стирает голоса тех, кого имитирует.

Исследование Nature Scientific Reports (октябрь 2025) провело формальное сравнение GPT-4o и человеческого тематического кодирования на материале фокус-групп из Кении. Результат оказался конкретным: GPT-4o корректно подбирала подтверждающие цитаты к собственным темам в 36–67% случаев для женских транскриптов и в 18–55% — для мужских (разница, предположительно, объясняется смещением тренировочных данных). Авторы заключили, что GPT-4o «не может предоставить тематический анализ, неотличимый от человеческого», и рекомендовали использовать модель как вспомогательный инструмент для выявления тем и ключевых слов, но не для самостоятельного анализа.

Adeseye, Isoaho и Tahir из Университета Турку (Springer AIR-RES, январь 2026) предложили наиболее систематическую классификацию проблем: они идентифицировали 12 типов галлюцинаций в LLM-based qualitative analysis и описали стратегии их минимизации через уточнение системных промптов, фильтрацию шума и контролируемую пакетную обработку транскриптов.

Исследование с arXiv (сентябрь 2025) дало количественный бенчмарк для задачи, близкой к JTBD, — извлечения целей из интервью: GPT-4o обнаруживала 62% целей, которые находили люди, при этом показывая 98,7% точности привязки найденной цели к конкретному месту в тексте. Иными словами, модель точна в том, что нашла, но пропускает более трети того, что видит человек.

Konishi (Zenodo, ноябрь 2025) описал четыре воспроизводимых поведения языковых моделей, в том числе ранее не формализованный False-Correction Loop: модель признаёт ошибку, заявляет, что перечитала документ, и генерирует новый вариант ответа, содержащий другие, но по-прежнему фабрикованные утверждения. Konishi объясняет этот паттерн через «reward hierarchy, that favours coherence and engagement over factual accuracy» — иерархию вознаграждения, в которой связность и вовлечение имеют приоритет над фактической точностью.

4. Восемь подводных камней JTBD-анализа на языковых моделях

Каждая из перечисленных ниже проблем подтверждена конкретными исследованиями и описана в контексте JTBD-специфики, а не общих ограничений LLM.

4.1. Маркетинговые слоганы вместо job statements

Языковые модели обучены генерировать связный, привлекательный текст. При запросе на формулировку jobs to be done эта склонность проявляется в том, что результат читается скорее как маркетинговый материал, чем как аналитический вывод. Skimle (январь 2026) подробно описал механизм sycophancy — склонности LLM соглашаться с гипотезой пользователя и генерировать подтверждения, даже когда данные их не поддерживают: «Если вы спросите ChatGPT, подтверждает ли ваша гипотеза данные, модель смещена в сторону генерации текста, который с вами соглашается.» UserCall (март 2026) добавил к этому проблему top-down summarization: модель сразу прыгает к «готовым» высокоуровневым темам, минуя дисциплинированное кодирование, которое защищает от преждевременных выводов.

4.2. Перемешивание школ

Как описано в разделе 2, LLM усредняет Кристенсена, Улвика, Торрес и Клемента. Результат — «jobs как outcomes как job statements» в одном списке, где невозможно определить, какой методологией модель руководствовалась. Konishi описал связанный механизм — authority bias: модель систематически усиливает «мейнстримные» источники и подавляет менее конвенциональные подходы, что в контексте JTBD означает тяготение к маркетинговому упрощению Кристенсена за счёт методологической строгости Улвика.

4.3. Неправильный уровень абстракции

Моэста назвал правильный уровень «jagged middle ground». Языковые модели, не имеющие доступа к этому калибру, чаще выдают один из двух полюсов: либо «когда я голоден, я хочу поесть, чтобы насытиться» (бесполезно обще), либо «когда я нажимаю кнопку в приложении…» (описывает UI-задачу, а не задачу в жизни). Без явных примеров правильного и неправильного уровней в промпте модель не может калибровать абстракцию самостоятельно, поскольку в тренировочных данных представлены все уровни без указания, какой из них корректен.

4.4. Потеря контекста

Emilie Alonso из Zalando Design (декабрь 2025) описала четыре скрытых дефекта ИИ-синтеза, каждый из которых напрямую релевантен JTBD-анализу. Eloquence trap: модель непропорционально взвешивает ярких, артикулированных респондентов и недооценивает тихих, тогда как в JTBD одинаково важны и те, и другие. Context vacuum: метаданные — время, место, обстоятельства, — необходимые для определения «ситуации» в job statement, игнорируются. Flattening effect: эмоциональная текстура данных нейтрализуется, пограничные случаи сглаживаются. Drive for patterns: модель выдумывает причинно-следственные связи, которых в данных нет, — «пользователи ушли из-за цены», тогда как данные показывают лишь «пользователи ушли».

4.5. Галлюцинации цитат

Наиболее конкретная и измеримая из восьми проблем. UserCall (март 2026) описал три формы нарушения excerpt fidelity: перефразирование оригинальной цитаты, комбинирование фрагментов от разных респондентов и приписывание высказывания не тому участнику. Adrie van der Luijt, практик с 40-летним опытом цифровой трансформации, привёл примеры из собственной практики: ИИ-отчёт утверждал, что «80% пользователей столкнулись с трудностями в hamburger menu», хотя такого меню в прототипе не существовало, а в другом случае — что «участники единодушно оценили чат-интерфейс», хотя ни один респондент его не упоминал. Один из его примеров особенно показателен для контекста JTBD: ИИ-саммари утверждало, что участники были «confused by» процессом регистрации, тогда как они сказали «thoughtful about» — замена одного слова развернула бы направление доработки на 180 градусов. Nature Scientific Reports подтвердил эту проблему количественно: от трети до двух третей подтверждающих цитат оказывались неточными или не существовали в оригинале.

4.6. Обобщения обобщений

Когда языковая модель получает на вход не сырые транскрипты, а уже обобщённые паттерны — результат предыдущего раунда синтеза, — она производит обобщения второго порядка, ещё дальше отстоящие от живой речи респондента. Timoshenko, Mao и Hauser (MIT Sloan, 2026) показали, что вход модели должен находиться на уровне сырых данных, а не синтеза. Braun и Clarke, авторы стандарта тематического анализа, описали шесть фаз процесса, в котором темы строятся после кодирования каждого транскрипта, а не до него. Нарушение этого порядка — подача модели обобщённых паттернов вместо данных по отдельным интервью — приводит к потере той конкретики, которая и делает JTBD-анализ полезным: ситуация размывается до категории, мотив — до лозунга, а job statement становится неотличим от маркетингового текста.

4.7. «Ловушка 90%»

John Mecke (Development Corporate, январь 2026) сформулировал проблему, опираясь на данные Jansen и коллег из Катарского института вычислительных исследований (2025): синтетические персоны демонстрируют 90,4% фактической и 94,4% перцептивной точности по сравнению с реальными данными. «В большинстве контекстов, — пишет Mecke, — это оценка “А-минус”. В качественном исследовании это ловушка.» Качественное исследование существует не для подтверждения 90% того, что команда и так знает, а для обнаружения 10%, которые меняют продукт. Отдельное исследование на arXiv (2025) подтвердило, что синтетические ответы показывают систематически меньшую вариативность, чем ответы реальных людей, — и именно эта «стабильность» уничтожает аутлайеры, ради которых и проводят качественные интервью. Nielsen Norman Group после тестирования синтетических пользователей заключила, что их ответы «too shallow to be useful» для большинства исследовательских задач.

4.8. Цикл ложных исправлений

Konishi (Zenodo, ноябрь 2025) описал False-Correction Loop — ранее не формализованный паттерн, при котором модель заявляет, что ошибка исправлена, и генерирует новый вариант ответа с другими, но по-прежнему фабрикованными утверждениями. Конструкция цикла такова: модель извиняется, заявляет, что перечитала документ, и выдаёт новую версию, которая выглядит исправленной, но содержит новый набор неточностей. Этот паттерн особенно опасен в контексте JTBD-анализа, где формулировки по своей природе требуют интерпретации и где граница между «близко к тому, что сказал респондент» и «не то, что он сказал» проходит по нюансам, которые модель не отличает.

5. Как работать: двухшаговый pipeline

Перечисленные подводные камни не делают использование LLM в JTBD-анализе невозможным — они делают его опасным при наивном применении. Ниже описан подход, который позволяет использовать возможности модели, контролируя каждый из восьми рисков.

Принцип: два уровня синтеза, а не один

Вместо того чтобы загружать все транскрипты в один запрос и просить «найти jobs», работа разделяется на два этапа. На первом модель анализирует каждое интервью отдельно — извлекает структурированные наблюдения. На втором — получает результаты первого этапа по всем респондентам и формулирует job statements, опираясь на конкретику отдельных интервью, а не на обобщения.

Это соответствует стандарту тематического анализа Braun и Clarke, который описывает шесть последовательных фаз: знакомство с данными, начальное кодирование, поиск тем, проверка тем, определение тем, отчёт. Первые две фазы — знакомство и кодирование — работают на уровне отдельного транскрипта, и только начиная с третьей фазы исследователь ищет паттерны поверх уже закодированных данных. Если пропустить кодирование и сразу подать модели все транскрипты с просьбой «найти темы», нарушается порядок анализа: модель производит обобщения, которые ни на что не опираются, потому что промежуточный слой кодов отсутствует (камень №6). Timoshenko, Mao и Hauser (MIT Sloan, 2026) подтвердили это экспериментально: вход модели должен находиться на уровне сырых данных по каждому интервью, а не на уровне обобщений.

Шаг 1. От транскрипта к структурированным наблюдениям (формат A/Q/R)

Каждое интервью анализируется отдельно. В этой статье предлагается оформлять результат в виде набора троек Action / Quote / Reasoning (A/Q/R) — структуры, основанной на принципе разделения наблюдения и интерпретации из тематического анализа Braun и Clarke (2006). Каждая тройка — одно наблюдение, извлечённое из конкретного места в транскрипте.

Action (Действие) — что респондент конкретно сделал. Наблюдаемое поведение, а не интерпретация и не мотив: «перешла с приложения X на приложение Y», «позвонила в поддержку трижды за неделю», «спросила коллегу вместо того чтобы читать документацию». Действие фиксирует факт — что произошло.

Quote (Цитата) — дословные слова респондента, которые подтверждают это действие. Не пересказ, не саммари — точная цитата из транскрипта с указанием номера строки. Цитата создаёт аудиторский след: любой вывод, построенный позже на основе этой тройки (включая job statements на шаге 2), можно проследить до конкретных слов конкретного человека.

Reasoning (Обоснование) — интерпретация: почему это действие важно в контексте, что оно говорит о ситуации, мотивации или ограничениях респондента. Это единственный элемент тройки, который содержит интерпретацию, и он явно отделён от факта (Action) и данных (Quote). Такое разделение не позволяет интерпретации маскироваться под факт — а это именно то, что языковые модели делают по умолчанию, когда производят «тематический анализ» без структуры.

Зачем именно этот формат. В типичном LLM-«анализе» транскрипта наблюдение, цитата и интерпретация перемешаны в одном предложении, и читатель не может определить, где заканчиваются данные и начинается домысел модели. Формат A/Q/R делает границу между ними видимой. Кроме того, тройки создаются по каждому интервью отдельно — паттерны поверх интервью ищутся только на шаге 2, когда исследователь уже располагает закодированными данными по каждому респонденту. Это и есть те самые фазы 1–2 по Braun и Clarke, переведённые в формат, с которым может работать языковая модель.

Пример. Респондент рассказывает о выборе ресторана для доставки:

Action: Открыла приложение, увидела список из 200+ ресторанов, закрыла приложение и заказала в том же ресторане, что и неделю назад, через его собственный сайт.

Quote (строка 47): «Я зашла в [приложение], увидела это всё и подумала — нет, я не буду сейчас выбирать. Просто зашла на сайт [ресторана] и заказала то же самое.»

Reasoning: Большой выбор в данном контексте (ограниченное время, отсутствие чёткого предпочтения) работает как барьер, а не как преимущество. Респондент «нанимает» знакомый ресторан, чтобы избежать когнитивной нагрузки выбора, а не потому что он лучше других.

Набор таких троек по каждому респонденту — это вход для шага 2 (промпт JTBD-анализа в разделе 6).

Промпт: анализ транскрипта (шаг 1)

## Задача

Проанализируй транскрипт интервью. Извлеки из него все значимые 
наблюдения в формате Action / Quote / Reasoning (A/Q/R).

## Транскрипт

[вставить полный транскрипт одного интервью]

## Формат каждого наблюдения (строго)

**A (Action / Действие):** Что респондент конкретно сделал — 
наблюдаемое поведение, не интерпретация. Одно-два предложения.

**Q (Quote / Цитата):** Дословные слова респондента, подтверждающие 
это действие. Указать номер строки транскрипта. Не пересказывать, 
не перефразировать — только точная цитата.

**R (Reasoning / Обоснование):** Твоя интерпретация — почему это 
действие важно в контексте, что оно говорит о ситуации, мотивации 
или ограничениях респондента. Одно-три предложения. Если 
интерпретация неоднозначна, явно пометь: «возможна альтернативная 
трактовка: [какая]».

## Правила

- Каждая тройка A/Q/R — одно наблюдение. Не объединяй несколько 
  действий в одну тройку.
- Цитата должна существовать в транскрипте дословно. Не 
  «округляй» и не комбинируй фрагменты из разных мест.
- Если действие видно из контекста, но респондент не назвал его 
  прямо — пометь: «действие выведено из контекста, прямой 
  цитаты нет».
- Стремись к полноте: лучше извлечь 15–20 троек и потом 
  отфильтровать, чем пропустить значимое наблюдение.
- В конце — отдельный блок «Что осталось за рамками»: фрагменты 
  транскрипта, которые показались значимыми, но не уложились 
  в формат A/Q/R. Объясни, почему.

Шаг 2. От A/Q/R к job statements

Когда шаг 1 выполнен для каждого интервью, результаты всех респондентов собираются в один запрос — промпт JTBD-анализа (раздел 6). Модель получает на вход не сырые транскрипты и не обобщённые темы, а структурированные наблюдения по каждому респонденту, где факт отделён от интерпретации, а каждый вывод привязан к конкретной цитате. Это соответствует канонической практике Кристенсена и Моэсты, в которой job statements формулируются из сотен индивидуальных историй (Horn описывает 200+ историй студентов, из которых были выведены 5 jobs), а также рекомендациям Timoshenko, Mao и Hauser, подтвердившим экспериментально, что вход модели должен находиться на уровне данных по каждому интервью.

Защитные меры для обоих шагов

Явное указание школы. Каждый запрос к модели должен начинаться с декларации, какая именно школа JTBD используется: «Я работаю в парадигме Кристенсена (jobs-as-progress). НЕ в Outcome-Driven Innovation Улвика, НЕ в Strategyn JTBD.» Это не декоративный приём — без такого указания модель смешивает школы (камень №2), и результат невозможно верифицировать инструментами ни одной из них.

Error-grid уровней абстракции. Промпт должен содержать конкретные примеры правильного и неправильного уровня — с пояснением, почему один работает, а другой нет. Моэста показал, что без этого калибра даже люди ошибаются с абстракцией; для языковой модели примеры — единственный доступный механизм калибровки. Минимум три примера: один «слишком высокий», один «слишком низкий» и один-два «правильных» с объяснением.

Counterfactual check. После формулировки job statements модель должна ответить на вопрос: «Какие данные противоречат этим формулировкам? Что могло бы их опровергнуть?» Van der Luijt рекомендует фокусироваться именно на несоответствиях и аутлайерах, а не на паттернах: «AI tends to overemphasise common patterns and underreport edge cases.» David Longnecker описал это как принципиальное ограничение: «AI tools are excellent at finding patterns in what customers say. They’re not equipped to notice what customers didn’t say.»

Cross-reference цитат. Каждая цитата респондента, которую модель приводит в поддержку job statement, должна быть дословно проверена по оригинальному транскрипту. Emilie Alonso из Zalando предложила простой приём: скопировать фразу из ИИ-инсайта и найти её поиском в оригинале. Если ни слово, ни его синонимы не обнаруживаются — инсайт необходимо пометить как потенциальную проекцию модели и перепроверить вручную.

Множественные методы анализа. Van der Luijt рекомендует использовать несколько методов одновременно: «Compare traditional thematic analysis with AI-assisted analysis and note discrepancies.» Расхождения между ручным и ИИ-анализом — не ошибка процесса, а его ценность: они показывают, где модель дополняет человека и где искажает.

Prompting literacy. Ornelas и коллеги (arXiv, 2025) ввели термин prompting literacy — методологическая компетенция работы с промптами для качественного анализа. Это не техническое умение «правильно написать запрос», а исследовательская грамотность: понимание того, какой вход даст какой выход и почему определённые формулировки промпта порождают определённые артефакты.

6. Промпт: JTBD-анализ (шаг 2)

Этот промпт принимает на вход результаты A/Q/R-анализа (шаг 1, раздел 5) по каждому респонденту и формулирует из них job statements. Он явно задаёт школу Кристенсена, формат job statement, контроль уровня абстракции, требование дословных цитат и защиту от основных подводных камней.

## Контекст

Я работаю в JTBD-парадигме Кристенсена (jobs-as-progress). НЕ в 
Outcome-Driven Innovation Улвика, НЕ в Strategyn JTBD. Это важно, 
потому что у этих школ разные форматы job statements и разный взгляд 
на то, что такое job.

Jobs извлекаются из результатов анализа каждого интервью отдельно 
(уровень кодов по Braun & Clarke), а не из обобщённых паттернов — 
иначе формулировки получаются «обобщениями обобщений» и теряют 
конкретную ситуацию из жизни респондента.

## Данные

Результаты анализа каждого интервью в формате Action / Quote / 
Обоснование:

### Респондент 1
[вставить результаты A/Q/R]

### Респондент 2
[вставить результаты A/Q/R]

[...]

## Задача

Сформулируй job statements для каждого поведенческого сценария, 
который встречается в данных. Работай по всем респондентам 
одновременно: сначала найди, где у разных респондентов ситуация 
и мотив совпадают, и собери их в один job; затем сформулируй 
уникальные jobs, которые встретились только у одного респондента.

## Формат job statement (строго)

«Когда [конкретная ситуация в жизни респондента], я хочу [конкретное 
действие или цель], чтобы [результат, который респондент хочет 
получить]».

## Уровень абстракции — самая частая ошибка

❌ СЛИШКОМ ВЫСОКИЙ (общечеловеческий, неинформативный):
«Когда я голоден, я хочу поесть, чтобы насытиться»

❌ СЛИШКОМ НИЗКИЙ (про интерфейс, а не про задачу в жизни):
«Когда я открываю приложение, я хочу нажать кнопку "заказать", чтобы 
быстрее перейти к каталогу»

✅ ПРАВИЛЬНЫЙ УРОВЕНЬ (ситуация + контекст + результат):
«Когда у меня перерыв 30 минут на работе, я хочу заказать обед, не 
выбирая из 500 ресторанов, чтобы поесть и не потратить весь перерыв 
на скроллинг»

✅ ПРАВИЛЬНЫЙ УРОВЕНЬ (другая ситуация):
«Когда я заказываю еду на семейный ужин в выходные, я хочу повторить 
прошлый заказ, который понравился всем, чтобы не рисковать с новым 
выбором при гостях»

## Формат вывода для каждого job statement

**JS-N: [сам job statement]**

- **Контекст возникновения:** какая ситуация запускает эту job 
  (одно-два предложения)
- **Цитаты респондентов** (минимум 2, в идеале 3):
  - [Имя] (строка N): «[дословная цитата]»
- **Сколько респондентов поддерживают:** «N из M»
- **Обоснование уровня абстракции:** почему этот job не на слишком 
  высоком и не на слишком низком уровне (одно-два предложения)
- **Если на одном респонденте:** «требует дополнительной проверки»

## После всех job statements

**Возможные дубли:** синонимичные jobs, которые стоит объединить. 
Объясни, чем близки.

**Не сформулировано:** паттерны из данных, для которых НЕ удалось 
сформулировать job statement. Объясни, почему.

**Что может быть неверно:** какие из сформулированных jobs могут 
оказаться ошибочными? Где данные противоречат формулировкам? Что 
могло бы опровергнуть их при следующем исследовании?

## Защита от галлюцинаций

- Не используй цитаты, которых нет в данных. Каждая цитата — 
  дословно из материалов выше.
- Не «округляй» формулировки респондентов, чтобы они лучше подошли 
  под формат — оставляй как есть.
- Если не уверен — пиши «формулировка предварительная, требует 
  проверки на дополнительных интервью».

Защитные элементы промпта

Каждый блок промпта противодействует конкретному подводному камню:

Декларация школы → против камня №2 (перемешивание школ)
Вход на уровне отдельных интервью (A/Q/R) → против камня №6 (обобщения обобщений)
Три примера уровня абстракции → против камня №3 (неправильный уровень)
Требование дословных цитат с номерами строк → против камня №5 (галлюцинации цитат)
Блок «Что может быть неверно» → против камней №7 и №8 (ловушка 90% и False-Correction Loop)
Блок «Не сформулировано» → против камня №4 (потеря контекста)

7. Пять проверок результата

Какой бы промпт ни использовался, результат работы языковой модели с JTBD-данными требует систематической проверки. Ниже — пять критериев, за которыми стоит следить, и промпт, который автоматизирует часть этой работы.

1. Цитаты существуют в оригинале. Каждая цитата, приведённая моделью в поддержку job statement, должна быть найдена дословно в транскрипте. Даже незначительное расхождение — замена «thoughtful about» на «confused by», как в примере van der Luijt, — может изменить направление работы. Техника Cmd+F (поиск по тексту) из Zalando Design — простейший и наиболее надёжный инструмент верификации.

2. Контрпримеры не потеряны. Если все job statements подтверждаются данными и ни один не оспаривается, это не признак качественного анализа — это признак flattening effect. Модель склонна сглаживать противоречия и игнорировать аутлайеры, поэтому отсутствие блока «Что может быть неверно» в результате или его формальное заполнение — тревожный сигнал.

3. Уровень абстракции — в «jagged middle». Каждый job statement можно проверить тестом Моэсты: если формулировка конкурирует с кофе и медитацией одновременно — она слишком абстрактна; если описывает нажатие кнопки — слишком конкретна. Правильный job привязан к конкретной ситуации в жизни респондента и при этом объединяет нескольких людей с общим мотивом.

4. Школа не смешана. Job statements, outcome statements и job stories — три разных формата из трёх разных методологий. Если в одном списке соседствуют «Когда я голоден…» (формат Кристенсена) и «Minimize the time spent choosing a restaurant» (формат Улвика), модель смешала школы, и результат необходимо переработать с явной декларацией школы.

5. Где то, что не укладывается в jobs? Последняя проверка — наличие и содержательность блока о том, что в данных НЕ вписывается в сформулированные jobs. UserCall назвал отсутствие такого блока одной из пяти форм «fake AI research»: «when summaries replace structured analysis, illusion replaces rigor.» Если модель нашла jobs для всех паттернов без остатка и у неё не возникло затруднений — результат, скорее всего, сглажен.

Промпт: верификация результатов (шаг 3)

Этот промпт подаётся той же или другой языковой модели после получения результатов шага 2. На вход он принимает сформулированные job statements и оригинальные A/Q/R-данные по каждому респонденту. Его задача — не улучшать формулировки, а проверять их по пяти критериям выше и фиксировать все обнаруженные проблемы.

## Задача

Ты — верификатор. Тебе даны job statements (результат JTBD-анализа) 
и исходные данные в формате A/Q/R по каждому респонденту. Твоя 
задача — проверить качество job statements по пяти критериям. 
Не улучшай формулировки, не предлагай альтернативы — только 
фиксируй проблемы.

## Job statements для проверки

[вставить результат шага 2]

## Исходные данные A/Q/R

[вставить результаты шага 1 по всем респондентам]

## Проверка 1: Цитаты существуют в оригинале

Для каждого job statement возьми каждую цитату, приведённую 
в его поддержку. Найди эту цитату в исходных данных A/Q/R.

- Если цитата найдена дословно → ✅
- Если цитата найдена с изменениями (другие слова, перефразировка, 
  комбинация фрагментов) → ⚠️ Укажи: оригинал из A/Q/R vs. 
  версия в job statement. Объясни, меняет ли расхождение смысл.
- Если цитата не найдена ни в одном A/Q/R → ❌ Галлюцинация.

## Проверка 2: Контрпримеры не потеряны

Просмотри блок «Что может быть неверно» в результатах шага 2.

- Блок отсутствует → ❌ Модель пропустила обязательный элемент.
- Блок присутствует, но содержит общие фразы без привязки к 
  конкретным данным (например, «возможно, при большей выборке 
  результат будет другим») → ⚠️ Формальное заполнение.
- Блок содержит конкретные указания на данные, которые 
  противоречат job statements → ✅

Дополнительно: есть ли в исходных A/Q/R-данных наблюдения, 
которые противоречат сформулированным jobs, но не упомянуты 
ни в одном job statement и не в блоке «Что может быть неверно»? 
Если да — перечисли их.

## Проверка 3: Уровень абстракции

Для каждого job statement определи уровень:

- ❌ Слишком высокий: формулировка применима к любому человеку 
  в любой ситуации (например, «когда я голоден, я хочу поесть»). 
  Конкурирует со всем — от кофе до медитации.
- ❌ Слишком низкий: описывает конкретное UI-действие или шаг 
  в интерфейсе (например, «когда я нажимаю кнопку...»). 
  Это задача интерфейса, не задача в жизни.
- ✅ Jagged middle: привязан к конкретной ситуации в жизни 
  респондента, при этом объединяет нескольких людей с общим 
  мотивом.

## Проверка 4: Школа не смешана

Все job statements должны быть в одном формате одной школы. 
Проверь:

- Формат «Когда [ситуация], я хочу [действие/цель], чтобы 
  [результат]» = Кристенсен / Клемент (jobs-as-progress) → ✅
- Формат «Minimize/Increase [метрика] when [шаг процесса]» 
  = Улвик (outcome statements, ODI) → смешение школ, если 
  соседствует с форматом выше.
- Формат «Opportunity: [потребность клиента]» = Торрес (OST) 
  → смешение фреймворков.

Если в одном списке присутствуют форматы из разных школ → ❌

## Проверка 5: Полнота — где то, что не укладывается

Просмотри блок «Не сформулировано» в результатах шага 2.

- Блок отсутствует → ❌
- Блок присутствует, но пуст или содержит «все паттерны 
  покрыты» → ⚠️ Подозрительно. При 4+ респондентах почти 
  всегда есть наблюдения, которые не укладываются в jobs.
- Блок содержит конкретные паттерны с объяснением, почему 
  не удалось сформулировать job → ✅

## Формат вывода

Для каждой из пяти проверок:
1. Статус: ✅ / ⚠️ / ❌
2. Детали: что именно найдено (конкретные job statements, 
   цитаты, номера)
3. Если ⚠️ или ❌ — что необходимо исправить

В конце — общая оценка: можно ли использовать эти job 
statements как есть, или они требуют доработки (и какой).

Методологический разрыв и его перспектива

David Longnecker в декабре 2025 года сформулировал характеристику текущего момента, которая точнее всего описывает ситуацию: «Эти инструменты делают хороших исследователей лучше, а плохих — опаснее. Они ускоряют те исследовательские инстинкты, которые у вас уже есть. Если вы знаете, какие вопросы задавать и как валидировать ответы, ИИ умножает вашу эффективность. Если нет — он умножает вашу уверенность, не улучшая точности.»

Разрыв между JTBD-литературой и LLM-практикой закроется, но не сам по себе. Fuel Cycle зафиксировал, что «responsible AI» стал доминирующим фреймингом среди компаний, которые серьёзно встраивают ИИ в исследовательские процессы, и каждая из них сопровождает внедрение governance-языком. UserCall предложил формулировку, которая может служить рабочим принципом: «AI doesn’t replace human interviewing. It changes what happens after the interview.» Языковые модели не заменяют собой JTBD-исследование — они меняют то, что происходит после сбора данных, и именно это «после» требует методологической дисциплины, которая пока в основном отсутствует.

Источники

Академические работы

Timoshenko A., Mao H., Hauser J. Transforming the Voice of the Customer. MSI / MIT Sloan, январь 2026. — https://artemtimoshenko.com/assets/papers/GPT%20VOC%20Jan%202026%20SSRN.pdf
Kapania S. et al. Simulacrum of Stories: Examining Large Language Models as Qualitative Research Participants. CHI ‘25, апрель 2025. — https://dl.acm.org/doi/full/10.1145/3706598.3713220
Evaluation of large language models within GenAI in qualitative research. Nature Scientific Reports, октябрь 2025. — https://nature.com/articles/s41598-025-18969-w
Adeseye A., Isoaho J., Tahir M. Performance Evaluation of LLM Hallucination Reduction Strategies for Reliable Qualitative Analysis. Springer AIR-RES, январь 2026. — https://link.springer.com/chapter/10.1007/978-3-032-12313-8_11
Ornelas T. et al. Bridging Qualitative Research and Large Language Models in Software Engineering. arXiv 2511.14528, ноябрь 2025. — https://arxiv.org/pdf/2511.14528
Konishi H. Structural Inducements for Hallucination in Large Language Models. Zenodo, ноябрь 2025. — https://zenodo.org/records/17655375
Ryser A., Allwein F., Schlippe T. Calibrated Trust in Dealing with LLM Hallucinations. arXiv 2512.09088, 2025.
arXiv 2509.01048. LLM extraction of goals from interview transcripts. Сентябрь 2025.
Jansen B. et al. AI-generated persona interviews. Qatar Computing Research Institute, 2025.
Braun V., Clarke V. Using thematic analysis in psychology. Qualitative Research in Psychology, 3(2), 77–101, 2006.

JTBD-методология

Klement A. Know the Two — Very — Different Interpretations of Jobs to be Done. JTBD.info, 2018. — https://jtbd.info/know-the-two-very-different-interpretations-of-jobs-to-be-done-5a18b748bd89
Klement A. When Coffee and Kale Compete. 2016. — http://www.whencoffeeandkalecompete.com/
Klement A. Replacing The User Story With The Job Story. JTBD.info, 2013. — https://jtbd.info/replacing-the-user-story-with-the-job-story-af7cdee10c27
Kir R. Above the Frameworks: JTBD — How a Brilliant Idea Turned Into a Civil War. Medium, февраль 2026. — https://medium.com/@roman-kir/above-the-frameworks-jtbd-how-a-brilliant-idea-turned-into-a-civil-war-30d60f727df5
Christensen C. The Theory of Jobs To Be Done. HBS Working Knowledge, октябрь 2016. — https://hbswk.hbs.edu/item/clay-christensen-the-theory-of-jobs-to-be-done
Christensen C. Milkshake Marketing. HBS Working Knowledge, февраль 2011. — https://www.library.hbs.edu/working-knowledge/clay-christensens-milkshake-marketing
Moesta B. Why most people get Jobs to be Done wrong. Re-Wired Group, июль 2025. — https://therewiredgroup.com/learn/jobs-to-be-done-mistakes/
Torres T. Go to the Source. Product Talk, июль 2025. — https://www.producttalk.org/go-to-the-source-all-things-product-podcast-with-teresa-torres-petra-wille/
Torres T. AI is Re-Prioritizing Delivery Over Discovery. Product Momentum / ITX, январь 2026. — https://itx.com/podcast/179-teresa-torres-is-ai-reprioritizing-delivery-over-discovery-again/
Ulwick T. The 2 Jobs-to-be-Done Interpretations — and Why It Matters. 2019. — https://jobs-to-be-done.com/the-2-jobs-to-be-done-interpretations-and-why-it-matters-945b69bb0532
Ulwick T. Jobs-to-be-Done Is For More Than Just Milkshakes. 2023. — https://jobs-to-be-done.com/jobs-to-be-done-is-for-more-than-just-milkshakes-fd5737c75cc1
Jordan M.S. Synthesizing the Two Schools of Thought — JTBD Progression Part 5. INNODYN, 2020. — https://innodyn.net/synthesizing-the-two-schools-of-thought-jtbd-progression-part-5/

Практика и критика LLM в исследованиях

Skimle. Using ChatGPT and other LLMs to analyse interviews and qualitative data. Декабрь 2025. — https://skimle.com/blog/can-chatgpt-analyse-qualitative-data
Skimle. How does ChatGPT actually work? Январь 2026. — https://skimle.com/blog/how-does-chatgpt-actually-work-how-does-it-analyse-data
UserCall. Can ChatGPT Analyze Qualitative Data? Март 2026. — https://www.usercall.co/post/can-chatgpt-analyze-qualitative-data-limits-risks-and-best-practices
UserCall. How to Avoid Fake AI Research. Март 2026. — http://usercall.co/post/how-to-avoid-fake-ai-qualitative-research
Alonso E. User research synthesis or AI bedtime stories? Zalando Design, декабрь 2025. — https://medium.com/zalando-design/user-research-synthesis-or-ai-bedtime-stories-46a315625438
van der Luijt A. The truth about AI hallucinations in user research. Апрель 2025. — https://generativeai.pub/the-truth-about-ai-hallucinations-in-user-research-lessons-from-the-frontlines-4193a6c27cf9
Longnecker D. What I’ve Learned Using AI for Customer Research. Декабрь 2025. — https://drlongnecker.com/blog/2025/12/ai-tools-customer-research-lessons/
Mecke J. The 90% Trap: Why Synthetic Research Confirms What You Already Know. Development Corporate, январь 2026. — https://developmentcorporate.com/startups/synthetic-research-90-percent-trap/

Индустриальный контекст

Fuel Cycle. AI in Market Research Job Roles. MRX Report, март 2026. — https://fuelcycle.com/ai-skills-market-research-jobs/
thrv. Automating JTBD Analysis: AI-Driven Techniques. Октябрь 2025. — https://www.thrv.com/blog/automating-jobs-to-be-done-analysis-ai-driven-techniques-for-customer-data-extraction
UserCall. User Interview Tools 2026. Март 2026. — https://usercall.co/post/user-interview-tools-how-expert-researchers-choose-use-and-scale-them-in-2026