Springer: использование LLM в качественном анализе данных

Обложка книги AI for Qualitative Research, Springer 2026

Эта глава описывает метод, разработанный Garcia Quevedo et al. и опубликованный в Organizational Research Methods (2025), для качественного анализа больших неструктурированных датасетов с помощью больших языковых моделей (LLM). Метод решает ограничение традиционной случайной выборки, предлагая структурированный подход к эффективному изучению данных и отбору релевантного материала для дальнейшего ручного анализа. В основе метода — три задачи NLP: анализ тональности, тематическое моделирование и информационный поиск, которые вместе обеспечивают всестороннее изучение и отбор данных.

Метод отбора релевантных данных

Метод Garcia Quevedo, Glaser и Verzat сочетает различные NLP-задачи с помощью алгоритмов на основе LLM для эффективного анализа больших неструктурированных датасетов. Подход включает три ключевых аспекта: (1) изучение всего датасета; (2) глубокое понимание его структуры и содержания; (3) формирование сфокусированной выборки, готовой к ручному индуктивному анализу. Цель — создать небольшую выборку через сознательный пошаговый отбор релевантных данных, опираясь на глубокое изучение всего датасета с помощью LLM.

Метод объединяет методы классификации и информационного поиска для эффективного отбора онлайн-данных под индуктивный качественный анализ. Три NLP-задачи, реализованные через LLM-алгоритмы: (1) анализ тональности — для классификации высказываний по эмоциональной окраске; (2) тематическое моделирование — для выявления скрытых закономерностей и кластеризации данных; (3) информационный поиск — для поиска сходств на уровне предложений и абзацев. Такое сочетание разнообразит изучение данных и позволяет проводить триангуляцию в процессе отбора, обеспечивая осознанный пошаговый выбор, согласованный с исследовательским вопросом.

Авторы предлагают рекомендации по применению трёх NLP-задач как лучших практик при работе с большими неструктурированными датасетами. Метод строится по двухшаговой схеме: (1) отбор по категориям, включая анализ тональности и тематическое моделирование; (2) целевой поиск с помощью информационного поиска по семантическому сходству. Предложенная последовательность позволяет избежать подтверждающего смещения и риска циркулярности (Dana & Dumez, 2015), при котором начальные допущения исследователя влияют на процесс отбора. Алгоритмы на основе LLM эффективно находят релевантные данные и упрощают анализ больших датасетов. После завершения отбора авторы провели ручной индуктивный анализ выбранных материалов.

Метод предоставляет качественным исследователям несколько существенных преимуществ. Он гибко адаптируется к различным исследовательским проектам и позволяет анализировать данные разного объёма и типа, включая транскрипты YouTube-видео, сценарии фильмов и записи блогов. Метод охватывает весь датасет, изучая данные с нескольких точек зрения через три NLP-задачи, и экономит время за счёт автоматизации части исследовательского процесса.

Реализация LLM в качественном анализе

В следующих главах книги авторы предлагают несколько подходов с использованием LLM для выявления закономерностей и связей в тексте. При этом они признают: LLM не обладают подлинными интерпретационными способностями или человекоподобным пониманием (Rasheed et al., 2024; Schroeder et al., 2024). Только исследователи способны уловить более глубокий смысл, нюансы и контекстуальные факторы, которые лежат в основе интерпретационного качественного анализа. Авторы рекомендуют воспринимать LLM-инструменты как «стохастических попугаев» (Bender et al., 2021) — систем, способных имитировать языковые паттерны без понимания их смысла.

Реализация качественного анализа через LLM требует продуманного процесса: (1) выбора подходящей модели и её параметров; (2) составления точных и детальных промптов; (3) сравнения и валидации результатов нескольких итераций; (4) критической оценки сгенерированных ответов. Авторы также рекомендуют документировать все шаги и решения на протяжении всего процесса, чтобы повысить строгость и прозрачность анализа.

Garcia-Quevedo et al. (2025) сосредоточились на трёх NLP-задачах: анализ тональности для классификации, тематическое моделирование для кластеризации и информационный поиск для целевого поиска. В данной книге авторы расширяют эту работу, включая рекомендации по первичному исследовательскому анализу с помощью LLM, другие формы классификации помимо анализа тональности, а также кластеризацию посредством иерархического тематического моделирования. Отдельная глава посвящена информационному поиску с использованием retrieval-augmented generation (RAG). Глава 7 охватывает первичный исследовательский анализ, глава 8 — алгоритмы классификации, глава 9 — кластеризацию и тематическое моделирование, глава 10 — информационный поиск и RAG.