arXiv: человекоцентричный рабочий процесс применения LLM в контент-анализе

Препринт arXiv: рабочий процесс применения LLM в контент-анализе

Иван Зупич (Goldsmiths, University of London) опубликовал препринт методологической работы о том, как использовать большие языковые модели в контент-анализе — одном из ключевых инструментов качественных и количественных социальных исследований. Версия от 27 февраля 2026 года.

Аннотация

Многие исследователи взаимодействуют с LLM через чат-интерфейсы (ChatGPT, Claude.ai), однако реальный потенциал этих инструментов раскрывается при работе через API. Автор концептуализирует LLM как универсальные машины обработки текста и предлагает целостный рабочий процесс для трёх задач контент-анализа: аннотирования (включает qualitative coding, разметку и классификацию текста), суммаризации и извлечения информации.

Рабочий процесс явно человекоцентричен: исследователи проектируют, контролируют и валидируют каждый этап работы LLM, обеспечивая строгость и прозрачность. Подход синтезирует методологическую литературу из политологии, социологии, информатики, психологии и менеджмента. В приложении к работе — библиотека промптов и Python-код в формате Jupyter Notebook.

Введение

Контент-анализ определяется как «исследовательская техника получения воспроизводимых и обоснованных выводов из текстов применительно к контексту их использования» (Krippendorff, 2012). Он давно занимает центральное место в качественных и количественных исследованиях в области менеджмента и организаций.

Традиционные методы контент-анализа сталкиваются с проблемой масштабируемости. Анализ нескольких документов выполним вручную, однако обработка сотен интервью или миллионов публикаций в социальных сетях превышает человеческие возможности (Barros et al., 2025), что создаёт риск упустить важные инсайты в больших датасетах. Классические вычислительные методы — тематическое моделирование, анализ тональности — сделали значительный шаг вперёд, но LLM предлагают ещё более убедительное решение.

В отличие от специализированных моделей машинного обучения с узкими возможностями, которые требуют долгого обучения под конкретные задачи, LLM демонстрируют замечательную гибкость за счёт emergent abilities: способностей, возникающих по мере увеличения размера модели и объёма обучающих данных (Wei et al., 2022). Модель способна справляться с задачами, к которым её специально не готовили, просто понимая инструкцию на естественном языке. Это меняет логику работы: вместо написания алгоритмов под каждую задачу исследователи управляют моделью через промпты.

Поскольку LLM могут выполнять контент-анализ в масштабе с измеримой точностью, они существенно расширяют эмпирические горизонты исследований. Вместе с тем их использование сопряжено с рисками: модели чувствительны к формулировкам инструкций, склонны генерировать правдоподобные, но неточные ответы, а их внутренняя логика остаётся во многом непрозрачной (Chae & Davidson, 2025; Törnberg, 2024a). Применение без должной методологической осторожности грозит систематическими ошибками, незаметными на первый взгляд, с серьёзными последствиями для валидности результатов (Ashwin et al., 2025; Lin & Zhang, 2025).

Основная цель работы — легитимизировать и стандартизировать применение LLM в контент-анализе. Для этого автор опирается на обширную литературу из политологии, социологии, NLP, информационных систем, психологии и менеджмента, а также на собственный практический опыт. Работа строится на предшествующих вкладах в область рабочих процессов с LLM (Carlson & Burbano, 2025; Than et al., 2025; Törnberg, 2024a).

Автор сознательно ограничивает область исследования: работа не сравнивает модели эмпирически и не охватывает дообучение, RAG и другие продвинутые техники. Фокус — на практических рекомендациях для исследователей без значительных технических компетенций.

Три ключевых вклада работы:

Первый — концептуализация LLM как универсальных машин обработки текста, а не собеседников. Академическая ценность возникает при обработке данных в программируемых, API-ориентированных пайплайнах, допускающих документирование, аудит и воспроизведение.

Второй — явно человекоцентричный рабочий процесс для LLM-анализа контента, охватывающий исследовательский дизайн, подготовку данных, разработку promptbook, масштабируемую обработку, проверку валидности, надёжности и робастности, а также интерпретацию результатов.

Третий — продвижение методологических стандартов для публикуемых исследований с применением LLM: систематизация трёх семейств задач (аннотирование, суммаризация, извлечение информации), операционализация кодбуков как «promptbook» со структурированными выводами и приоритизация проверок валидности, надёжности и робастности.

Контент-анализ

Контент-анализ в широком смысле — это «любое методологическое измерение, применяемое к тексту (или иным символическим материалам) в целях социальных наук» (Shapiro & Markoff, 1997, цит. по Duriau et al., 2007). Это не одна методология, а надкатегория для разнообразных аналитических подходов: от чисто качественных методов в grounded theory, обзорах литературы и кейс-исследованиях до сугубо количественных техник — dictionary-based coding, тематического моделирования и NLP. Центральное допущение метода: анализ текста позволяет исследователю получить доступ к когнитивным схемам, ценностям, намерениям и установкам тех, кто его создал — структурам, трудно поддающимся изучению количественными методами.

Контент-анализ обладает рядом очевидных преимуществ для организационных исследований. Применимость к документам и коммуникациям, создаваемым участниками организаций в ходе обычной работы — годовым отчётам, письмам акционерам, транскриптам совещаний, — позволяет изучать социокогнитивные процессы без вмешательства в привычную деятельность, избегая части смещений, характерных для опросов и экспериментов. Метод аналитически гибок: он применим как к manifest content (поверхностные текстовые характеристики), так и к latent content (более глубокие смысловые пласты). Он хорошо работает как для дедуктивной проверки теорий, так и для индуктивного их построения, а применение к архивным материалам делает его удобным для лонгитюдных исследований при относительно низких затратах.

Тем не менее контент-анализ предъявляет серьёзные методологические требования в части надёжности и валидности. Надёжность традиционно оценивается через межкодировочное согласие (intercoder agreement): в какой мере независимые кодировщики присваивают одинаковые категории одним и тем же текстовым единицам. Простой процент согласия давно признан недостаточной мерой, поскольку не корректирует на случайное совпадение. Рекомендуемые альтернативы — Krippendorff’s alpha и Cohen’s kappa. Не менее важна валидность: схема кодирования должна измерять именно тот конструкт, который планировалось изучить, а категории — быть семантически связными и последовательно применяемыми. Для этого необходим итеративный протокол: тестирование, доработка и повторное тестирование схемы перед её применением ко всему датасету.

Большие языковые модели (LLM)

LLM — это системы искусственного интеллекта, разработанные прежде всего для понимания и генерации текста. Технически это нейронные сети на основе архитектуры трансформера (Vaswani et al., 2017), обучаемые на огромных массивах текстовых данных. Результаты обучения хранятся в параметрах модели (весах), количество которых варьируется от миллионов у небольших моделей до сотен миллиардов у крупных.

Принципиальная характеристика LLM — emergent abilities: при увеличении масштаба модели и объёма обучающих данных у неё возникают новые способности (zero-shot reasoning, commonsense inference), отсутствующие у менее крупных моделей (Wei et al., 2022). Это означает, что LLM способна справляться с задачами, которым её специально не учили, просто понимая инструкцию пользователя. Для контент-анализа это особенно ценно: можно дать модели задание на аннотирование, суммаризацию или извлечение информации, не создавая отдельный алгоритм для каждого случая.

По существу, LLM — это предсказатели следующего слова. Модель принимает текст (промпт) на входе и, опираясь на выученное при обучении распределение вероятностей, генерирует текст слово за словом, создавая внешне связный и контекстуально уместный ответ. При этом модель не понимает текст в человеческом смысле — она сопоставляет паттерны из обучающей выборки.

Осознание базового принципа работы модели имеет практические следствия. LLM лучше всего справляются с задачами, похожими на те, что были представлены в обучающих данных. Они хорошо распознают явные текстовые признаки, но иногда испытывают трудности с глубокой контекстной интерпретацией, требующей специализированных знаний или культурного контекста, отсутствующего в обучающей выборке. Токенная обработка означает, что LLM могут упускать связи, простирающиеся через большие документы, если не указать на необходимость учёта широкого контекста. Исследователям следует воспринимать LLM как изощрённые системы сопоставления паттернов, а не как автономных интерпретаторов — мощные инструменты, требующие человеческого контроля и валидации.

Ключевые термины LLM

Термин	Пояснение
Token	Базовая единица текста, обрабатываемая LLM. В английском тексте 1 токен в среднем соответствует 0,75 слова. Токеновые лимиты определяют объём допустимого ввода/вывода; стоимость API рассчитывается за токены.
Context window	Максимальный объём текста, который LLM может «видеть» единовременно. Объём обрабатываемых документов должен быть существенно меньше размера context window.
Parameter / Weight	Параметр — общий термин для всех значений LLM, усвоенных при обучении. Вес — конкретный тип параметра, определяющий силу связи между нейронами.
Inference	Процесс генерации LLM ответа или предсказания на основе входного промпта — токен за токеном.
Encoder-decoder	Архитектура нейронной сети: encoder обрабатывает входной текст в числовое представление (векторы), decoder генерирует выходной текст из этого представления. Многие современные LLM — decoder-only (GPT).
JSON	Стандартный текстовый формат для структурированных данных, всё чаще используемый в исследовательских задачах с LLM: вынуждает модель организовывать свободный текст в машиночитаемую структуру.
API	Стандартизированный способ программного взаимодействия с LLM, позволяющий выстраивать пакетную обработку, логирование и воспроизводимые пайплайны.
Temperature	Параметр, управляющий степенью случайности в выборе следующего токена. Низкие значения (~0) дают стабильный, предсказуемый вывод — предпочтительны для задач измерения (классификация, извлечение). Высокие значения усиливают вариативность — полезны для суммаризации.

Два способа доступа к LLM

Чат-интерфейсы (ChatGPT, Claude.ai) удобны для разработки и тестирования промптов, а также для анализа небольших выборок. Однако они не подходят для обработки сотен и тысяч текстов. Доступ через API (Application Programming Interface) обеспечивает программное взаимодействие с моделью, позволяет выстраивать пакетную обработку, ведение логов и воспроизводимые пайплайны — именно это составляет основу надёжного исследовательского использования LLM.

Практические аспекты работы с LLM

Исследователи, применяющие LLM в контент-анализе, сталкиваются с рядом практических соображений, касающихся выбора модели, управления стоимостью и конфигурации пайплайна. Для большинства исследовательских задач автор рекомендует начинать с frontier-моделей (GPT-4, Claude) с temperature близкой к 0: это обеспечивает последовательные, воспроизводимые результаты. Размер context window определяет максимальный допустимый объём документа на один API-запрос, а стоимость рассчитывается за токены — что важно учитывать при планировании бюджета крупных проектов.

Наряду с техническими соображениями существенны этические и правовые аспекты. Отправка данных в облачные API поднимает вопросы конфиденциальности и соответствия законодательству, особенно при работе с персональными данными. Использование open-source моделей, развёртываемых локально, снимает часть этих рисков. Вопросы авторства и прозрачности требуют явного указания в методологических разделах статей на роль LLM и характер обработанных данных.

LLM как универсальные машины обработки текста

Автор предлагает рассматривать LLM не как собеседников, а как универсальные машины обработки текста. С этой точки зрения исследовательская ценность возникает при обработке данных в программируемых, API-ориентированных пайплайнах. В контент-анализе выделяются три семейства задач.

Аннотирование — зонтичный термин, объединяющий qualitative coding, разметку и классификацию текста. LLM-аннотирование масштабирует то, что традиционно требует работы нескольких кодировщиков на протяжении недель: модель последовательно применяет кодировочную схему к каждой единице текста, формируя структурированный вывод.

Суммаризация предполагает сжатие длинных текстов до ключевых тезисов. В отличие от аннотирования, где важна точная репликация категорий, суммаризация допускает большую вариативность формулировок. При этом риски галлюцинаций выше, поэтому temperature следует повышать осторожно.

Извлечение информации — идентификация и структурирование конкретных фактических элементов из текста: имён, дат, числовых показателей, сущностей. Задача по природе близка к аннотированию, но целевые элементы более конкретны и факто-ориентированы.

Человекоцентричный рабочий процесс

Предлагаемый рабочий процесс включает шесть этапов, причём роль исследователя остаётся ведущей на каждом из них.

1. Исследовательский дизайн. Исследователь определяет задачи, единицы анализа и критерии качества до начала работы с моделью. Важно заранее сформулировать, что считается «правильным» ответом, и подготовить золотой стандарт для последующей оценки.

2. Сбор и подготовка данных. Перед подачей текстов в модель необходимо убедиться в их качестве: устранить дубликаты, нормализовать формат, проверить кодировку. Качество входных данных напрямую определяет качество аннотирования.

3. Разработка promptbook. Promptbook — аналог традиционного кодбука в форме структурированного набора промптов с описанием задачи, определений категорий, примеров и ожидаемого формата вывода (обычно JSON). Автор рекомендует итеративно тестировать промпты на малой выборке перед масштабированием. Чёткие определения категорий и примеры (few-shot examples) значительно повышают стабильность и точность аннотирования.

4. Обработка. API-пайплайн последовательно подаёт каждую текстовую единицу в модель и сохраняет структурированные ответы. Разработка кода — необходимый навык или, при его отсутствии, задача для технического соавтора. Весь ввод и вывод следует логировать для последующего аудита.

5. Оценка валидности, надёжности и робастности. Это критический этап, отличающий строгое исследование от небрежного применения инструмента. Валидность оценивается путём сравнения с золотым стандартом (gold-standard benchmarking): выборка размечается вручную, результаты сопоставляются с модельными. Надёжность оценивается с помощью мер согласия (Krippendorff’s alpha, Cohen’s kappa). Робастность проверяется анализом чувствительности: как меняются результаты при вариации промптов, температуры или версии модели?

6. Интерпретация и дальнейший анализ. Результаты LLM-аннотирования поступают на вход следующего этапа исследования — статистического или качественного анализа. Важно помнить: модель обрабатывает текст, а не понимает реальность, и интерпретационная ответственность остаётся за исследователем.

Обсуждение

Работа намеренно фокусируется на обеспечении риб процедур: валидации, документировании и воспроизводимости, а не на демонстрации высокой точности конкретных моделей. Авторская позиция состоит в том, что «человек в человекоцентричном процессе» не должен быть номинальным: исследователь принимает ключевые методологические решения и несёт ответственность за валидность результатов.

Применение LLM в контент-анализе открывает направления для будущих исследований: сравнительное изучение разных моделей и методов валидации, разработка дисциплинарных стандартов отчётности, изучение рисков систематических ошибок при аннотировании специфических доменов.

Среди ограничений работы автор указывает на отсутствие эмпирического сравнения моделей, ограниченность охвата продвинутых техник (fine-tuning, RAG) и специфичность контекста — менеджмент и организационные исследования, где традиции контент-анализа наиболее развиты.

Заключение

Работа Зупича предлагает исследователям готовый методологический фреймворк: от концептуализации LLM как инструмента до конкретного рабочего процесса с проверочными процедурами. Ключевая позиция автора — LLM не заменяют исследователя, они снимают с него монотонный труд масштабирования при условии, что исследователь сохраняет контроль над дизайном, валидацией и интерпретацией. Библиотека промптов и Python-код в приложении снижают технологический барьер для начала работы.

Препринт доступен на arXiv по идентификатору 2603.19271. Обновления и supplementary materials публикуются по ссылке в документе.