arXiv: рабочий процесс на основе больших языковых моделей для контент-анализа
Ориентированный на человека рабочий процесс использования больших языковых моделей в контент-анализе
Иван Зупич, School of Creative Management, Goldsmiths, University of London
Аннотация
Большинство исследователей взаимодействуют с большими языковыми моделями (LLM) через чат-интерфейсы, тогда как настоящий потенциал этих инструментов раскрывается при программном доступе через API. Данная работа предлагает концептуализировать LLM как универсальные машины для обработки текста и описывает целостный рабочий процесс для выполнения трёх задач контент-анализа: (1) аннотирование (включая качественное кодирование, разметку и классификацию текста), (2) суммаризация и (3) извлечение информации. Рабочий процесс выстраивается вокруг принципа участия человека на каждом этапе: исследователь проектирует, контролирует и валидирует каждый шаг работы с LLM, обеспечивая строгость и прозрачность результатов. Авторский подход синтезирует методологические знания из политической науки, социологии, информатики, психологии и менеджмента. В статье изложены процедуры валидации и лучшие практики для устранения ключевых ограничений LLM: закрытость «чёрного ящика», чувствительность к формулировкам промптов и склонность к галлюцинациям. В качестве дополнительных материалов авторы предоставляют библиотеку промптов и код на Python в формате Jupyter Notebook с подробными инструкциями по применению.
Ключевые слова: Large Language Models, LLM, content analysis, qualitative research, quantitative research, qualitative coding, annotation, summarization, information extraction, validation
Версия от 27 февраля 2026 года.
Введение
Контент-анализ, определяемый как исследовательская техника для формирования воспроизводимых и обоснованных выводов из текстов применительно к контексту их использования (Krippendorff, 2012), давно занимает центральное место в качественных и количественных исследованиях в области менеджмента и организационных наук (Duriau et al., 2007). Однако традиционные методы контент-анализа наталкиваются на серьёзные ограничения масштабируемости. Анализ нескольких десятков документов остаётся посильной задачей, но обработка сотен интервью или миллионов публикаций в социальных сетях превышает возможности ручного труда (Barros et al., 2025), что ведёт к упущению важных наблюдений в массивных наборах данных. Это стимулировало интерес к вычислительным инструментам, способным поддержать контент-анализ без утраты обоснованности (McKenny et al., 2018).
Традиционные инструменты вычислительного анализа текста — тематическое моделирование, анализ тональности — существенно продвинулись в обработке больших массивов данных (Alaei et al., 2019; Hannigan et al., 2019). Вместе с тем LLM предлагают ещё более привлекательное решение проблемы масштабируемости. В отличие от специализированных моделей машинного обучения, требующих трудоёмкого обучения под каждую задачу, LLM демонстрируют значительную функциональность за счёт эмерджентных способностей — возможностей, которые проявляются по мере роста размера модели и объёма обучающих данных (Wei et al., 2022). Такие модели справляются с разнообразными задачами, просто следуя инструкциям на естественном языке, что делает их доступными для исследователей без специальной подготовки в области NLP или машинного обучения. Эта доступность обозначает принципиальный сдвиг парадигмы: модели программируются под конкретные задачи через промпты, а не посредством разработки специализированных алгоритмов.
Поскольку LLM способны выполнять контент-анализ в масштабе с измеримой точностью, они значительно расширяют эмпирический охват исследований. Вместе с тем их применение сопряжено с рисками: чувствительность к формулировкам инструкций, склонность к генерации правдоподобных, но неверных ответов, непрозрачность внутренних механизмов (Chae & Davidson, 2025; Törnberg, 2024a). Использование LLM без должной методологической строгости создаёт риск систематических ошибок, которые остаются незамеченными и ведут к значимым последствиям для обоснованности исследований (Ashwin et al., 2025; Lin & Zhang, 2025).
Основная цель данной работы — легитимизировать и стандартизировать применение LLM для контент-анализа. Авторы опираются на разнородную литературу в политической науке, социологии, NLP, информационных системах, психологии и менеджменте, чтобы разработать ориентированный на человека рабочий процесс. Статья вносит три ключевых вклада в формирующуюся область использования LLM в научных рабочих процессах. Первый — концептуализация LLM как универсальных машин обработки текста (в противовес собеседникам в диалоге), из чего следует, что научная ценность достигается через обработку текстовых данных в программируемых, документируемых и воспроизводимых конвейерах через API. Второй — явно ориентированный на человека сквозной рабочий процесс, охватывающий дизайн исследования, подготовку данных, разработку promptbook, масштабируемую обработку, проверку обоснованности, надёжности и устойчивости, а также интерпретацию. Третий — методологические стандарты для публикуемых исследований с применением LLM: систематизация трёх семейств задач, операционализация кодбуков как «promptbook» со структурированными выходными данными, и приоритет проверки обоснованности, надёжности и устойчивости результатов.
Контент-анализ
Контент-анализ широко определяется как «любое методологическое измерение, применяемое к тексту (или другим символическим материалам) в целях социальных наук» (Shapiro & Markoff, 1997, цит. по Duriau et al., 2007). По Крипендорфу (2012), это «исследовательская техника для формирования воспроизводимых и обоснованных выводов из текстов применительно к контексту их использования». Как родовая категория, контент-анализ охватывает широкий спектр аналитических подходов — от сугубо качественных, применяемых в обоснованной теории, обзорах литературы и кейс-исследованиях, до высококвантитативных техник: кодирование по словарям, тематическое моделирование, NLP (Reger & Kincaid, 2021). Центральным допущением метода служит то, что текстовый анализ позволяет получить доступ к когнитивным схемам, ценностям, намерениям и установкам авторов текста — структурам, которые сложно изучать традиционными количественными методами (Duriau et al., 2007; Krippendorff, 2012).
Контент-анализ обладает рядом преимуществ для организационных исследований. Поскольку он применяется к документам и коммуникациям, которые организационные акторы производят в ходе обычной работы — годовые отчёты, письма акционерам, протоколы совещаний, — метод обеспечивает ненавязчивый способ изучения социокогнитивных процессов в контексте, избегая части смещений, характерных для опросов и экспериментов (Duriau et al., 2007; Reger & Kincaid, 2021). Метод аналитически гибок: его можно применять на уровне манифестного содержания (поверхностная статистика текста) или на уровне латентного содержания (глубокий интерпретационный смысл). Он позволяет преобразовывать неструктурированный текст в структурированные данные для дальнейшего статистического анализа, одинаково пригоден для дедуктивного тестирования теорий и индуктивного построения теорий, а также хорошо подходит для лонгитюдных дизайнов — при сравнительно низкой стоимости по сравнению с первичным сбором данных (Duriau et al., 2007; Insch et al., 1997).
При всех достоинствах, контент-анализ предъявляет высокие методологические требования, особенно в части надёжности и обоснованности. Надёжность традиционно оценивается через межкодировочное согласие — степень, в которой независимые кодировщики присваивают одинаковые категории одним и тем же единицам текста (Insch et al., 1997; Krippendorff, 2012). Простой процент совпадений широко критикуется как недостаточная мера надёжности, поскольку не учитывает случайное совпадение. В качестве более строгих альтернатив рекомендуются альфа Крипендорфа или каппа Коэна (A. F. Hayes & Krippendorff, 2007). Требования к обоснованности столь же значимы: схема кодирования должна измерять именно тот конструкт, для которого предназначена, а категории — быть семантически согласованными и последовательно применяемыми (Krippendorff, 2012; Morris, 1994). Для соответствия этим стандартам рекомендуется систематический итерационный протокол кодирования: тестирование, доработка и повторное тестирование схемы перед применением к полному массиву данных (Insch et al., 1997; Reger & Kincaid, 2021).
Большие языковые модели (LLM)
LLM — это передовые системы искусственного интеллекта, ориентированные на понимание и генерацию текста на естественном языке (A. S. Hayes, 2025). С технической точки зрения, LLM представляют собой нейронные сети на основе трансформеров (Vaswani et al., 2017) — специфической архитектуры глубокого обучения (LeCun et al., 2015). Они обучаются на колоссальных объёмах текстовых данных. Результаты предобучения сохраняются в параметрах модели, именуемых весами, — их количество варьируется от миллионов у небольших моделей до сотен миллиардов у крупных. Ключевое значение имеют эмерджентные способности: по мере увеличения размера модели и объёма обучающих данных у неё нередко возникают новые возможности (например, рассуждение без примеров или здравый смысл), отсутствующие у меньших моделей (Wei et al., 2022). Это означает, что LLM зачастую справляются с задачами, для которых её явно не обучали, просто «понимая» инструкцию пользователя. Данное свойство особенно полезно для задач контент-анализа: модель можно настроить на аннотирование, суммаризацию или извлечение информации без разработки отдельного алгоритма для каждой задачи. Это принципиально отличает LLM от традиционных алгоритмов машинного обучения, требовавших специальной подготовки под каждую конкретную задачу с высокими затратами технической экспертизы, бюджета и человеческого труда.
По существу, LLM — это предикторы слов. Они принимают текст (промпт) на входе и — основываясь на вероятностном распределении слов, усвоенном в ходе обучения, — последовательно генерируют связный и контекстуально уместный текст (Nguyen & Welch, 2025; Ornstein et al., 2025). При этом модели не обладают имманентным пониманием текста: в основе их работы лежит сопоставление паттернов, выученных на обучающих данных.
Понимание базовых принципов работы этих моделей имеет практическое значение. Поскольку LLM предсказывают на основе паттернов, они лучше всего справляются с задачами, похожими на те, что были представлены в обучающих данных (Chollet & Watson, 2025; Than et al., 2025). Они превосходно выявляют явные текстуальные признаки, но порой испытывают трудности с глубокой контекстуальной интерпретацией, требующей профильных знаний или культурных коннотаций, отсутствующих в обучающих данных (Schroeder et al., 2025). Обработка на основе токенов означает, что LLM способны упустить связи, охватывающие длинные документы, если специально не инструктировать модель учитывать более широкий контекст. Исследователям следует воспринимать LLM как сложные инструменты сопоставления паттернов, а не как автономных интерпретаторов. Это мощные инструменты, требующие человеческого руководства и валидации. Такое понимание снижает восприимчивость к хайпу и повышает чуткость к ограничениям моделей при одновременном использовании их возможностей.
Ключевые термины LLM-технологии
Token — базовая единица текста, которую обрабатывает LLM. Перед анализом текст разбивается на токены алгоритмом-токенизатором. В английском языке один токен составляет в среднем 0,75 слова. Лимиты токенов определяют объём доступного ввода/вывода; стоимость API-запросов обычно рассчитывается на токены; размер context window измеряется в токенах.
Context window — максимальный объём текста, который LLM может «видеть» и обрабатывать одновременно. Это одно из ключевых ограничений LLM: модель не сохраняет ничего за пределами своего context window. Объём обрабатываемых в одном API-запросе документов должен быть существенно меньше context window используемой модели. Размер context window измеряется в токенах.
Parameter/Weight — Parameter — родовой термин для всех значений LLM, усвоенных в ходе обучения. Weight — специфический тип параметра, определяющий силу влияния одного нейрона на другой. Поскольку веса составляют подавляющее большинство параметров LLM, эти термины порой используются взаимозаменяемо, хотя технически они не тождественны.
Inference — процесс генерации LLM ответа или предсказания на основе поданного промпта. Процесс задействует обученную нейронную сеть для последовательного предсказания текста — токен за токеном.
Encoder-decoder — архитектура нейронной сети, используемая во многих трансформерных моделях. «Энкодер» преобразует входной текст в числовое представление (векторы), «декодер» генерирует выходной текст из этого представления. Хотя исходные трансформеры использовали оба компонента, многие современные LLM (например, GPT) являются архитектурами «только декодер», оптимизированными для генерации текста. Модели encoder–decoder остаются распространёнными в задачах перевода и суммаризации.
JSON (JavaScript Object Notation) — стандартный текстовый формат для представления структурированных данных. Всё шире используется как стандартный формат вывода для исследовательских задач с LLM: он вынуждает модель организовывать свободный текстовый ответ в машиночитаемую структуру, упрощающую автоматический парсинг в базы данных или электронные таблицы. Ограничение вывода схемой JSON снижает долю невалидных ответов.
API (Application Programming Interface) — стандартизированный способ отправки запросов к LLM и получения ответов программным путём. API обеспечивают пакетную обработку, журналирование входных/выходных данных, управление настройками и воспроизводимые конвейеры.
Temperature — ключевой параметр настройки, управляющий степенью случайности при выборе следующего токена. Низкие значения (около 0) дают более согласованный и предсказуемый вывод и предпочтительны для задач измерительного типа (классификация, извлечение). Более высокие значения могут повысить оригинальность/читабельность, но снижают стабильность результатов от запроса к запросу; они предпочтительны для задач типа суммаризации.
Полная версия статьи, включая описание рабочего процесса (research design, data collection, promptbook development, processing, validation), приложения с библиотекой промптов и Python-кодом, доступна на arXiv.