arXiv: ориентированный на исследователя рабочий процесс применения LLM в контент-анализе

Препринт arXiv о применении LLM в контент-анализе

Препринт arXiv:2603.19271, опубликованный 27 февраля 2026 года, предлагает структурированный рабочий процесс для исследователей, применяющих большие языковые модели (LLM) в задачах контент-анализа. Автор — Ivan Zupic.

Аннотация

Большинство исследователей обращаются к LLM через чат-интерфейс, однако реальный потенциал моделей раскрывается при программном доступе через API. Данная работа рассматривает LLM как универсальные машины обработки текста и описывает рабочий процесс для трёх задач — качественного и количественного контент-анализа:

Аннотирование — обобщённый термин для качественного кодирования, разметки и классификации текста.
Резюмирование — автоматическое обобщение текстовых данных.
Извлечение информации — структурированное получение данных из неструктурированных текстов.

Рабочий процесс явно ориентирован на человека: исследователи проектируют, контролируют и валидируют каждый этап работы LLM, обеспечивая строгость и прозрачность анализа. Подход синтезирует методологические выводы из литературы нескольких дисциплин: политической науки, социологии, информатики, психологии и менеджмента.

Авторы описывают процедуры валидации и рекомендуемые практики для преодоления ключевых ограничений LLM: непрозрачности архитектуры («чёрный ящик»), чувствительности к формулировке промпта и склонности к галлюцинациям. В качестве дополнительных материалов публикуются библиотека промптов и код Python в формате Jupyter Notebook с подробными инструкциями.

Тематика: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
Ссылка: arXiv:2603.19271 [cs.CL]
История версий: v1, 27 февраля 2026 года, 683 KB
Лицензия: CC BY-NC-SA 4.0