arXiv: ориентированный на исследователя рабочий процесс применения LLM в контент-анализе
Препринт arXiv:2603.19271, опубликованный 27 февраля 2026 года, предлагает структурированный рабочий процесс для исследователей, применяющих большие языковые модели (LLM) в задачах контент-анализа. Автор — Ivan Zupic.
Аннотация
Большинство исследователей обращаются к LLM через чат-интерфейс, однако реальный потенциал моделей раскрывается при программном доступе через API. Данная работа рассматривает LLM как универсальные машины обработки текста и описывает рабочий процесс для трёх задач — качественного и количественного контент-анализа:
- Аннотирование — обобщённый термин для качественного кодирования, разметки и классификации текста.
- Резюмирование — автоматическое обобщение текстовых данных.
- Извлечение информации — структурированное получение данных из неструктурированных текстов.
Рабочий процесс явно ориентирован на человека: исследователи проектируют, контролируют и валидируют каждый этап работы LLM, обеспечивая строгость и прозрачность анализа. Подход синтезирует методологические выводы из литературы нескольких дисциплин: политической науки, социологии, информатики, психологии и менеджмента.
Авторы описывают процедуры валидации и рекомендуемые практики для преодоления ключевых ограничений LLM: непрозрачности архитектуры («чёрный ящик»), чувствительности к формулировке промпта и склонности к галлюцинациям. В качестве дополнительных материалов публикуются библиотека промптов и код Python в формате Jupyter Notebook с подробными инструкциями.
Тематика: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
Ссылка: arXiv:2603.19271 [cs.CL]
История версий: v1, 27 февраля 2026 года, 683 KB
Лицензия: CC BY-NC-SA 4.0