arXiv: методическое руководство по аннотированию текстов с помощью LLM для исследователей

Группа исследователей из Утрехтского университета — Цисян Фан, Хавьер Гарсия Бернардо и Эрик-Ян ван Кестерен — опубликовала на arXiv методическое руководство по применению больших языковых моделей для аннотирования текстов в социальных науках и гуманитарных дисциплинах. Статья предназначена для исследователей, которые работают с текстом, но не имеют специальной подготовки в области компьютерных наук.

Зачем это руководство

LLM стали важным инструментом для исследователей, работающих с текстовыми данными. Одно из ключевых применений — автоматизация аннотирования текстов, которое традиционно отнимает много времени на этапе подготовки данных к эмпирическому анализу. Однако многие исследователи в области социальных наук и гуманитаристики (SSH) сталкиваются с двумя препятствиями: трудно понять, с чего начать, и сложно правильно оценить ограничения LLM.

С практической точки зрения, быстрое развитие моделей делает LLM труднодоступными или пугающими для новичков. Даже опытные пользователи нередко недооценивают, как ошибки аннотирования влияют на последующие статистические анализы — вплоть до смещения коэффициентов регрессии и искажения p-значений, даже когда видимая точность аннотирования кажется высокой.

Руководство охватывает шесть тематических блоков:

Как устроены LLM и что они умеют и не умеют делать
Как определить, подходит ли проект для LLM-аннотирования, и каковы минимальные требования к данным и вычислительным ресурсам
Как составлять промпты и запускать задачи аннотирования
Как оценивать качество аннотирования и итеративно улучшать промпты без переобучения
Как включать LLM-аннотации в последующие статистические анализы с учётом ошибок
Как управлять стоимостью, эффективностью и воспроизводимостью при масштабировании

Что в статье не рассматривается

Авторы явно обозначают границы руководства: оно не посвящено техническим деталям архитектуры LLM, сравнительному бенчмаркингу моделей для SSH-задач, дообучению LLM под конкретные домены и полному вытеснению человеческой разметки. LLM рассматриваются как новый класс инструментов аннотирования — мощных, но требующих критического и методически обоснованного применения.

Как LLM работают с точки зрения исследователя

Авторы предлагают интуитивную аналогию для читателей, знакомых с логистической регрессией. В логистической регрессии модель вычисляет вероятность исхода как функцию взвешенной суммы предикторов. LLM делает нечто концептуально схожее, но в несравнимо большем масштабе: вместо нескольких предикторов модель вычисляет тысячи латентных признаков, представляющих паттерны в тексте, и преобразует их в распределение вероятностей по всему словарю токенов.

Это делает LLM, по определению авторов, «многомерным расширением логистической регрессии, работающим с текстовыми последовательностями».

Для исследователей важно понимать несколько принципиальных ограничений:

Вероятностная природа. LLM выдаёт наиболее вероятное продолжение, а не обязательно правильную метку. Небольшие изменения в настройках или формулировке промпта могут давать заметно разные результаты.
Непрозрачность признаков. В отличие от коэффициентов регрессии, внутренние веса LLM распределены по миллиардам параметров и не поддаются прямой интерпретации.
Зависимость от обучающих данных. Поведение модели отражает распределение обучающего корпуса и решения разработчиков, что может включать предвзятости или устаревшую информацию.
Проблемы воспроизводимости. Модели и их API могут меняться без предупреждения. Фиксация версии модели и текста промпта улучшает воспроизводимость, но восстановить более ранние результаты бывает сложно.
Скрытые затраты. Помимо оплаты API, использование LLM для аннотирования требует времени на обучение, разработку промптов и итеративные эксперименты. Для небольших проектов ручная разметка может оказаться дешевле и эффективнее.

Как правильно начинать проект

Авторы настаивают: успешное LLM-аннотирование начинается не с выбора модели, а с чётких конструктов, подходящих данных и обоснованных критериев производительности. Прежде всего нужно убедиться, что то, что вы хотите измерить, действительно присутствует в имеющихся текстовых материалах. Некоторые SSH-конструкты — например, черты личности — плохо улавливаются из публикаций в социальных сетях из-за ограниченных лингвистических или контекстуальных сигналов.

LLM не устраняет концептуальную неоднозначность. Если человеческие аннотаторы достигают лишь умеренного согласия, ожидать от LLM почти идеальной точности нереалистично и методологически неоправданно. Потолок производительности определяется не возможностями модели, а чёткостью конструкта, качеством инструкций по аннотированию и плотностью информации в тексте.

До начала аннотирования авторы рекомендуют определить целевой уровень согласия между LLM и эталонными метками — не произвольный ориентир, а теоретически и содержательно обоснованный порог. Это помогает понять, что считается «достаточно хорошим» результатом, и предотвратить избыточную оптимизацию промптов на валидационной выборке, которая искусственно завышает видимую точность без улучшения обобщаемости.

Ещё одно ключевое требование — золотой набор эталонных меток. Это тщательно отобранное подмножество текстов, размеченных по чётким инструкциям экспертами или с помощью объективных критериев. Золотой набор строго держится вне обучающих данных и примеров для промптов, чтобы избежать утечки данных, которая искусственно раздувает видимое согласие и ведёт к чрезмерно оптимистичным выводам.

Для кого полезна статья

Руководство адресовано исследователям в области социальных наук и гуманитаристики, которые уже работают с текстовыми данными или планируют начать. Оно одинаково полезно как новичкам, впервые сталкивающимся с LLM, так и более опытным пользователям, которым нужна строгая методологическая основа для оценки качества аннотирования и интеграции LLM-меток в статистические анализы. К статье прилагаются два кодбука на Python и два на R, повторяющие шаги, описанные в тексте.