Nature Scientific Reports: ИИ-интервьюеры — сравнительная оценка шести языковых моделей

Обложка журнала Nature Scientific Reports — исследование ИИ-интервьюеров

Группа исследователей опубликовала в Nature Scientific Reports протокол многофакторной оценки языковых моделей в роли адаптивных интервьюеров для полуструктурированных психологических интервью. В исследовании сравниваются шесть актуальных моделей: Claude Sonnet 4, Gemini 2.5 Pro, GPT-5 Chat, Grok 4, Qwen3-235B A22B и DeepSeek Chat V3.1.

Методология

Авторы создали модульного LLM-агента, который проводит полуструктурированные психологические интервью на основе 54 основных вопросов, охватывающих биографию, семью, интересы, трудности, ценности, работу и здоровье. По каждому ответу модель принимает решение: нужен ли уточняющий вопрос, и если да — генерирует его с учётом контекста разговора.

Для обеспечения сопоставимости результатов исследователи стандартизировали контекст интервью: все модели работали с транскриптами десяти базовых интервью, проведённых людьми. В роли испытуемого выступал единственный LLM-агент-«респондент», что исключило вариативность человеческих ответов.

Экспертные психолингвисты оценивали поведение интервьюеров по пяти бинарным критериям: доброжелательность (эмпатичный тон), необходимость вопроса, учёт контекста, открытость формулировки и обоснованность отказа от уточнения. По итогам эксперты аннотировали более 2900 позиций с высокой межэкспертной надёжностью (коэффициент Флейса κ от 0,67 до 0,93).

В дополнение к оценкам экспертов авторы собрали метрики эффективности — латентность и интенсивность опросов — а также провели лингвистическое профилирование: морфосинтаксический анализ и психолингвистические характеристики текстов интервью.

Результаты сравнения моделей

Исследование выявило выраженные различия между моделями, в каждой из которых сочетаются сильные и слабые стороны.

Gemini 2.5 Pro демонстрирует наиболее эмпатичный тон: эксперты оценили его доброжелательность выше, чем у остальных моделей. Это делает модель предпочтительной для исследований, где важны доверие и раскрытость участника.

GPT-5 Chat ориентирован на скорость и точность: модель задаёт меньше уточняющих вопросов, но делает это избирательно там, где они действительно необходимы. Подход оправдан в условиях массовых исследований с ограниченным бюджетом времени.

Grok 4 обеспечивает максимальный охват тематики, задавая уточняющие вопросы практически по каждому ответу. Следствием этого становится высокая латентность и склонность к избыточной контекстуализации — риск получить длинные интервью с меньшей фокусировкой на главном.

Claude Sonnet 4 показывает сбалансированные результаты по всем критериям: авторы характеризуют его как «универсальное» решение без явных провалов в отдельных измерениях.

DeepSeek Chat V3.1 выделяется нестабильностью форматирования выходных данных, что подчёркивает операционную важность соответствия схеме при промышленном развёртывании ИИ-интервьюеров.

Что это значит для исследователей

Авторы фиксируют закономерность: лингвистические маркеры — личные местоимения, временны́е формы, интенсификаторы, синтаксическая сложность — коррелируют с оценками экспертов. Это означает, что стилистические решения модели отражаются в воспринимаемом качестве интервью и могут служить прокси-метриками при автоматической оценке.

Авторы публикуют воспроизводимый инструментарий: промпты, код оркестрации и рубрику аннотирования. Это даёт исследователям основу для обоснованного выбора модели под конкретный тип исследования — психологические эксперименты, UX-интервью, маркетинговые исследования — и для аудита поведения агента по критериям эмпатии, уместности и эффективности.

Данные исследования опубликованы в IEEE Dataport: https://dx.doi.org/10.21227/kbnf-gs17.