arXiv: как LLM помогают исследователям политики анализировать неструктурированные данные
Как LLM могут поддерживать исследователей в области политики? Оценка рабочего процесса с использованием LLM для анализа неструктурированных данных большого масштаба
Юхань Лю, Шуяо Чжоу, Якоб Кайзер, Элла Колби, Дженнифер Оквара, Мэгги Ван, Варун Нагарадж Рао и Андрес Монрой-Эрнандес Принстонский университет, Нюрнбергский институт рыночных решений
Аннотация
Исследователям в области политики необходимы масштабируемые способы получения информации о взглядах общества, однако они по-прежнему опираются на интервью, сессии по сбору обратной связи и опросы, обрабатываемые тематически, — методы медленные, дорогостоящие и ограниченные по масштабу и разнообразию. LLM открывают новые возможности для тематического анализа неструктурированных текстов, но пока мало что известно о том, как рабочие процессы с участием LLM работают применительно к policy research. Опираясь на рабочий процесс LLM-assisted thematic analysis онлайн-форумов, авторы провели исследование с участием 11 специалистов в области политики, которые воспользовались ранним прототипом и расценили его как быстрый, грубый, но пригодный для практики инструмент первичного анализа. Затем авторы расширили и масштабировали рабочий процесс: в рамках него было проанализировано несколько миллионов постов Reddit и 1 058 транскриптов интервью, проведённых с помощью чат-бота, — по релевантной теме политики. Полученные тематические кластеры сравнивались с авторитетными политическими отчётами; авторы определили точки совпадения и расхождения, а также обсудили, что это означает для специалистов, которые рассматривают возможность внедрения LLM-assisted workflows в policy research.
1. Введение
Лица, принимающие политические решения, нуждаются в своевременном и детальном понимании того, как люди воспринимают и обсуждают актуальные вопросы политики. Для получения такого понимания они систематически опираются на данные из исследований общественного мнения, проводимых специалистами в области политики, — с целью принятия решений, разработки программ и оценки компромиссов. Специалисты в этой области традиционно работают с тремя основными типами источников данных: первичными — опросы, интервью, listening sessions и фокус-группы; вторичными — государственная статистика (например, Бюро трудовой статистики, Национальные институты здравоохранения США) и аналитические отчёты исследовательских центров (например, Pew Research); а также микросимуляциями, которые моделируют вероятные последствия изменений в политике.
Эти методы хорошо отработаны и незаменимы там, где исследователям нужны оценки на уровне населения и разбивки по демографическим группам. Однако они медленны и дороги в реализации, требуют значительных организационных усилий при координации между участниками и исследователями и нередко охватывают только тех, у кого есть время и ресурсы для участия. В результате политические меморандумы и аналитические материалы могут упускать точки зрения недостаточно представленных сообществ — и это особенно остро ощущается на фоне таких инициатив, как усилия Административно-бюджетного управления США в области участия общества и взаимодействия с сообществами.
Параллельно онлайн-сообщества превратились в важные площадки, где люди на собственном языке обсуждают политически значимые темы. Такие платформы, как Reddit, аккумулируют откровенные разговоры о технологиях, труде, здравоохранении и государственных услугах — включая подробные личные истории и критические точки зрения, которые сложно выявить в рамках структурированных опросов или официальных консультаций. Эти обсуждения многочисленны, относительно дёшевы при сборе и уже организованы по тематическим сообществам, что делает их привлекательным источником для policy research. Вместе с тем данные социальных сетей хорошо известны своими проблемами: репрезентативность пользовательской аудитории оставляет желать лучшего, одни группы недопредставлены, а ограничения доступа и этические соображения сужают то, что можно собирать и повторно использовать. В итоге неясно, когда и как анализ онлайн-дискуссий может дополнять более традиционные методы — например, целевые интервью — таким образом, который был бы одновременно полезен и методологически обоснован для policy work.
Последние успехи в развитии LLM предлагают новые инструменты для работы с растущими массивами текстов. LLM способны помогать исследователям структурировать и обобщать неструктурированные тексты больших объёмов — в частности, извлекать темы и тематические кластеры из интервью, форумов и других качественных источников. LLM-based workflows не заменяют качественные методы, но способны сократить ручные усилия по кодированию и сделать практически реализуемым включение более обширных наборов данных в первичное осмысление материала. Например, QuaLLM — это один из таких фреймворков LLM-assisted analysis: он использует многоэтапный пайплайн промптинга для извлечения тем из неструктурированных текстов.
В данной статье авторы адаптируют и расширяют рабочий процесс в стиле QuaLLM под конкретные нужды policy researchers и оценивают его в двух исследованиях. Центральный исследовательский вопрос: как рабочий процесс LLM-assisted thematic analysis может помочь policy researchers разобраться в неструктурированных текстах большого масштаба и как его результаты соотносятся с авторитетными отчётами, на которые они уже опираются?
В Исследовании 1 авторы реализовали пользовательский интерфейс поверх рабочего процесса, позволяющий исследователям: (1) выбирать релевантные источники данных (в данном случае — сообщества Reddit), (2) определять высокоуровневые темы, (3) визуализировать структурированные отчёты с подтемами и примерами цитат. 11 опытных policy researchers использовали этот интерфейс для изучения двух политически значимых тем — использования социальных сетей несовершеннолетними и изменения климата — и сравнили его со своим собственным, не использующим ИИ подходом в условиях ограниченного времени.
Исследование 1 показало, что часть специалистов скептически относится к использованию данных социальных сетей — отчасти потому, что платформы не репрезентативны для широкой аудитории, а обсуждения на форумах тяготеют к определённым сообществам и темам. Для изучения этих вопросов Исследование 2 удерживает тему политики неизменной — экономическое влияние ИИ — и сравнивает результаты тематического анализа по двум источникам данных. В одном треке авторы масштабируют рабочий процесс: отбирают релевантные данные из Reddit в полном объёме — конкретно, из 25 691 суbreddit-сообщества извлекают 122 191 цитату из 5 491 991 поста, а затем применяют рабочий процесс для генерации тем об экономическом влиянии ИИ. В другом треке проводятся 1 058 полуструктурированных интервью, управляемых чат-ботом, с демографически разнообразной выборкой взрослых жителей США, после чего тот же рабочий процесс применяется к полученным транскриптам. Темы из обоих источников сравниваются с темами, извлечёнными из авторитетных политических отчётов об ИИ и экономике.
По итогам обоих исследований авторы позиционируют LLM-assisted workflow как дополнение, а не замену традиционным методам policy research — особенно на стадии первичного изучения темы. Полученные результаты показывают, что рабочий процесс способен воспроизвести многие темы, акцентированные в авторитетных отчётах, выявить дополнительные специфические для конкретных сообществ и ранние возникающие проблемы, а также помочь специалистам эффективно переходить от неструктурированного текста к структурированным обзорам — при этом также обнаруживая важные пробелы, связанные с метаданными, репрезентативностью и доверием к сгенерированным ИИ резюме.
Статья вносит три вклада в область знаний:
- Демонстрирует, как существующий рабочий процесс LLM-assisted thematic analysis может быть применён в контексте policy research.
- В Исследовании 1 представлена оценка рабочего процесса с участием policy researchers: изучается, как он вписывается в существующие исследовательские практики и как соотносится с их собственными методами, не использующими ИИ.
- В Исследовании 2 представлено масштабное тематическое исследование экономических последствий ИИ, в котором рабочий процесс применяется к данным Reddit и транскриптам интервью, а полученные темы сравниваются с авторитетными отчётами.
2. Контекст и смежные работы
2.1. Источники данных для политически значимых текстов
Специалисты давно опираются на изучение общественного мнения как источник доказательной базы для принятия политических решений. Традиционно для этого используются такие методы, как опросы, голосования, listening sessions и структурированные интервью — с применением стандартизированных инструментов и стратегий выборки для получения репрезентативных оценок отношения населения. Эти методы сохраняют центральную роль в информировании политики, формировании рыночных стратегий и поддержке правозащитных усилий. Они остаются незаменимы тогда, когда лицам, принимающим решения, нужны данные о взглядах широкой аудитории. Однако они дороги, долго реализуются и ограничены координационными трудностями между участниками и исследователями, что делает их не всегда пригодными для быстро меняющихся тем или для всестороннего изучения того, как люди говорят о каком-либо вопросе.
Параллельно рост социальных сетей и онлайн-форумов создал новые источники политически значимого дискурса. Исследователи в HCI, CSCW и вычислительных общественных науках используют такие платформы, как Reddit, для анализа представлений людей о конфиденциальности, политических актах, потребностях маргинализированных групп и реакции на новые технологии. Эти платформы предоставляют незапрошенные нарративы, конкретные личные истории и иногда анонимные, критические или нестандартные точки зрения, которые сложно получить в рамках структурированных опросов или интервью.
Вместе с тем использование онлайн-платформ для policy research сопряжено с практическими и этическими трудностями, связанными с доступом к данным, согласием пользователей и политикой платформ. Пользовательская аудитория несбалансирована и нерепрезентативна для населения в целом. Платформы постепенно ужесточают доступ к API и массовым данным, и исследователи обязаны соблюдать меняющиеся условия использования и правовые ограничения. Учёные также обращают внимание на важность защиты конфиденциальности пользователей, предотвращения вреда уязвимым сообществам и прозрачности при сборе и повторном использовании данных. В данной работе Reddit рассматривается как один целенаправленно отфильтрованный источник политически значимого дискурса, дополняющий другие формы данных, а не заменяющий их.
Интервью представляют собой ценный способ сбора политически значимой информации наряду с демографическими данными. Последние работы демонстрируют потенциал чат-ботов на основе LLM в качестве эффективных каналов сбора данных интервью. Опираясь на это, исследователи разработали инструменты, использующие чат-ботов на основе LLM для масштабных интервью, и показали их полезность при качественном сборе данных. Однако проведение традиционного тематического анализа больших объёмов данных интервью по-прежнему требует значительных временных и ресурсных затрат. Поэтому в данной работе интервью, управляемые чат-ботом, рассматриваются как перспективный источник данных, сочетающий демографическое разнообразие с возможностью изучить, как рабочий процесс LLM-assisted thematic analysis может поддержать policy research.
В совокупности описанные линии исследований указывают на существование спектра источников данных для политически значимых текстов: репрезентативные опросы, listening sessions и голосования, онлайн-форумы и транскрипты интервью. Каждый источник обладает различными достоинствами и недостатками с точки зрения репрезентативности, глубины и логистической стоимости. Цель данной работы — не заменить традиционные методы и не оценить, насколько хороши чат-боты в роли интервьюеров. Вместо этого авторы совмещают интервью, управляемые чат-ботом, и посты онлайн-форумов как взаимодополняющие текстовые источники и фокусируются на том, как существующий рабочий процесс LLM-assisted thematic analysis способен поддержать первичное осмысление материала в policy research.
2.2. Вычислительные методы структурирования и анализа политически значимых текстов
По мере того как разнообразные каналы порождают всё большие объёмы текстов, исследователи разрабатывают вычислительные методы для организации этих материалов в тематические кластеры. Значительный массив работ использует не-LLM техники — тематические модели и кластеризацию — для структурирования текстовых корпусов в интерпретируемые компоненты. В смежных с общественным мнением и политикой областях тематические модели помогают анализировать дискуссии в социальных сетях — например, обсуждения дипфейков и их общественных последствий на Reddit. Эти методы позволяют выявлять широкие тематические структуры и тренды, однако нередко требуют значительных технических знаний и сосредоточены на оптимизации статистических характеристик, а не на прямом соответствии рабочим процессам policy researchers.
Помимо статичных тематических моделей, интерактивные и динамические системы помогают аналитикам итеративно выявлять и уточнять темы в больших наборах данных. Предшествующие работы по динамическим опросам, интерактивной визуальной аналитике и инструментам смешанной инициативы позволяют пользователям исследовать текстовые корпусы, регулировать детализацию тем и встраивать экспертные знания в процесс моделирования. Эти системы подчёркивают ценность присутствия человека-аналитика в рабочем процессе, а не полной автоматизации. Однако они, как правило, ориентированы на специалистов по данным или экспертов по визуализации, тогда как специфические потребности и практики policy researchers остаются малоизученными.
LLM также использовались в качестве инструментов в социальных и HCI-исследованиях: они генерируют синтетические персоны или моделируемых респондентов. Последние работы оценивают синтетические HCI-данные, сгенерированные LLM, изучают, как LLM составляют описания персон, и осмысляют сложности и возможности LLM-based synthetic personae и данных. Эти исследования спрашивают, могут ли LLM заменять участников-людей или помогать исследователям рассуждать о различных типах респондентов. Данная работа занимает иную позицию: LLM рассматриваются здесь как инструменты структурирования текстов, созданных людьми — из интервью и форумов, — а не как заменители людей.
Недавние работы в HCI и качественных методах исследуют, как LLM могут помогать с кодированием, составлением аналитических заметок и генерацией предварительных тем на основе данных интервью или форумов. Наиболее близки к цели данной работы LLM-assisted thematic analysis frameworks, использующие многоэтапные промпты для перехода от неструктурированного текста к темам. Такие инструменты, как TopicGPT, DocETL, LLooM и QuaLLM, показывают, что LLM способны предлагать темы, кластеризовать документы и поддерживать исследовательский анализ над большими корпусами. TopicGPT кластеризует корпусы в темы и создаёт их описания на естественном языке, обеспечивая быстрый обзор содержания обсуждений в масштабе. DocETL операционализирует предопределённые аналитические конструкты для повторяемой и прозрачной обработки данных различных форматов. LLooM организует коллекции неструктурированных текстов с помощью итеративной интерактивной визуализации данных. QuaLLM демонстрирует, как LLM может анализировать дискуссии на онлайн-форумах и извлекать темы через многофазный подход к промптингу, сокращая усилия по ручному кодированию при сохранении контроля исследователя.
Несмотря на эти достижения, многие LLM-assisted workflows по-прежнему остаются ориентированными на код и требуют значительных навыков prompt engineering, что ограничивает их доступность для специалистов-практиков в области политики. Одни системы требуют написания скриптов, работы с API или ручной настройки промптов; другие — такие как Reddit Answers и The Giga Brain — предоставляют LLM-powered поиск по форумам, но не дают пользователям детального контроля над источниками данных или этапами анализа. Инструменты, предоставляющие рабочий процесс, который неспециалисты-policy researchers могут применять, проверять и критиковать, остаются малоизученными. Более того, предшествующие работы не оценивали, как фреймворк LLM-assisted thematic analysis вписывается в реальную практику policy research и как его результаты соотносятся с авторитетными отчётами, которые сегодня ориентируют лиц, принимающих решения.
В совокупности предшествующие исследования формируют прочную базу для LLM-based вычислительного анализа политически значимых неструктурированных текстов. Однако по-прежнему не хватает данных о том, способен ли рабочий процесс LLM-assisted text analysis помочь policy researchers разобраться в транскриптах интервью и данных форумов, а также о том, как его результаты соотносятся с авторитетными отчётами. В данной статье авторы расширяют и применяют QuaLLM в контексте policy, оценивая его использование через формативное исследование с policy researchers и тематическое исследование об экономических последствиях ИИ, сравнивающее его результаты с существующими авторитетными политическими отчётами.