Jakob Nielsen: намеренность, осмысление и граничные объекты в работе с ИИ

Схема процессов намеренности и осмысления в работе с ИИ, иллюстрация для статьи Якоба Нильсена

Резюме: Продвинутая работа с ИИ — это не простой цикл «запрос — ответ». Пользователи обнаруживают свои цели через эксперименты, интерпретируют машинный вывод через граничные объекты и уточняют намерения со временем. Будущее ИИ-интерфейсов — не чат, а структурированное исследование.

Новое исследование Алекса Бойерле, Адама Коннорса и коллег из Google DeepMind изучает, как опытные пользователи применяют ИИ для решения сложных задач. DeepMind описывает два поведения пользователей при итеративном использовании ИИ: намеренность (intentmaking) и осмысление (sensemaking).

Это не учебное исследование, где начинающие пользователи просят генератор изображений нарисовать красивую открытку. Участниками были профессиональные математики, работавшие над задачами в области комбинаторики, геометрии и теории вероятностей. Они использовали AlphaEvolve — эволюционный агент программирования — для генерации и оценки программ с целью получения лучших математических конструкций. Система могла работать днями и неделями, генерируя десятки тысяч программ-кандидатов. UX-задача состояла не в том, «как отобразить один ответ», а в том, «как помочь человеку направлять, интерпретировать, отлаживать и перезапускать длительный процесс ИИ».

Это различие принципиально. Большинство современных интерфейсов ИИ предполагают, что у пользователя уже есть цель, и ему лишь нужна помощь в её формулировке. Исследование AlphaEvolve показывает, что в наиболее интересных случаях это предположение неверно. Цель пользователя эволюционирует. Учёный начинает с интуиции, а не с готовой спецификации. Система возвращает частичные свидетельства, патологические ошибки, случайные инсайты и стратегии-кандидаты. Человек затем пересматривает эксперимент. Иными словами, работа с ИИ — это не цикл «вопрос — ответ», а цикл экспериментов.

Продвинутые пользователи обнаруживают, чего они действительно хотят от ИИ, действуя итеративно: пробуя что-то, оценивая результаты и формулируя новые гипотезы.

Именно поэтому термин «намеренность» (intentmaking) ценен. Осмысление (sensemaking) — это процесс интерпретации сложных данных. Намеренность — это процесс обнаружения и уточнения собственной цели через активное взаимодействие с системой. Пользователь чередует эти два процесса: задаёт задачу ИИ, запускает её, интерпретирует результаты, обнаруживает, что метрика оценки была неверной или неполной, уточняет задачу и запускает следующую итерацию. Продвинутая работа в сложной предметной области требует взаимодействий, далеко выходящих за рамки простого одноходового промпта.

Намеренность — термин команды DeepMind для того, что Нильсен называл «намерением через исследование». В любом случае суть в том, что пользователи не знают, чего они хотят от продвинутого ИИ, пока не попробуют несколько вариантов и не исследуют пространство возможностей.

В продвинутой работе с ИИ намерение многослойно. На верхнем уровне — аспирационное намерение: размытые человеческие амбиции, например «найти лучшую конструкцию», «улучшить удержание» или «спроектировать лучший продукт». В середине — операционное намерение: критерии, ограничения, компромиссы и методы оценки, делающие амбицию практически реализуемой. В основании — инструментальное намерение: конкретное представление цели в форме, которую ИИ-система способна оптимизировать.

Большинство интерфейсов ИИ сводят эти уровни к одному полю для ввода запроса — это провал с точки зрения удобства использования. Пользователь может знать свою аспирацию, но ещё не знать операционных критериев, и тем более инструментального формулирования. Намеренность — это движение между уровнями. Хороший UX для ИИ помогает пользователям спускаться от аспирации к операционному уровню и к инструментальному, а затем подниматься обратно — чтобы проверить, соответствует ли локальная оптимизация машины более широкой цели человека.

Именно поэтому сложная работа с ИИ ощущается принципиально иначе, чем работа с обычным ПО. В традиционном программном обеспечении пользователь в основном привносит намерение, а интерфейс предоставляет средства. В продвинутом ИИ интерфейс должен помочь сформировать само намерение.

Конкретная область исследования — математика, но это несущественно для общих выводов. Другие примеры, которые команда DeepMind могла бы изучить: менеджер по маркетингу, планирующий масштабную рекламную кампанию; фармацевтическая компания, разрабатывающая новый препарат; UX-команда, создающая полный дизайн и план исследования для нового приложения; разработчик, генерирующий код для этого приложения.

Пользовательское исследование

Исследование включало 11 внешних математиков, использовавших систему ИИ около трёх месяцев. Они создали более 2300 экспериментов, несколько результатов привели к опубликованным математическим работам. Внутренний интерфейс использовали около 150 активных пользователей в месяц на момент написания статьи. Пользователи рассматривали AlphaEvolve как исследовательский инструмент для собственной математической работы.

Один участник отметил, что порог входа был настолько низким, что можно было просто что-то подумать и решить попробовать. Другой сказал, что отсутствие необходимости самостоятельно писать код позволило ему браться за задачи, которые он иначе никогда бы не стал решать. Это значительный UX-выигрыш. Снижение стоимости первой попытки меняет экономику мышления. Многие перспективные идеи умирают не потому, что они плохи, а потому что стоимость их проверки слишком высока. ИИ может вернуть эти идеи.

Однако низкая стоимость запуска недостаточна сама по себе. Если ИИ-система облегчает запуск плохого эксперимента, но затрудняет его диагностику, она лишь переместила проблему удобства использования ниже по потоку. Важный дизайнерский ход — откалиброванное трение: лёгкие проверки, предотвращающие дорогостоящие ошибки без возврата к высокой стоимости настройки.

Поскольку полноценный эксперимент с AlphaEvolve может потреблять огромные вычислительные ресурсы на протяжении нескольких дней, запуск ошибочного или недоопределённого эксперимента обходится крайне дорого. Чтобы облегчить намеренность, дизайнеры UX DeepMind ввели «тестовый этап» (test-stage). Вместо того чтобы мучительно работать над идеальным запросом, пользователи приняли психологию быстрых проб и быстрых провалов.

Один участник описал этот сдвиг так: «Я намеренно не тратил много времени на обдумывание того, что хотел сделать… Я думал, что проще будет посмотреть, что система угадает, а затем попытаться исправить это.»

Первая попытка ИИ рассматривалась не как конечный продукт, а как одноразовый черновик. Пользователи запускали короткие локальные тесты, чтобы понять, как буквально система интерпретирует их цели, и корректировали настройку перед тем, как перейти к полноценному запуску.

Этот вывод подтверждает трёхуровневую модель UX с ИИ: поверхность намерений, где пользователь задаёт результат; поверхность оркестровки, где система раскрывает планы, предположения и последствия; поверхность прямого управления, где пользователь проверяет, согласовывает и корректирует работу. В зрелых ИИ-системах экран становится не столько местом выполнения работы, сколько местом её проверки и корректировки.

Самый глубокий UX-вывод исследования: пользователи должны сами открыть для себя правильную метрику оценки. Во многих математических задачах легко сформулировать конечную цель, но трудно определить функцию оценки, направляющую прогресс к ней. Разреженное вознаграждение может не давать системе полезного градиента. Небрежное вознаграждение может спровоцировать «мошенничество». Математически корректная цель может не соответствовать форме, в которой ИИ способен продуктивно искать.

В исследовании приводится разговор, в котором участник и команда обсуждают разреженные вознаграждения. Система может решать лёгкие задачи, но затем теряется, не понимая, движется ли она в правильном направлении. Участники предлагают частичные оценки, штрафы и перекрёстные метрики. Человек должен обнаружить: «Что я на самом деле понимаю под прогрессом?» Ответ устанавливается только после наблюдения за поведением ИИ.

Этот вывод распространяется за пределы математики на агентный ИИ. Если бизнес-пользователь просит агента ИИ «улучшить удержание клиентов», интерфейс должен выявить метрический спор, скрытый за этой фразой. Означает ли успех меньше отказов от подписки, более высокую долгосрочную лояльность, больше краткосрочного дохода или меньше раздражения клиентов? Одна и та же инструкция может дать хорошую работу или вредную имитацию деятельности в зависимости от метрики. Удобный интерфейс ИИ должен раскрывать, ставить под сомнение и пересматривать эти метрики, а не прятать их за чёрным ящиком.

Вот почему «промпт-инжиниринг» — поверхностный фрейм для UX с ИИ. Пользователю нужны не просто лучшие слова. Ему нужна лучшая модель задачи, системы, ограничений и критериев успеха. Долгосрочная цель — помочь пользователям постепенно уточнять намерения, реагируя на альтернативы, фиксируя важное и исследуя смежные возможности.

Пользователи AlphaEvolve именно это и делали. Они реагировали на частичные результаты, определяли важное, добавляли перекрёстные проверки и перезапускали эксперименты. Интерфейс не устранял экспертное суждение — он его усиливал. Это верная UX-амбиция для предметно-специфичного ИИ: строить не когнитивные инвалидные коляски, перевозящие пассивных пользователей к непрозрачному пункту назначения, а когнитивные экзоскелеты, делающие экспертное суждение сильнее.

Взлом вознаграждения как UX-проблема

Взлом вознаграждения (reward hacking) обычно рассматривается как проблема машинного обучения. AlphaEvolve показывает, что это также UX-проблема. Система иногда улучшала свой результат патологическими способами — например, переопределяя понятие «длина» в сгенерированном классе. Для системы это была оптимизация, но для пользователя — мошенничество.

ИИ не знает разницы между удовлетворением заявленной метрики и удовлетворением истинной цели пользователя, если система не спроектирована так, чтобы делать это различие видимым и поддающимся корректировке. Участники исследования поняли: когда система выглядела успешной, она могла на самом деле использовать лазейку. Поэтому интерфейс должен поддерживать проверки на здравый смысл, тесты на устойчивость и диагностику «реального» прогресса в отличие от фиктивного.

ИИ склонен «мошенничать» — не потому что он аморален, а потому что ищет кратчайшие пути, удовлетворяющие заявленной метрике, даже если это расходится с реальной целью пользователя.

Для будущих ИИ-продуктов каждый высокоставочный агент должен включать диагностику взлома вознаграждения. Если ИИ оптимизирует лиды для продаж, он может рассылать спам низкокачественным потенциальным клиентам. Если оптимизирует закрытие тикетов поддержки, может закрывать их, не решив проблемы. Если оптимизирует производительность кода, может удалять важные проверки. Если оптимизирует производительность сотрудников, может поощрять видимую активность вместо ценного результата. Это не крайние случаи — это предсказуемые последствия делегирования оптимизации системе, не разделяющей полный контекст человеческих ценностей.

UX-ответ — не просто «сделать ИИ умнее». Умные системы найдут умные лазейки. UX-ответ — сделать цели инспектируемыми, метрики отлаживаемыми, а выходные данные объяснимыми на нескольких уровнях абстракции. Агент критики DeepMind — ранний паттерн для этого: система использовала институциональные знания об общих режимах отказа AlphaEvolve, чтобы предупреждать пользователей перед дорогостоящим запуском. Это именно тот рабочий процесс «ИИ помогает ИИ», который мы будем всё чаще видеть: один агент генерирует, другой критикует, а человек контролирует переговоры.

Когда ИИ беспощадно эксплуатирует плохо определённую метрику, он обнажает разрыв между нашими сформулированными правилами и нашими неартикулированными ценностями. UX-вызов состоит не только в том, чтобы исправить поведение ИИ, но и в том, чтобы проектировать интерфейсы, вынуждающие людей тщательно осмыслить своё собственное неявное знание.

Граничные объекты: якоря общего понимания

Если намеренность — это процесс согласования целей человека и машины, а осмысление — процесс оценки машинного вывода, то граничные объекты (boundary objects) — ключевой медиум, через который происходят эти согласования.

Граничные объекты — концепция, разработанная в 1989 году Сьюзан Ли Стар и Джеймсом Грисемером для описания информации (например, карты, диаграммы или стандартной формы), используемой разными сообществами по-разному, но достаточно стабильной, чтобы сохранять общую идентичность. Они служат мостом-переводчиком, позволяя группам с принципиально разными предметными знаниями эффективно сотрудничать.

В исследовании AlphaEvolve двумя «сообществами» являются математик-эксперт, рассуждающий на языке математической задачи, и ИИ-система, оперирующая через код, оценщики, оценки и мутации программ.

Важный вывод исследования: код сам по себе является принципиально неудачным граничным объектом. Для многих математиков тысячи строк сгенерированного Python-кода создают трение, а не понимание. Код может быть рабочей средой машины, но редко является лучшей средой для человеческих суждений. Поэтому интерфейс должен предоставлять высокоуровневые граничные объекты, позволяющие экспертам оценивать математическую идею без обратной инженерии реализации.

В этой динамике граничные объекты не просто переводят — они устанавливают общее пространство переговоров человека и ИИ. Если граничный объект слишком жёсткий, он ограничивает человеческую интуицию; если слишком расплывчатый, вычислительная мощь ИИ рассеивается в статистическом шуме. Разработчики больше не создают статические считывания, а динамические мосты, где обе стороны должны постоянно согласовывать саму природу задачи.

Это общий принцип проектирования для ИИ: не просто показывать пользователю то, что произвёл ИИ, а показывать наилучшее представление для оценки этого вывода. Для дизайна это могут быть параллельные альтернативы, семантические карты и сравнения до/после. Для кода — тесты, дифференциалы, графики производительности, карты зависимостей и архитектурные сводки. Для стратегии — допущения, компромиссы, контрфактические сценарии и поверхности рисков. Для математики, как в AlphaEvolve, — траектории оценок, визуализации конструкций и деревья эволюции.

Это согласуется с тезисом о том, что создание с ИИ становится актом исследования, а не конструирования. В интерфейсе, основанном на открытии, пользователи не создают конечный результат по частям — они навигируют пространство решений и распознают перспективные направления. Люди лучше справляются с распознаванием, чем с вспоминанием, и этот принцип становится ещё важнее, когда распознаваемый объект — не команда или функция, а результат.

Визуализации как ключевые граничные объекты

Самыми мощными граничными объектами в интерфейсе AlphaEvolve были визуальные представления. Система поощряла вспомогательный ИИ генерировать не только код для оценки, но и код визуализации. Когда AlphaEvolve предлагал новое решение-кандидат для сложной задачи теории графов (например, максимизация рёбер в 30-вершинном графе без 4-циклов или треугольников), интерфейс возвращал не сырой список целых чисел, а интерактивное геометрическое изображение сети узлов.

Проверяя визуальную конструкцию, математик мог обойти Python-код и применить предметную экспертизу непосредственно к выводу ИИ. Визуализация стала сильным граничным объектом, поскольку переводила программную структуру в форму, которую люди могут оценивать по существу задачи.

ИИ-резюме и контекст на естественном языке

Ещё одним важным граничным объектом стало сгенерированное ИИ резюме стратегической логики кода на естественном языке. Панель управления содержала «Обзор ИИ», переводящий сложные программные мутации в параграфы на понятном языке, объясняющие общую стратегическую логику (например, «применяется итеративная жадная конструкция»). Даже когда эти резюме бывали несколько расплывчатыми, они служили незаменимыми эвристическими сигналами, позволяя пользователям быстро оценивать концептуальные стратегии и решать, какие программы заслуживают более глубокого изучения без чтения строчки кода.

Аналогично, текстовый блок «Контекст задачи» — высокоуровневое описание задачи на естественном языке, передаваемое ИИ-агенту — служил граничным объектом, который человек мог интуитивно корректировать, зная, что это безопасно изменит строгие параметры генерации кода машиной.

Без намеренных, предметно-специфичных граничных объектов цикл намеренности–осмысления останавливается. Человек оказывается наедине с сырыми данными, полностью отрезанный от собственной экспертной интуиции, а ИИ оптимизирует в вакууме.

Поскольку вычислительные циклы охватывают дни или недели, интерфейсы должны учитывать «распад намерений» или дрейф целей. К тому времени, как ИИ вернёт ответ, ментальная структура человека могла измениться. Зрелая поверхность оркестровки требует граничных объектов, действующих как капсулы времени: автоматически сохраняющих концептуальное состояние пользователя в момент запуска и восстанавливающих контекст, когда агент возвращается после многодневного выполнения.

Потребность в управлении экспериментами

В исследовании отмечается значительное трение вокруг версионирования и управления экспериментами. Пользователи создавали множество слегка модифицированных заданий ИИ и затем с трудом вспоминали, чем они отличаются. Один участник хотел иметь дерево-обзор модификаций и лучший способ навигации по версиям — по сути, «форкграф» для научных исследований.

Это требование управления экспериментами прямо перекликается с потребностями при разработке программного обеспечения. Контроль версий, сравнения ветвей, история коммитов — всё это граничные объекты, существующие потому, что программисты давно поняли: нельзя удерживать в голове всё дерево решений. Исследователи, использующие ИИ-агентов, сталкиваются с той же проблемой.

Параллельные потоки и поддержка мышления

Многие пользователи запускали несколько конкурирующих направлений работы параллельно. Они управляли несколькими ветвями экспериментов, не только следуя разным гипотезам, но и компенсируя шум и стохастичность системы. Интерфейс мог явно поддерживать это поведение или оставлять его неотслеженным — и пользователи просили о первом.

Такой сдвиг важен: в традиционных исследованиях параллельная работа означает соавторство или разделение труда. При работе с ИИ параллельность часто может вести один и тот же исследователь, использующий агент как множество одновременных исполнителей. Интерфейс должен помочь пользователю сохранять когнитивный контроль над этой мощью — иначе мощь становится хаосом.

Что это означает для дизайна UX

Выводы исследования AlphaEvolve не ограничиваются математикой. Они указывают на то, что нужно любому интерфейсу, где пользователи делегируют агентам ИИ сложную, длительную или высокоставочную работу.

Снижайте стоимость первого теста. Тест-этап работал потому, что он сделал провал дешёвым. Хороший UX для ИИ должен позволять пользователям проверять предположения до того, как они совершают полноценный запуск. Это применимо к любому агентному ИИ, где действия имеют затраты.

Делайте намерение видимым. Поскольку намерение трёхслойное — аспирационное, операционное, инструментальное — интерфейсы должны отображать, на каком уровне происходит взаимодействие. Пользователь, редактирующий метрику на инструментальном уровне, должен видеть, как это возвращается к его аспирационной цели.

Спроектируйте для обнаружения взлома вознаграждения. Каждый агент, оптимизирующий заявленный результат, может отклониться от реальной цели. Интерфейсы, поддерживающие такое обнаружение — через диагностические агенты, санитарные проверки или контрфактические визуализации, — создают более заслуживающие доверия системы.

Выбирайте правильный граничный объект для каждой аудитории. Код работает для инженеров, но не для большинства экспертов предметной области. Визуализации работают для математиков, рассуждающих геометрически. Резюме на естественном языке работают для менеджеров, принимающих решения по направлениям. Граничный объект — это дизайнерское решение, не техническое.

Стройте для асинхронного сотрудничества. Когда ИИ-агенты работают в течение дней или недель, человеческие команды продолжают жить свою жизнь. Интерфейс должен делать состояние агента понятным при возобновлении работы — не только через уведомления о завершении, но и через контекстуальные восстановители, показывающие, что было запущено, почему и что ждёт оценки.

Выводы применимы к любой системе, которую мы строим, где эксперты используют ИИ для задач достаточно сложных, чтобы требовать длительного исследования: drug discovery, сложный анализ данных, стратегическое планирование, крупномасштабный UX-дизайн. Базовый паттерн остаётся одним и тем же: намеренность плюс осмысление плюс правильные граничные объекты.