Как ИИ учится рассуждать: гонка за то, чтобы научить модели находить свои ошибки

Вы нажимаете Enter и вместо ответа видите одно слово: Thinking. Проходит десять секунд, потом двадцать. Затем появляется ответ — структурированный, с самокоррекцией, иногда ловящий собственные ошибки на полуслове. Если вы пользовались Claude, ChatGPT o3 или DeepSeek за последний год, вы видели эту паузу. Большинство объяснений останавливаются на фразе «модель рассуждает пошагово», как будто на этом всё ясно.

Это не так. За этой паузой стоит метод обучения, и у него есть фундаментальный изъян — он ограничивает способность модели учиться на собственных ошибках. Прямо сейчас шесть исследовательских команд из четырёх стран наперегонки пытаются его исправить. Каждая нашла свой путь, и ни одна не добралась до финиша. Исход этой гонки определит, насколько хорошо ИИ будет рассуждать в ближайшие годы, а понимание происходящего меняет ваш подход к работе с этими инструментами уже сегодня.

Учитель, который проверяет только финальный ответ

Чтобы понять изъян, представьте аналогию. Ученик сдаёт решение задачи из шести шагов. Учитель смотрит в конец страницы, видит правильный ответ и пишет «хорошо» напротив каждого шага. Другой ученик сдаёт решение, где первые пять шагов безупречны, но в последнем — арифметическая ошибка. Учитель пишет «плохо» напротив каждого шага, включая пять правильных.

Примерно так работает самый распространённый метод обучения — Group Relative Policy Optimization, или GRPO. GRPO — это алгоритм, на котором построены DeepSeek-R1 и Qwen, две наиболее сильные открытые reasoning-модели. Во время обучения модель генерирует несколько решений одной и той же задачи. Решения с правильным ответом получают положительное вознаграждение. Неправильные — отрицательное. Вознаграждение распределяется равномерно по всем токенам ответа — каждое слово, каждый знак препинания, каждое «давайте пересмотрим» получает одинаковую оценку.

Этот подход называется outcome-based reward (вознаграждение по результату), и у порождаемого им изъяна есть техническое название: проблема распределения заслуг (credit assignment problem). Модель не может отличить ключевой шаг рассуждения от заполняющей фразы, потому что оба получают абсолютно одинаковый обучающий сигнал.

Последствия конкретны. Модель, обученная таким способом, может набрать 97% на математических тестах уровня аспирантуры, но иногда ошибается в сложении двузначных чисел — потому что процесс обучения так и не научился отделять моменты, где арифметическая точность была критична, от моментов, где модель генерировала шаблонные фразы вроде «подойдём к этому системно». До определённого уровня сложности равномерное вознаграждение работает достаточно хорошо. За этим потолком прогресс останавливается: модель генерирует всё более длинные ответы, но точность перестаёт расти.

Первое решение: нанять второго учителя

Первой командой, которая серьёзно взялась за эту проблему, была OpenAI. В 2023 году они опубликовали статью «Let’s Verify Step by Step» и построили то, что назвали Process Reward Model, или PRM. Идея была прямолинейной: вместо того чтобы оценивать только финальный ответ, обучить отдельную модель, которая оценивает каждый промежуточный шаг.

Для этого OpenAI наняли аннотаторов, которые разметили более 800 000 отдельных шагов рассуждений в математических решениях — отмечая каждый как правильный, неправильный или нейтральный. На этих данных обучили отдельную модель-судью. Во время обучения основной модели PRM оценивала каждый шаг и давала детальную обратную связь: этот шаг верный, этот ошибочный, этот нерелевантный.

Это сработало. Пошаговая обратная связь заметно улучшила способность основной модели к рассуждениям по сравнению с оценкой только по результату. Статья стала точкой отсчёта, а датасет PRM800K широко цитируется до сих пор.

Однако у подхода было ограничение, мешавшее масштабированию. Обучение PRM требовало масштабной ручной разметки для каждой новой области. Для математических рассуждений размеченные данные были; для юридических, медицинских рассуждений и программирования — нет. А поддержка второй модели, которую нужно было переобучать вместе с основной для сохранения калибровки, создавала существенную вычислительную нагрузку.

Вопрос стал таким: можно ли получить преимущества пошаговой обратной связи без затрат на отдельного судью? В 2025 году пять команд предложили пять разных ответов.

Пять путей к одной цели

Статистическое ветвление

Команда из Mila и Microsoft под руководством исследователей Университета Монреаля опубликовала VinePPO в середине 2025 года. Подход был построен на методе Монте-Карло: для каждого шага в цепочке рассуждений сгенерировать десятки альтернативных продолжений и подсчитать, сколько из них в итоге приводят к правильному ответу.

Если 80% ветвей, растущих от третьего шага, ведут к верному решению, третий шаг, вероятно, был хорошим. Если после пятого шага успешны только 10%, на пятом шаге что-то пошло не так. Модель использует эти показатели завершения как пошаговые вознаграждения без какой-либо ручной разметки.

Метод дал ощутимые улучшения на бенчмарках математических рассуждений для моделей до 7 миллиардов параметров. Но вычислительная цена оказалась высокой — генерация десятков альтернативных ветвей для каждого шага в каждом обучающем примере требовала значительно больше вычислительных мощностей, чем стандартный GRPO, что делало VinePPO непрактичным для крупных моделей и промышленного обучения.

Следы влияния

Позднее в 2025 году Прасанна Партасаратхи из лаборатории Noah’s Ark Lab в Huawei и Матьё Реймон из Mila пошли другим путём: они обратились к 1980-м годам. Классическое обучение с подкреплением уже решало версию проблемы распределения заслуг через технику, называемую eligibility traces (следы приемлемости) — механизм, который передаёт сигналы вознаграждения назад по последовательности действий с экспоненциальным затуханием по мере удаления.

Их метод, GRPO-λ, адаптировал этот механизм для языковых моделей без модели-критика. Основная идея: если модель начала генерировать правильные токены после определённого шага, этот шаг получает заслугу за последующий успех, взвешенную по близости к хорошему результату. Шаг, непосредственно предшествовавший верному выводу, получает сильную заслугу. Шаг, отстоящий на десять позиций, — более слабую, с экспоненциальным затуханием.

Результаты оказались убедительными: сходимость при обучении ускорилась на 30–40% с устойчивыми улучшениями на математических бенчмарках для архитектур Qwen и LLaMA. Метод не добавлял ни затрат памяти, ни дополнительной модели. Однако эксперименты остановились на 7 миллиардах параметров, и авторы отметили, что разрыв сужался на более крупных моделях, оставляя открытым вопрос: имеют ли значение следы влияния, когда модель уже достаточно велика, чтобы эффективно учиться на более грубых сигналах.

Критик, читающий за один проход

Команда Tencent и Университета Жэньминь, стоящая за методом CAPO (опубликован в конце 2025 года), взяла идею PRM и убрала стоимость обучения отдельного судьи. Вместо специализированной модели вознаграждения они использовали существующую большую языковую модель — Qwen или Llama на 72 миллиарда параметров — в качестве генеративного критика. Критик читает решение за один проход инференса и определяет, какие шаги содержат ошибки, вынося вердикт по каждому шагу.

Токены в правильных шагах получают полное вознаграждение за результат. Токены в шагах, помеченных как ошибочные, получают штраф. Метод ввёл асимметричную схему взвешивания: правильные ответы имеют больший вес, чем наказание за ошибки, что предотвращало доминирование ошибок критика в обучающем сигнале.

CAPO улучшил производительность на 2–3,5 процентных пункта на нескольких бенчмарках и работал с разными моделями-критиками без специфической для задачи настройки. Компромисс был очевиден: обучать отдельного судью больше не требовалось, но инференс модели на 72 миллиарда параметров для каждого обучающего примера оставался существенной затратой, линейно масштабирующейся с размером датасета.

Сравнение того, что модель уже знает

В феврале 2026 года Хритик Бансал опубликовал DenseR — метод, подошедший к проблеме с совершенно другой стороны. Вместо внешних судей или статистической выборки DenseR заглянул внутрь самой модели.

Ключевое наблюдение состояло в том, что внутренние представления модели — скрытые состояния (hidden states), которые она производит на позиции каждого токена, — уже содержат информацию о том, где рассуждения расходятся. Когда два решения одной задачи начинаются одинаково, но заканчиваются по-разному (одно правильно, другое нет), их скрытые состояния почти идентичны в начале и резко расходятся в точке, где одно решение пошло по неверному пути. Эта точка расхождения и есть решение, которое имело значение.

DenseR использует косинусное сходство между скрытыми состояниями для вычисления веса каждого токена: токены, где правильные и неправильные решения резко расходятся, получают больший вес в обучающем градиенте. Токены, где все решения выглядят похоже, получают меньший вес. Общая величина градиента остаётся прежней — DenseR лишь перераспределяет, где происходит обучение, но не его объём.

Результаты на модели в 600 миллионов параметров оказались впечатляющими: 12,5-кратное улучшение на AIME 2024 (бенчмарк задач олимпиадного уровня по математике) по сравнению со стандартным GRPO. На модели в 4 миллиарда параметров улучшение pass@1 было скромным, но разнообразие правильных решений выросло ощутимо — модель находила больше различных путей к верному ответу.

Ограничение было столь же очевидным. Сравнение скрытых состояний работает чисто, когда два решения имеют буквально одинаковый префикс и расходятся в одной точке. Когда решения используют принципиально разные подходы с самого начала, сигнал расхождения сливается с фоновым шумом и теряет различающую способность.

Отслеживание сдвигов вероятности

Самая свежая работа, опубликованная в марте 2026 года командой Qwen в Alibaba, — это FIPO (Future-KL Influenced Policy Optimization). Там, где DenseR смотрел на скрытые состояния, FIPO смотрит на то, что происходит после обновления модели.

Метод измеряет, как обновление политики (policy update) меняет вероятность последующих токенов. Если обновление модели на конкретном обучающем примере «усиливает» токены, следующие за определённым шагом рассуждения — делая модель более склонной продолжать по этому пути в будущем, — значит, этот шаг рассуждения был влиятельным и должен получить больший вес при следующем обновлении.

FIPO использует дисконтированную сумму этих сдвигов вероятности с окном экспоненциального затухания, контролируемым одним гиперпараметром. Результат — плотный, потокенный сигнал преимущества, не требующий ни дополнительных моделей, ни ветвления, ни анализа скрытых состояний — только логарифмы вероятностей, которые GRPO и так вычисляет.

На Qwen2.5-32B, крупнейшей модели, протестированной в любом из этих исследований, FIPO поднял точность на AIME 2024 с 50,0% до 58,0% — лучший заявленный результат среди методов credit assignment. Ответы модели выросли примерно с 4 000 до более чем 10 000 токенов, а качественный анализ показал четырёхстадийную эволюцию: от поверхностного планирования через линейное исполнение к спонтанной самопроверке и, наконец, систематическому многопроходному рассуждению. Стандартный GRPO сходился на второй стадии; FIPO добрался до четвёртой.

Но, как и каждый метод в этой гонке, оценка была ограничена математическими рассуждениями. Улучшает ли тот же подход программирование, юридический анализ или научные исследования — пока не проверено.

Лидеры не делятся

Эти шесть методов нам известны, потому что команды опубликовали свои работы. Крупнейшие коммерческие лаборатории — OpenAI, Anthropic и Google — не раскрывали, как они обучают свои reasoning-модели.

Публично известно немногое. OpenAI подтвердила, что модели серии o «обучаются через обучение с подкреплением исследовать различные стратегии, разбивать задачи на шаги и выявлять ошибки». Конкретная структура вознаграждений и метод распределения заслуг остаются проприетарными. Anthropic описала рассуждения Claude как «последовательные вычисления во время инференса с использованием нескольких последовательных шагов рассуждения», производительность которых масштабируется логарифмически с количеством thinking-токенов, но не опубликовала ничего об алгоритме обучения. Google раскрыла ещё меньше об обучении рассуждениям Gemini.

Единственное исключение среди крупных лабораторий — DeepSeek, опубликовавший полную методологию в статье, впоследствии прошедшей рецензирование в Nature. Их наиболее примечательная находка была не конкретным алгоритмом, а наблюдением: когда они обучили модель чистым обучением с подкреплением вообще без супервизированных данных о рассуждениях (DeepSeek-R1-Zero), цепочка рассуждений, самопроверка и адаптация стратегии возникли спонтанно. Никто не программировал модель говорить «подождите, давайте проверю». Поведение появилось само, как побочный продукт обучающей задачи.

Эта находка имеет прямое следствие для гонки за credit assignment. Если сложные формы рассуждения могут возникать из относительно простых обучающих сигналов, вопрос не только «как точнее распределять заслуги?», но и «какая точность вообще необходима?». Ответ пока неясен, а разрыв между открытыми исследованиями и проприетарными методами затрудняет оценку того, где поле находится на самом деле.

Что это значит для того, кто набирает промпт

Описанные выше исследования имеют практические последствия для каждого, кто использует reasoning-модели в работе.

Разные модели обучены думать по-разному. Когда Claude, o3 и DeepSeek выдают разные стили рассуждений на одну и ту же задачу, разница не случайна — она отражает разные методы обучения. Рассуждения DeepSeek выросли из чистого RL с GRPO. Команда Qwen экспериментирует с FIPO. Подход OpenAI неизвестен. Эти решения определяют, как модель структурирует свои мысли, как часто себя корректирует и какие типы ошибок склонна пропускать.

Пауза «Thinking» — не декорация. Когда reasoning-модель берёт тридцать секунд перед ответом, она генерирует внутренние reasoning-токены — цепочку рассуждений, которая в хорошо обученных моделях включает шаги верификации. Исследования показывают, что модели, обученные с более качественным распределением заслуг, спонтанно развивают поведение самопроверки, без указания проверять свою работу. Длительность фазы обдумывания коррелирует с точностью на сложных задачах.

«Think step by step» уже встроен. Reasoning-модели специально обучены производить цепочку рассуждений. Добавление «think step by step» в промпт избыточно для o3, DeepSeek-R1 или Claude в режиме мышления — и некоторые свежие данные указывают, что это может даже вредить производительности, перекрывая натренированные паттерны рассуждений модели. Больше помогает точная формулировка задачи: чёткие ограничения, явные критерии успеха и конкретный контекст, необходимый модели.

Сложные задачи выигрывают больше. На простых задачах reasoning-модели и стандартные модели работают сопоставимо. Описанные выше улучшения credit assignment дают наибольший прирост на самых сложных бенчмарках — олимпиадная математика, многошаговые доказательства, задачи, требующие длинных логических цепочек. Если ваша работа связана со сложным анализом, многошаговыми рассуждениями или синтезом информации из множества источников, эти достижения в обучении напрямую повлияют на вас.

Гонка далека от завершения. Каждый описанный здесь метод опубликован за последние двенадцать месяцев, каждый протестирован преимущественно на математике, и у каждого есть известные ограничения. Область движется достаточно быстро, чтобы возможности рассуждений моделей, которые вы используете сегодня, ощутимо отличались от тех, что будут доступны через полгода — не потому что модели станут больше, а потому что их научат точнее определять собственные ошибки и учиться на них.

Источники: FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization (Qwen/Alibaba, 2026), GRPO-λ: Credit Assignment improves LLM Reasoning (Huawei/Mila, 2025), CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment (Tencent/Renmin University, 2025), DenseR: Dense Rewards For Free in LLM Reasoning (Bansal, 2026), VinePPO: Refining Credit Assignment in RL Training of LLMs (Mila/Microsoft, 2025), Let’s Verify Step by Step (OpenAI, 2023), DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning (DeepSeek, Nature 2025)