Когнитивный пайплайн. Часть I - страница 21

Шрифт

Интервал

– Внутри reasoning loop, как этап самопроверки

– Для создания агентов, способных учиться на ошибках

– При генерации программного кода, стратегий, планов, где важна верификация

Пример промпта

Проанализируй свой предыдущий ответ:

– какие логические допущения ты сделал?

– возможны ли ошибки или слабые места?

– как можно улучшить этот ответ?

Reflect on your previous answer:

– What assumptions did you make?

– Are there any weaknesses or potential errors?

– How would you revise it to improve accuracy or clarity?

Механизм работы

Reflexion prompting активирует мета-уровень reasoning:

– Модель интерпретирует собственный вывод как внешний текст

– Анализирует его по заданным критериям

– Формулирует замечания, улучшения или полный пересмотр

– Может перейти к самогенерации улучшенного ответа

Этот паттерн усиливает способность модели к внутренней самокритике, особенно в сложных цепочках с промежуточными рассуждениями.

Риски / Ошибки

Модель может «притворяться» критичной, не выявляя реальных слабых мест

Возможна имитация саморефлексии без настоящей переоценки

При частом применении – рост количества токенов без пропорционального улучшения

Требуется чёткая постановка критериев оценки и качества

Связанные техники

– Self-consistency prompting – можно сравнить результат до и после рефлексии

– Step-back prompting – близко по цели, но более направлено на смену перспективы

– Auto-correction loops – reflexion может быть встроена как этап цикла

– Reverse prompting – позволяет посмотреть, как бы модель пересформулировала задачу

– Prompt ranking – может использоваться для выбора до/после рефлексии

Применение в ИИ-агентах и MAS

– Reflexion – критически важный этап reasoning-цикла в агентных системах, особенно перед финальным выводом.

– Может быть реализован как отдельный агент-критик в MAS: получает результаты от других агентов, анализирует, предлагает улучшения.

– В продуктах с высоким требованием к качеству (финансовые отчёты, код, стратегии) позволяет автоматизировать ревью и self-review.

– Используется для создания reasoning loops с inner reward shaping, где качество промежуточного вывода влияет на поведение в следующем шаге.

– Повышает надёжность и интерпретируемость ИИ-продуктов, что критично для product-grade решений.

Где применяется в продукте / агенте

– Аудиторские, юридические и стратегические ИИ-системы с фазой самопроверки