Методы самосовершенствования языковых моделей

Методы самосовершенствования языковых моделей (LLM)

Метод	Описание	Пример стратегического промпта
Self-Refine (Само-уточнение)	Модель сама генерирует ответ, критикует его и дорабатывает в несколько циклов без внешней разметки.	«Сформулируй стратегию вывода нового SaaS-продукта на рынок, затем трижды само-уточни план, улучшая бюджетирование и риски. Покажи этапы само-критики.»
Multi-Aspect Feedback (Многоаспектная обратная связь)	Несколько «замороженных» моделей и внешние инструменты оценивают ответ по разным категориям ошибок, после чего основной ИИ дорабатывает результат.	«Создай долгосрочную продуктовую дорожную карту, затем попроси нескольких критиков оценить реалистичность, инновационность и риски и доработай итог.»
N-CRITICS (N-критиков)	Ансамбль критиков оценивает черновик, объединяет замечания и направляет доработку, пока не выполнено условие остановки.	«Разработай три возможных сценария роста выручки. Привлеки не менее пяти критиков, пока не получишь план с оценённой вероятностью успеха >70 %.»
ISR-LLM (Итеративная спецификация и планирование)	Переводит запрос в формальные спецификации, строит план, валидирует его и правит, пока не соответствует требованиям.	«Сформулируй OKR для отдела R&D на год. Преобразуй в формальные метрики, проверь валидатором и исправь несовпадения.»
SELF (Само-эволюция)	Учит метанавыкам (само-критика, само-уточнение), затем генерирует и фильтрует собственные данные для постоянного улучшения.	«Предложи стратегию перехода компании на ИИ-процессы и само-эволюционируй план, пока не минимизируешь затраты на 20 %.»
ProMiSe (Принцип-ориентированное уточнение)	Малые модели улучшают ответы, следуя чётким принципам, метрикам-порогам и отбраковке некачественных версий.	«Дай стратегию выхода на азиатский рынок, применяя принцип “скорость>перфекционизм”. Используй ProMiSe для трёх итераций.»
A2R (Оценка-критика-переработка)	Модель явно оценивает ответ по нескольким метрикам (корректность, новизна…), формирует фидбек и перерабатывает.	«Проанализируй стратегию конкурента, оцени её по четырём критериям, переработай предложение компании-X с учётом оценки.»
Experience Refinement (Уточнение на опыте)	Агент собирает последовательный или накопительный опыт выполнения задач и приоритетно учится на успешных эпизодах.	«Сгенерируй серию A/B-кампаний, анализируя результаты каждого запуска и улучшая последующие гипотезы.»
I-SHEEP (Непрерывное само-выравнивание)	Модель сама генерирует, оценивает и отбирает синтетические данные, чтобы постепенно само-выравниваться без внешней помощи.	«Составь стратегию ESG для компании и непрерывно выравнивай рекомендации с текущими регуляциями, генерируя свои примеры.»
CaP (Критика цепочки рассуждений)	Использует внешние инструменты для проверки и исправления chain-of-thought, предотвращая зацикливание в неверной логике.	«Построй цепочку аргументов для слияния компаний A и B, проверь логику внешним инструментом и исправь ошибки.»
Agent-R (Рефлексия агента)	Агент рефлексирует «на лету», применяя MCTS для генерации обучающих данных и исправления ошибочных веток.	«Смоделируй переговоры о партнёрстве, используйте MCTS для выбора лучшей линии аргументов и исправления слабых ходов.»
GenDiE (Порождение + дискриминация)	Комбинирует генеративное и дискриминативное обучение для более достоверных, факт-выверенных ответов.	«Разработай стратегию ценового позиционирования, проверяя контекст на достоверность методом GenDiE.»
Self-Developing (Само-разработка)	Модель сама придумывает и пишет код улучшений, тестирует его и применяет DPO для рекурсивного апгрейда.	«Создай алгоритм внутреннего KPI-мониторинга, сгенерируй код улучшений и дорабатывай, пока точность прогноза >95 %.»
SR-NLE (Уточнение объяснений)	Повышает достоверность пост-хок объяснений через итеративную критику и доработку.	«Объясни стратегию диверсификации портфеля, затем уточни объяснение, пока не уберёшь логические несостыковки.»