Методы самосовершенствования языковых моделей

Методы самосовершенствования языковых моделей (LLM)

Метод Описание Пример стратегического промпта
Self-Refine (Само-уточнение) Модель сама генерирует ответ, критикует его и дорабатывает в несколько циклов без внешней разметки. «Сформулируй стратегию вывода нового SaaS-продукта на рынок, затем трижды само-уточни план, улучшая бюджетирование и риски. Покажи этапы само-критики.»
Multi-Aspect Feedback (Многоаспектная обратная связь) Несколько «замороженных» моделей и внешние инструменты оценивают ответ по разным категориям ошибок, после чего основной ИИ дорабатывает результат. «Создай долгосрочную продуктовую дорожную карту, затем попроси нескольких критиков оценить реалистичность, инновационность и риски и доработай итог.»
N-CRITICS (N-критиков) Ансамбль критиков оценивает черновик, объединяет замечания и направляет доработку, пока не выполнено условие остановки. «Разработай три возможных сценария роста выручки. Привлеки не менее пяти критиков, пока не получишь план с оценённой вероятностью успеха >70 %.»
ISR-LLM (Итеративная спецификация и планирование) Переводит запрос в формальные спецификации, строит план, валидирует его и правит, пока не соответствует требованиям. «Сформулируй OKR для отдела R&D на год. Преобразуй в формальные метрики, проверь валидатором и исправь несовпадения.»
SELF (Само-эволюция) Учит метанавыкам (само-критика, само-уточнение), затем генерирует и фильтрует собственные данные для постоянного улучшения. «Предложи стратегию перехода компании на ИИ-процессы и само-эволюционируй план, пока не минимизируешь затраты на 20 %.»
ProMiSe (Принцип-ориентированное уточнение) Малые модели улучшают ответы, следуя чётким принципам, метрикам-порогам и отбраковке некачественных версий. «Дай стратегию выхода на азиатский рынок, применяя принцип “скорость>перфекционизм”. Используй ProMiSe для трёх итераций.»
A2R (Оценка-критика-переработка) Модель явно оценивает ответ по нескольким метрикам (корректность, новизна…), формирует фидбек и перерабатывает. «Проанализируй стратегию конкурента, оцени её по четырём критериям, переработай предложение компании-X с учётом оценки.»
Experience Refinement (Уточнение на опыте) Агент собирает последовательный или накопительный опыт выполнения задач и приоритетно учится на успешных эпизодах. «Сгенерируй серию A/B-кампаний, анализируя результаты каждого запуска и улучшая последующие гипотезы.»
I-SHEEP (Непрерывное само-выравнивание) Модель сама генерирует, оценивает и отбирает синтетические данные, чтобы постепенно само-выравниваться без внешней помощи. «Составь стратегию ESG для компании и непрерывно выравнивай рекомендации с текущими регуляциями, генерируя свои примеры.»
CaP (Критика цепочки рассуждений) Использует внешние инструменты для проверки и исправления chain-of-thought, предотвращая зацикливание в неверной логике. «Построй цепочку аргументов для слияния компаний A и B, проверь логику внешним инструментом и исправь ошибки.»
Agent-R (Рефлексия агента) Агент рефлексирует «на лету», применяя MCTS для генерации обучающих данных и исправления ошибочных веток. «Смоделируй переговоры о партнёрстве, используйте MCTS для выбора лучшей линии аргументов и исправления слабых ходов.»
GenDiE (Порождение + дискриминация) Комбинирует генеративное и дискриминативное обучение для более достоверных, факт-выверенных ответов. «Разработай стратегию ценового позиционирования, проверяя контекст на достоверность методом GenDiE.»
Self-Developing (Само-разработка) Модель сама придумывает и пишет код улучшений, тестирует его и применяет DPO для рекурсивного апгрейда. «Создай алгоритм внутреннего KPI-мониторинга, сгенерируй код улучшений и дорабатывай, пока точность прогноза >95 %.»
SR-NLE (Уточнение объяснений) Повышает достоверность пост-хок объяснений через итеративную критику и доработку. «Объясни стратегию диверсификации портфеля, затем уточни объяснение, пока не уберёшь логические несостыковки.»
Made on
Tilda