Промпты для оценки качества

В этой статье я дал вам один инструмент (отвертку), а в телеграм канале лежит много пользы, инструментов и видео.

Prompting Technique (English/Russian)	Universal Example	Output Format
In-Context Learning (Обучение на примерах)	Вот пример хорошего [текста/кода/перевода/изображения/аудио/данных]: [пример]. Вот пример плохого [текста/кода/перевода/изображения/аудио/данных]: [пример]. Оцени [текст/код/перевод/изображение/аудио/данные]: [вставить оцениваемый объект].	Линейная шкала (1-5) Шкала Лайкерта Бинарная оценка (да/нет) Подробное описание с пояснениями
Role-based Evaluation (Ролевая оценка)	Ты - [учитель/редактор/программист/художник/музыкант/аналитик данных]. Оцени этот [текст/код/перевод/изображение/аудио/данные] с точки зрения [соответствующих критериев].	Линейная шкала Шкала Лайкерта Текстовое описание с рекомендациями
Chain-of-Thought (Цепочка мыслей)	Оцени этот [текст/код/перевод/изображение/аудио/данные], объясняя каждый шаг своей оценки. [Перечислить шаги оценки, например: сначала проверь [критерий 1], затем [критерий 2] и т.д.]	Подробное описание с пояснениями каждого шага Список плюсов и минусов
Model-Generated Guidelines (Автоматически сгенерированные инструкции)	Прежде чем оценивать [текст/код/перевод/изображение/аудио/данные], создай список критериев для оценки [текста/кода/перевода/изображения/аудио/данных].	Список критериев Набор правил Структурированный план оценки
Few-Shot prompting (Маловыборочное обучение)	[Предоставить несколько примеров входных данных и ожидаемых оценок]. Оцени: [вставить оцениваемый объект].	Depends on examples
Zero-Shot prompting (Нулевое обучение)	Оцени этот [текст/код/перевод/изображение/аудио/данные] на основе следующих критериев: [перечислить критерии].	Depends on the criteria

Техники и методологии оценки LLM

Категория	Название	Описание	Преимущества/Недостатки	Пример промпта
Prompting Frameworks	LLM-EVAL	Использует один промпт, содержащий схему оцениваемых переменных (например, грамматика, релевантность), инструкцию для модели о выводе оценок в определенном диапазоне и контент для оценки.	Преимущества: Простота реализации. Недостатки: Может быть недостаточно детализированным для сложных задач оценки.	`"Оцени следующий текст по шкале от 1 до 5, где 1 - очень плохо, 5 - отлично, по следующим критериям: грамматика, связность, соответствие теме. Текст: [Вставить текст]"`
Prompting Frameworks	G-EVAL	Аналогичен LLM-EVAL, но включает шаги AutoCoT (Automatic Chain-of-Thought) в сам промпт. Эти шаги генерируются в соответствии с инструкциями по оценке и вставляются в итоговый промпт. Веса ответов рассчитываются на основе вероятностей токенов.	Преимущества: Улучшенная точность за счет использования AutoCoT. Недостатки: Более сложная реализация, требует генерации AutoCoT шагов.	`"Оцени следующий текст по шкале от 1 до 5. Сначала сгенерируй шаги рассуждений, необходимые для оценки текста по критериям: грамматика, связность, соответствие теме. Затем, основываясь на этих шагах, предоставь оценку. Текст: [Вставить текст]"`
Prompting Frameworks	ChatEval	Использует фреймворк дебатов с несколькими агентами, каждый из которых имеет отдельную роль.	Преимущества: Позволяет получить многостороннюю оценку за счет разных ролей. Недостатки: Сложная реализация, требует настройки взаимодействия между агентами.	"Представь, что ты участвуешь в дебатах. Агент 1: Ты - литературный критик, который хвалит текст за оригинальность. Агент 2: Ты - редактор, который критикует текст за грамматические ошибки. Агент 3: Ты - учитель, который оценивает текст с точки зрения его понятности для школьников. Обсудите следующий текст: [Вставить текст]"
Other Methodologies	Implicit Scoring	Вместо прямого запроса к LLM на оценку качества (явная оценка), используются неявные методы, где оценка качества выводится на основе уверенности модели в своем прогнозе, вероятности генерации вывода, анализа объяснений модели (например, подсчет ошибок) или оценки на прокси-задачах (например, проверка фактического несоответствия через entailment).	Преимущества: Может быть более эффективным в некоторых случаях, так как не требует явного формулирования критериев оценки. Недостатки: Менее прозрачный, сложнее интерпретировать результаты, зависит от специфики модели и задачи.	Примеры неявного скоринга: `"Сгенерируй ответ на вопрос: [Вставить вопрос]. Насколько ты уверен в своем ответе по шкале от 1 до 10?"` `"Объясни решение задачи: [Вставить задачу]. Подсчитай количество ошибок в объяснении."` `"Определи, следует ли утверждение 2 из утверждения 1. Утверждение 1: [Вставить утверждение 1]. Утверждение 2: [Вставить утверждение 2]."`
Other Methodologies	Batch Prompting	Для повышения вычислительной и экономической эффективности используется пакетная обработка промптов, когда несколько экземпляров оцениваются одновременно в одном промпте (это не параллельная обработка промптов в смысле одновременного выполнения). Также может использоваться для оценки одного экземпляра по разным критериям или ролям в одном промпте.	Преимущества: Повышение эффективности. Недостатки: Оценка нескольких экземпляров в одном пакете часто ухудшает производительность.	`"Оцени следующие тексты по шкале от 1 до 5 по критерию связности: Текст 1: [Вставить текст 1]. Текст 2: [Вставить текст 2]. Текст 3: [Вставить текст 3]."` `"Оцени следующий текст по шкале от 1 до 5 по критериям: грамматика, оригинальность, стиль. Текст: [Вставить текст]"`
Other Methodologies	Pairwise Evaluation	Вместо прямой оценки качества одного текста, сравниваются два текста. Однако, прямое сравнение может привести к неоптимальным результатам, и явный запрос к LLM на генерацию оценки для отдельных текстов считается более эффективным и надежным методом. Порядок входных данных для парных сравнений также может сильно влиять на оценку.	Преимущества: Относительная оценка может быть более точной в некоторых случаях. Недостатки: Может быть менее информативным, чем абсолютная оценка. Зависимость от порядка текстов.	`"Сравни следующие два текста и определи, какой из них лучше по критерию оригинальности идеи. Текст 1: [Вставить текст 1]. Текст 2: [Вставить текст 2]."` `"Оцени каждый из следующих текстов по шкале от 1 до 5 по критерию оригинальности идеи. Текст 1: [Вставить текст 1]. Текст 2: [Вставить текст 2]."`

Последовательный промпт по промптам с оценкой

Последовательность промптов:

Zero-Shot Prompting (Нулевое обучение):

Промпт: "Оцени следующий текст по критериям: грамматическая корректность, связность повествования, оригинальность идеи, стиль изложения: [Вставить текст рассказа]."
Цель: Получить базовую оценку по заданным критериям без примеров. Это отправная точка.
Role-Based Evaluation (Ролевая оценка):

Промпт: "Ты – профессиональный литературный критик. Оцени этот же текст с точки зрения его художественной ценности и потенциала для публикации в литературном журнале: [Вставить текст рассказа]."
Цель: Получить экспертную оценку с определенной точки зрения. Дополняет предыдущую оценку, добавляя контекст.
In-Context Learning (Обучение на примерах) + Few-Shot Prompting (Маловыборочное обучение):

Промпт: "Вот пример хорошего рассказа (оценка 5/5): [Пример хорошего рассказа]. Вот пример среднего рассказа (оценка 3/5): [Пример среднего рассказа]. Вот пример плохого рассказа (оценка 1/5): [Пример плохого рассказа]. Теперь оцени следующий рассказ, сравнивая его с приведенными примерами: [Вставить текст рассказа]."
Цель: Сравнить оцениваемый текст с конкретными примерами. Объединяет In-Context Learning и Few-Shot Prompting, предоставляя наглядные образцы для сравнения.
Chain-of-Thought (Цепочка мыслей):

Промпт: "Оцени этот же рассказ, подробно объясняя каждый шаг своей оценки, включая сильные и слабые стороны, а также предлагая конкретные рекомендации по улучшению. Разбей оценку на следующие этапы: 1. Анализ сюжета. 2. Оценка языка и стиля. 3. Оценка раскрытия персонажей. 4. Общее впечатление."
Цель: Получить развернутый анализ с объяснением логики оценки. Дополняет предыдущие оценки, предоставляя детальный разбор.
Model-Generated Guidelines (Автоматически сгенерированные инструкции):

Промпт: "Прежде чем оценивать этот рассказ, сгенерируй список критериев для оценки короткого рассказа. Затем оцени рассказ, используя созданные тобой критерии: [Вставить текст рассказа]."
Цель: Проверить способность модели самостоятельно формулировать критерии оценки. Позволяет увидеть, насколько критерии, сгенерированные моделью, совпадают с общепринятыми и как они влияют на итоговую оценку.

Параллельный промпт

Параллельные промпты (применяются независимо друг от друга к одному и тому же тексту):

Zero-Shot Prompting:

Промпт: "Оцени следующий текст по критериям: грамматическая корректность, связность повествования, оригинальность идеи, стиль изложения: [Вставить текст рассказа]."
Role-Based Evaluation:

Промпт: "Ты – профессиональный литературный критик. Оцени этот текст с точки зрения его художественной ценности и потенциала для публикации в литературном журнале: [Вставить текст рассказа]."
In-Context Learning + Few-Shot Prompting:

Промпт: "Вот пример хорошего рассказа (оценка 5/5): [Пример хорошего рассказа]. Вот пример среднего рассказа (оценка 3/5): [Пример среднего рассказа]. Вот пример плохого рассказа (оценка 1/5): [Пример плохого рассказа]. Теперь оцени следующий рассказ, сравнивая его с приведенными примерами: [Вставить текст рассказа]."
Chain-of-Thought:

Промпт: "Оцени этот рассказ, подробно объясняя каждый шаг своей оценки, включая сильные и слабые стороны, а также предлагая конкретные рекомендации по улучшению. Разбей оценку на следующие этапы: 1. Анализ сюжета. 2. Оценка языка и стиля. 3. Оценка раскрытия персонажей. 4. Общее впечатление."
Model-Generated Guidelines:

Промпт: "Прежде чем оценивать этот рассказ, сгенерируй список критериев для оценки короткого рассказа. Затем оцени рассказ, используя созданные тобой критерии: [Вставить текст рассказа]."
Организация "параллельного" тестирования:

Подготовьте текст для оценки.
Запустите каждый из пяти промптов отдельно с этим текстом.
Сравните полученные результаты.
Преимущества "параллельного" подхода:

Прямое сравнение: Легко сравнить результаты, полученные разными техниками, для одного и того же текста.
Экономия времени (с точки зрения пользователя): Можно запустить все запросы практически одновременно и затем анализировать результаты.
Отличия от последовательного подхода:

В последовательном подходе результаты предыдущего шага могли влиять на последующие. В "параллельном" подходе каждый промпт работает независимо.
"Параллельный" подход больше подходит для сравнения эффективности разных техник, в то время как последовательный — для получения более глубокого и многогранного анализа.
Важно отметить: Сама LLM не выполняет эти промпты одновременно в истинном смысле параллельности. Скорее, вы организуете процесс тестирования таким образом, чтобы получить результаты от разных техник для одного и того же входного текста и затем их сравнить.

Используя этот "параллельный" подход, вы сможете более эффективно исследовать, как различные техники промпт-инжиниринга влияют на результаты оценки текста.