В этой статье я дал вам один инструмент (отвертку), а в телеграм канале лежит много пользы, инструментов и видео.

Перейти в канал
Промпты для оценки качества
Prompting Technique (English/Russian) Universal Example Output Format
In-Context Learning (Обучение на примерах)
Вот пример хорошего [текста/кода/перевода/изображения/аудио/данных]: [пример]. Вот пример плохого [текста/кода/перевода/изображения/аудио/данных]: [пример]. Оцени [текст/код/перевод/изображение/аудио/данные]: [вставить оцениваемый объект].
  • Линейная шкала (1-5)
  • Шкала Лайкерта
  • Бинарная оценка (да/нет)
  • Подробное описание с пояснениями
Role-based Evaluation (Ролевая оценка)
Ты - [учитель/редактор/программист/художник/музыкант/аналитик данных]. Оцени этот [текст/код/перевод/изображение/аудио/данные] с точки зрения [соответствующих критериев].
  • Линейная шкала
  • Шкала Лайкерта
  • Текстовое описание с рекомендациями
Chain-of-Thought (Цепочка мыслей)
Оцени этот [текст/код/перевод/изображение/аудио/данные], объясняя каждый шаг своей оценки. [Перечислить шаги оценки, например: сначала проверь [критерий 1], затем [критерий 2] и т.д.]
  • Подробное описание с пояснениями каждого шага
  • Список плюсов и минусов
Model-Generated Guidelines (Автоматически сгенерированные инструкции)
Прежде чем оценивать [текст/код/перевод/изображение/аудио/данные], создай список критериев для оценки [текста/кода/перевода/изображения/аудио/данных].
  • Список критериев
  • Набор правил
  • Структурированный план оценки
Few-Shot prompting (Маловыборочное обучение)
[Предоставить несколько примеров входных данных и ожидаемых оценок]. Оцени: [вставить оцениваемый объект].
Depends on examples
Zero-Shot prompting (Нулевое обучение)
Оцени этот [текст/код/перевод/изображение/аудио/данные] на основе следующих критериев: [перечислить критерии].
Depends on the criteria

Техники и методологии оценки LLM

Категория Название Описание Преимущества/Недостатки Пример промпта
Prompting Frameworks LLM-EVAL Использует один промпт, содержащий схему оцениваемых переменных (например, грамматика, релевантность), инструкцию для модели о выводе оценок в определенном диапазоне и контент для оценки.
  • Преимущества: Простота реализации.
  • Недостатки: Может быть недостаточно детализированным для сложных задач оценки.
"Оцени следующий текст по шкале от 1 до 5, где 1 - очень плохо, 5 - отлично, по следующим критериям: грамматика, связность, соответствие теме. Текст: [Вставить текст]"
Prompting Frameworks G-EVAL Аналогичен LLM-EVAL, но включает шаги AutoCoT (Automatic Chain-of-Thought) в сам промпт. Эти шаги генерируются в соответствии с инструкциями по оценке и вставляются в итоговый промпт. Веса ответов рассчитываются на основе вероятностей токенов.
  • Преимущества: Улучшенная точность за счет использования AutoCoT.
  • Недостатки: Более сложная реализация, требует генерации AutoCoT шагов.
"Оцени следующий текст по шкале от 1 до 5. Сначала сгенерируй шаги рассуждений, необходимые для оценки текста по критериям: грамматика, связность, соответствие теме. Затем, основываясь на этих шагах, предоставь оценку. Текст: [Вставить текст]"
Prompting Frameworks ChatEval Использует фреймворк дебатов с несколькими агентами, каждый из которых имеет отдельную роль.
  • Преимущества: Позволяет получить многостороннюю оценку за счет разных ролей.
  • Недостатки: Сложная реализация, требует настройки взаимодействия между агентами.
"Представь, что ты участвуешь в дебатах. Агент 1: Ты - литературный критик, который хвалит текст за оригинальность. Агент 2: Ты - редактор, который критикует текст за грамматические ошибки. Агент 3: Ты - учитель, который оценивает текст с точки зрения его понятности для школьников. Обсудите следующий текст: [Вставить текст]"
Other Methodologies Implicit Scoring Вместо прямого запроса к LLM на оценку качества (явная оценка), используются неявные методы, где оценка качества выводится на основе уверенности модели в своем прогнозе, вероятности генерации вывода, анализа объяснений модели (например, подсчет ошибок) или оценки на прокси-задачах (например, проверка фактического несоответствия через entailment).
  • Преимущества: Может быть более эффективным в некоторых случаях, так как не требует явного формулирования критериев оценки.
  • Недостатки: Менее прозрачный, сложнее интерпретировать результаты, зависит от специфики модели и задачи.
Примеры неявного скоринга:
"Сгенерируй ответ на вопрос: [Вставить вопрос]. Насколько ты уверен в своем ответе по шкале от 1 до 10?"
"Объясни решение задачи: [Вставить задачу]. Подсчитай количество ошибок в объяснении."
"Определи, следует ли утверждение 2 из утверждения 1. Утверждение 1: [Вставить утверждение 1]. Утверждение 2: [Вставить утверждение 2]."
Other Methodologies Batch Prompting Для повышения вычислительной и экономической эффективности используется пакетная обработка промптов, когда несколько экземпляров оцениваются одновременно в одном промпте (это не параллельная обработка промптов в смысле одновременного выполнения). Также может использоваться для оценки одного экземпляра по разным критериям или ролям в одном промпте.
  • Преимущества: Повышение эффективности.
  • Недостатки: Оценка нескольких экземпляров в одном пакете часто ухудшает производительность.
"Оцени следующие тексты по шкале от 1 до 5 по критерию связности: Текст 1: [Вставить текст 1]. Текст 2: [Вставить текст 2]. Текст 3: [Вставить текст 3]."
"Оцени следующий текст по шкале от 1 до 5 по критериям: грамматика, оригинальность, стиль. Текст: [Вставить текст]"
Other Methodologies Pairwise Evaluation Вместо прямой оценки качества одного текста, сравниваются два текста. Однако, прямое сравнение может привести к неоптимальным результатам, и явный запрос к LLM на генерацию оценки для отдельных текстов считается более эффективным и надежным методом. Порядок входных данных для парных сравнений также может сильно влиять на оценку.
  • Преимущества: Относительная оценка может быть более точной в некоторых случаях.
  • Недостатки: Может быть менее информативным, чем абсолютная оценка. Зависимость от порядка текстов.
"Сравни следующие два текста и определи, какой из них лучше по критерию оригинальности идеи. Текст 1: [Вставить текст 1]. Текст 2: [Вставить текст 2]."
"Оцени каждый из следующих текстов по шкале от 1 до 5 по критерию оригинальности идеи. Текст 1: [Вставить текст 1]. Текст 2: [Вставить текст 2]."
Последовательный промпт по промптам с оценкой
Последовательность промптов:

Zero-Shot Prompting (Нулевое обучение):

Промпт: "Оцени следующий текст по критериям: грамматическая корректность, связность повествования, оригинальность идеи, стиль изложения: [Вставить текст рассказа]."
Цель: Получить базовую оценку по заданным критериям без примеров. Это отправная точка.
Role-Based Evaluation (Ролевая оценка):

Промпт: "Ты – профессиональный литературный критик. Оцени этот же текст с точки зрения его художественной ценности и потенциала для публикации в литературном журнале: [Вставить текст рассказа]."
Цель: Получить экспертную оценку с определенной точки зрения. Дополняет предыдущую оценку, добавляя контекст.
In-Context Learning (Обучение на примерах) + Few-Shot Prompting (Маловыборочное обучение):

Промпт: "Вот пример хорошего рассказа (оценка 5/5): [Пример хорошего рассказа]. Вот пример среднего рассказа (оценка 3/5): [Пример среднего рассказа]. Вот пример плохого рассказа (оценка 1/5): [Пример плохого рассказа]. Теперь оцени следующий рассказ, сравнивая его с приведенными примерами: [Вставить текст рассказа]."
Цель: Сравнить оцениваемый текст с конкретными примерами. Объединяет In-Context Learning и Few-Shot Prompting, предоставляя наглядные образцы для сравнения.
Chain-of-Thought (Цепочка мыслей):

Промпт: "Оцени этот же рассказ, подробно объясняя каждый шаг своей оценки, включая сильные и слабые стороны, а также предлагая конкретные рекомендации по улучшению. Разбей оценку на следующие этапы: 1. Анализ сюжета. 2. Оценка языка и стиля. 3. Оценка раскрытия персонажей. 4. Общее впечатление."
Цель: Получить развернутый анализ с объяснением логики оценки. Дополняет предыдущие оценки, предоставляя детальный разбор.
Model-Generated Guidelines (Автоматически сгенерированные инструкции):

Промпт: "Прежде чем оценивать этот рассказ, сгенерируй список критериев для оценки короткого рассказа. Затем оцени рассказ, используя созданные тобой критерии: [Вставить текст рассказа]."
Цель: Проверить способность модели самостоятельно формулировать критерии оценки. Позволяет увидеть, насколько критерии, сгенерированные моделью, совпадают с общепринятыми и как они влияют на итоговую оценку.
Параллельный промпт
Параллельные промпты (применяются независимо друг от друга к одному и тому же тексту):

Zero-Shot Prompting:

Промпт: "Оцени следующий текст по критериям: грамматическая корректность, связность повествования, оригинальность идеи, стиль изложения: [Вставить текст рассказа]."
Role-Based Evaluation:

Промпт: "Ты – профессиональный литературный критик. Оцени этот текст с точки зрения его художественной ценности и потенциала для публикации в литературном журнале: [Вставить текст рассказа]."
In-Context Learning + Few-Shot Prompting:

Промпт: "Вот пример хорошего рассказа (оценка 5/5): [Пример хорошего рассказа]. Вот пример среднего рассказа (оценка 3/5): [Пример среднего рассказа]. Вот пример плохого рассказа (оценка 1/5): [Пример плохого рассказа]. Теперь оцени следующий рассказ, сравнивая его с приведенными примерами: [Вставить текст рассказа]."
Chain-of-Thought:

Промпт: "Оцени этот рассказ, подробно объясняя каждый шаг своей оценки, включая сильные и слабые стороны, а также предлагая конкретные рекомендации по улучшению. Разбей оценку на следующие этапы: 1. Анализ сюжета. 2. Оценка языка и стиля. 3. Оценка раскрытия персонажей. 4. Общее впечатление."
Model-Generated Guidelines:

Промпт: "Прежде чем оценивать этот рассказ, сгенерируй список критериев для оценки короткого рассказа. Затем оцени рассказ, используя созданные тобой критерии: [Вставить текст рассказа]."
Организация "параллельного" тестирования:

Подготовьте текст для оценки.
Запустите каждый из пяти промптов отдельно с этим текстом.
Сравните полученные результаты.
Преимущества "параллельного" подхода:

Прямое сравнение: Легко сравнить результаты, полученные разными техниками, для одного и того же текста.
Экономия времени (с точки зрения пользователя): Можно запустить все запросы практически одновременно и затем анализировать результаты.
Отличия от последовательного подхода:

В последовательном подходе результаты предыдущего шага могли влиять на последующие. В "параллельном" подходе каждый промпт работает независимо.
"Параллельный" подход больше подходит для сравнения эффективности разных техник, в то время как последовательный — для получения более глубокого и многогранного анализа.
Важно отметить: Сама LLM не выполняет эти промпты одновременно в истинном смысле параллельности. Скорее, вы организуете процесс тестирования таким образом, чтобы получить результаты от разных техник для одного и того же входного текста и затем их сравнить.

Используя этот "параллельный" подход, вы сможете более эффективно исследовать, как различные техники промпт-инжиниринга влияют на результаты оценки текста.
Made on
Tilda