В этой статье я дал вам один инструмент (отвертку), а в телеграм канале лежит много пользы, инструментов и видео.
| Prompting Technique (English/Russian) | Universal Example | Output Format |
|---|---|---|
| In-Context Learning (Обучение на примерах) | Вот пример хорошего [текста/кода/перевода/изображения/аудио/данных]: [пример]. Вот пример плохого [текста/кода/перевода/изображения/аудио/данных]: [пример]. Оцени [текст/код/перевод/изображение/аудио/данные]: [вставить оцениваемый объект]. |
|
| Role-based Evaluation (Ролевая оценка) | Ты - [учитель/редактор/программист/художник/музыкант/аналитик данных]. Оцени этот [текст/код/перевод/изображение/аудио/данные] с точки зрения [соответствующих критериев]. |
|
| Chain-of-Thought (Цепочка мыслей) | Оцени этот [текст/код/перевод/изображение/аудио/данные], объясняя каждый шаг своей оценки. [Перечислить шаги оценки, например: сначала проверь [критерий 1], затем [критерий 2] и т.д.] |
|
| Model-Generated Guidelines (Автоматически сгенерированные инструкции) | Прежде чем оценивать [текст/код/перевод/изображение/аудио/данные], создай список критериев для оценки [текста/кода/перевода/изображения/аудио/данных]. |
|
| Few-Shot prompting (Маловыборочное обучение) | [Предоставить несколько примеров входных данных и ожидаемых оценок]. Оцени: [вставить оцениваемый объект]. | Depends on examples |
| Zero-Shot prompting (Нулевое обучение) | Оцени этот [текст/код/перевод/изображение/аудио/данные] на основе следующих критериев: [перечислить критерии]. | Depends on the criteria |
| Категория | Название | Описание | Преимущества/Недостатки | Пример промпта |
|---|---|---|---|---|
| Prompting Frameworks | LLM-EVAL | Использует один промпт, содержащий схему оцениваемых переменных (например, грамматика, релевантность), инструкцию для модели о выводе оценок в определенном диапазоне и контент для оценки. |
| |
| Prompting Frameworks | G-EVAL | Аналогичен LLM-EVAL, но включает шаги AutoCoT (Automatic Chain-of-Thought) в сам промпт. Эти шаги генерируются в соответствии с инструкциями по оценке и вставляются в итоговый промпт. Веса ответов рассчитываются на основе вероятностей токенов. |
| |
| Prompting Frameworks | ChatEval | Использует фреймворк дебатов с несколькими агентами, каждый из которых имеет отдельную роль. |
| |
| Other Methodologies | Implicit Scoring | Вместо прямого запроса к LLM на оценку качества (явная оценка), используются неявные методы, где оценка качества выводится на основе уверенности модели в своем прогнозе, вероятности генерации вывода, анализа объяснений модели (например, подсчет ошибок) или оценки на прокси-задачах (например, проверка фактического несоответствия через entailment). |
|
Примеры неявного скоринга: |
| Other Methodologies | Batch Prompting | Для повышения вычислительной и экономической эффективности используется пакетная обработка промптов, когда несколько экземпляров оцениваются одновременно в одном промпте (это не параллельная обработка промптов в смысле одновременного выполнения). Также может использоваться для оценки одного экземпляра по разным критериям или ролям в одном промпте. |
| |
| Other Methodologies | Pairwise Evaluation | Вместо прямой оценки качества одного текста, сравниваются два текста. Однако, прямое сравнение может привести к неоптимальным результатам, и явный запрос к LLM на генерацию оценки для отдельных текстов считается более эффективным и надежным методом. Порядок входных данных для парных сравнений также может сильно влиять на оценку. |
| |
Последовательность промптов:
Zero-Shot Prompting (Нулевое обучение):
Промпт: "Оцени следующий текст по критериям: грамматическая корректность, связность повествования, оригинальность идеи, стиль изложения: [Вставить текст рассказа]."
Цель: Получить базовую оценку по заданным критериям без примеров. Это отправная точка.
Role-Based Evaluation (Ролевая оценка):
Промпт: "Ты – профессиональный литературный критик. Оцени этот же текст с точки зрения его художественной ценности и потенциала для публикации в литературном журнале: [Вставить текст рассказа]."
Цель: Получить экспертную оценку с определенной точки зрения. Дополняет предыдущую оценку, добавляя контекст.
In-Context Learning (Обучение на примерах) + Few-Shot Prompting (Маловыборочное обучение):
Промпт: "Вот пример хорошего рассказа (оценка 5/5): [Пример хорошего рассказа]. Вот пример среднего рассказа (оценка 3/5): [Пример среднего рассказа]. Вот пример плохого рассказа (оценка 1/5): [Пример плохого рассказа]. Теперь оцени следующий рассказ, сравнивая его с приведенными примерами: [Вставить текст рассказа]."
Цель: Сравнить оцениваемый текст с конкретными примерами. Объединяет In-Context Learning и Few-Shot Prompting, предоставляя наглядные образцы для сравнения.
Chain-of-Thought (Цепочка мыслей):
Промпт: "Оцени этот же рассказ, подробно объясняя каждый шаг своей оценки, включая сильные и слабые стороны, а также предлагая конкретные рекомендации по улучшению. Разбей оценку на следующие этапы: 1. Анализ сюжета. 2. Оценка языка и стиля. 3. Оценка раскрытия персонажей. 4. Общее впечатление."
Цель: Получить развернутый анализ с объяснением логики оценки. Дополняет предыдущие оценки, предоставляя детальный разбор.
Model-Generated Guidelines (Автоматически сгенерированные инструкции):
Промпт: "Прежде чем оценивать этот рассказ, сгенерируй список критериев для оценки короткого рассказа. Затем оцени рассказ, используя созданные тобой критерии: [Вставить текст рассказа]."
Цель: Проверить способность модели самостоятельно формулировать критерии оценки. Позволяет увидеть, насколько критерии, сгенерированные моделью, совпадают с общепринятыми и как они влияют на итоговую оценку. Параллельные промпты (применяются независимо друг от друга к одному и тому же тексту):
Zero-Shot Prompting:
Промпт: "Оцени следующий текст по критериям: грамматическая корректность, связность повествования, оригинальность идеи, стиль изложения: [Вставить текст рассказа]."
Role-Based Evaluation:
Промпт: "Ты – профессиональный литературный критик. Оцени этот текст с точки зрения его художественной ценности и потенциала для публикации в литературном журнале: [Вставить текст рассказа]."
In-Context Learning + Few-Shot Prompting:
Промпт: "Вот пример хорошего рассказа (оценка 5/5): [Пример хорошего рассказа]. Вот пример среднего рассказа (оценка 3/5): [Пример среднего рассказа]. Вот пример плохого рассказа (оценка 1/5): [Пример плохого рассказа]. Теперь оцени следующий рассказ, сравнивая его с приведенными примерами: [Вставить текст рассказа]."
Chain-of-Thought:
Промпт: "Оцени этот рассказ, подробно объясняя каждый шаг своей оценки, включая сильные и слабые стороны, а также предлагая конкретные рекомендации по улучшению. Разбей оценку на следующие этапы: 1. Анализ сюжета. 2. Оценка языка и стиля. 3. Оценка раскрытия персонажей. 4. Общее впечатление."
Model-Generated Guidelines:
Промпт: "Прежде чем оценивать этот рассказ, сгенерируй список критериев для оценки короткого рассказа. Затем оцени рассказ, используя созданные тобой критерии: [Вставить текст рассказа]."
Организация "параллельного" тестирования:
Подготовьте текст для оценки.
Запустите каждый из пяти промптов отдельно с этим текстом.
Сравните полученные результаты.
Преимущества "параллельного" подхода:
Прямое сравнение: Легко сравнить результаты, полученные разными техниками, для одного и того же текста.
Экономия времени (с точки зрения пользователя): Можно запустить все запросы практически одновременно и затем анализировать результаты.
Отличия от последовательного подхода:
В последовательном подходе результаты предыдущего шага могли влиять на последующие. В "параллельном" подходе каждый промпт работает независимо.
"Параллельный" подход больше подходит для сравнения эффективности разных техник, в то время как последовательный — для получения более глубокого и многогранного анализа.
Важно отметить: Сама LLM не выполняет эти промпты одновременно в истинном смысле параллельности. Скорее, вы организуете процесс тестирования таким образом, чтобы получить результаты от разных техник для одного и того же входного текста и затем их сравнить.
Используя этот "параллельный" подход, вы сможете более эффективно исследовать, как различные техники промпт-инжиниринга влияют на результаты оценки текста.