### Рентген для нейросетей: Как FaithLens выводит AI-врунов на чистую воду (и не сжигает бюджет)

Представьте обычную ситуацию: вы приходите к врачу со сломанной рукой, вам делают рентген. На снимке четко видна зигзагообразная трещина. Диагноз бинарен, кристально ясен и доказан визуально.

А теперь добро пожаловать в мир искусственного интеллекта и текстовой аналитики, где такого рентгена до сих пор не существовало. Вы скармливаете большой языковой модели (LLM) 50-страничный PDF и просите сделать выжимку. Нейросеть выдает уверенный, красивый текст, в котором на ровном месте конструирует факт, которого в исходнике не было и в помине.

В исследовательской среде это называется «галлюцинации достоверности» (faithfulness hallucinations). Модель просто игнорирует предоставленный контекст в RAG-системах (генерация с дополненным поиском) и подтягивает выдумки из своих внутренних весов, маскируя их под непреложную истину. И главная уязвимость индустрии сегодня — отсутствие детектора, который мог бы четко показать пальцем на эту ложь.

### Два стула AI-аудита: Банкротство или Черный ящик

До появления новой архитектуры под названием FaithLens, индустрия пыталась решать проблему галлюцинаций двумя одинаково убогими способами.

Путь первый: Грубая вычислительная сила. Берутся механизмы вроде SelfCheckGPT, и каждый ответ прогоняется через коммерческие API топовых моделей (GPT-4o). Это как нанять всемирно известного академика с астрономическим рейтом проверять школьные сочинения на опечатки. Орфография будет идеальной, но счет за API обанкротит ваш бизнес к концу недели. Это финансовая черная дыра.

Путь второй: Дешевые "заглушки". Для тех, у кого нет бюджетов, создали узкоспециализированные микро-модели (MiniCheck, FactScore). Стоят копейки, но работают в режиме абсолютно глухого черного ящика. На выходе они дают бинарный ответ: «Да, всё чисто» или «Нет, тут ложь». От такой аналитики кровь из глаз идет. Это аналогия с отвратительной пожарной сигнализацией: она оглушительно воет на весь дом, но наотрез отказывается сообщать, в какой комнате возгорание. Для многостраничных юридических контрактов ценность такого детектора равна нулю. Кроме того, на сложных RAG-задачах, где нейросеть плетет логичную, но конфликтующую с фактами чушь, эти детекторы просто ломаются.

### FaithLens: Тройной фильтр и математическое доказательство логики

Разработчики FaithLens пошли другим путем. Они взяли компактную Llama 3.1 (всего 8 млрд параметров) и обучили ее с нуля на синтетических данных. И здесь важен не сам факт синтетики, а то, как безжалостно ее фильтровали.

Обучающие данные пропускали через жесткий тройной фильтр:

1. Базовая гигиена (Label Correctness): Если сгенерированный пример ошибки не соответствует действительности — сразу в мусор. Учить детектор на ошибочных примерах ошибок бессмысленно.

2. Проверка качества объяснения через перплексию: Это чистая магия. Качество объяснения ошибки оценивали математически. Перплексия — это мера неуверенности нейросети. Базовой модели дают текст с ошибкой и замеряют уровень ее сомнений. Затем к тексту добавляют сгенерированное объяснение того, где кроется ложь. Если перплексия (неуверенность) резко падает, значит, текст реально проясняет суть. Если растет — объяснение путаное, и пример удаляется.

3. Кластеризация векторов (Алгоритм Deuts): Чтобы модель не стала узколобой (например, научилась искать только перепутанные даты), алгоритм переводит смыслы ошибок в векторы. Образуются кластеры: в одном углу лежат ошибки с датами, в другом — выдуманные юридические термины. Алгоритм берет по одному самому яркому примеру из каждого смыслового кластера, создавая идеальный зондирующий набор. Никаких однотипных дубликатов.

### Эволюция через метод "Новичка"

Чтобы FaithLens не просто имитировала стиль умных ответов, а стала настоящим аналитиком, применили обучение с подкреплением — GRPO (Group Relative Policy Optimization). Этот метод не требует отдельной нейросети-оценщика. Модель генерирует пачку ответов и сама сравнивает их друг с другом.

Но самое крутое — это метрика награды за качество объяснения. Разработчики использовали метод Novice Level Model.

Они берут «чистую» 8B-модель, которая вообще ничего не знает о поиске галлюцинаций. Ей скармливают объяснение ошибки, которое только что сгенерировала обучаемая FaithLens. Если этот абсолютный «первокурсник» способен, прочитав текст, найти ложь и выдать правильный ответ — FaithLens получает награду. Это заставляет алгоритм оттачивать педагогический навык: никакой воды, запутанных терминов и перескакивания через логические шаги.

### Итоги: Хирургическая точность за копейки

Вся тяжелая математика происходит в лаборатории на этапе тренировки. При использовании мы за нее не платим. На выходе получаем модель, которая стоит в 70 раз дешевле GPT-4o (10 центов против $7.30 за объем) и рвет гигантов по метрикам.

FaithLens работает последовательно: сначала строит скрытую цепочку рассуждений (Chain of Thought), затем генерирует подробное объяснение, и лишь последним токеном выдает вердикт.

Да, это создает небольшую задержку при генерации. Но в медицине или юриспруденции, где пропущенная галлюцинация стоит миллионы долларов или человеческие жизни, ожидание в лишнюю секунду — ничтожная плата за железобетонную прозрачность.

P.S. Пища для параноиков: Натренировав ИИ идеально, до атомного уровня препарировать тексты и находить мельчайшие несоответствия, не создали ли мы тем самым пошаговое руководство для генеративных моделей? Пока мы строим идеальные детекторы лжи, генеративные сети на этих же алгоритмах могут учиться плести абсолютно монолитную, невидимую для фильтров ложь.

---

### ШАГ 3: ПРАКТИКУМ ДЛЯ НЕПРОГРАММИСТОВ (Как повторить это в чате)

Главная проблема, поднятая в тексте — галлюцинации в предоставленном контексте (RAG), когда ИИ игнорирует исходник и подмешивает свои выдумки. Чтобы не ждать внедрения FaithLens, вы можете заставить обычный ChatGPT или Claude работать по схожим принципам с помощью этих промптов.

1. Промпт: «Двусторонний допрос»

Как это работает: Запрещает нейросети обобщать и заставляет ее физически привязывать каждое свое утверждение к конкретной цитате из вашего документа. Нет цитаты — нет факта.

«Проанализируй предоставленный текст и ответь на мой вопрос: [ваш вопрос].

Строгое правило: каждый факт в твоем ответе должен сопровождаться прямой, дословной цитатой из исходного текста в квадратных скобках. Если информация опирается на твои внутренние знания, а не на текст, ты обязан написать: [В ИСХОДНИКЕ ОТСУТСТВУЕТ]. Ничего не додумывай.»

2. Промпт: «Семантическая гравитация»

Как это работает: Заставляет модель до того, как она напишет красивый ответ, жестко отсортировать данные и отделить реальность от своих фантазий.

«Сделай выжимку этого документа. Перед тем как писать итоговый ответ, раздели информацию на три блока:

1. ЯДРО: Только сухие факты и цифры, которые прямо указаны в тексте.

2. КОНТЕКСТ: Логические выводы, которые прямо вытекают из текста, но не написаны дословно.

3. ШУМ: Любые внешние факты или исторические справки, которые ты хочешь добавить от себя.

После этого напиши резюме, используя ТОЛЬКО информацию из блока "ЯДРО".»

3. Промпт: «Краш-тест логики»

Как это работает: Имитирует алгоритм поиска логических разрывов. Заставляет модель саму стать детектором и доказать причинно-следственную связь (А -> Б).

«Вот твой предыдущий ответ и исходный текст. Выступи в роли безжалостного аудитора. Построй строгие причинно-следственные связи для каждого твоего вывода в формате: "Утверждение А -> Доказательство из текста Б". Если для утверждения А нет прямого доказательства Б в тексте, пометь этот пункт красным словом [ГАЛЛЮЦИНАЦИЯ] и удали его из итогового ответа.»

4. Промпт: «Режим параноика (Метод упущений)»

Как это работает: Имитирует поведение FaithLens из примера с "законом Ленхэма". Заставляет ИИ искать ложь не через то, что есть, а через то, чего в тексте нет.

«Проверь этот текст на достоверность относительно исходника. Твоя главная задача — искать "ложные включения". Найди все имена, даты, названия законов и термины в проверяемом тексте и составь из них список. Затем пройдись по исходнику: если термина из списка в оригинале нет, напиши: "Термин [Х] отсутствует в контексте, следовательно, утверждение является галлюцинацией". Не пытайся оправдать неточности.»