Ограничения технологии и галлюцинации

Почему нейросеть уверенно сообщает несуществующие факты, чем это грозит юристу и что реально помогает бороться с галлюцинациями.

Дата составления: 2026-03-30
Статус: ✅ Актуально

Суть

Галлюцинация — это когда нейросеть уверенно сообщает что-то ложное: придумывает несуществующие судебные решения, искажает нормы закона, называет неверные даты и реквизиты. При этом подает это как достоверный факт.

Это не случайный сбой — это следствие самого принципа работы LLM. Модель не хранит знания, а генерирует вероятный текст. Там, где у нее нет надежных данных, она заполняет пробел наиболее «подходящим» продолжением — которое может быть полностью вымышленным.

Почему галлюцинации нельзя полностью устранить

Галлюцинации — не ошибка, которую можно «починить». Это свойство архитектуры: вероятностная генерация всегда оставляет шанс на неверный токен. К тому же модели обучены всегда давать ответ — «не знаю» считается плохим пользовательским опытом. Поэтому при отсутствии данных модель генерирует «похожий» ответ.

Что помогает снизить риск галлюцинаций

Работает:

Вставить в чат сам текст нормы или документа — тогда модель работает с вашим источником, а не со своей памятью.
Использовать режим поиска в Интернете — модель проверяет факты по актуальным источникам.
Технология RAG (Retrieval-Augmented Generation) — нейросеть отвечает на основе конкретного хранилища документов. Доступный пример — сервис NotebookLM от Google: загружаете документы, нейросеть работает только с ними.
«Размышляющие» модели (reasoning models): проверяют ответ перед отправкой, реже галлюцинируют на фактических вопросах.

Не работает:

«Не галлюцинируй» в промпте.
Угрозы и напоминания о важности точности.
Увеличение количества попыток добиться правильного ответа без смены подхода, обвинения и попытки уличить модель в галлюцинации.

Ограничения датасета

Отдельное ограничение — дата обучения. Знания модели заканчиваются на дате формирования датасета. Законодательство в актуальной редакции, свежие позиции судов, недавно принятые нормы — всего этого в базовой модели нет.

Кроме того, юридические базы данных в датасеты разработчиков не включались: это сложно, дорого и требует лицензий. Нейросеть знает право из того, что было опубликовано в открытом интернете.

Практическое следствие: не просите нейросеть цитировать закон по памяти — вставьте текст сами. Не полагайтесь на ее знание актуальной практики без интернет-поиска.

Помните, что чем менее специализированная задача — тем ниже риск галлюцинации. Нейросеть хорошо структурирует, переформулирует, объясняет. Хуже — точно воспроизводит конкретные факты.

Связанные статьи

Что такое LLM — как работает предсказание токенов и почему оно порождает ошибки
Контекстное окно — как управлять объемом информации, чтобы снизить риск ошибок

Дополнительные материалы

Книга «Юристы и нейросети: руководство к действию» — приобретайте на OZON | Читай-город | Буквоед
Лекция Андрея Карпати Deep Dive into LLMs like Chat GPT о стадиях обучения генеративных нейросетей и ее краткий обзор в сообществе Нейросети | ilovedocs
Видео основателя сообщества Нейросети | ilovedocs Павла Мищенко «Нейросеть не придумывает судебную практику. Глубокое исследование. RAG» в рамках «Январьского ИИнтенсива» TG | VK
Исследование Damien Charlotin о последствиях галлюцинаций в юридических задачах и подготовленная участником сообщества Нейросети | ilovedocs Яном Стриговым Визуализация исследования

Теги: #концепция #новичок #знакомство-с-нейросетями

Что такое LLM

Контекстное окно