Ограничения технологии и галлюцинации

Почему нейросеть уверенно сообщает несуществующие факты, чем это грозит юристу и что реально помогает бороться с галлюцинациями.

Дата составления: 2026-03-30
Статус: ✅ Актуально


Суть

Галлюцинация — это когда нейросеть уверенно сообщает что-то ложное: придумывает несуществующие судебные решения, искажает нормы закона, называет неверные даты и реквизиты. При этом подает это как достоверный факт.

Это не случайный сбой — это следствие самого принципа работы LLM. Модель не хранит знания, а генерирует вероятный текст. Там, где у нее нет надежных данных, она заполняет пробел наиболее «подходящим» продолжением — которое может быть полностью вымышленным.


Почему галлюцинации нельзя полностью устранить

Галлюцинации — не ошибка, которую можно «починить». Это свойство архитектуры: вероятностная генерация всегда оставляет шанс на неверный токен. К тому же модели обучены всегда давать ответ — «не знаю» считается плохим пользовательским опытом. Поэтому при отсутствии данных модель генерирует «похожий» ответ.


Что помогает снизить риск галлюцинаций

Работает:

  • Вставить в чат сам текст нормы или документа — тогда модель работает с вашим источником, а не со своей памятью.

  • Использовать режим поиска в Интернете — модель проверяет факты по актуальным источникам.

  • Технология RAG (Retrieval-Augmented Generation) — нейросеть отвечает на основе конкретного хранилища документов. Доступный пример — сервис NotebookLM от Google: загружаете документы, нейросеть работает только с ними.

  • «Размышляющие» модели (reasoning models): проверяют ответ перед отправкой, реже галлюцинируют на фактических вопросах.

Не работает:

  • «Не галлюцинируй» в промпте.

  • Угрозы и напоминания о важности точности.

  • Увеличение количества попыток добиться правильного ответа без смены подхода, обвинения и попытки уличить модель в галлюцинации.


Ограничения датасета

Отдельное ограничение — дата обучения. Знания модели заканчиваются на дате формирования датасета. Законодательство в актуальной редакции, свежие позиции судов, недавно принятые нормы — всего этого в базовой модели нет.

Кроме того, юридические базы данных в датасеты разработчиков не включались: это сложно, дорого и требует лицензий. Нейросеть знает право из того, что было опубликовано в открытом интернете.

Практическое следствие: не просите нейросеть цитировать закон по памяти — вставьте текст сами. Не полагайтесь на ее знание актуальной практики без интернет-поиска.

Помните, что чем менее специализированная задача — тем ниже риск галлюцинации. Нейросеть хорошо структурирует, переформулирует, объясняет. Хуже — точно воспроизводит конкретные факты.


Связанные статьи

  • Что такое LLM — как работает предсказание токенов и почему оно порождает ошибки

  • Контекстное окно — как управлять объемом информации, чтобы снизить риск ошибок

Дополнительные материалы


Теги: #концепция #новичок #знакомство-с-нейросетями