Что такое LLM

Как устроены нейросети, на чем они учатся и почему одинаковый вопрос дает разные ответы. Поможем разобраться, почему LLM ведут себя определенным образом.

Дата составления: 2026-03-30
Статус: ✅ Актуально

Суть

LLM (Large Language Model, большая языковая модель) — это то, что стоит за сервисами типа ChatGPT, Claude, Gemini, GigaChat и другими. Не «искусственный интеллект» в смысле мыслящей машины — а статистический генератор текста, обученный предсказывать следующее слово.

Именно поэтому нейросеть не «знает» ответ — она подбирает наиболее вероятное продолжение фразы. Это и есть ключ к пониманию всего остального: галлюцинаций, ограничений, разных ответов на один вопрос.

GPT и LLM — не одно и то же. В основе большинства современных LLM лежит архитектура трансформер (Transformer) — способ организации нейросети, предложенный исследователями из Google в 2017 году. OpenAI использовала эту архитектуру и на ее основе создала свое семейство моделей — GPT (Generative Pre-trained Transformer). Claude от Anthropic, Gemini от Google, GigaChat от Сбера — тоже LLM на основе трансформеров, но не GPT: это собственные разработки других компаний. В обиходе «GPT» нередко используют как синоним нейросети вообще, но технически это название одной конкретной продуктовой линейки.

Как нейросеть учится

Когда практикующий юрист говорит «хочу обучить нейросеть на документах компании» — он обычно имеет в виду не обучение в техническом смысле, а что-то вроде «дать модели прочитать наши файлы и отвечать с их учетом». Это возможно, но работает иначе: модель не запоминает ваши документы навсегда — она просто получает их как дополнительный контекст к конкретному запросу. Как именно это делается технически — через загрузку файлов в чат, системные инструкции или специальные поисковые системы поверх базы документов (RAG) — вопрос реализации, но принцип один: сама модель при этом не меняется.

Чтобы понять, почему так, стоит разобраться в том, как устроено обучение LLM в техническом смысле.

Датасет и его ограничения

Основа LLM — датасет: структурированный массив текстов, на которых модель обучалась. Источник — преимущественно открытый интернет. Это означает:

Юридические знания LLM поверхностны — модель знает то, что было опубликовано в открытом доступе. То есть юридические базы данных, комментарии к законам, судебные решения из закрытых систем (КонсультантПлюс, Гарант) в датасет не попадают.
Датасет фиксируется на дату обучения (knowledge cut-off date). Все, что произошло после — модель не знает, если только в интерфейсе LLM-сервиса нет поиска в Интернете.
Законодательство в датасете нередко неактуальной редакции. Если работаете с конкретной нормой — вставьте ее текст в чат, не полагайтесь на то, что модель ее «помнит».

Важный нюанс: модели обрабатывают текст не словами, а токенами — единицами, которые не совпадают с привычными словами. В русском языке одно слово, как правило, разбивается на 2–4 токена (в английском — обычно 1 слово = 1 токен). Это влияет на то, сколько текста помещается в контекстное окно.

Настоящее обучение, файн-тьюнинг и LoRA

Настоящее обучение (training) — это создание модели с нуля: обработка сотен миллиардов токенов на суперкомпьютерных кластерах в течение нескольких недель. Стоимость — десятки миллионов долларов. Этим занимаются только крупные технологические компании.

Файн-тьюнинг (fine-tuning) — дообучение уже готовой модели на узком наборе данных. Позволяет адаптировать стиль, специализацию или формат ответов. Требует значительных вычислительных ресурсов и технической экспертизы. Существует разновидность файн-тьюнинга, доступная пользователям без специализированных глубоких знаний в машинном обучении — LoRA (Low-Rank Adaptation): вместо переобучения всей модели целиком к ней добавляются небольшие дополнительные слои, которые и адаптируются под ваши данные — основная модель при этом не меняется. Это снижает требования к вычислительным ресурсам, но все равно требует значительной технической подготовки.

Когда практикующий юрист говорит «хочу обучить нейросеть на документах компании» — он, как правило, имеет в виду гораздо более простые способы расширить в моменте контекст модели.

Почему ответы разные на один вопрос

Генерация текста — это вероятностный процесс. Каждый следующий токен выбирается не детерминированно, а с элементом случайности. Именно поэтому:

Два ответа на один и тот же промпт будут отличаться — иногда в деталях, иногда существенно.
Это не ошибка, а свойство технологии. Разработчики управляют степенью «случайности» параметром температура (чем выше — тем разнообразнее и менее предсказуем ответ).
Для юридических задач — точных, фактических — лучше использовать сервисы с низкой температурой или явно просить модель «быть точной и не додумывать».

Как общаться с нейросетью

Нейросеть — не поисковик и не база данных. Она ближе к эксперту-собеседнику: хорошо понимает контекст, умеет рассуждать, но не читает мысли и не знает того, что ей не сказали.

Практически это означает:

Давайте контекст: кто вы, в чем задача, какой формат ответа нужен.
Поддерживайте диалог: уточняйте, если ответ не тот, что вы ожидаете. Итеративно направляйте LLM в соответствии со своими ожиданиями.
Перепроверяйте факты и цитаты — особенно нормы законов, реквизиты дел, ссылки на практику.
Нейросеть не обладает мнением, убеждениями или намерениями — она генерирует наиболее вероятный ответ в данном контексте. Это объясняет часто наблюдаемое пользователями «соглашательство» и «подхалимаж»: модель обучена давать наиболее удовлетворяющие пользователя ответы.

Связанные статьи

Ограничения и галлюцинации — почему LLM ошибается и что с этим делать
Контекстное окно — рабочая память нейросети

Дополнительные материалы

Книга «Юристы и нейросети: руководство к действию» — приобретайте на OZON | Читай-город | Буквоед
Лекция Андрея Карпати Deep Dive into LLMs like Chat GPT о стадиях обучения генеративных нейросетей и ее краткий обзор в сообществе Нейросети | ilovedocs
Видео основателя сообщества Нейросети | ilovedocs Павла Мищенко «Принципы работы с нейросетью и мифы. Как нейросети работают изнутри?» в рамках «Новогодний ИИнтенсива» TG | VK
Подкаст «Математика в основе ИИ»
Видео «Думает ИИ или нет? Разбор рассуждающих моделей за 10 минут»

Теги: #концепция #новичок #знакомство-с-нейросетями

Знакомство с нейросетями

Ограничения технологии и галлюцинации