Глоссарий

Базовые термины технологий управления данными, сгруппированные по смыслу. Прочитайте перед тем, как переходить к статьям раздела — здесь объясняется то, на что она опирается.

Дата составления: 2026-05-28
Статус: 💡 Актуально


1. Суть обсуждаемых технологий

RAG (Retrieval-Augmented Generation, «генерация, дополненная поиском») — архитектурный подход, при котором ответ генерирует обычная LLM, но ее промпт предварительно дополняется фрагментами из заранее подготовленной базы знаний.

Параметрическая память (Parametric memory) — знания, которые «осели» в весах модели во время обучения. Именно из нее модель отвечает «по памяти», когда у нее нет внешнего контекста.

Дата среза знаний (Knowledge cutoff) — момент, после которого модель не знает о произошедших событиях: все, что появилось позже, в параметрическую память не попало.


2. Методы поиска

Эмбеддинг (Embedding) — числовое представление текста: его координаты в многомерном пространстве (последовательность из 768, 1024, 3072 и т. д. чисел). Близкие по смыслу тексты получают близкие эмбеддинги.

Векторизация — превращение текста в эмбеддинг. Сохраняет семантику (смысл) исходного текста.

Размерность (Dimension) — количество чисел в координате эмбеддинга. Для юридических текстов распространенный «золотой стандарт» — 768.

Эмбеддер (Embedding model) — нейросеть (не LLM), которая создает эмбеддинги.

Семантический (векторный) поиск — поиск по смыслу через сравнение эмбеддингов, а не по совпадению ключевых слов. Самый популярный способ поиска в RAG.

Косинусное сходство (Cosine similarity) — мера близости двух векторов (косинус угла между ними), как правило от 0 до 1: чем выше, тем ближе тексты по смыслу. Вычисляется программно, без участия нейросети.

Ретрив / ретривер (Retrieval / Retriever) — этап и компонент, отвечающие за поиск релевантных фрагментов в базе по запросу.

Векторная база данных (Vector database) — хранилище эмбеддингов, оптимизированное для быстрого поиска по векторам.


3. Подготовка данных

Чанкинг (Chunking) — нарезка документов на фрагменты (чанки) перед векторизацией, потому что эмбеддер не может обработать большой текст целиком. Векторизуется чанк целиком, а не отдельные слова в нем.

Чанк (Chunk) — отдельный фрагмент текста, который векторизуется и хранится в базе. Слишком большой размывает детали, слишком маленький теряет контекст.

Контекстное окно эмбеддера — максимальный объем текста, который эмбеддер обрабатывает за один раз. Если чанк больше окна, часть данных теряется или вектор «размывается».


Связанные статьи


Теги: #rag #глоссарий #актуальное