Методы анонимизации

Пять принципиальных подходов к защите данных при работе с публичными нейросетями: от локальной модели до автоматизации через правила. И техническая база для тех, кто хочет собрать свой обезличиватель.

Дата составления: 2026-04-19
Статус: ✅ Актуально


Ключевые понятия

Обезличивание vs анонимизация. В российском законодательстве термин «анонимизация» не закреплен. Есть понятие «обезличивание» (п. 9 ст. 3 Закона № 152-ФЗ) — замена идентификаторов. Важный нюанс: для оператора обезличенные данные все равно остаются персональными, если сохраняется возможность обратного сопоставления. Простая замена ФИО на порядковый номер с сохранением ключа связи — не снимает статус ПД. Анонимизация в строгом смысле — это безвозвратная потеря связи с конкретным лицом (агрегация, статистика).

Two-way vs one-way. One-way анонимизация — необратимая: данные заменяются на «заглушки», вернуть исходный текст нельзя. Two-way — обратимая: ключ связи сохраняется, после получения ответа от модели заглушки заменяются обратно. Two-way удобнее, когда результат работы нужно использовать дальше («сделай мне анализ этого договора, а потом верни все имена обратно»), но юридически это по сути обезличивание, а не анонимизация.


Подходы

1. Локальная модель (on-prem). Модель разворачивается на ваших серверах, данные наружу не уходят в принципе. Подходит для самых чувствительных задач.

Минусы:

  • нужны вычислительные мощности, поддержка, обновление;

  • доступные локальные модели (например, разные версии Qwen или Gemma) значительно слабее флагманских GPT-5 или Claude.

2. Российское облако. Промежуточный вариант между публичным зарубежным SaaS и полным on-prem. Сервисы вроде YandexGPT, GigaChat от Сбера, Cotype от MTS AI хранят данные в РФ и формально соответствуют требованиям 152-ФЗ по локализации. Это снимает риск трансграничной передачи, но не снимает сам факт передачи данных третьему лицу — поэтому для адвокатской и коммерческой тайны этого обычно недостаточно. Разумный выбор, если ваш основной риск — именно трансграничка и требования Роскомнадзора, а не конфиденциальность как таковая.

3. Удаление и шаблонизация. Самый простой и часто самый надежный подход: убираем из текста все, что может указывать на конкретное лицо или компанию. Фамилии, названия, даты, суммы, реквизиты, адреса — все меняется на «Сторона 1», «Общество», «Дата», «N рублей». Если в итоге в тексте не осталось информации, относящейся к конкретному физлицу, ограничения 152-ФЗ не применяются.

Плюсы: работает с любой моделью, не требует никаких инструментов.

Минусы: ручной труд; для длинных документов — невыполнимый ручной труд.

4. Внешний сервис-обезличиватель. Перед отправкой в ИИ текст прогоняется через специальный сервис, который автоматически находит и заменяет ПД. Конкретные сервисы — в статье Готовые решения.

Плюсы: масштабируется на большие объемы.

Минусы: никакой автоматический инструмент не ловит 100% — всегда остаются ложные отрицания, т. е. пропущенные сущности. Проверять результат вручную перед отправкой — обязательно.

5. Вайб-кодинг. Если у вас есть задачи, где нужно регулярно убирать однотипные данные (например, названия контрагентов из шаблонов договоров), можно не использовать специальный сервис, а написать простой скрипт с помощью вайб-кодинга.


Что нужно знать, если вы хотите собрать свой обезличиватель

Хороший обезличиватель редко строится одним способом. В реальных решениях методы комбинируются: один ловит то, что другой пропускает. Для вайб-кодера-юриста важно понимать четыре основных подхода и знать, что у каждого — свои сильные и слабые стороны.

Регулярные выражения (regex). Самый простой и предсказуемый способ. Подходит для данных с четким форматом: email, телефоны, ИНН, СНИЛС, номера карт, паспортные серии, КПП, ОГРН, даты в стандартных форматах, номера договоров. Грубо говоря, вы описываете шаблон — «10 цифр подряд» или «четыре цифры, пробел, шесть цифр» — и программа находит все совпадения.

Плюсы: полный контроль, ничего лишнего не заменит, работает мгновенно.

Минусы: ловит только то, что имеет жесткий формат; в русскоязычных документах таким способом нельзя поймать ни имена, ни названия компаний.

Словари. Готовый список того, что нужно найти и заменить. Это может быть список всех ваших клиентов, контрагентов, внутренних проектов — всего, что у вас повторяется из документа в документ.

Плюсы: максимальная точность по тому, что в списке; можно сразу подставлять нужные заглушки («ООО Ромашка» → «Общество 1»).

Минусы:

  • не находит ничего, чего в списке нет;

  • нужно поддерживать актуальность;

  • для русского языка проблематичный нюанс — учитывать падежи и производные формы («Иванов», «Иванова», «Иванову»). Решается либо списками со всеми вариантами, либо лемматизацией — приведением слов к начальной форме перед поиском.

NER (Named Entity Recognition, распознавание именованных сущностей). Это технология машинного обучения, которая умеет находить в тексте «сущности» — имена людей, названия организаций, географические названия, даты — не по формату и не по списку, а по контексту. Модель предварительно обучена на больших объемах текстов и «понимает», что в предложении «Иванов подписал акт 15 марта» слово «Иванов» — это человек, даже если она никогда именно эту фамилию не видела. Это то, чего не умеет ни regex, ни словарь.

Плюсы: ловит новые и редкие сущности, работает со свободным текстом.

Минусы:

  • иногда ошибается, особенно на юридической лексике (может принять название закона за организацию);

  • хуже работает с транслитерированными фамилиями, сокращениями и нестандартной пунктуацией;

  • требует готовой обученной модели — для русского языка бесплатно доступны модели из Natasha, DeepPavlov и spaCy.

Использование LLM как обезличивателя. Относительно простой подход: просите саму языковую модель найти и заменить в тексте все, что похоже на ПД.

Плюсы: LLM понимает контекст лучше любого NER и ловит сущности, которые остальные методы пропускают, — например, «моя жена» или «бывший работодатель клиента» как имплицитные идентификаторы.

Минусы очевидны: если вы для обезличивания отправляете текст в ту же публичную LLM, от которой защищаетесь, — вы замыкаете круг. Применимо только с локальной моделью или доверенным провайдером.

Рабочий рецепт — комбинация. Все промышленные решения строятся на комбинации: regex ловит форматированное, словари — известные имена и организации, NER — все остальное, при необходимости на финальном этапе подключается LLM. Так работает и Microsoft Presidio, и большинство его коммерческих оберток.


Готовые библиотеки для вайб-кодинга

Microsoft Presidio — де-факто стандарт индустрии. Бесплатный, свободно распространяемый. Объединяет regex, словари и NER в одной коробке, предлагает готовые способы замены. Поддерживает много языков, но с русским «из коробки» работает ограниченно — для хорошего результата нужна ручная донастройка и добавление распознавателей для российских реалий (СНИЛС, ИНН, паспортные данные). Почти все западные коммерческие сервисы по анонимизации — это обертка над Presidio или его аналогом.

Natasha — российский опенсорсный проект, специализирующийся именно на русском языке. Хорошо работает с русскими ФИО, организациями, адресами, умеет лемматизацию. Для задач анонимизации русскоязычных текстов — часто более подходящий выбор, чем «коробочный» Presidio.

DeepPavlov — российский фреймворк NLP с качественными моделями для русского языка, включая NER. Более тяжелый и «программистский», чем Natasha, но мощнее.

Ключевой тезис: ни один автоматический инструмент не дает 100% точности. Presidio и сам в документации предупреждает: «нет гарантии, что найдены все ПД». Это не рекламный дисклеймер, а архитектурное ограничение любого автоматического подхода. Ручная проверка после автоматической анонимизации — не перестраховка, а требование процесса.


Связанные статьи


Теги: #инструменты #анонимизация #методы #вайб-кодинг