Зачем и когда анонимизировать

Почему данные в публичных нейросетях могут утекать, какие категории информации защищены российским законодательством, известные инциденты и разумная стратегия оценки рисков.

Дата составления: 2026-04-19
Статус: ✅ Актуально

Суть

В основном взаимодействие пользователей с LLM происходит через SaaS-сервис. Все, что вы пишете в промпте и добавляете в чат или проект, уходит на серверы провайдера и в той или иной форме у него остается. Для юриста это значит, что бытовая привычка «закинуть договор в ChatGPT, пусть перескажет» с точки зрения формального прочтения закона может быть нарушением режима персональных данных, коммерческой тайны или адвокатской тайны.

При этом тотальный запрет не работает: сотрудники все равно пользуются ИИ со своих аккаунтов, только без контроля со стороны компании. Разумная стратегия — выбирать меры защиты соразмерно реальному риску конкретной задачи, а не по принципу «все конфиденциально, отправлять ничего нельзя».

Эта статья — о том, как провести такую оценку и что делать, когда вы решили, что данные отправлять «как есть» нельзя.

Зачем вообще об этом думать

Техническая логика риска

Когда вы отправляете текст в ChatGPT, Claude или Gemini, он проходит по такой цепочке: ваше устройство → серверы провайдера → обработка моделью → ответ вам. На серверах провайдера промпт сохраняется как минимум в логах — для обеспечения работы сервиса, для модерации, для защиты от злоупотреблений, часто также для дообучения модели.

Даже если провайдер добросовестный, риск утечки из-за инфраструктурных и технических проблем теоретически остается. Кроме того, данные пользователей могут быть затребованы через суд, а промпт может попасть в обучающую выборку и «всплыть» в ответе другому пользователю. Некоторые из перечисленных примеров — реально задокументированные случаи (см. ниже).

Юридическая логика риска

Для российского юриста имеют значение следующие категории охраняемых российским законодательством данных:

Персональные данные — ФЗ № 152-ФЗ. Отправка ПД в сторонний ИИ-сервис с высокой вероятностью квалифицируется как поручение обработки третьему лицу, а для многих зарубежных сервисов — еще и как трансграничная передача (ст. 12 Закона). Для трансграничной передачи есть отдельные требования: уведомление Роскомнадзора, оценка адекватности защиты в принимающей стране и др. Массовое отправление договоров физлиц в ChatGPT этим требованиям не соответствует практически никогда.

Коммерческая тайна — ФЗ № 98-ФЗ. Если в компании установлен режим коммерческой тайны, загрузка документа, на который распространяется режим, в публичный ИИ-сервис с высокой вероятностью — нарушение режима, потому что информация передается лицу, не подписавшему NDA. Режим коммерческой тайны после такой передачи фактически разрушается.

Адвокатская тайна — п. 5 ст. 6 Кодекса профессиональной этики адвоката. Адвокатская тайна — абсолютная: она не снимается сроками, не ограничивается по объему и защищает все, что стало известно адвокату в связи с делом. Согласие доверителя на обработку его данных публичной ИИ — тема не бесспорная, но минимум такое согласие желательно получать в явной форме и документировать.

Конфиденциальная информация контрагента — договорные обязательства о неразглашении. Большинство NDA прямо запрещают передачу информации третьим лицам без согласия раскрывающей стороны. Провайдер LLM — это третье лицо.

Банковская, медицинская, налоговая, нотариальная, следственная тайны и другие специальные режимы — каждый со своим нормативным регулированием, но логика везде одинаковая: отправка в публичный ИИ квалифицируется как раскрытие.

Кроме того, провайдеры сервиса могут быть обязаны раскрывать логи пользователей. В российской практике это пока маловероятный сценарий, но в зарубежной было уже несколько случаев. Самый наглядный пример — дело New York Times v. OpenAI. 13 мая 2025 года суд обязал OpenAI сохранять все выходные логи ChatGPT, которые иначе были бы удалены, — включая уже «удаленные» пользователями чаты. OpenAI обжаловала это решение, но в июне 2025 г. окружной судья приказ подтвердил, а в ноябре того же года OpenAI обязали передать истцам 20 миллионов обезличенных логов. Суд прямо отверг аргумент о приватности: пользователи «добровольно отправили свои коммуникации» сервису. Важный нюанс: приказ не коснулся ChatGPT Enterprise и пользователей API с соглашением о нулевом хранении данных (Zero Data Retention). То есть условия хранения данных, зафиксированные в договоре с провайдером, в этой ситуации сработали. Но рядовые подписки Plus и Pro — не защищены.

Известные инциденты

Ниже — несколько кейсов: корпоративные утечки через сотрудников, технические баги провайдера, судебные истории, примеры работы «по глупости интерфейса».

Кейс	Обстоятельства	Практический вывод
Samsung, март 2023	За 20 дней три инцидента: инженеры компании загрузили в ChatGPT исходный код, внутренние совещания и код для оптимизации тестирования чипов. Samsung ограничил размер промптов 1024 байтами и начал разрабатывать внутреннюю AI.	Главный канал утечек — не уязвимости, а привычные действия рядовых сотрудников. Политика использования ИИ и обучение — важнее любых технических средств.
ChatGPT Redis bug, март 2023	Из-за бага в опенсорсной библиотеке redis-py некоторые пользователи видели заголовки чатов чужих пользователей. За 9-часовое окно у 1,2% активных подписчиков Plus могли стать видны имя, email, платежный адрес и последние 4 цифры карты другого пользователя.	Провайдер может быть добросовестным, но баг в опенсорсном компоненте в инфраструктуре привел к утечке.
DeepMind извлекает обучающие данные, ноябрь 2023	Исследователи Google DeepMind и ряда университетов выяснили: если попросить ChatGPT бесконечно повторять слово (например, «poem» или «company»), модель через некоторое время начинает выдавать куски обучающей выборки — реальные email, телефоны, фрагменты сайтов, код из Stack Overflow. За запросы на $200 извлекли ~10 000 уникальных фрагментов.	Модель действительно «помнит» тренировочные данные.
DeepSeek ClickHouse, январь 2025	Обнаружена открытая база ClickHouse с более чем миллионом строк логов — история чатов в plaintext, API-ключи, бэкенд-данные. База была доступна без какой-либо аутентификации.	Популярность модели не гарантирует базовую инфраструктурную гигиену на стороне провайдера. Особенно осторожно — с новыми и быстрорастущими сервисами.
ChatGPT в Google, июль–август 2025	В ChatGPT была функция «сделать чат обнаруживаемым» — галочка при публикации ссылки. Google начал индексировать такие чаты. В открытый доступ попало около 100 000 переписок, включая бизнес-контракты и личную информацию с профессиональным контекстом. OpenAI отключил функцию, но кэш в поисковиках остался.	Опасны не только «утечки», но и невинно выглядящие функции самого сервиса.
Fortis Advisors v. Krafton, март 2026	Делавэрский суд установил, что CEO корейской Krafton использовал ChatGPT для разработки стратегии «корпоративного захвата» купленной студии Unknown Worlds. Чат-бот составил «Стратегию ответа на No-Deal сценарий»; Krafton следовал рекомендациям почти дословно. CEO признал, что удалял релевантные чаты — но это не помогло. Суд использовал переписку с ChatGPT как доказательство умысла.	Ваш чат с LLM — это потенциальное доказательство в суде. Даже если вы его удалите, действия по его следам могут быть прослежены. Относитесь к промптам так же, как к рабочей переписке.

А нужно ли? Возражения и контраргументы

Не всегда анонимизация оправдана. Есть резонные позиции, что некоторые опасения преувеличены.

Первое возражение. LLM — не база данных в привычном смысле. Персональные данные в ней не хранятся в разнесенных полях, не агрегируются и не структурируются. Для «пробива» в классическом смысле нужна база, где ФИО, телефон и адрес связаны между собой — LLM такой базой не является. Источник утечек ПД — скорее специализированные сервисы, а не нейросети.

Это в значительной степени верно. Но не полностью: исследование DeepMind 2023 года (см. таблицу выше) показало, что модель все-таки «помнит» куски обучающих данных и в некоторых условиях их выдает. Это не агрегированная база, но и не чистый лист.

Второе возражение. Полный запрет не работает. Во многих компаниях формально ChatGPT запрещен — и сотрудники все равно им пользуются, только с личных аккаунтов, без контроля и без обучения. Риск при этом не уменьшается, а растет: теперь компания даже не знает, куда и что утекает. Более того, «конфиденциальный шаблон договора» в большинстве случаев давно разошелся по десяткам контрагентов и почти наверняка уже попал к провайдерам LLM — через чужие отправки.

Резюме. Анонимизация — это инструмент управления риском, а не самоцель. Оценивайте реальный риск конкретной задачи: природа данных, круг затронутых лиц, объем, характер использования, юрисдикция провайдера. Для шаблонных задач с обезличенным текстом защитные меры могут быть минимальными. Для документов с чувствительной информацией — серьезными или речь должна идти о полном отказе от публичного ИИ.

Практические рекомендации

Короткий чек-лист для применения перед отправкой документа в публичный ИИ.

1. Оцените данные. Относятся ли они к какой-либо категории информации ограниченного доступа? Если да — какой режим применяется, какие у него требования?

2. Выберите подход под уровень риска. Для самого чувствительного — локальная модель или полный отказ. Для среднего — удаление, шаблонизация или внешний сервис-обезличиватель. Для низкочувствительного и типового — возможно, достаточно российского облака или даже прямой работы с публичным ИИ. Подробнее о подходах — в статье Методы анонимизации.

3. Помните про статус обезличенных данных. Обезличивание с возможностью обратного сопоставления не снимает статус ПД. Если у вас в системе хранится ключ «заглушка → реальное имя», это по-прежнему обработка ПД со всеми вытекающими.

4. Не полагайтесь на анонимайзер вслепую. Автоматические инструменты пропускают сущности — особенно в русскоязычных текстах и особенно редкие/нестандартные форматы. Финальная проверка глазами — обязательна.

5. Комбинируйте подходы. Для типовой работы редко хватает одного метода. Типичный сценарий: шаблонизация очевидных вещей + автоматический обезличиватель для ПД + ручная проверка + выбор провайдера, минимизирующего риск. Подборка конкретных инструментов — в статье Готовые решения.

Связанные статьи

Методы анонимизации — пять принципиальных подходов и техническая база
Готовые решения — сервисы от участников сообщества и с рынка
Оплата и доступ из России — общие вопросы приватности при работе с зарубежными ИИ
Безопасность — смежные вопросы работы с чувствительными данными при вайб-кодинге

Дополнительные материалы

Книга «Юристы и нейросети. Руководство к действию» — глава 6 (риски работы с публичными LLM) и глава 7 (корпоративные политики)
Ответ OpenAI на data preservation order по делу New York Times — официальная позиция провайдера
Блог Wiz Research — разбор инцидента с DeepSeek и 38 ТБ данных Microsoft
Исследование Nasr et al. «Scalable Extraction of Training Data from (Production) Language Models»

Теги: #инструменты #анонимизация #приватность #персональные-данные #конфиденциальность

Анонимизация данных

Методы анонимизации