Компания хочет использовать GPT-4 для анализа договоров. Проблема: в договорах — имена, ИНН, суммы, условия. Отправить в облако = потенциальная утечка. Решение «не использовать» — потеря конкурентного преимущества. Что делать?
Privacy gateway — локальный компонент между вашими данными и облачной моделью. Задача: убрать чувствительное ДО отправки, вернуть ПОСЛЕ получения ответа.
Два слоя детекции
Слой 1: Регулярки и маски
- ИНН, ОГРН, паспортные данные — по формату
- Email, телефоны — по паттернам
- Быстро, надёжно для структурированного
Слой 2: NER-модели
- Имена, названия компаний, адреса
- Контекстно-зависимые сущности
- Правило: UNKNOWN → SENSITIVE (лучше перебдеть)
Псевдонимизация
Что это: замена реальных данных на псевдонимы с сохранением структуры.
- «Иванов Пётр» → «PERSON_001»
- «ООО Ромашка» → «COMPANY_042»
- «5 000 000 руб.» → «AMOUNT_017»
Карта соответствий хранится локально, с минимальными правами доступа и TTL.
RAG-контур
Для RAG (Retrieval-Augmented Generation) особый подход:
- Санитизация на этапе индексации
- Эмбеддинги строятся по обезличенным текстам
- В облако уходят только обезличенные чанки
- Ре-гидратация при формировании ответа
Microsoft Presidio — OSS для детекции и анонимизации. Важно: не гарантирует 100% (ни один инструмент не гарантирует). Это слой защиты, не серебряная пуля.
Privacy как часть risk management
Согласно NIST Privacy Framework и NIST SP 800-188:
- Privacy-процесс = часть enterprise risk management
- Governance: кто отвечает, какие политики
- Мониторинг: как проверяем, что работает
- Реагирование: что делать при инциденте
Privacy gateway: детект (регулярки + NER) → псевдонимизация → отправка в облако → ре-гидратация. Карта соответствий локально. Для RAG — санитизация при индексации. Privacy = часть risk management, не отдельный проект.