Безопасное внедрение ИИ в страховой компании
Интеграция LLM для обработки заявок без риска утечки персональных данных клиентов.
Задача
Страховая компания с 200 000 активных полисов хотела использовать LLM для ускорения обработки страховых заявок — классификация, суммаризация документов, генерация ответов клиентам. Но персональные данные клиентов (ФИО, паспортные данные, адреса, медицинская информация) нельзя было отправлять во внешние API.
- 152-ФЗ и требования регулятора — персональные данные клиентов должны обрабатываться только на территории РФ, передача в облачные LLM (OpenAI, Anthropic) невозможна
- Медицинские данные — при страховании жизни и ДМС заявки содержат диагнозы и историю болезни — особая категория ПДн
- Риск утечки — сотрудники уже начали копировать данные клиентов в ChatGPT для ускорения работы, что создавало критический риск
- Объём обработки — 500+ заявок в день, на каждую уходит 20–30 минут ручной работы
- Конкурентное давление — крупные страховщики уже внедрили ИИ и обрабатывали заявки в 3 раза быстрее
Задача: получить все преимущества ИИ для обработки заявок без компромиссов в области защиты персональных данных.
Решение
Спроектировали и реализовали гибридную архитектуру с разделением данных по уровням чувствительности.
Этап 1: Классификация данных и проектирование (3 недели)
- Классифицировали все типы данных в заявках по 3 уровням: публичные, конфиденциальные, ПДн
- Определили, какие задачи можно решать облачной LLM (суммаризация обезличенных текстов), а какие — только локально
- Спроектировали pipeline анонимизации с использованием Microsoft Presidio
Этап 2: Развёртывание локальной LLM (4 недели)
- Локальная LLaMA 3 — развёрнута на собственном сервере с GPU, обрабатывает заявки с ПДн без передачи данных за периметр
- Fine-tuning — дообучили модель на 10 000 анонимизированных заявках для повышения качества классификации
- Контейнеризация — Docker-окружение для воспроизводимого деплоя и масштабирования
Этап 3: Гибридный pipeline и аудит (5 недель)
- Анонимизация через Presidio — автоматическое маскирование ФИО, паспортных данных, адресов, телефонов, диагнозов перед отправкой в облачный GPT
- Деанонимизация на выходе — замещённые данные восстанавливаются в итоговом документе
- Аудит-лог — каждый запрос к LLM логируется: кто, когда, какие данные, какой маршрут (локальный/облачный)
- Дашборд compliance — визуализация статистики обращений, алерты при аномалиях
Архитектура решения
Гибридная архитектура разделяет задачи по двум маршрутам. Облачный GPT-4 обрабатывает анонимизированные данные: суммаризация описаний инцидентов, классификация типов обращений, генерация шаблонных ответов клиентам. Локальная LLaMA 3 (развёрнута на сервере с NVIDIA A100) работает с полными данными заявок, включая ПДн: извлечение ключевых параметров из документов, проверка полноты пакета, предварительная оценка ущерба.
Анонимизация через Presidio
Pipeline анонимизации на базе Microsoft Presidio распознаёт 12 типов ПДн в русском тексте: ФИО, паспортные данные, адреса, телефоны, email, ИНН, СНИЛС, номера полисов, медицинские диагнозы, даты рождения, номера банковских карт, VIN-номера автомобилей. Точность распознавания — 98.5% на тестовой выборке из 1 000 заявок. При обнаружении данные заменяются на плейсхолдеры, а маппинг сохраняется в защищённом хранилище для деанонимизации на выходе.
Результаты после 4 месяцев
- Ноль инцидентов с утечкой данных — аудит подтвердил полное соответствие 152-ФЗ
- Время обработки заявок сократилось на 60% — с 25 минут до 10 минут в среднем
- Пропускная способность выросла: 800+ заявок в день вместо 500 при том же штате
- Сотрудники прекратили использовать публичный ChatGPT — корпоративный инструмент удобнее и безопаснее
- Качество классификации заявок: 94% точность (выше, чем у ручной обработки — 89%)
"Мы получили все преимущества ИИ без компромиссов в безопасности. Регулятор доволен, клиенты защищены."