Этот хаб — практическая карта для команд, которые строят и эксплуатируют ИИ-функции на основе больших языковых моделей, RAG и агентных контуров. Здесь систематизированы процессы безопасности, доверия и соответствия стандартам: от проектирования guardrails до организационных рамок по NIST и ISO. Базовые опорные материалы для углубления: политика «ограждений» guardrails, рамка управления рисками NIST AI RMF и системный стандарт менеджмента ИИ ISO/IEC 42001.
Что такое «безопасность ИИ» в производстве
Безопасность ИИ — это не один «сканер у входа». Это согласованная система процессов, политик и технических контролей, которые:
- снижают вероятность вредных выходов (toxicity, PII-утечки, нарушения формата);
- укрепляют доверие к ответам (цитатность, проверяемость источников, воспроизводимость);
- делают релизы управляемыми (канарейки, гейты, «до/после», план отката);
- обеспечивают соответствие внутренним и отраслевым нормам.
Практически это означает: вы заранее определяете нежелательные эффекты, добавляете «ограждения» на каждом слое, измеряете метрики и документируете решения.
Где живут угрозы: слои риска в AI-стеке
| Слой | Чем рискуем | Примеры инцидентов | Контрмеры первого уровня |
| Данные/инжест | Лицензии/PII/яд | «Серые» источники, утечка PII | Политики источников, маскирование, запреты на домены |
| Представления/индекс | Дрейф качества | Падение recall/precision | Версионирование эмбеддера/индекса, регресс-тесты |
| Ретривер/конденсация | Инъекции/подмена контекста | «Ответ по фейкам» | Фильтры, стоп-словари, атрибуция ID источников |
| Генерация (LLM) | Неформат/галлюцинации | Битый JSON, «уверенное, но неверное» | Контракты вывода, пред-валидация, ретраи по правилам |
| Инструменты/агенты | Эскалация прав/побочные эффекты | Неправомерные действия | RBAC, санкбоксы, идемпотентность, лимиты шагов |
| Оркестрация/SRE | Длинный хвост/P95 | Жалобы «тормозит» | Профили очередей, кэш префилла, гео-роутинг |
| Наблюдаемость | Недостаток следов | Нет причинно-следственных логов | Trace_id, «до/после», канарейки, отчёты инцидентов |
Идея проста: раскладываем угрозы по слоям и для каждого слоя фиксируем наблюдаемые сигналы и конкретные контрмеры.
Политика guardrails: что это и как применять
Guardrails — это набор запретов, ограничителей и проверок, встроенных в конвейер ИИ. Они реализуются как:
- Фильтры ввода/вывода (PII, токсичность, инъекции, стоп-фразы).
- Контракты формата (JSON/таблицы) с пред-валидацией и ретраями «по коду».
- Политики инструментов (RBAC, санкбоксы, тайм-ауты, квоты).
- Цитатность и обязательные ID источников для фактических ответов (RAG).
- Лимиты бюджета/глубины для агентов (max-steps, max-cost).
Хорошая политика guardrails измерима: для каждого ограждения указываются метрики и пороги.
NIST AI RMF: как встроить рамку в рабочие процессы
Рамка NIST фокусируется на управлении рисками и доверии. Практические шаги адаптации:
- Выделить каталог рисков (безопасность/качество/этика/право), назначить владельцев.
- Описать процедуру релизов: критерии допуска, гейты, канарейки, «до/после».
- Зафиксировать наблюдаемость: обязательные метрики, шаблоны отчётов и SLA.
- Включить обучение персонала и план инцидент-реагирования.
Ключ — не «сертификат на стену», а регулярная практика с измеримыми эффектами.
ISO/IEC 42001: менеджмент ИИ как система
Стандарт задаёт каркас системы менеджмента ИИ (AIMS): политику, роли, процессы непрерывного улучшения (PDCA). Для продукта это означает:
- формальные политики (данные, модели, тестирование, выпуск);
- ответственность и эскалацию (кто принимает решения и кто отвечает за риски);
- цикл планируй-делай-проверяй-действуй с KPI по метрикам.
Совместно с ISO 23894 (риски ИИ) стандарт помогает согласовать безопасность с развитием продукта.
Метрики доверия и «здоровья» ИИ-сервиса
| Метрика | Что показывает | Целевое применение |
| TTFT | «Живость» интерфейса | Управление UX, отмены |
| P95 задержек | Стабильность под пиковой нагрузкой | Профили очередей, лимиты длины |
| Доля неформата | Нарушения контрактов вывода | Ретраи по правилам, качество интеграции |
| Цитатность | Проверяемость ответов (RAG) | Доверие, аудит источников |
| Steps/Episode | Экономика/устойчивость агентов | Ограничители глубины, стоимость |
| Tool Error Rate | Качество инструментов | Контракты, тайм-ауты, идемпотентность |
| «Цена эпизода» | Себестоимость полезного ответа | FinOps и гейты релизов |
Минимальный дешборд для прод-сервиса: TTFT, P95, неформат, цитатность (если RAG), Steps/Episode (если агенты), «цена эпизода».
Модель угроз: от сценариев к контролям
| Угроза | Где проявляется | Сигналы | Контрмеры |
| Prompt-инъекции | Ввод/ретривер | Паттерны обхода роли | Фильтры, разделение инструкций и данных, стоп-словари |
| Галлюцинации | Генерация | «Уверенно, но неверно» | RAG с цитатами, конденсация, контракты вывода |
| Неформат | Вывод | Битый JSON/таблицы | Пред-валидация, ретраи «по коду», ранние остановки |
| PII/секреты | Логи/источники | Лики в ответах/логах | Маскирование, политика хранения/ретенции |
| Эскалация прав | Инструменты агента | Побочные эффекты | RBAC, санкбоксы, идемпотентность |
| Дрейф качества | Индексы/эмбеддер | Просадка recall/precision | Версионирование, регресс-наборы, канарейки |
| Supply-chain | Модели/артефакты | Несовпадение хэшей | Подписи/хэши, проверки при старте |
Процессы безопасности 30/60/90
0–30 дней (базовая дисциплина)
- Определить DoD и нежелательные эффекты; зафиксировать политику guardrails.
- Ввести контракты вывода и пред-валидацию; включить трейсинг и дешборды.
- Настроить канарейки и пороги деградации; описать план отката.
31–60 дней (стабилизация)
- Версионировать эмбеддер/индексы/шаблоны; завести регресс-наборы.
- Развести Light/Standard/Heavy очереди, включить кэш префилла.
- Запустить отчёты «до/после» для всех релизов; определить R&R.
61–90 дней (зрелость)
- Аудит PII/логов, политика ретенции; обучение персонала.
- Интегрировать практики NIST AI RMF и контуры ISO/IEC 42001.
- Еженедельные post-mortem и ежемесячные ревизии метрик/рисков.
RAG и доверие: почему важна цитатность
Для ответов, требующих фактов, ключевой параметр доверия — цитатность: доля ответов с валидными ID/ссылками на источники. Это делает проверяемым каждый этап: ретривер выбрал документ, конденсация сохранила ссылку, генерация сослалась на ID. Без цитатность-логов невозможно доказать корректность ответа и обучать модель на ошибках.
Агенты и безопасность: минимальные требования
- RBAC для инструментов, опасные действия — только в санкбоксах.
- Лимиты max-steps/max-budget, ранние остановки и строгие коды ошибок.
- Идемпотентность и идempotent-идентификаторы для повторных вызовов.
- Аудит: trace_id, версия инструмента/модели, стоимость шага, результат.
Чек-лист due diligence перед продом
| Вопрос | Что ждём увидеть | Артефакт/сигнал |
| Контракты вывода? | Строгие JSON/таблицы + пред-валидация | Валидаторы и ретраи «по коду» |
| Наблюдаемость? | TTFT/P95/неформат/цитатность/Steps | Дешборды и шаблон «до/после» |
| Канарейки? | Пороги деградации и авто-откаты | Карточки релизов |
| Политики данных? | Источники/лицензии/PII | Data-manifest |
| Оркестрация? | Разделённые очереди, кэш префилла | Профили Light/Standard/Heavy |
| Агенты? | RBAC/санкбокс/лимиты | Логи шагов и ошибок инструментов |
Часто задаваемые вопросы (FAQ)
Достаточно ли одного «фильтра токсичности»? Нет. Нужны ограждения на всех слоях: от источников до вывода и инструментов.
Зачем отделять TTFT от общего времени ответа? Именно TTFT определяет «живость» интерфейса и отмены; P95 — устойчивость на «длинном хвосте».
Можно ли обойтись без цитат? Для фактических ответов — нет. Без цитат вы теряете проверяемость и возможность обучаться на ошибках.
Нужно ли «сертифицироваться» прямо сейчас? Главное — ежедневная дисциплина. Формальные рамки (NIST/ISO) давайте встраивать по мере зрелости процессов.
Словарь коротких определений
- Guardrails — набор политик/ограждений и проверок на всём пути данных/модели/вывода.
- Неформат — нарушение контракта вывода (битый JSON/таблица).
- Цитатность — доля ответов с валидными ID/ссылками на источники.
- Канарейка — выпуск с малой долей трафика и порогами отката.
- PII — персональные данные; требуют маскирования и политики хранения.
- AIMS — система менеджмента ИИ (ISO/IEC 42001).
Токены по теме (навигация)
Организации и нормы (навигация)
- European Commission
