AI-стек — это системная архитектура, описывающая слои и роли в современных продуктах на базе ИИ: от источников данных и индексов знаний до инференса моделей, инструментов, оркестрации, безопасности и наблюдаемости. Стек помогает ответить на три вопроса: что делает система (функции), где она это делает (слои/контуры) и как это согласовано по интерфейсам, SLO и ответственности команд.
В отличие от «одиночного вызова модели», продакшн-системы на ИИ — это композиции сервисов: подготовка данных, индексация и поиск, генерация и проверка, вызовы инструментов, аудит, биллинг. Каждый слой влияет на качество, стоимость и скорость — три оси, которые приходится балансировать в боевом окружении. В этом материале мы разложим стек по полочкам и предложим практические шаблоны, чтобы архитектура оставалась управляемой по мере роста.
Кому полезно. Руководителям продуктов, архитекторам и инженерам MLOps/AI платформ, которые строят ассистентов, корпоративные поиски, аналитические панели, автоматизацию операций и другие сценарии с участием ИИ.
Картина целиком: какие слои есть в AI-стеке (AI Stack)
Удобно представлять стек как дорожку данных (снизу вверх) и дорожку исполнения (сверху вниз). Ниже — минимальная, но достаточная декомпозиция на слои. В каждом слое указаны цели, типовые технологии и артефакты.
Источники данных и забор контента
- Что: агрегирование сырья — документы, базы знаний, тикеты, логи, код, медиаконтент, телеметрия.
- Как: коннекторы, ETL/ELT-пайплайны, журнализация изменений, дедупликация и очистка.
- Артефакты: нормализованный контент, схемы, каталоги данных, контроль качества сырья.
Подготовка, разметка и индексация знаний
- Что: разбиение на фрагменты (chunking), лемматизация/нормализация, извлечение сущностей, вычисление векторов и построение индексов.
- Как: расчёт эмбеддингов, хранение и поиск во векторных базах, гибридный поиск (keyword+вектор).
- Артефакты: индексы ANN, метаданные (язык, раздел, свежесть, ACL), журналы пересборок.
Извлечение и подготовка контекста (retrieval)
- Что: поиск релевантных фрагментов под запрос, их сжатие до «фактов» и сбор контекста.
- Как: классический или многошаговый RAG, переранжирование, компрессия выдержек.
- Артефакты: списки top-k с идентификаторами, ссылки на источники, оценка релевантности.
Модельный слой и инференс
- Что: генерация, классификация, извлечение полей — всё, что выполняет модель.
- Как: выбор моделей (LLM/компактные модели), режимы декодирования, кэш, батчинг; см. стек инференса LLM.
- Артефакты: версии моделей и конфигов, профили маршрутизации, логи токенов и стоимости.
Инструменты и действия (tools/actions)
- Что: доступ к БД, поиску, CRM, валидации, форматированию, внешним API — всё, что расширяет «деятельность» модели.
- Как: строго типизированные контракты, белые списки доменов, песочницы, мок-режимы.
- Артефакты: каталоги инструментов, спецификации схем (JSON-Schema), наборы тестов.
Оркестрация и агенты
- Что: планирование шагов, разветвление гипотез, управление состоянием и памятью.
- Как: последовательности, деревья и графы; роли (исследователь/критик/исполнитель); журналы эпизодов; смежно — агенты.
- Артефакты: протоколы эпизодов, графы задач, правила остановки/эскалации.
Валидация, политика и безопасность
- Что: проверка «верности источникам», соответствие схемам, фильтры тематики/PII/тональности, защита от prompt-injection.
- Как: автоматические валидаторы, «второе мнение», песочницы инструментов, разделение ролей.
- Артефакты: отчёты валидации, журналы политики, протоколы инцидентов.
Наблюдаемость, биллинг и SLO
- Что: метрики задержек и стоимости, трассировки цепочек, аудит источников, аналитика качества и A/B.
- Как: лог-трейсинг (сквозные ID), дешборды P50/P95 и цены/1k токенов, пайплайны отчётности.
- Артефакты: каталоги метрик, алерты, бюджеты и лимиты.
Как это работает вместе: сквозной путь запроса
Разберём типичный эпизод: пользователь задает вопрос, система выдаёт ответ с цитатами.
- Приём и нормализация. API/приложение приводит запрос к ожидаемому формату, отсекает шум, присваивает trace-id.
- Извлечение (retrieval). Система формирует embedding запроса, делает гибридный поиск по индексу знаний, собирает top-k, переранжирует, сжимает выдержки.
- Подсказка модели. Контекст собирается в единый промт с идентификаторами источников, требованиями формата и запретами «выдумывать». При необходимости — шаблон JSON.
- Инференс. Запрос уходит на модельный сервинг: префилл контекста, авто-регрессия, первая порция токенов, стриминг.
- Пост-валидация. Проверка схем/тональности/фактов; при несоответствии — повторный шаг retrieval/генерации.
- Действия. Если нужно — вызовы инструментов (таблицы, конвертеры, API) с превью и мок-режимом.
- Ответ и логи. Система отдаёт результат с цитатами и одновременно сохраняет трассировки, стоимость и выбранные фрагменты для аудита качества.
На каждом шаге действуют лимиты: длина контекста, k документов, время на шаг, бюджет токенов. Это помогает держать P95 и стоимость в пределах SLO.
Роли в команде и ответственность по слоям
| Слой | Владелец | KPI/метрики | Артефакты |
| Источники/ингест | Data/Content Engineering | Свежесть, полнота, качество сырья | Каталоги, схемы, дедуп-репорты |
| Индексация | Search/Platform | Recall@k, NDCG@k, P95 поиска | Конфиги индексов, метаданные |
| Retrieval | Search/AI | Faithfulness, Citation@k | Логи кандидатов, сжатие |
| Инференс | AI Platform | TTFT, P95, $/1k токенов | Конфиги моделей, трассировки |
| Инструменты | App/Platform | Ошибки, покрытие тестами | Контракты, мок-наборы |
| Оркестрация | AI/App | Успех задач, шаги до успеха | Графы, политики остановки |
| Валидация/безопасность | Risk/AI | Отказы по политике, инциденты | Отчёты и правила |
| Наблюдаемость/биллинг | Platform/FinOps | SLA, бюджеты, алерты | Дешборды, бюджеты |
Паттерны проектирования AI-систем
1) Retrieval-centric. Делаем ставку на качественные индексы и компактные подсказки. Модель остаётся умеренной, зато ответ объясним и дешевле. Основа — RAG и строгие цитаты.
2) Маршрутизация моделей. «Лёгкая по умолчанию, тяжёлая по сигналам сложности». Экономит бюджет, не жертвуя качеством на трудных кейсах. Журналы маршрутов — обязательны.
3) Инструменты по контрактам. Все внешние действия — только через заранее описанные схемы. Мок-режим и превью до записи/отправки.
4) Двойной контур проверки. Быстрый автоматический валидатор + «второе мнение» для риск-сценариев. Позволяет держать качество и снижать инциденты.
5) Эпизодическая память. Журнал шагов и кратких сводок, доступный retrieval-слой; полезно для ассистентов и кейсов сопровождения.
Компромиссы: качество ↔ стоимость ↔ скорость
| Рычаг | Что меняем | Влияние на качество | Влияние на стоимость/скорость |
| Размер контекста | Сжимаем и ранжируем выдержки | Иногда ↓, если срезать факты | Существенно ↓ стоимость и P95 |
| k в retrieval | 3–8 вместо «много» | Стабильно, если есть rerank | ↓ токенов, стабильнее инференс |
| Модель/маршрут | Компактная→тяжёлая по сигналу | Стабильно | ↓ средняя цена эпизода |
| Кэш | KV/ответов/поиска | Без влияния на логику | ↓ TTFT, ↓ стоимость |
| Квантование | INT8/INT4 веса/кэш | Возможна точечная деградация | ×2–4 экономия памяти, ↑ токенов/сек |
Минимальные интерфейсы между слоями
Чтобы стек был заменяемым, задавайте узкие контракты:
- Ингест → индексация: {doc_id, text, lang, ts, acl, meta...}.
- Индексация → retrieval: {query_vec, filters, k} → {[chunk_id, score, meta...]}.
- Retrieval → генерация: {prompt, [(chunk_id, snippet, source_id)]}.
- Генерация → валидация: {answer, citations, schema?}.
- Действия: {tool_name, input_schema} → {output, errors}.
- Наблюдаемость: trace_id сквозной, чтобы сшивать метрики.
Чек-лист запуска AI-стека
- Определите узкие сценарии и KPI (успех задач, P95, цена/эпизод).
- Согласуйте слои и интерфейсы: какие входы/выходы, какая ответственность.
- Поднимите инфраструктуру индексов: индексы, метаданные, регламент пересборок.
- Настройте retrieval: гибридный поиск, rerank, сжатие выдержек.
- Выберите модели и маршрутизацию, включите кэш и квоты.
- Введите валидацию и политику: схемы, фильтры, белые списки инструментов.
- Постройте наблюдаемость: трассировки, P50/P95, цена/1k токенов, Faithfulness.
- Проведите A/B и стресс-тесты: длинные контексты, массовые запросы, сбои источников.
- Задокументируйте инциденты и откаты: переключение моделей, режим деградации.
- Обучите команду: «рабочие инструкции» на случай алертов и отказов.
Таблица: эталонные SLO и ориентиры
| Компонент | P95 задержка | Надёжность | Стоимость/ед. |
| Retrieval (поиск) | ≤ 120–150 мс | ≥ 99.9% | Входит в бюджет эпизода |
| Инференс (TTFT) | ≤ 700 мс | ≥ 99.5% | $/1k токенов ввода/вывода |
| Генерация (полная) | ≤ 3–8 с, по сценарию | ≥ 99.0% | Зависит от маршрутизации |
| Валидация | ≤ 300 мс | ≥ 99.9% | CPU-friendly |
| Действия (tools) | Контрактно | Контрактно | Отдельный бюджет |
| Сквозной эпизод | SLA продукта | SLA продукта | Цена/эпизод в лимите |
Таблица: анти-паттерны и как их избегать
| Анти-паттерн | Симптомы | Что делать |
| «Одна модель — всё» | Рост стоимости без прироста качества | Вводить маршрутизацию, retrieval, валидацию |
| Бесконтрольный контекст | Длинные подсказки, P95 «плавает» | Сжатие/rerank, лимиты, цитирование |
| Без логов версий | Невозможно расследовать инциденты | Сквозные trace-id, версии моделей/индексов |
| Свободные инструменты | Побочные эффекты, утечки | Жёсткие схемы, мок-режим, превью |
| Нет владельцев слоёв | «Серая зона» ответственности | Матрица ролей и KPI по слоям |
Практика интеграции: несколько архитектурных рецептов
RAG-центричная база знаний. Для внутренних справок и норм: инвестируйте в индексы и переранжирование, ограничьте k, заставляйте систему цитировать источники. Это повышает доверие и удешевляет ответы.
Ассистент с действиями. Начинайте с «человеко-в-контуре»: инструмент в мок-режиме и превью изменений; затем добавляйте автоматизацию по классам задач. Держите класс «опасных» операций в ручном режиме.
Аналитика логов/телеметрии. Перекладывайте тяжёлые вычисления в пакетные пайплайны, а онлайн оставляйте только короткие извлечения и лёгкую генерацию выводов. Стоимость и P95 будут под контролем.
Контент-генерация. Храните шаблоны, примеры хороших ответов и требования формата вне промтов. Модель подключается к retrieval для фактов и к инструментам для таблиц/конвертаций.
Наблюдаемость: что измерять ежедневно
- Качество: Faithfulness/Attribution rate (доля ответов с цитатами), полезность/корректность по ручной оценке.
- Скорость: TTFT, токенов/сек, P50/P95 по шагам.
- Стоимость: $/1k токенов ввода/вывода, цена/эпизод, нагрузка по маршрутам.
- Стабильность: ошибки инференса, отказ инструментов, ретраи, «штормы» очередей.
- Индексы: Recall@k/NDCG@k, свежесть (сколько документов моложе порога), частота пересборок.
- Безопасность: попытки jailbreak, срабатывания фильтров, инциденты политики.
Безопасность и политика: базовые принципы
- Разделяйте инструкции и данные. Документы и индексы не должны исполнять команды. Prompt-injection режем на входе.
- Секреты — только через прокси. Ключи/токены в подсказку не попадать; инструменты получают доступ через сервисные учётные записи.
- Контракты формата. Для таблиц/JSON — валидаторы; для действий — превью и мок-режим.
- Логи и аудит. Сохраняйте источники фактов, версии моделей/индексов, параметры декодера, чтобы воспроизводить спорные ответы.
- Пути деградации. При перегрузе — сокращение контекста, упрощённые модели, запрет «дорогих» действий; при сбоях индекса — временный fallback.
FAQ
Чем AI-стек отличается от «ML-пайплайна»? ML-пайплайн — про обучение и подготовку фичей. AI-стек шире: он включает retrieval, инференс, инструменты, оркестрацию, политику и наблюдаемость — весь контур продакшн-исполнения.
Всегда ли нужен RAG? Нет, но в задачах фактов и обновляемых знаний RAG даёт объяснимость и стабильность качества. В других сценариях достаточно чистого генератора и правил.
Нужны ли большие LLM? Не всегда. Часто выигрывает маршрутизация: компактная модель закрывает «массу» запросов, тяжёлая — редкие сложные случаи.
Как держать стоимость? Сжимайте контекст, ограничивайте k, включайте кэш, применяйте квантование и класс-маршрутизацию. Измеряйте цену/эпизод и проводите A/B.
Как масштабировать стек на несколько доменов и языков? Разносите индексы/профили, храните метаданные (язык/раздел), включайте гибридный поиск и переранжирование. Журналируйте качество по срезам.
Где начинать наблюдаемость? С трассировки (trace-id) и дешбордов P95/стоимости. Затем добавляйте метрики качества (faithfulness) и отчёты по источникам.
Словарь терминов
- AI-стек — набор слоёв и интерфейсов для построения и эксплуатации систем ИИ.
- Retrieval — извлечение релевантных фрагментов из индексов знаний.
- Генерация — ответ/вывод модели (LLM/другая) по подсказке и контексту.
- Инструменты (tools) — внешние функции и API, которые выполняют действия по контракту.
- Оркестрация — планирование шагов/ролей и управление состоянием эпизода.
- Наблюдаемость — метрики, логи, трассировки и бюджеты.
- Политика — правила тематики/формата/безопасности и механизмы их соблюдения.
- Маршрутизация — выбор модели/пути исполнения по сигналам сложности.
- SLA/SLO — целевые уровни сервиса (задержка, качество, стоимость).
- Faithfulness — верность ответа предоставленным источникам.
