Этот хаб даёт практическую оптику на ИИ-агентов — от базовой архитектуры до продакшен-метрик, экономики и безопасной эксплуатации. Под агентом понимаем контур, который строит план, вызывает инструменты/АПИ, проверяет промежуточные результаты и выдаёт ответ в согласованном формате. Базовую терминологию см. на страницах: AI-агент, обзор моделей на LLM, а системный каркас слоёв — в AI-стеке.
Что отличает агента от «продвинутого чат-бота»
- У агента есть планировщик (он может декомпозировать задачу на шаги).
- Агент имеет инструменты (функции/АПИ) с правами и контрактами.
- Внутри цикла есть критик/верификатор и политика ретраев.
- Ответ выпускается по строгой схеме (JSON/таблица/текст с полями), а не произвольным текстом.
- Вся сессия трассируется: шаги, ошибки инструментов, стоимость, версии.
Результат — не просто «текст получился», а детерминированный контур, который можно измерять и улучшать.
Архитектура агента: опорные блоки
| Блок | Роль в контуре | Ключевые вопросы дизайна |
| Планировщик (planner) | Формирует последовательность шагов | Ограничение глубины/стоимости, эвристики ранней остановки |
| Инструменты (tools) | Выполняют действия/запросы | Контракты ввода/вывода, коды ошибок, тайм-ауты, идемпотентность |
| Память | Краткая/долгая, рабочий контекст | Где хранить, что забывать, как версионировать состояния |
| Критик/верификатор | Проверка промежуточных/итоговых результатов | Когда ретраить, когда откатывать, как логировать причины |
| Контракты вывода | Целевой формат результата | JSON/таблица/строго типизированные поля, пред-валидация |
| Оркестрация | Очереди Light/Standard/Heavy, кэш префилла | TTFT/P95, лимиты длины, профили, гео-роутинг |
| Наблюдаемость | Трейсинг/эвалы/канарейки | SR, Steps/Episode, Tool Error Rate, «цена эпизода», отчёты «до/после» |
Важно: планировщик не обязан быть «умным» — часто достаточно жёсткого шаблона шагов, если сценарии повторяемы.
Типы агентов и где они уместны
| Тип | Когда использовать | Сильные стороны | Риски |
| Реактивный (один шаг + инструменты) | Простые действия по шаблону | Минимальный TTFT и стоимость | Ограниченная «сообразительность» |
| Планирующий (plan-and-act) | Многошаговые задачи | Читаемый план, контроль шагов | Рост стоимости и времени без ограничителей |
| RAG-агент | Нужны факты и ссылки | Проверяемость, экономия контекста | Требует дисциплины источников |
| Мультиагентный | Параллельные роли/компетенции | Масштаб за счёт специализации | Координация, конфликт политик |
| Он-чейн/офф-чейн | Доступ к блокчейн/веб-АПИ | Автоматизация интеграций | Политики доступа и аудит действий |
| Real-time | Вложенные инструменты/потоки | UX «помощника рядом» | Сложность очередей и мониторинга |
Не всё должно быть «агентным». Если сценарий закрывается одной функцией — используйте строго типизированный function-calling.
Метрики «здоровья» агента
| Метрика | Что измеряет | Где управлять |
| SR (Success Rate) | Доля эпизодов, где достигнута цель | Чёткий DoD, тестовые наборы, критик |
| Steps/Episode | Среднее число шагов на задачу | Планировщик/лимиты глубины/ранние остановки |
| Tool Error Rate | Доля неуспешных вызовов инструментов | Контракты, тайм-ауты, идемпотентность |
| TTFT / P95 | «Живость» и «длинный хвост» | Очереди, кэш префилла, гео-роутинг |
| Неформат | Нарушение схем вывода | Пред-валидация, ретраи по коду |
| Цена эпизода | Полная себестоимость ответа | Сжатие контекста, квантизация, снижение шагов |
Цена эпизода = ввод/контекст + префилл + генерация + инструменты + ретраи + пост-обработка. Работа агента выгодна там, где она снижает ретраи/ручной труд при стабильной схеме вывода.
Паттерны проектирования, которые работают
- Контракты и валидаторы на всех границах (инструменты/итог).
- Ограничители: max-steps, max-budget, ранние остановки.
- Кэш префилла и короткий ввод для интерактива.
- Разделённые очереди Light/Standard/Heavy.
- Критик/верификатор с понятными правилами ретрая.
- Версионирование промптов, шаблонов, инструментов и данных.
И наоборот, анти-паттерн — «свободный текст» без схем и пред-валидации.
Экономика: как снизить «цену эпизода» агента
| Компонент | Рычаги снижения |
| Ввод/контекст | Конденсация, короткие подсказки, аккуратный выбор источников |
| Префилл | Кэш префилла, warm-пулы, близкие регионы |
| Генерация | Подбор модели по utility/стоимости, квантизация |
| Инструменты | Гейты, идемпотентность, тайм-ауты, дешёвые классификаторы |
| Ретраи | Ретраить только по коду (неформат/тайм-аут), лимит бюджета |
| Пост-обработка | Строгие схемы, формат-проверки, отказ от «ручной правки» |
Безопасность, комплаенс и аудит
- RBAC/санкбоксы для инструментов; опасные действия — изолированы.
- Политики PII и маскирование логов; хранить только необходимое.
- Анти-инъекции: разделить инструкции и данные, стоп-словари.
- Аудит: trace_id, шаги, параметры, стоимость, версии артефактов.
- Канарейки/откаты: пороги деградации, план быстрого возврата.
Чек-листы запуска (30/60/90)
0–30 дней
- Описать DoD/целевые ответы и схемы (JSON/таблица).
- Подключить минимум метрик: SR, Steps/Episode, Tool Error Rate, TTFT/P95, Неформат, Цена эпизода.
- Развести очереди Light/Standard/Heavy, включить кэш префилла.
31–60 дней
- Ввести критика и ретраи по правилам; лимит глубины и бюджета.
- Версионировать промпты/инструменты; карточки релизов и канарейки.
- Автоматизировать отчёты «до/после» по всем метрикам.
61–90 дней
- Гео-роутинг, портфель провайдеров; тёплые пулы.
- План деградации; регулярные пост-мониторинги.
- Ревизия экономии (сокращение шагов, квантизация, замена инструментов).
Таблица сопоставления SLO с архитектурой
| Цель | Что меняем в архитектуре | Как проверяем |
| SR ↑ | Чёткий DoD, критик, валидации | SR на эталоне задач, отчёты «до/после» |
| Steps/Episode ↓ | План/ограничители, упрощение инструментов | Средние шаги, распределение глубины |
| Tool Error Rate ↓ | Контракты, тайм-ауты, идемпотентность | Логи ошибок, доля повторов по коду |
| TTFT ↓ | Короткий ввод, кэш префилла, регионы | TTFT по очередям, отмены |
| P95 стабилен | Разделение профилей, лимиты длины | P95 по классам нагрузки |
| Цена эпизода ↓ | Квантизация, конденсация, ретраи по коду | Фин-отчёт на эпизод, динамика релизов |
Часто задаваемые вопросы (FAQ)
Нужен ли всегда планировщик? Нет. Если сценарий линейный и повторяемый, хватит жёсткого шаблона шагов.
Когда агент «окупается»? Когда снижает ручной труд и ретраи при сохранении SR и стабильного формата — это видно в «цене эпизода».
Можно ли без строгих схем? Можно, но почти всегда дороже: растёт доля неформата и стоимость ретраев.
Мультиагентные системы обязательно быстрее? Не всегда. Они полезны на больших потоках при явной специализации ролей и хорошем планировщике.
Словарь коротких определений
- DoD (definition of done) — критерий «готово» для эпизода агента.
- Критик — модуль, который проверяет шаг/итог и инициирует ретраи.
- RBAC — разграничение прав инструментов по ролям.
- Идемпотентность — безопасный повтор вызова инструмента.
- Канарейка — выпуск малой долей трафика с порогами отката.
- Неформат — нарушение контракта вывода (битый JSON/таблица).
