AI-агент — это программная сущность, в основе которой лежит модель ИИ (часто LLM), способная воспринимать контекст, планировать шаги и выполнять действия через подключённые инструменты, добиваясь поставленной цели с обратной связью из среды. В отличие от «однокадрового» вызова модели (вопрос→ответ), агент сохраняет состояние, действует многошагово и поддерживает память (кратковременную и долговременную), что делает его ближе к самостоятельному сервису, чем к «модели по API».
В продуктовом смысле AI-агент — это оркестровка вокруг ядра генерации: задачи разбиваются на подзадачи, выбираются инструменты (поиск, базы данных, API), проверяются промежуточные результаты, и цикл повторяется, пока цель не достигнута или не сработают граничные условия (лимиты, политика, ошибки). Надёжные агенты строятся поверх базовых понятий AI и используют опорные технологии: контур поиска RAG, векторные представления эмбеддинги и индексы во векторной базе.
Где AI-агент (ИИ) действительно полезны
- Операционные «рутинные» цепочки: собрать данные, проверить критерии, заполнить форму, отправить отчёт.
- Исследовательские задачи: многошаговый поиск с конспектом и ссылками, сверка источников, сравнение версий.
- Разработка и поддержка: генерация кода/тестов с прогоном линтеров и фиксацией в репозитории (по правилам), миграции, обновление документации.
- Финансы/операции: сбор метрик, триггеры сигналов, подготовка сводок для решений человека.
- Web3/крипто-контуры: мониторинг аномалий, автоматизация действий в кошельке по правилам (без советов по инвестициям), обработка ончейн-данных и алертов.
Ключ к успешным кейсам — скрупулёзная постановка цели и ограничений: агент берёт на себя механическую, многошаговую часть процесса, но рамки политики, проверки и эскалация остаются за людьми и правилами.
Архитектура AI-агента: слой за слоем
Агент — это конвейер состояний. Его удобно разложить на шесть слоёв:
1) Интерфейс восприятия
- Каналы ввода: текст, файлы, логи, извлечённые поля.
- Нормализация: очистка, дедупликация, валидация формата.
- Семантическая подложка: эмбеддинги и ключевые сущности для индексирования (см. Эмбеддинги).
2) Память
- Кратковременная (рабочая): контекст текущего эпизода (диалога/транзакции).
- Долговременная: внешнее хранилище фактов и опыт прошлых эпизодов; доступ через векторные индексы и ключ-значение.
- Эпизодическая/семантическая: «что происходило» и «что это значит», с разными схемами записи.
- Политики: сроки хранения, размер, стратегическое «забывание», санкционированные источники.
3) Планировщик (Reasoning & Planning)
- Декомпозиция цели на шаги и подцели; ветвление гипотез.
- Выбор инструментов и аргументов; критерии остановки/эскалации.
- Стратегии: «планируй-потом-делай», «делай-и-исправляйся», «планируй/сверяй» (plan/act/reflect).
- Мультиагентные режимы: роли (исследователь, критик, исполнитель), арбитраж.
4) Инструменты (Tools/Actions)
- Поиск/индексы: RAG, запросы к базе знаний, фильтры.
- Внешние API: CRM, биллинг, таск-трекер, репозитории.
- Локальные функции: парсеры, валидаторы схем, шаблонизаторы документов.
- Правила безопасности: белые списки, схемы ввода/вывода, песочницы.
5) Оценка и верификация (Critique/Validation)
- Самопроверка: контрольные вопросы, «обратное чтение», сверка с источниками.
- Правила: схемы, типы, допуски по числам/датам, дедлайны.
- Второй контур: независимый критик (та же модель/другая), эвристики.
6) Оркестрация и наблюдаемость
- Логи шагов: промты, вызовы инструментов, входы/выходы, время и стоимость.
- Метрики: успех задачи, P50/P95, стоимость/1k токенов, доля эскалаций.
- Управление версиями: модели, инструменты, политики, индексы.
В ядре обычно стоит LLM, но агент — это система, а не одна модель. Инференс и сервисные бюджеты рассматриваются как часть продакшн-ограничений (см. Инференс).
RAG как «пища» и «память» агента
Даже сильная модель «додумывает» факты, если не видит документы. Поэтому у практичных агентов поиск отделён от генерации:
- Индексы строятся на эмбеддингах и поддерживаются во векторной базе.
- Поисковые запросы формируются планировщиком; результаты сжимаются, ранжируются и цитируются.
- Контекст компактный: top-k фрагментов по релевантности и свежести; при необходимости — многошаговый RAG (дробный поиск с уточнением вопроса).
- RAG снижает галлюцинации, а логи позволяют объяснять решения.
Подробнее о контурах извлечения см. RAG.
Жизненный цикл шага агента
- Восприятие: получить задачу/событие, нормализовать и извлечь сущности.
- Планирование: сформировать гипотезы шагов, выбрать инструмент и входные аргументы.
- Действие: вызвать инструмент/поиск/функцию/API.
- Оценка: проверить результат по схеме/правилам/источникам; при необходимости — повторить с другой гипотезой.
- Память: сохранить опыт и артефакты (итоги шага, ссылки, метаданные).
- Остановка/эскалация: критерий выполненности цели, лимит шагов, бюджет, передача человеку.
Паттерны проектирования агентов
| Паттерн | Когда применять | Как устроен | Плюсы | Риски |
| Одноагентный с критиком | Простые цепочки со сверкой | Агент-исполнитель + агент-критик | Дешевле мультиагентных | Риск единой точки отказа |
| Мультиагентный «ролей» | Сложные задачи с конфликтующими целями | Исследователь, исполнитель, редактор/аудитор | Разделение обязанностей | Стоимость, рассинхронизация |
| Planner/Executor | Нужны планы и отчётность | Планировщик генерирует план, исполнитель исполняет | Прозрачность плана | Хрупкость к неточным планам |
| Toolformer | Богатый набор инструментов | LLM размечает где какой инструмент нужен | Широкий охват действий | Требует чётких схем/контрактов |
| Reflexion (Reflect→Act) | Высока цена ошибок | После шага — саморефлексия и коррекция | Снижение ошибок | Рост латентности/цены |
Практика: начните с минимальной архитектуры и постепенно добавляйте роли/инструменты по фактам деградации качества.
Память: стратегии и компромиссы
| Вид памяти | Назначение | Где хранить | Срок жизни | Замечания |
| Рабочая | Контекст текущего эпизода | Контекст LLM/кэш | Минуты/часы | Бережём токены: сжатие/сводки |
| Эпизодическая | Хронология шагов | Журнал + векторный индекс | Дни/недели | Позволяет отвечать «что я делал» |
| Семантическая | Факты/правила/справка | Векторная БД + ключ-значение | Недели/месяцы | Обновляется планово |
| Операционная | Конфиги/квоты/политики | KV/SQL/секрет-хранилище | По версии | Критично для безопасности |
Ключевые решения: что запоминать, как искать, когда забывать. Плохая память перегружает контекст и бьёт по стоимости.
Метрики качества агента
- Task success rate: доля успешно завершённых эпизодов.
- Steps to success: медиана шагов до цели.
- P50/P95 латентность: по эпизоду и по шагу.
- Стоимость/эпизод и стоимость/1k токенов.
- Доля эскалаций и доля откатов.
- Faithfulness (верность источникам) и доля ответов с цитированием (для RAG).
- Инциденты: jailbreak-попытки, отказы инструментов, превышения бюджетов.
Советы: держите золотые сценарии (golden paths) с проверяемыми эталонами; отслеживайте срезы (тип задачи, длина контекста, инструмент).
Стоимость и производительность
- Квоты и бюджеты: лимит шагов, токенов, времени и стоимости.
- Квантование/компактные модели: удешевляют «частые» шаги, тяжёлую LLM держите только для сложных эпизодов. См. Квантование.
- Кэширование: KV-кэш, кэш результатов инструментов и запросов.
- Батчинг и повторное использование: группируйте однотипные обращения (например, массовые проверки).
- Сокращение контекста: агрессивное резюмирование и ранжирование; «умеренный контекст» лучше «бесконечного».
- Маршрутизация: профили по сложности — компактная модель/тяжёлая модель/правила без модели.
Безопасность и политика выполнения
- Инъекции промтов: не доверяйте входу; отделяйте системные инструкции; фильтруйте инструменты.
- Контракты инструментов: схемы, типы, whitelists; запрет «сырых» shell/SQL без шаблонов.
- Проверка действий: «мок-режим» (dry run), превью изменений, двойное подтверждение для критичных операций.
- Секреты: токены и ключи — через секрет-хранилища и прокси, не в подсказке.
- Логи и аудит: кто вызвал инструмент, с какими параметрами, в какое время.
- Правовые аспекты: лицензии данных в памяти; гео-требования к хранению; политика приватности пользователей.
Чек-лист: запускаем агента в продакшн
- Сформулируйте узкую цель и KPI (успех задачи, P95, цена/эпизод).
- Опишите рабочие данные: источники, лицензии, схема, обновления.
- Выберите набор инструментов с контрактами и песочницей.
- Постройте память: где хранить эпизоды, факты, конфиги.
- Определите RAG-путь: индекс, метаданные, стратегии извлечения.
- Введите ограничения: шаги, токены, бюджеты, таймауты.
- Добавьте валидацию: схемы, второе мнение, проверки источников.
- Настройте наблюдаемость: логи, трассировки, алерты, дешборды.
- Проведите пилот на золотых сценариях и A/B-тестах.
- Спланируйте инциденты/откаты и рабочие инструкции для людей.
Таблица: выбор стратегии планирования
| Стратегия | Идея | Когда выбрать | Плюсы | Минусы |
| Plan→Act | Сначала полный план, затем исполнение | Длинные, предсказуемые процедуры | Прозрачность, отчётность | Хрупкость к ошибке в плане |
| Act→Reflect | Делать шаг, затем критически оценивать | Исследовательские задачи | Адаптивность | Стоимость/латентность |
| Plan→Act→Reflect | Комбинация с контрольными точками | Сложные кейсы с рисками | Баланс качества/цены | Требует аккуратной оркестрации |
| Debate (multi-agent) | Несколько ролей спорят и согласуют решение | Неоднозначные задачи | Снижает ошибки | Дорого, сложная телеметрия |
Таблица: инструменты агента и риски
| Инструмент | Что делает | Риски | Митигирующие меры |
| Поиск (RAG) | Возвращает фрагменты знаний | Старые/нерелевантные факты | Метаданные свежести, цитирование |
| Парсер/валидатор | Преобразует и проверяет данные | Неполные правила | Схемы, тестовые наборы |
| Веб/API клиент | Достаёт/отправляет данные | Утечки, инъекции | Шаблоны, ограничение доменов |
| Табличный движок | Агрегации/сводки | Несоответствие типов | Проверка схем, типобезопасность |
| Репозиторий кода | PR/коммиты | Политика доступа | Мок-режим, ревью человека |
Практические советы по UX агентов
- Прозрачность: показывайте план и прогресс (сколько шагов осталось, какие уже выполнены).
- Цитирование: для выводов из RAG — ссылки/идентификаторы источников.
- Мягкие отказы: агент должен уметь остановиться и спросить уточнение, а не «вечно» пытаться.
- Границы ответственности: что делает агент, что — человек (кнопка «проверено»).
- Редакция: удобные способы править черновики и повторять шаги.
Анти-паттерны и частые ошибки
- «Одна LLM закрывает всё»: без инструментов и валидации агент деградирует в «болтливую» модель.
- Бесконтрольный контекст: рост токенов без прироста качества.
- Нет лимитов/квот: внезапные счета и хвосты латентности.
- Отсутствие логов и версий: нельзя разбирать инциденты.
- Смешение ролей: планировщик и исполнитель «дергают» разные правила.
- Секреты в промтах: ключи/пароли в открытом виде.
- Нет пути деградации: при сбое инструмента агент «зависает».
FAQ
Чем агент отличается от обычного чат-бота? Чат-бот отвечает «здесь-и-сейчас». Агент планирует, сохраняет состояние, вызывает инструменты и проверяет себя по правилам.
Нужна ли всегда большая LLM? Нет. Часто эффективнее связка: компактная модель для простых шагов + тяжёлая — для сложных. Плюс правила и валидация.
Можно ли строить агента без RAG? Можно, но для задач с фактами лучше использовать RAG — он снижает галлюцинации и делает ответы объяснимыми.
Как измерять качество агента? Смотрите на успех задачи, шаги до успеха, латентность/стоимость, долю эскалаций, долю цитированных ответов и инциденты.
Что с безопасностью? Инструменты — только по контрактам и белым спискам, секреты — через хранилища, действия — с превью и журналами, входы — фильтровать.
Словарь терминов
- AI-агент — система с целями, планированием, инструментами и памятью, работающая многошагово.
- Планировщик — компонент, разбивающий цель на шаги и выбирающий инструменты.
- Инструменты (tools) — функции/API, которые агент вызывает для действий и данных.
- Память — рабочий, эпизодический и семантический слои состояния агента.
- RAG — контур «поиск→генерация» с выдачей релевантных фактов в контекст.
- Эмбеддинг — векторное представление для поиска и сопоставления.
- Векторная база — индекс эмбеддингов для быстрого извлечения фактов.
- Инференс — выполнение модели на запросах (стоимость/задержка).
- Деградация — управляемый упрощённый режим при сбоях или ограничениях.
- Эскалация — передача задачи человеку при рисках или неуверенности.
