Этот глоссарий — практический словарь по современному искусственному интеллекту. Он помогает редакции и читателям быстро согласовать терминологию и сократить «трение» между продуктом, ML-командой и платформой. Мы объясняем термины простым языком, даём синонимы и короткие примеры применения в продуктах.
Справочные сокращения и метрики
| Сокращение | Расшифровка | Коротко |
| TTFT | Time-to-First-Token | Время до появления первого токена ответа; влияет на «живость» интерфейса |
| P95 | 95-й перцентиль задержек | Показывает «длинный хвост» времени ответа системы |
| SR | Success Rate | Доля задач/запросов, успешно решённых системой |
| CoT | Chain-of-Thought | Пошаговые рассуждения модели (промпт-шаблон/режим) |
| Top-k / Top-p | Сэмплинг по вероятностям | Управление разнообразием/детерминизмом генерации |
| MoE | Mixture of Experts | Архитектура с «экспертами» и роутером |
| LoRA | Low-Rank Adaptation | Лёгкая дообучаемая надстройка без полного fine-tune |
| RLHF | Reinforcement Learning from Human Feedback | Обучение с подкреплением по человеческой разметке |
| MMLU | Massive Multitask Language Understanding | Популярный бенчмарк понимания |
Словарь терминов (алфавит)
Абстракции (architectural abstractions). Удобные «кирпичики» проектирования систем ИИ: слой данных, слой представлений, генерация, инструменты, оркестрация, наблюдаемость. Помогают согласовать границы ответственности и метрики.
Агент (AI-agent). Контур, который планирует шаги и вызывает инструменты/АПИ для достижения цели. Не равен чат-боту: у агента есть планировщик, политика прав, память и «критик».
Аккуратность (precision) / Полнота (recall). Пара метрик поиска знаний. Первая минимизирует «мусор» в выдаче, вторая — пропуски релевантных фрагментов.
Алгоритмическая справедливость (fairness). Набор практик снижения нежелательных смещений в данных/моделях.
Аллюцинации (hallucinations). Уверенно сформулированные, но неверные ответы. Снижаются дисциплиной данных/шаблонов, RAG и контрактами вывода.
Бенчмарк (benchmark). Набор задач для сравнения моделей/конфигураций. Важны воспроизводимость и сопоставимость условий.
Билинг (billing) и «цена эпизода». Полная себестоимость полезного ответа: ввод/контекст + префилл + генерация + инструменты + ретраи + пост-обработка.
Валидатор (validator). Процесс/инструмент, проверяющий соответствие ответа формату/схеме (JSON/таблица), наличию ссылок/ID источников и диапазонам.
Векторное представление (embedding). Числовой вектор, кодирующий смысл объекта (текста, изображения). Нужен для семантического поиска и кластеризации.
Векторная база данных. Хранилище и индекс по эмбеддингам. Поддерживает ближайших соседей, гибридный поиск и фильтры по метаданным.
Выборка (sampling). Способ порождения токенов: greedy, beam search, top-k, nucleus (top-p), температурный сдвиг.
Гарантии формата (output contracts). Строгие схемы вывода (JSON/таблица) с пред-валидацией и понятной стратегией ретраев.
Генерация (generation). Этап построения ответа на основе подсказки/контекста. Ключевые рычаги стоимости — длина ввода/вывода и кэш префилла.
Гео-роутинг. Маршрутизация запросов к ближайшим/наименее загруженным пулам для снижения TTFT/P95.
Данные-витрина (data mart). Подготовленная выборка/слой данных для поиска и аналитики; важны лицензии, обновляемость и контроль доступа.
Дистилляция (distillation). Перенос знаний с большой модели на более лёгкую. Уменьшает стоимость инференса при приемлемой потере качества.
Дрейф (drift). Постепенное ухудшение качества из-за изменения данных/среды. Требует эвалюаций «до/после» и версионирования.
Желейбрейк (jailbreak). Обход ограничений роли/политик в подсказке или данных. Лечится фильтрами, стоп-словами и отделением инструкций от данных.
Задержка (latency). Общее время ответа. Анализируют TTFT (старт) и P95 (длинный хвост) отдельно.
Идемпотентность. Свойство инструмента давать одинаковый безопасный эффект при повторе. Важно для агента и биллинга.
Извлечение знаний. Поиск и выбор фрагментов контекста из индексированных источников; часто с конденсацией.
Инференс (inference). Вычисление ответа/вероятностей моделью без изменения её весов. Основной потребитель GPU в проде.
Инструменты (tools/functions). Описанные схемами функции/АПИ, которые может вызывать модель/агент. Имеют права, тайм-ауты и коды ошибок.
Канарейка (canary). Выпуск небольшим % трафика для замера деградации/улучшения по заранее заданным порогам.
Квантизация (quantization). Сжатие весов/активаций (например, FP16→INT8/4) ради скорости/экономии памяти. Регулирует баланс «качество ↔ стоимость».
Кэш префилла (KV-cache). Повторное использование скрытых состояний трансформера для снижения TTFT.
Контекстное окно (context window). Максимальный объём токенов ввода+вывода, который модель может обработать за один проход.
Контракты «готово» (definition of done). Критерии корректности ответа для сценария: формат, ссылки, диапазоны, отсутствие PII и т.д.
Критик (verifier/critic). Блок, который проверяет промежуточные шаги/итог и инициирует ретраи/откаты.
Лицензирование данных. Правила использования источников/датасетов. Без него проблемы доверия и юридические риски.
Логирование/трейсинг. Запись шагов и метрик с trace_id: подсказка, длины, коды инструментов, стоимость, версия модели и индекса.
Метаданные. Дополнительные поля к документам/фрагментам: автор, дата, тип; применяются как фильтры поиска.
Многомодальность (multimodal). Поддержка нескольких типов входа/выхода (текст, изображение, звук, видео).
Модель-эксперт (expert). Часть MoE-архитектуры, обслуживает свой поддиапазон задач.
Неформат. Нарушение контрактов вывода (битый JSON/таблица, пустые поля, неверные типы).
Оркестрация. Управление очередями, профилями, инструментами и лимитами; распределение нагрузки и наблюдаемость.
Отмена (abort). Остановка генерации/шага по лимиту времени/стоимости или из-за нарушений формата/политик.
Отчёт «до/после». Сводка изменений после релиза с ключевыми метриками и порогами отката.
Перфпрофиль (Light/Standard/Heavy). Классы нагрузки с разными SLO для очередей инференса и агентов.
Подсказка (prompt). Инструкция/шаблон, управляющая поведением модели; должна быть короткой и формализованной.
Пост-обработка. Преобразование выводов в целевой формат (JSON/таблица), валидация, интеграция в систему.
Правила ретраев. Регламент повторов при неформате/тайм-ауте с ограничением бюджета.
Префилл (prefill). Начальная часть генерации, сильно влияет на TTFT; выигрывает от кэша и коротких подсказок.
Прозрачность (transparency). Возможность объяснить, откуда взялся ответ: ссылки, версии, параметры.
Разметка (labeling). Подготовка обучающих/проверочных данных; критично для RLHF/тонкой настройки.
Релиз-карточка. Описание версии модели/индексов/шаблонов, гиперпараметров, метрик «до/после», рисков и плана отката.
Риски PII. Обработка персональных данных и секретов: маскирование, хранение, доступы и ретеншн.
Самосогласованность (self-consistency). Приём улучшения ответов через агрегирование нескольких сэмплов.
Санкбокс (sandbox). Изолированная среда для опасных инструментов/действий.
Сервинг (serving). Производственная подача модели/ретривера/агента в виде стабильного API/сервиса.
Сессия. Группа запросов/шагов, объединённых одним контекстом и trace_id.
Синтетические данные. Датасеты, сгенерированные моделью/правилами для расширения/балансировки обучающих выборок.
Скалирование по данным (data scaling). Рост качества за счёт разнообразных и чистых данных, а не только за счёт параметров модели.
Смешивание вероятностей (temperature). Регулирует «креативность» и вариативность вывода.
Стек ИИ. Согласованная система слоёв: данные, представления, поиск, генерация, инструменты, оркестрация, наблюдаемость, безопасность.
Токен. Минимальная единица текста для модели/токенизатора; также — единица биллинга у многих провайдеров.
Токенизация. Преобразование текста в последовательность токенов.
Тонкая настройка (fine-tuning). Дообучение базовой модели на задачах/стиле конкретного домена.
Универсальный отчёт метрик. Единый шаблон сбора TTFT, P95, доли неформата, стоимости и utility для сравнения релизов.
Формат табличного ответа. Разметка заголовков и типов столбцов; облегчает интеграцию и верификацию.
Функциональные вызовы (function calling). Строго типизированный выбор/вызов инструментов моделью.
Хранилище артефактов. Контейнеры для моделей, индексов, шаблонов; с подписями/хэшами и контролядоступа.
Чек-лист запуска. Обязательные шаги перед продом: контракты, дешборды, канарейка, релиз-карточка, план отката.
Цитатность. Доля ответов с валидными ссылками/ID источников при поиске знаний.
Шардинг. Разделение модели/индекса/данных по узлам для масштабирования.
Шаблоны ролей. Наборы инструкций для фиксированных сценариев и политик.
Эвалы (evals). Регулярные тесты качества и устойчивости на эталонных наборах задач.
Эмбеддер. Модель, создающая векторные представления; важны версии и дрейф качества.
Энергетическая стоимость. Потребление ресурсов/электроэнергии задачей; влияет на экономику и ограничения.
Чек-лист редакции и продуктовой команды
- Сформулирован критерий «готово» для сценариев и формат ответа (JSON/таблица/текст с ссылками).
- Подключены дешборды TTFT, P95, доли неформата, utility и «цены эпизода».
- Включены контракты вывода и пред-валидация на границах.
- Заведена релиз-карточка и канарейка с порогами отката.
- Версионируются модели, индексы, шаблоны и эмбеддеры.
FAQ
Зачем нужен отдельный глоссарий, если есть документация? Чтобы быстро согласовать язык между командами и сократить цикл принятия решений. Это снижает количество ошибок и ретраев.
Можно ли обойтись без строгих схем вывода? Можно, но это почти всегда дороже: растёт доля неформата и «цена эпизода». Схемы и пред-валидация — базовая дисциплина.
Почему мы отделяем TTFT от общего времени ответа? Потому что именно TTFT определяет субъективную «живость». Даже при одинаковом P95 низкий TTFT повышает вовлечённость.
Агенты нужны в каждом сценарии? Нет. Если задача решается одной функцией, достаточно строгого function-calling без агентности.
Что делать при дрейфе качества? Фиксировать «до/после», пересобирать индексы, обновлять шаблоны/эмбеддеры, запускать канарейки и держать план отката.
