Искусственный интеллект (AI) — широкий набор подходов и технологий, позволяющих машинам решать задачи, традиционно требующие человеческого интеллекта: распознавать и описывать изображения, понимать речь и текст, отвечать на вопросы, планировать и принимать решения. На практике современный AI опирается главным образом на статистические методы машинного обучения и глубокие нейронные сети, а также на их производные — генеративные модели. Для углубления отдельных аспектов см. Машинное обучение, Генеративный ИИ, Большие языковые модели (LLM), Трансформер и Инференс.
AI — не единый продукт, а многоуровневый стек, где данные, модели и окружение выполнения связаны в одну производственную цепочку: от подготовки датасетов до обеспечения задержек и стоимости инференса в продакшене. В экосистеме Web3 и блокчейна AI применяют для ончейн-аналитики, поиска аномалий и рисков, улучшения пользовательского опыта (ассистенты в кошельках, смарт-поиск по документации), автоматизированной модерации, а также для новых рынков децентрализованных вычислений.
Чем искусственный интеллект (AI) отличается от ML, GenAI и LLM
Термины нередко смешивают, но их роли различаются.
| Объект | Что это | Примеры задач | Когда использовать |
| AI | Зонтичное понятие «машинного интеллекта» в целом | Принятие решений, планирование, мультиагентные системы | Когда важна функциональность «как система» (цели, стратегия, инструменты) |
| ML | Класс методов, где алгоритмы обучаются на данных | Классификация, регрессия, ранжирование | Когда достаточно статистических моделей и метрик качества |
| GenAI | Подкласс моделей, генерирующих новый контент | Текст, изображения, аудио, код | Когда нужна генерация и креативная вариативность |
| LLM | Вид GenAI для текста, обученный на больших корпусах | Чат-ассистенты, суммаризация, RAG | Когда задачи текстовые/мультимодальные с акцентом на контекст |
Ключевая мысль: AI — это система, а ML/LLM — её компоненты. Архитектура включает обучение, инференс, хранение и поиск знаний, контроль качества и эксплуатацию.
Архитектура AI: от данных до ценности
AI-система приносит пользу только при сквозной инженерии. Типовая цепочка:
Данные и управление качеством
- Сбор и лицензирование: источники, права, атрибуция.
- Очистка и нормализация: удаление дублей, шумов и токсичных примеров; дедупликация кодов/текстов.
- Разметка: ручная/полуавтоматическая; контроль межоценочной согласованности.
- Версионирование: фиксация срезов данных, трассировка «какой моделью и на каких данных обучались».
Метрики на этом уровне: полнота покрытия, баланс классов, доля «грязи», согласованность разметки.
Обучение моделей
- Классические ML-модели: деревья решений, градиентный бустинг, линейные модели.
- Глубокое обучение: CNN, RNN, Seq2Seq, архитектуры на базе трансформера.
- Файнтюнинг и адаптация: дообучение на доменных данных, инструкционное дообучение, RLHF/RLAIF.
- Квантование и сжатие: снижение разрядности весов, прунинг, дистилляция — снижение стоимости инференса без критичной потери качества (см. terms:quantization в «См. также»).
Слой знаний и поиск
- Эмбеддинги: плотные векторные представления для текста/кода/изображений.
- Векторные базы: ANN-индексы, шардинг/репликация, гибридный поиск (BM25 + векторный).
- RAG-контуры: надёжная подстановка релевантных фактов из корпоративного корпуса перед вызовом LLM.
Инференс и оркестрация
- Граф вычислений: токенизация, префил, генерация; параллелизм по тензорам/параметрам/каналам.
- Кэширование: KV-кэш, повторное использование внимания.
- Планировщик: батчинг запросов, лимиты по памяти/времени, приоритеты.
- Надёжность: деградация до более лёгкой модели при пиках нагрузки, ретраи, таймауты.
Интеграция и доставка ценности
- Продуктовые сценарии: чат-ассистенты, рекомендательные блоки, модерация, антикор.
- MLOps/LangOps: метрики в онлайне, A/B-эксперименты, трекинг версий, CI/CD пайплайны моделей.
- Безопасность и контроль: ограничения запросов, фильтры, журналирование.
Где AI полезен в Web3
- Ончейн-аналитика и мониторинг рисков: обнаружение аномалий, евристики адресов, оценка правдоподобия связей, маркировка паттернов.
- Антифрод и безопасность смарт-контрактов: анализ уязвимостей, ранняя сигнализация, классификация поведения ботов.
- Ассистенты для разработчиков: автогенерация тестов и документации, разъяснение функций.
- Пользовательский UX: чат-подсказки в кошельке/бирже, sum-поиск по справке, перевод терминов на «человеческий».
- DePIN-сценарии: объединение децентрализованных GPU/хранилищ и задач инференса в сетях вычислителей с вознаграждением.
- Когнитивные агенты: автономные микросервисы, выполняющие цепочки действий (заявки, мониторинг позиций, напоминания) с логикой целей.
Модели и механики: что под капотом
Эмбеддинги и поиск
Эмбеддинг — способ представить объект (слово, документ, адрес) как вектор в многомерном пространстве. Близость векторов соответствует смысловой близости. Векторный поиск ускоряет доступ к релевантным фактам, уменьшает «галлюцинации» и позволяет строить RAG-системы над корпоративными базами знаний.
LLM и трансформеры
LLM — большие языковые модели, обученные предсказывать следующий токен. Архитектура трансформера масштабируется по данным и параметрам, что даёт качественный скачок в понимании и генерации текста. Для задач с доменными ограничениями используют дообучение, инструкции и «ограждения» — шаблоны и функции-инструменты.
Инференс
Инференс — применение уже обученной модели для ответа на конкретный запрос. Инженерно это про задержки, пропускную способность, стоимость одного запроса, стабильность (SLA) и качество. Техники оптимизации: квантование, компиляция графа, KV-кэш, спекулятивная декодировка, батчинг.
Инженерия качества: как измерять «ум»
Нет «одной» метрики качества. Набор зависит от задачи.
| Класс задач | Примеры метрик | Комментарии |
| Классификация | Accuracy, F1, ROC-AUC | Баланс классов критичен; смотрим и на precision/recall |
| Ранжирование/поиск | NDCG@k, MRR, Recall@k | Для RAG важна точность top-k и устойчивость к «длинным хвостам» |
| Генерация текста | Factuality, Pass@k (для кода), Toxicity rate | Автоматические метрики дополняем ручной проверкой |
| Диалог | Human eval, полезность, корректность, стабильность | Онлайновые A/B-эксперименты обязательны |
| Производительность | P50/P95 латентность, стоимость/1000 токенов | Управляем бюджетом и SLO |
В продакшене применяют двухконтурный контроль: офлайн-тесты на эталонах и онлайн-метрики на реальном трафике (guardrails, сэмплирование, ручные ревью).
Стоимость и производительность: от GPU до кластера
- Аппаратное ускорение: GPU-кластеры для матричных операций; CPU остаётся важным для пред-/пост-обработки.
- Квантование: снижение разрядности весов и активаций (например, 8-/4-бит) даёт кратный выигрыш по памяти и стоимости; компромисс — небольшая деградация качества для сложных запросов.
- Параллелизм: тензорный и конвейерный; распределённые рантаймы.
- Кэш: повторное использование KV-состояния ускоряет длинные диалоги и многократные похожие запросы.
- Батчинг: объединение мелких запросов снижает стоимость, но увеличивает P95-задержку — нужен разумный компромисс.
Безопасность, риски и регуляторные аспекты
- Конфиденциальность данных: утечки при сборе/разметке, реверс-инжиниринг промтов, реконструкция обучающих данных.
- Токсичность/галлюцинации: недостоверные ответы, особенно без RAG.
- Манипулирование: prompt-injection, jailbreak-паттерны, попытки обхода фильтров.
- Системные ошибки: зависимость от внешних инструментов, циклы ошибок в агентах, «накопление бреда» в длительных цепочках.
- Комплаенс: лицензии на данные, права на контент, учёт локальных требований к хранению/обработке; прозрачность логов и объяснимость решений.
Практика минимизации: приватные хранилища, строгий контроль доступа, разделение окружений, безопасные пайплайны данных, валидация сторонних источников, «зелёные коридоры» для запросов из критичных систем.
Чек-лист внедрения AI в продукт
- Сформулируйте узкое бизнес-ядро задачи и KPI (например, снижение времени ответа поддержки на 30%).
- Подготовьте датасеты: источники, лицензии, разметка, версии.
- Выберите архитектуру: готовая LLM + RAG или классический ML-классификатор.
- Решите вопрос инфраструктуры: где и чем выполнять инференс, как обеспечивать SLO.
- Настройте метрики качества (офлайн/онлайн) и журналирование.
- Введите guardrails: лимиты, фильтры, валидацию инструментов.
- Спланируйте итерации: A/B-эксперименты, обратная связь, непрерывное улучшение.
- Продумайте стоимость: бюджет на 1000 запросов, план масштабирования, квоты.
- Обеспечьте безопасность данных: шифрование, контроль доступа, анонимизация.
- Подготовьте процедуры инцидентов: эскалация, откат, пост-морем.
Таблица выбора подхода под задачу
| Сценарий | Что взять | Почему | На что смотреть |
| FAQ-поиск по базе знаний | RAG (эмбеддинги + векторная БД + компактная LLM) | Снижает галлюцинации, контролируем факты | Качество индекса, Recall@k, стоимость/запрос |
| Модерация контента | Классификатор + правила | Дешевле и стабильнее | Precision/Recall, объяснимость |
| Диалоговый ассистент | Инструкционная LLM с инструментами | Гибкий UX и расширяемость | P95 задержка, управление инструментами |
| Детекция аномалий ончейн | Классический ML с фичами | Прозрачность и скорость | ROC-AUC, ложные срабатывания |
| Когнитивные многошаговые задачи | Агент с планированием | Декомпозиция и автоматизация | Безопасность инструментов, наблюдаемость |
Производственный «минимум» для команды
- Наблюдаемость: метрики, логи промтов/ответов, трассировка инструментов.
- Управление версиями: модели, датасеты, конфигурации.
- Воспроизводимость: декларативные пайплайны, контейнеризация.
- Тесты: золотые наборы, регрессионные проверки, контент-политики.
- Документация: схемы архитектуры, чек-листы операций, гайды по инцидентам.
Частые ошибки и как их избегать
- Сразу «идти» в LLM без базы данных: без RAG и знаний модель фантазирует и стоит дорого.
- Оценивать только офлайн-метрики: в реальном трафике картина иная — делайте A/B-тесты.
- Игнорировать стоимость: отсутствие лимитов ведёт к неожиданным счетам.
- Нет планов деградации: при пиках нужна облегчённая модель или сокращённые ответы.
- Смешение данных по правам: неясные лицензии — риск для бизнеса.
FAQ
AI, ML и LLM — это одно и то же? Нет. AI — системная цель «умного поведения», ML — набор методов обучения на данных, LLM — конкретный тип моделей для текста.
Зачем RAG, если LLM и так «знает всё»? Без доступа к вашим данным модель полагается на обобщённые знания и «догадки». RAG подставляет актуальные факты и снижает галлюцинации.
Нужен ли GPU для любого проекта? Не всегда. Классический ML и компактные модели могут жить на CPU. GPU критичны для больших LLM и высокой нагрузки.
Можно ли удешевить инференс без потери качества? Часто — да: квантование, кэш, батчинг, подбор размеров контекста, гибридные пайплайны.
Как контролировать риски токсичных ответов? Фильтры, списки запрещённых паттернов, детекторы тональности, модерация и «двухконтурная» проверка для чувствительных сценариев.
Словарь терминов
- AI (Искусственный интеллект) — совокупность методов и систем, имитирующих интеллектуальные функции человека.
- ML (Машинное обучение) — методы, где алгоритмы извлекают закономерности из данных.
- GenAI (Генеративный ИИ) — модели, создающие новый контент.
- LLM — большая языковая модель для текста/кода.
- Трансформер — нейросетевая архитектура на механизме внимания.
- Инференс — выполнение обученной модели на новых данных.
- Эмбеддинг — векторное представление объектов.
- Векторная база — хранилище и индекс для векторов, обеспечивает быстрый поиск близких объектов.
- RAG — схема «поиск → генерация» с подстановкой фактов перед вызовом модели.
- Квантование — снижение точности представления весов/активаций для ускорения и экономии.
- DePIN — децентрализованная физическая/вычислительная инфраструктура с вознаграждением участникам.
