Искусственный интеллект (AI): базовые понятия, архитектура и применение в Web3

Искусственный интеллект (AI) — широкий набор подходов и технологий, позволяющих машинам решать задачи, традиционно требующие человеческого интеллекта: распознавать и описывать изображения, понимать речь и текст, отвечать на вопросы, планировать и принимать решения. На практике современный AI опирается главным образом на статистические методы машинного обучения и глубокие нейронные сети, а также на их производные — генеративные модели. Для углубления отдельных аспектов см. Машинное обучение, Генеративный ИИ, Большие языковые модели (LLM), Трансформер и Инференс.

AI — не единый продукт, а многоуровневый стек, где данные, модели и окружение выполнения связаны в одну производственную цепочку: от подготовки датасетов до обеспечения задержек и стоимости инференса в продакшене. В экосистеме Web3 и блокчейна AI применяют для ончейн-аналитики, поиска аномалий и рисков, улучшения пользовательского опыта (ассистенты в кошельках, смарт-поиск по документации), автоматизированной модерации, а также для новых рынков децентрализованных вычислений.

Чем искусственный интеллект (AI) отличается от ML, GenAI и LLM

Термины нередко смешивают, но их роли различаются.

Объект	Что это	Примеры задач	Когда использовать
AI	Зонтичное понятие «машинного интеллекта» в целом	Принятие решений, планирование, мультиагентные системы	Когда важна функциональность «как система» (цели, стратегия, инструменты)
ML	Класс методов, где алгоритмы обучаются на данных	Классификация, регрессия, ранжирование	Когда достаточно статистических моделей и метрик качества
GenAI	Подкласс моделей, генерирующих новый контент	Текст, изображения, аудио, код	Когда нужна генерация и креативная вариативность
LLM	Вид GenAI для текста, обученный на больших корпусах	Чат-ассистенты, суммаризация, RAG	Когда задачи текстовые/мультимодальные с акцентом на контекст

Ключевая мысль: AI — это система, а ML/LLM — её компоненты. Архитектура включает обучение, инференс, хранение и поиск знаний, контроль качества и эксплуатацию.

Архитектура AI: от данных до ценности

AI-система приносит пользу только при сквозной инженерии. Типовая цепочка:

Данные и управление качеством

Сбор и лицензирование: источники, права, атрибуция.
Очистка и нормализация: удаление дублей, шумов и токсичных примеров; дедупликация кодов/текстов.
Разметка: ручная/полуавтоматическая; контроль межоценочной согласованности.
Версионирование: фиксация срезов данных, трассировка «какой моделью и на каких данных обучались».

Метрики на этом уровне: полнота покрытия, баланс классов, доля «грязи», согласованность разметки.

Обучение моделей

Классические ML-модели: деревья решений, градиентный бустинг, линейные модели.
Глубокое обучение: CNN, RNN, Seq2Seq, архитектуры на базе трансформера.
Файнтюнинг и адаптация: дообучение на доменных данных, инструкционное дообучение, RLHF/RLAIF.
Квантование и сжатие: снижение разрядности весов, прунинг, дистилляция — снижение стоимости инференса без критичной потери качества (см. terms:quantization в «См. также»).

Слой знаний и поиск

Эмбеддинги: плотные векторные представления для текста/кода/изображений.
Векторные базы: ANN-индексы, шардинг/репликация, гибридный поиск (BM25 + векторный).
RAG-контуры: надёжная подстановка релевантных фактов из корпоративного корпуса перед вызовом LLM.

Инференс и оркестрация

Граф вычислений: токенизация, префил, генерация; параллелизм по тензорам/параметрам/каналам.
Кэширование: KV-кэш, повторное использование внимания.
Планировщик: батчинг запросов, лимиты по памяти/времени, приоритеты.
Надёжность: деградация до более лёгкой модели при пиках нагрузки, ретраи, таймауты.

Интеграция и доставка ценности

Продуктовые сценарии: чат-ассистенты, рекомендательные блоки, модерация, антикор.
MLOps/LangOps: метрики в онлайне, A/B-эксперименты, трекинг версий, CI/CD пайплайны моделей.
Безопасность и контроль: ограничения запросов, фильтры, журналирование.

Где AI полезен в Web3

Ончейн-аналитика и мониторинг рисков: обнаружение аномалий, евристики адресов, оценка правдоподобия связей, маркировка паттернов.
Антифрод и безопасность смарт-контрактов: анализ уязвимостей, ранняя сигнализация, классификация поведения ботов.
Ассистенты для разработчиков: автогенерация тестов и документации, разъяснение функций.
Пользовательский UX: чат-подсказки в кошельке/бирже, sum-поиск по справке, перевод терминов на «человеческий».
DePIN-сценарии: объединение децентрализованных GPU/хранилищ и задач инференса в сетях вычислителей с вознаграждением.
Когнитивные агенты: автономные микросервисы, выполняющие цепочки действий (заявки, мониторинг позиций, напоминания) с логикой целей.

Модели и механики: что под капотом

Эмбеддинги и поиск

Эмбеддинг — способ представить объект (слово, документ, адрес) как вектор в многомерном пространстве. Близость векторов соответствует смысловой близости. Векторный поиск ускоряет доступ к релевантным фактам, уменьшает «галлюцинации» и позволяет строить RAG-системы над корпоративными базами знаний.

LLM и трансформеры

LLM — большие языковые модели, обученные предсказывать следующий токен. Архитектура трансформера масштабируется по данным и параметрам, что даёт качественный скачок в понимании и генерации текста. Для задач с доменными ограничениями используют дообучение, инструкции и «ограждения» — шаблоны и функции-инструменты.

Инференс

Инференс — применение уже обученной модели для ответа на конкретный запрос. Инженерно это про задержки, пропускную способность, стоимость одного запроса, стабильность (SLA) и качество. Техники оптимизации: квантование, компиляция графа, KV-кэш, спекулятивная декодировка, батчинг.

Инженерия качества: как измерять «ум»

Нет «одной» метрики качества. Набор зависит от задачи.

Класс задач	Примеры метрик	Комментарии
Классификация	Accuracy, F1, ROC-AUC	Баланс классов критичен; смотрим и на precision/recall
Ранжирование/поиск	NDCG@k, MRR, Recall@k	Для RAG важна точность top-k и устойчивость к «длинным хвостам»
Генерация текста	Factuality, Pass@k (для кода), Toxicity rate	Автоматические метрики дополняем ручной проверкой
Диалог	Human eval, полезность, корректность, стабильность	Онлайновые A/B-эксперименты обязательны
Производительность	P50/P95 латентность, стоимость/1000 токенов	Управляем бюджетом и SLO

В продакшене применяют двухконтурный контроль: офлайн-тесты на эталонах и онлайн-метрики на реальном трафике (guardrails, сэмплирование, ручные ревью).

Стоимость и производительность: от GPU до кластера

Аппаратное ускорение: GPU-кластеры для матричных операций; CPU остаётся важным для пред-/пост-обработки.
Квантование: снижение разрядности весов и активаций (например, 8-/4-бит) даёт кратный выигрыш по памяти и стоимости; компромисс — небольшая деградация качества для сложных запросов.
Параллелизм: тензорный и конвейерный; распределённые рантаймы.
Кэш: повторное использование KV-состояния ускоряет длинные диалоги и многократные похожие запросы.
Батчинг: объединение мелких запросов снижает стоимость, но увеличивает P95-задержку — нужен разумный компромисс.

Безопасность, риски и регуляторные аспекты

Конфиденциальность данных: утечки при сборе/разметке, реверс-инжиниринг промтов, реконструкция обучающих данных.
Токсичность/галлюцинации: недостоверные ответы, особенно без RAG.
Манипулирование: prompt-injection, jailbreak-паттерны, попытки обхода фильтров.
Системные ошибки: зависимость от внешних инструментов, циклы ошибок в агентах, «накопление бреда» в длительных цепочках.
Комплаенс: лицензии на данные, права на контент, учёт локальных требований к хранению/обработке; прозрачность логов и объяснимость решений.

Практика минимизации: приватные хранилища, строгий контроль доступа, разделение окружений, безопасные пайплайны данных, валидация сторонних источников, «зелёные коридоры» для запросов из критичных систем.

Чек-лист внедрения AI в продукт

Сформулируйте узкое бизнес-ядро задачи и KPI (например, снижение времени ответа поддержки на 30%).
Подготовьте датасеты: источники, лицензии, разметка, версии.
Выберите архитектуру: готовая LLM + RAG или классический ML-классификатор.
Решите вопрос инфраструктуры: где и чем выполнять инференс, как обеспечивать SLO.
Настройте метрики качества (офлайн/онлайн) и журналирование.
Введите guardrails: лимиты, фильтры, валидацию инструментов.
Спланируйте итерации: A/B-эксперименты, обратная связь, непрерывное улучшение.
Продумайте стоимость: бюджет на 1000 запросов, план масштабирования, квоты.
Обеспечьте безопасность данных: шифрование, контроль доступа, анонимизация.
Подготовьте процедуры инцидентов: эскалация, откат, пост-морем.

Таблица выбора подхода под задачу

Сценарий	Что взять	Почему	На что смотреть
FAQ-поиск по базе знаний	RAG (эмбеддинги + векторная БД + компактная LLM)	Снижает галлюцинации, контролируем факты	Качество индекса, Recall@k, стоимость/запрос
Модерация контента	Классификатор + правила	Дешевле и стабильнее	Precision/Recall, объяснимость
Диалоговый ассистент	Инструкционная LLM с инструментами	Гибкий UX и расширяемость	P95 задержка, управление инструментами
Детекция аномалий ончейн	Классический ML с фичами	Прозрачность и скорость	ROC-AUC, ложные срабатывания
Когнитивные многошаговые задачи	Агент с планированием	Декомпозиция и автоматизация	Безопасность инструментов, наблюдаемость

Производственный «минимум» для команды

Наблюдаемость: метрики, логи промтов/ответов, трассировка инструментов.
Управление версиями: модели, датасеты, конфигурации.
Воспроизводимость: декларативные пайплайны, контейнеризация.
Тесты: золотые наборы, регрессионные проверки, контент-политики.
Документация: схемы архитектуры, чек-листы операций, гайды по инцидентам.

Частые ошибки и как их избегать

Сразу «идти» в LLM без базы данных: без RAG и знаний модель фантазирует и стоит дорого.
Оценивать только офлайн-метрики: в реальном трафике картина иная — делайте A/B-тесты.
Игнорировать стоимость: отсутствие лимитов ведёт к неожиданным счетам.
Нет планов деградации: при пиках нужна облегчённая модель или сокращённые ответы.
Смешение данных по правам: неясные лицензии — риск для бизнеса.

FAQ

AI, ML и LLM — это одно и то же? Нет. AI — системная цель «умного поведения», ML — набор методов обучения на данных, LLM — конкретный тип моделей для текста.

Зачем RAG, если LLM и так «знает всё»? Без доступа к вашим данным модель полагается на обобщённые знания и «догадки». RAG подставляет актуальные факты и снижает галлюцинации.

Нужен ли GPU для любого проекта? Не всегда. Классический ML и компактные модели могут жить на CPU. GPU критичны для больших LLM и высокой нагрузки.

Можно ли удешевить инференс без потери качества? Часто — да: квантование, кэш, батчинг, подбор размеров контекста, гибридные пайплайны.

Как контролировать риски токсичных ответов? Фильтры, списки запрещённых паттернов, детекторы тональности, модерация и «двухконтурная» проверка для чувствительных сценариев.

Словарь терминов

AI (Искусственный интеллект) — совокупность методов и систем, имитирующих интеллектуальные функции человека.
ML (Машинное обучение) — методы, где алгоритмы извлекают закономерности из данных.
GenAI (Генеративный ИИ) — модели, создающие новый контент.
LLM — большая языковая модель для текста/кода.
Трансформер — нейросетевая архитектура на механизме внимания.
Инференс — выполнение обученной модели на новых данных.
Эмбеддинг — векторное представление объектов.
Векторная база — хранилище и индекс для векторов, обеспечивает быстрый поиск близких объектов.
RAG — схема «поиск → генерация» с подстановкой фактов перед вызовом модели.
Квантование — снижение точности представления весов/активаций для ускорения и экономии.
DePIN — децентрализованная физическая/вычислительная инфраструктура с вознаграждением участникам.