Игроки инфраструктуры ИИ: карта провайдеров и связей с токенами

Этот хаб собирает в одном месте производственных игроков инфраструктуры ИИ — от разработчиков моделей и платформ сервинга до сетей вычислений и индустрии данных. Цель страницы — облегчить техническое и продуктовое планирование: понимать, у кого какая роль, какие метрики сравнивать и как аккуратно состыковать контуры «модели → данные → вычисления → сервинг».

Опорные точки для ориентации в экосистеме: аппаратный слой и экосистема ускорителей задаёт NVIDIA, ключевые модели и интерфейсы в продакшене формируют команды уровня OpenAI, а рынок децентрализованных вычислений для инференса и генерации растит Render Network. Остальные игроки вплетаются в эти слои как поставщики профилей GPU/CPU, платформы развёртывания, сетевые протоколы и стеки данных.

Игроки инфраструктуры ИИ: кто за что отвечает и как состыковать их роли

Проектирование архитектуры. Выделить слой модели, вычислений, данных, сервинга и наблюдаемости; понять точки интеграции и ответственности.
Управление SLO. Сравнивать провайдеров по набору наблюдаемых метрик (TTFT, P95, доля неформата, цитатность, цена эпизода).
Диверсификация рисков. Удерживать портфель поставщиков по регионам/ролям, минимизируя lock-in.
Планирование бюджетов. Считать «цену эпизода» и понимать, где реально появляется экономия.

Слои экосистемы и типовые роли

Слой	Роль игроков	Примеры задач
Модели и бэзы (foundation/инструкционные)	Разработка/лицензирование, API, бенчи	Диалог, классификация, извлечение, генерация
Вычисления и сервинг	GPU/CPU пулы, warm-пулы, роутинг, кэш префилла	Инференс LLM, эмбеддинг, батч-обработка
Данные и индексы	Инжест, эмбеддинг, индексация, гибридный поиск	RAG, отчёты с цитатами, аналитика
Оркестрация/инструменты	Планировщики, агенты, функции, лимиты	Многошаговые сценарии и интеграции
Наблюдаемость и SRE	Трейсинг, SR/TTFT/P95, «до/после», канарейки	Контроль стабильности и стоимости

Ключевой практикой остаётся разделение очередей по профилям нагрузки и строгие контракты вывода там, где нужен машинно-проверяемый результат (JSON/таблицы).

Как сравнивать игроков: метрики, которые действительно важны

Метрика	Что измеряет	Где влияет
TTFT (Time-to-First-Token)	«Живость» интерфейса	Вычисления/сервинг, кэш префилла, регионы
P95 задержек	Стабильность под нагрузкой	Оркестрация, профили очередей
Доля неформата	Дисциплина формата вывода	Контракты, валидаторы, ретраи по коду
Цитатность	Проверяемость фактов (для RAG)	Политика ссылок/ID источников
«Цена эпизода»	Полная себестоимость ответа	Все слои; особенно модель и вычисления

Сравнивайте игроков на одном и том же эталонном сценарии, фиксируя шаблоны подсказок, ограничения и регионы.

Чек-лист due diligence для выбора провайдера

Профили мощности. Есть ли тёплые пулы? Как изолированы Light/Standard/Heavy?
Наблюдаемость. Доступны ли TTFT/P95/неформат/цитатность на уровне запроса?
Регионы и роутинг. Есть ли близкие к пользователю регионы и фейловер?
Контракты и схемы. Поддерживается ли валидация JSON/таблиц и ретраи по коду?
Версионирование. Модели, индексы, образы окружений, артефакты — с метками версий?
Лимиты и квоты. Пороговые политики по бюджету/длине/шагам и канарейки на релизы.

Риск-модель и типовые анти-паттерны

Риск	Симптом	Что делать
Смешение профилей	«Длинный хвост» P95	Развести очереди, лимиты длины
Ретраи «до победы»	Взрыв «цены эпизода»	Ретраи только по коду, потолок бюджета
Отсутствие цитат	Жалобы на «враньё»	Для фактов: обязательные ID источников
Локальный lock-in	Трудно сменить провайдера	Единые контракты и трейсинг, канарейки на миграцию
Недооценка регионов	Высокий TTFT	Гео-роутинг, ближние пулы, кэш префилла

Матрица «Орг → токен/роль» (навигация)

Организация	Токен	Роль/функция
Render Network	RNDR	Compute (GPU-рынок/маркетплейс рендер/ИИ)
Akash Network	AKT	Compute (децентрализованный клауд)
Bittensor	TAO	Peer-to-peer ML (экономика обучения/инференса)
SingularityNET Foundation	AGIX	Marketplace/agents (платформа сервисов ИИ)
Ocean Protocol Foundation	OCEAN	Data (рынки/доступ к данным)
Numerai	NMR	ML-соревнования/модели
iExec	RLC	Off-chain compute/оркестрация задач
Arkham	ARKM	On-chain intelligence/аналитика

Безтокенные ключевые игроки (навигация)

OpenAI — модели/интерфейсы, сервинг.
Anthropic — модели/безопасность.
Google DeepMind — исследования/модели.
NVIDIA — ускорители, софт-стек для ИИ.
Hugging Face — экосистема моделей/датасетов/инференс.
CoreWeave — GPU-клауд под ИИ/рендер.
Lambda Labs — GPU-клауд/профили для ИИ.
Together AI — инференс/инфраструктура LLM.
Replicate — сервинг моделей/маркетплейс.
Runpod — GPU-пулы/оркестрация.
Midjourney — генерация изображений.
Perplexity — ответный поиск/assistant.

Как пользоваться матрицей при проектировании

Определите «бутылочное горлышко». Где теряете больше всего — TTFT, P95, неформат, отсутствие цитат?
Подберите роль/поставщика. Для вычислений — Compute/DePIN, для данных — Data/индексы, для сервинга — платформы инференса.
Задайте контракты и метрики. Один и тот же сценарий для сравнения «яблоко к яблоку».
Планируйте миграцию через канарейки. Малая доля трафика, пороги деградации, быстрый откат.
Поддерживайте портфель. Не менее двух поставщиков в критичных регионах/ролях.

FAQ

Кого выбирать в первую очередь: «модели» или «вычисления»? Начните с бизнес-сценария и метрик. Часто узкое место — вычисления и дисциплина вывода; затем подбирайте модель под целевую «цену эпизода».

Обязательно ли использовать токенизированные сети? Нет. Они уместны, когда действительно дают выгоду в эластичности/географии/стоимости при сохранении SLO. Иначе — традиционный клауд или специализированный провайдер.

Как избежать lock-in? Единые контракты вывода, стандартизованный трейсинг, портфель провайдеров и канарейки на миграции.