Этот хаб собирает в одном месте производственных игроков инфраструктуры ИИ — от разработчиков моделей и платформ сервинга до сетей вычислений и индустрии данных. Цель страницы — облегчить техническое и продуктовое планирование: понимать, у кого какая роль, какие метрики сравнивать и как аккуратно состыковать контуры «модели → данные → вычисления → сервинг».
Опорные точки для ориентации в экосистеме: аппаратный слой и экосистема ускорителей задаёт NVIDIA, ключевые модели и интерфейсы в продакшене формируют команды уровня OpenAI, а рынок децентрализованных вычислений для инференса и генерации растит Render Network. Остальные игроки вплетаются в эти слои как поставщики профилей GPU/CPU, платформы развёртывания, сетевые протоколы и стеки данных.
Игроки инфраструктуры ИИ: кто за что отвечает и как состыковать их роли
- Проектирование архитектуры. Выделить слой модели, вычислений, данных, сервинга и наблюдаемости; понять точки интеграции и ответственности.
- Управление SLO. Сравнивать провайдеров по набору наблюдаемых метрик (TTFT, P95, доля неформата, цитатность, цена эпизода).
- Диверсификация рисков. Удерживать портфель поставщиков по регионам/ролям, минимизируя lock-in.
- Планирование бюджетов. Считать «цену эпизода» и понимать, где реально появляется экономия.
Слои экосистемы и типовые роли
| Слой | Роль игроков | Примеры задач |
| Модели и бэзы (foundation/инструкционные) | Разработка/лицензирование, API, бенчи | Диалог, классификация, извлечение, генерация |
| Вычисления и сервинг | GPU/CPU пулы, warm-пулы, роутинг, кэш префилла | Инференс LLM, эмбеддинг, батч-обработка |
| Данные и индексы | Инжест, эмбеддинг, индексация, гибридный поиск | RAG, отчёты с цитатами, аналитика |
| Оркестрация/инструменты | Планировщики, агенты, функции, лимиты | Многошаговые сценарии и интеграции |
| Наблюдаемость и SRE | Трейсинг, SR/TTFT/P95, «до/после», канарейки | Контроль стабильности и стоимости |
Ключевой практикой остаётся разделение очередей по профилям нагрузки и строгие контракты вывода там, где нужен машинно-проверяемый результат (JSON/таблицы).
Как сравнивать игроков: метрики, которые действительно важны
| Метрика | Что измеряет | Где влияет |
| TTFT (Time-to-First-Token) | «Живость» интерфейса | Вычисления/сервинг, кэш префилла, регионы |
| P95 задержек | Стабильность под нагрузкой | Оркестрация, профили очередей |
| Доля неформата | Дисциплина формата вывода | Контракты, валидаторы, ретраи по коду |
| Цитатность | Проверяемость фактов (для RAG) | Политика ссылок/ID источников |
| «Цена эпизода» | Полная себестоимость ответа | Все слои; особенно модель и вычисления |
Сравнивайте игроков на одном и том же эталонном сценарии, фиксируя шаблоны подсказок, ограничения и регионы.
Чек-лист due diligence для выбора провайдера
- Профили мощности. Есть ли тёплые пулы? Как изолированы Light/Standard/Heavy?
- Наблюдаемость. Доступны ли TTFT/P95/неформат/цитатность на уровне запроса?
- Регионы и роутинг. Есть ли близкие к пользователю регионы и фейловер?
- Контракты и схемы. Поддерживается ли валидация JSON/таблиц и ретраи по коду?
- Версионирование. Модели, индексы, образы окружений, артефакты — с метками версий?
- Лимиты и квоты. Пороговые политики по бюджету/длине/шагам и канарейки на релизы.
Риск-модель и типовые анти-паттерны
| Риск | Симптом | Что делать |
| Смешение профилей | «Длинный хвост» P95 | Развести очереди, лимиты длины |
| Ретраи «до победы» | Взрыв «цены эпизода» | Ретраи только по коду, потолок бюджета |
| Отсутствие цитат | Жалобы на «враньё» | Для фактов: обязательные ID источников |
| Локальный lock-in | Трудно сменить провайдера | Единые контракты и трейсинг, канарейки на миграцию |
| Недооценка регионов | Высокий TTFT | Гео-роутинг, ближние пулы, кэш префилла |
Матрица «Орг → токен/роль» (навигация)
| Организация | Токен | Роль/функция |
| Render Network | RNDR | Compute (GPU-рынок/маркетплейс рендер/ИИ) |
| Akash Network | AKT | Compute (децентрализованный клауд) |
| Bittensor | TAO | Peer-to-peer ML (экономика обучения/инференса) |
| SingularityNET Foundation | AGIX | Marketplace/agents (платформа сервисов ИИ) |
| Ocean Protocol Foundation | OCEAN | Data (рынки/доступ к данным) |
| Numerai | NMR | ML-соревнования/модели |
| iExec | RLC | Off-chain compute/оркестрация задач |
| Arkham | ARKM | On-chain intelligence/аналитика |
Безтокенные ключевые игроки (навигация)
- OpenAI — модели/интерфейсы, сервинг.
- Anthropic — модели/безопасность.
- Google DeepMind — исследования/модели.
- NVIDIA — ускорители, софт-стек для ИИ.
- Hugging Face — экосистема моделей/датасетов/инференс.
- CoreWeave — GPU-клауд под ИИ/рендер.
- Lambda Labs — GPU-клауд/профили для ИИ.
- Together AI — инференс/инфраструктура LLM.
- Replicate — сервинг моделей/маркетплейс.
- Runpod — GPU-пулы/оркестрация.
- Midjourney — генерация изображений.
- Perplexity — ответный поиск/assistant.
Как пользоваться матрицей при проектировании
- Определите «бутылочное горлышко». Где теряете больше всего — TTFT, P95, неформат, отсутствие цитат?
- Подберите роль/поставщика. Для вычислений — Compute/DePIN, для данных — Data/индексы, для сервинга — платформы инференса.
- Задайте контракты и метрики. Один и тот же сценарий для сравнения «яблоко к яблоку».
- Планируйте миграцию через канарейки. Малая доля трафика, пороги деградации, быстрый откат.
- Поддерживайте портфель. Не менее двух поставщиков в критичных регионах/ролях.
FAQ
Кого выбирать в первую очередь: «модели» или «вычисления»? Начните с бизнес-сценария и метрик. Часто узкое место — вычисления и дисциплина вывода; затем подбирайте модель под целевую «цену эпизода».
Обязательно ли использовать токенизированные сети? Нет. Они уместны, когда действительно дают выгоду в эластичности/географии/стоимости при сохранении SLO. Иначе — традиционный клауд или специализированный провайдер.
Как избежать lock-in? Единые контракты вывода, стандартизованный трейсинг, портфель провайдеров и канарейки на миграции.
