Ocean Protocol — организация и технологический стек для построения децентрализованной экономики данных. Ключевая идея — превратить датасеты и доступ к ним в оцифрованные активы (data NFT и «дататокены») и предоставить безопасный способ вычислять «рядом с данными» (Compute-to-Data), не копируя сырьё. Это снижает барьеры обмена и позволяет командам ИИ использовать закрытые и коммерческие источники с измеримой приватностью и учётом.
Связанные страницы по стеку и безопасности: Confidential Compute / TEE, Model serving, Cost optimization LLM, Evals, Qdrant, Weaviate, Pinecone, Ritual, Gensyn, SingularityNET, Fetch.ai.
Ocean Protocol: задача и позиционирование
- Коммерциализация данных без утечки. Владельцы датасетов монетизируют доступ к вычислению, а не к копии файла.
- Единый индекс и биллинг. Рынок/реестр активов с оцифрованными правами, версиями и учётом потребления.
- Совместимость с ИИ-пайплайнами. Прямое подключение Compute-to-Data к задачам обучения/инференса, подготовке RAG-индексов, аналитике.
Архитектура и роли
| Роль | Что делает | Доход/обязательства |
|---|---|---|
| Провайдер данных | Публикует актив (описание, политика доступа, цена, способ выдачи) | Выручка от вычислений/доступа; поддержка актуальности и SLA |
| Провайдер алгоритмов | Публикует контейнер/скрипт для запуска «рядом с данными» | Доля от запусков; ответственность за корректность/форматы |
| Потребитель (AI/аналитика) | Покупает вычисление/доступ, получает результат/модель/отчёт | Оплата запросов; соблюдение лицензии и ограничений |
| Исполняющая среда | Запускает Compute-to-Data (контейнеры/задачи) с логированием | Изоляция, аттестация окружения, отчётность |
| Маркет/реестр | Каталог активов, токенизация прав, биллинг и метаданные | Матчинг, аудит, правила публикации/обновлений |
Токены и оцифровка прав
| Объект | Назначение |
|---|---|
| Data NFT | «Корневое право» на актив (владение/управление, выпуск дататокенов, параметры доступа) |
| Дататокены (ERC-20-модель) | Ограниченный доступ к ресурсу/вычислению (разовые или подписочные права), применимы в платёжных/лимитных схемах |
| Опции оплаты/стимулов | Разовые вызовы, абонементы, скидочные пулы, а также депозиты/залоги под SLA |
*Важно.* Конкретная модель токенов/тарифов зависит от выбранной реализации маркетплейса, шаблона публикации и правил DAO/оператора.
Как работает Compute-to-Data (упрощённый поток)
- Публикация актива. Провайдер описывает датасет (схема/версия/лицензия), формирует Data NFT и выпускает дататокены доступа.
- Определение политики. Выбор места исполнения: собственная среда провайдера, партнёрская площадка или конфиденциальная среда (TEE).
- Запрос вычисления. Потребитель выбирает актив и алгоритм (например, «построить эмбеддинги»), оплачивает запуск дататокенами.
- Выполнение «рядом с данными». Контейнер получает временные ключи, выполняет задачу и отдаёт только результат (веса, метрики, агрегаты, отчёты) — сырьё остаётся у провайдера.
- Учёт и отчётность. Сохраняются метаданные: версия данных/кода, контрольные суммы, время/стоимость, подписи окружения (аттестация).
Сценарии для ИИ и аналитики
- Дообучение/адаптация. Запуски LoRA/adapter-tuning на частных данных с запретом выноса сырья; экспорт — только финальные веса/статистики.
- Приватная аналитика. Аггрегированные отчёты/фичи/сигналы (risk-скоринги, тенденции), без выдачи строк-источников.
- Валидация поставщиков. Сравнение качества разных активов на «золотых» наборах evals: полнота, свежесть, полезность для задач.
Интеграция в стек ИИ
- Контейнеры и схемы. Публикуйте алгоритмы в воспроизводимых контейнерах (версии фреймворков, фиксированные сиды), задавайте JSON-схемы ввода/вывода (см. Model serving).
- Форматы результатов. Эмбеддинги/веса/агрегаты — с контрольными суммами и журналом версий.
- Куда сохранять. Результаты индексации — в векторные БД; генеративные веса — в собственные хранилища с версионированием.
- Финопс для LLM. Держите k у ретривера умеренным, лимитируйте max_new_tokens, используйте кэш пролога (FinOps).
Метрики и SLO данных
| Метрика | Что измеряем |
|---|---|
| Актуальность/свежесть | Доля записей с last_modified в пределах целевого окна |
| Полнота/качество | Заполненность полей, валидность схемы, доля дублей |
| Воспроизводимость | Совпадение хэшей артефактов (данные/код/веса) и метрик |
| Стоимость | Цена за задачу, за 1k записей, за 1k эмбеддингов/токенов |
| Приватность | Доля задач с TEE/изоляцией, отсутствие «сырых» утечек |
| Производительность | p50/p95 задержки по шагам, throughput (эмбеддинги/с, tokens·s) |
Безопасность и приватность
- Минимальная выдача. В Compute-to-Data наружу уходит только результат (агрегаты/веса), сырые данные не покидают периметр.
- Изоляция/аттестация. Для критичных активов — окружения TEE, аттестация бинарей/драйверов, подписи результатов.
- Контроль версий. Любая смена данных/алгоритма фиксируется (id версии, хэши).
- Ограничения вывода. Жёсткие форматы результата (JSON-схемы, лимиты) снижают риск утечек и «реконструкции» исходников.
Публикация актива: чек-лист провайдера
- Подготовьте описание: схема, лицензия, география, частота обновления, ограничения.
- Создайте Data NFT и выпустите дататокены с понятной тарифной логикой (разовый вызов/подписка/квота).
- Определите политику вычислений: собственная площадка, партнёр, или TEE-исполнение.
- Добавьте алгоритмы-шаблоны: эмбеддинг, агрегации, базовые тренинги; укажите версии и метрики.
- Настройте отчётность: контрольные суммы, версии, логи, SLA по времени/стоимости.
Покупка вычислений: чек-лист потребителя
- Сформулируйте SLO: p95 времени, бюджет на задачу/1k записей/1k эмбеддингов, требуемые метрики качества.
- Проверьте лицензию/ограничения: коммерческое/исследовательское использование, лимиты повторного экспорта.
- Выберите алгоритм/среду: формат результатов, TEE при необходимости, требования к версии.
- Запросите пробный прогон (subset) и сравните на ваших evals.
- Автоматизируйте приёмку: проверка схемы, контроль «пустых» полей/дублей, конвертация в ваш формат.
Типовые интеграции (паттерны)
- Фичи для скоринга. Вычислите агрегаты/признаки по пользовательским логам «на стороне провайдера» и заберите только вектор/отчёт.
- Мульти-провайдер. Разбейте задачу на несколько активов, сравните качество/стоимость; держите fallback-алгоритм.
Риски и ограничения
- Юридика и лицензии. Не все данные разрешено перепродавать; внимательно к условиям использования и юрисдикциям.
- Качество датасетов. Инфошум/дубликаты/устаревшие записи — требуйте метрики и «золотые» отчёты.
- Затраты на TEE/изоляцию. Конфиденциальные окружения повышают стоимость и латентность.
- Совместимость форматов. Несовпадение схем ломает пайплайны; стандартизируйте JSON и версии.
- Экономические флуктуации. Цена токенов/вычислений меняется; держите бюджеты и алерты на выбросы.
Мини-плейбук запуска (MVP → прод)
- Выберите 1–2 актива и алгоритм (эмбеддинги/агрегаты).
- Зафиксируйте SLO и схему результата; проведите пилот на подмножестве.
- Включите приёмочные тесты: валидатор схемы, проверка хэшей/версий, оценка качества на evals.
- Постройте конвейер: выгрузка результатов → индексация (Qdrant/Weaviate/Pinecone) → сервинг (vLLM).
- Масштабируйте: добавляйте провайдеров/алгоритмы, внедряйте TEE там, где это экономически оправдано.
FAQ
Чем Ocean Protocol отличается от «обычного» дата-маркетплейса?
Не продаётся «копия файла». Покупается вычисление рядом с данными (Compute-to-Data) с учётом лицензии, версий и приватности.
Можно ли обучать модели на закрытых данных и забирать только веса?
Да. В Compute-to-Data наружу отдаются веса/метрики/агрегаты, а сырьё не покидает периметр; для критичных кейсов используйте TEE.
Как выбрать провайдера данных?
Смотрите на свежесть/полноту/качество, наличие TEE-режима, форматы результатов и историю метрик. Делайте пилот и сравнение по вашим evals.
Как посчитать экономику?
Считайте цену за задачу/1k записей/1k эмбеддингов и накладные на TEE/ретраи. Для LLM-кейсов оптимизируйте токены и кэш по FinOps.
