Ocean Protocol — децентрализованная экономика данных и Compute-to-Data

Ocean Protocol — организация и технологический стек для построения децентрализованной экономики данных. Ключевая идея — превратить датасеты и доступ к ним в оцифрованные активы (data NFT и «дататокены») и предоставить безопасный способ вычислять «рядом с данными» (Compute-to-Data), не копируя сырьё. Это снижает барьеры обмена и позволяет командам ИИ использовать закрытые и коммерческие источники с измеримой приватностью и учётом.

Ocean Protocol — децентрализованная экономика данных и Compute-to-Data

Связанные страницы по стеку и безопасности: Confidential Compute / TEE, Model serving, Cost optimization LLM, Evals, Qdrant, Weaviate, Pinecone, Ritual, Gensyn, SingularityNET, Fetch.ai.

Ocean Protocol: задача и позиционирование

  • Коммерциализация данных без утечки. Владельцы датасетов монетизируют доступ к вычислению, а не к копии файла.
  • Единый индекс и биллинг. Рынок/реестр активов с оцифрованными правами, версиями и учётом потребления.
  • Совместимость с ИИ-пайплайнами. Прямое подключение Compute-to-Data к задачам обучения/инференса, подготовке RAG-индексов, аналитике.

Архитектура и роли

Роль Что делает Доход/обязательства
Провайдер данных Публикует актив (описание, политика доступа, цена, способ выдачи) Выручка от вычислений/доступа; поддержка актуальности и SLA
Провайдер алгоритмов Публикует контейнер/скрипт для запуска «рядом с данными» Доля от запусков; ответственность за корректность/форматы
Потребитель (AI/аналитика) Покупает вычисление/доступ, получает результат/модель/отчёт Оплата запросов; соблюдение лицензии и ограничений
Исполняющая среда Запускает Compute-to-Data (контейнеры/задачи) с логированием Изоляция, аттестация окружения, отчётность
Маркет/реестр Каталог активов, токенизация прав, биллинг и метаданные Матчинг, аудит, правила публикации/обновлений

Токены и оцифровка прав

Объект Назначение
Data NFT «Корневое право» на актив (владение/управление, выпуск дататокенов, параметры доступа)
Дататокены (ERC-20-модель) Ограниченный доступ к ресурсу/вычислению (разовые или подписочные права), применимы в платёжных/лимитных схемах
Опции оплаты/стимулов Разовые вызовы, абонементы, скидочные пулы, а также депозиты/залоги под SLA

*Важно.* Конкретная модель токенов/тарифов зависит от выбранной реализации маркетплейса, шаблона публикации и правил DAO/оператора.

Как работает Compute-to-Data (упрощённый поток)

  1. Публикация актива. Провайдер описывает датасет (схема/версия/лицензия), формирует Data NFT и выпускает дататокены доступа.
  2. Определение политики. Выбор места исполнения: собственная среда провайдера, партнёрская площадка или конфиденциальная среда (TEE).
  3. Запрос вычисления. Потребитель выбирает актив и алгоритм (например, «построить эмбеддинги»), оплачивает запуск дататокенами.
  4. Выполнение «рядом с данными». Контейнер получает временные ключи, выполняет задачу и отдаёт только результат (веса, метрики, агрегаты, отчёты) — сырьё остаётся у провайдера.
  5. Учёт и отчётность. Сохраняются метаданные: версия данных/кода, контрольные суммы, время/стоимость, подписи окружения (аттестация).

Сценарии для ИИ и аналитики

  • RAG-пайплайн. Покупка вычисления «эмбеддинги по коллекции X», получение готовых векторов/метаданных → индексация в Qdrant/Weaviate/Pinecone.
  • Дообучение/адаптация. Запуски LoRA/adapter-tuning на частных данных с запретом выноса сырья; экспорт — только финальные веса/статистики.
  • Приватная аналитика. Аггрегированные отчёты/фичи/сигналы (risk-скоринги, тенденции), без выдачи строк-источников.
  • Валидация поставщиков. Сравнение качества разных активов на «золотых» наборах evals: полнота, свежесть, полезность для задач.

Интеграция в стек ИИ

  • Контейнеры и схемы. Публикуйте алгоритмы в воспроизводимых контейнерах (версии фреймворков, фиксированные сиды), задавайте JSON-схемы ввода/вывода (см. Model serving).
  • Форматы результатов. Эмбеддинги/веса/агрегаты — с контрольными суммами и журналом версий.
  • Куда сохранять. Результаты индексации — в векторные БД; генеративные веса — в собственные хранилища с версионированием.
  • Финопс для LLM. Держите k у ретривера умеренным, лимитируйте max_new_tokens, используйте кэш пролога (FinOps).

Метрики и SLO данных

Метрика Что измеряем
Актуальность/свежесть Доля записей с last_modified в пределах целевого окна
Полнота/качество Заполненность полей, валидность схемы, доля дублей
Воспроизводимость Совпадение хэшей артефактов (данные/код/веса) и метрик
Стоимость Цена за задачу, за 1k записей, за 1k эмбеддингов/токенов
Приватность Доля задач с TEE/изоляцией, отсутствие «сырых» утечек
Производительность p50/p95 задержки по шагам, throughput (эмбеддинги/с, tokens·s)

Безопасность и приватность

  • Минимальная выдача. В Compute-to-Data наружу уходит только результат (агрегаты/веса), сырые данные не покидают периметр.
  • Изоляция/аттестация. Для критичных активов — окружения TEE, аттестация бинарей/драйверов, подписи результатов.
  • Контроль версий. Любая смена данных/алгоритма фиксируется (id версии, хэши).
  • Ограничения вывода. Жёсткие форматы результата (JSON-схемы, лимиты) снижают риск утечек и «реконструкции» исходников.
  • LLM-угрозы. Для генеративных пайплайнов учитывайте prompt-инъекции, утечки промптов, poisoning.

Публикация актива: чек-лист провайдера

  1. Подготовьте описание: схема, лицензия, география, частота обновления, ограничения.
  2. Создайте Data NFT и выпустите дататокены с понятной тарифной логикой (разовый вызов/подписка/квота).
  3. Определите политику вычислений: собственная площадка, партнёр, или TEE-исполнение.
  4. Добавьте алгоритмы-шаблоны: эмбеддинг, агрегации, базовые тренинги; укажите версии и метрики.
  5. Настройте отчётность: контрольные суммы, версии, логи, SLA по времени/стоимости.

Покупка вычислений: чек-лист потребителя

  1. Сформулируйте SLO: p95 времени, бюджет на задачу/1k записей/1k эмбеддингов, требуемые метрики качества.
  2. Проверьте лицензию/ограничения: коммерческое/исследовательское использование, лимиты повторного экспорта.
  3. Выберите алгоритм/среду: формат результатов, TEE при необходимости, требования к версии.
  4. Запросите пробный прогон (subset) и сравните на ваших evals.
  5. Автоматизируйте приёмку: проверка схемы, контроль «пустых» полей/дублей, конвертация в ваш формат.

Типовые интеграции (паттерны)

  • RAG-интеграция. Купите прогон «эмбеддинги новостных статей за N дней» → положите в Qdrant → сервинг через vLLM → контролируйте токены и кэш (FinOps).
  • Фичи для скоринга. Вычислите агрегаты/признаки по пользовательским логам «на стороне провайдера» и заберите только вектор/отчёт.
  • Мульти-провайдер. Разбейте задачу на несколько активов, сравните качество/стоимость; держите fallback-алгоритм.

Риски и ограничения

  • Юридика и лицензии. Не все данные разрешено перепродавать; внимательно к условиям использования и юрисдикциям.
  • Качество датасетов. Инфошум/дубликаты/устаревшие записи — требуйте метрики и «золотые» отчёты.
  • Затраты на TEE/изоляцию. Конфиденциальные окружения повышают стоимость и латентность.
  • Совместимость форматов. Несовпадение схем ломает пайплайны; стандартизируйте JSON и версии.
  • Экономические флуктуации. Цена токенов/вычислений меняется; держите бюджеты и алерты на выбросы.

Мини-плейбук запуска (MVP → прод)

  1. Выберите 1–2 актива и алгоритм (эмбеддинги/агрегаты).
  2. Зафиксируйте SLO и схему результата; проведите пилот на подмножестве.
  3. Включите приёмочные тесты: валидатор схемы, проверка хэшей/версий, оценка качества на evals.
  4. Постройте конвейер: выгрузка результатов → индексация (Qdrant/Weaviate/Pinecone) → сервинг (vLLM).
  5. Масштабируйте: добавляйте провайдеров/алгоритмы, внедряйте TEE там, где это экономически оправдано.

FAQ

Чем Ocean Protocol отличается от «обычного» дата-маркетплейса?

Не продаётся «копия файла». Покупается вычисление рядом с данными (Compute-to-Data) с учётом лицензии, версий и приватности.

Можно ли обучать модели на закрытых данных и забирать только веса?

Да. В Compute-to-Data наружу отдаются веса/метрики/агрегаты, а сырьё не покидает периметр; для критичных кейсов используйте TEE.

Как выбрать провайдера данных?

Смотрите на свежесть/полноту/качество, наличие TEE-режима, форматы результатов и историю метрик. Делайте пилот и сравнение по вашим evals.

Как посчитать экономику?

Считайте цену за задачу/1k записей/1k эмбеддингов и накладные на TEE/ретраи. Для LLM-кейсов оптимизируйте токены и кэш по FinOps.

См. также

Task Runner