Ocean Protocol — децентрализованная экономика данных и Compute-to-Data

Ocean Protocol — организация и технологический стек для построения децентрализованной экономики данных. Ключевая идея — превратить датасеты и доступ к ним в оцифрованные активы (data NFT и «дататокены») и предоставить безопасный способ вычислять «рядом с данными» (Compute-to-Data), не копируя сырьё. Это снижает барьеры обмена и позволяет командам ИИ использовать закрытые и коммерческие источники с измеримой приватностью и учётом.

Связанные страницы по стеку и безопасности: Confidential Compute / TEE, Model serving, Cost optimization LLM, Evals, Qdrant, Weaviate, Pinecone, Ritual, Gensyn, SingularityNET, Fetch.ai.

Ocean Protocol: задача и позиционирование

Коммерциализация данных без утечки. Владельцы датасетов монетизируют доступ к вычислению, а не к копии файла.
Единый индекс и биллинг. Рынок/реестр активов с оцифрованными правами, версиями и учётом потребления.
Совместимость с ИИ-пайплайнами. Прямое подключение Compute-to-Data к задачам обучения/инференса, подготовке RAG-индексов, аналитике.

Архитектура и роли

Роль	Что делает	Доход/обязательства
Провайдер данных	Публикует актив (описание, политика доступа, цена, способ выдачи)	Выручка от вычислений/доступа; поддержка актуальности и SLA
Провайдер алгоритмов	Публикует контейнер/скрипт для запуска «рядом с данными»	Доля от запусков; ответственность за корректность/форматы
Потребитель (AI/аналитика)	Покупает вычисление/доступ, получает результат/модель/отчёт	Оплата запросов; соблюдение лицензии и ограничений
Исполняющая среда	Запускает Compute-to-Data (контейнеры/задачи) с логированием	Изоляция, аттестация окружения, отчётность
Маркет/реестр	Каталог активов, токенизация прав, биллинг и метаданные	Матчинг, аудит, правила публикации/обновлений

Токены и оцифровка прав

Объект	Назначение
Data NFT	«Корневое право» на актив (владение/управление, выпуск дататокенов, параметры доступа)
Дататокены (ERC-20-модель)	Ограниченный доступ к ресурсу/вычислению (разовые или подписочные права), применимы в платёжных/лимитных схемах
Опции оплаты/стимулов	Разовые вызовы, абонементы, скидочные пулы, а также депозиты/залоги под SLA

*Важно.* Конкретная модель токенов/тарифов зависит от выбранной реализации маркетплейса, шаблона публикации и правил DAO/оператора.

Как работает Compute-to-Data (упрощённый поток)

Публикация актива. Провайдер описывает датасет (схема/версия/лицензия), формирует Data NFT и выпускает дататокены доступа.
Определение политики. Выбор места исполнения: собственная среда провайдера, партнёрская площадка или конфиденциальная среда (TEE).
Запрос вычисления. Потребитель выбирает актив и алгоритм (например, «построить эмбеддинги»), оплачивает запуск дататокенами.
Выполнение «рядом с данными». Контейнер получает временные ключи, выполняет задачу и отдаёт только результат (веса, метрики, агрегаты, отчёты) — сырьё остаётся у провайдера.
Учёт и отчётность. Сохраняются метаданные: версия данных/кода, контрольные суммы, время/стоимость, подписи окружения (аттестация).

Сценарии для ИИ и аналитики

RAG-пайплайн. Покупка вычисления «эмбеддинги по коллекции X», получение готовых векторов/метаданных → индексация в Qdrant/Weaviate/Pinecone.
Дообучение/адаптация. Запуски LoRA/adapter-tuning на частных данных с запретом выноса сырья; экспорт — только финальные веса/статистики.
Приватная аналитика. Аггрегированные отчёты/фичи/сигналы (risk-скоринги, тенденции), без выдачи строк-источников.
Валидация поставщиков. Сравнение качества разных активов на «золотых» наборах evals: полнота, свежесть, полезность для задач.

Интеграция в стек ИИ

Контейнеры и схемы. Публикуйте алгоритмы в воспроизводимых контейнерах (версии фреймворков, фиксированные сиды), задавайте JSON-схемы ввода/вывода (см. Model serving).
Форматы результатов. Эмбеддинги/веса/агрегаты — с контрольными суммами и журналом версий.
Куда сохранять. Результаты индексации — в векторные БД; генеративные веса — в собственные хранилища с версионированием.
Финопс для LLM. Держите k у ретривера умеренным, лимитируйте max_new_tokens, используйте кэш пролога (FinOps).

Метрики и SLO данных

Метрика	Что измеряем
Актуальность/свежесть	Доля записей с last_modified в пределах целевого окна
Полнота/качество	Заполненность полей, валидность схемы, доля дублей
Воспроизводимость	Совпадение хэшей артефактов (данные/код/веса) и метрик
Стоимость	Цена за задачу, за 1k записей, за 1k эмбеддингов/токенов
Приватность	Доля задач с TEE/изоляцией, отсутствие «сырых» утечек
Производительность	p50/p95 задержки по шагам, throughput (эмбеддинги/с, tokens·s)

Безопасность и приватность

Минимальная выдача. В Compute-to-Data наружу уходит только результат (агрегаты/веса), сырые данные не покидают периметр.
Изоляция/аттестация. Для критичных активов — окружения TEE, аттестация бинарей/драйверов, подписи результатов.
Контроль версий. Любая смена данных/алгоритма фиксируется (id версии, хэши).
Ограничения вывода. Жёсткие форматы результата (JSON-схемы, лимиты) снижают риск утечек и «реконструкции» исходников.
LLM-угрозы. Для генеративных пайплайнов учитывайте prompt-инъекции, утечки промптов, poisoning.

Публикация актива: чек-лист провайдера

Подготовьте описание: схема, лицензия, география, частота обновления, ограничения.
Создайте Data NFT и выпустите дататокены с понятной тарифной логикой (разовый вызов/подписка/квота).
Определите политику вычислений: собственная площадка, партнёр, или TEE-исполнение.
Добавьте алгоритмы-шаблоны: эмбеддинг, агрегации, базовые тренинги; укажите версии и метрики.
Настройте отчётность: контрольные суммы, версии, логи, SLA по времени/стоимости.

Покупка вычислений: чек-лист потребителя

Сформулируйте SLO: p95 времени, бюджет на задачу/1k записей/1k эмбеддингов, требуемые метрики качества.
Проверьте лицензию/ограничения: коммерческое/исследовательское использование, лимиты повторного экспорта.
Выберите алгоритм/среду: формат результатов, TEE при необходимости, требования к версии.
Запросите пробный прогон (subset) и сравните на ваших evals.
Автоматизируйте приёмку: проверка схемы, контроль «пустых» полей/дублей, конвертация в ваш формат.

Типовые интеграции (паттерны)

RAG-интеграция. Купите прогон «эмбеддинги новостных статей за N дней» → положите в Qdrant → сервинг через vLLM → контролируйте токены и кэш (FinOps).
Фичи для скоринга. Вычислите агрегаты/признаки по пользовательским логам «на стороне провайдера» и заберите только вектор/отчёт.
Мульти-провайдер. Разбейте задачу на несколько активов, сравните качество/стоимость; держите fallback-алгоритм.

Риски и ограничения

Юридика и лицензии. Не все данные разрешено перепродавать; внимательно к условиям использования и юрисдикциям.
Качество датасетов. Инфошум/дубликаты/устаревшие записи — требуйте метрики и «золотые» отчёты.
Затраты на TEE/изоляцию. Конфиденциальные окружения повышают стоимость и латентность.
Совместимость форматов. Несовпадение схем ломает пайплайны; стандартизируйте JSON и версии.
Экономические флуктуации. Цена токенов/вычислений меняется; держите бюджеты и алерты на выбросы.

Мини-плейбук запуска (MVP → прод)

Выберите 1–2 актива и алгоритм (эмбеддинги/агрегаты).
Зафиксируйте SLO и схему результата; проведите пилот на подмножестве.
Включите приёмочные тесты: валидатор схемы, проверка хэшей/версий, оценка качества на evals.
Постройте конвейер: выгрузка результатов → индексация (Qdrant/Weaviate/Pinecone) → сервинг (vLLM).
Масштабируйте: добавляйте провайдеров/алгоритмы, внедряйте TEE там, где это экономически оправдано.

FAQ

Чем Ocean Protocol отличается от «обычного» дата-маркетплейса?

Не продаётся «копия файла». Покупается вычисление рядом с данными (Compute-to-Data) с учётом лицензии, версий и приватности.

Можно ли обучать модели на закрытых данных и забирать только веса?

Да. В Compute-to-Data наружу отдаются веса/метрики/агрегаты, а сырьё не покидает периметр; для критичных кейсов используйте TEE.

Как выбрать провайдера данных?

Смотрите на свежесть/полноту/качество, наличие TEE-режима, форматы результатов и историю метрик. Делайте пилот и сравнение по вашим evals.

Как посчитать экономику?

Считайте цену за задачу/1k записей/1k эмбеддингов и накладные на TEE/ретраи. Для LLM-кейсов оптимизируйте токены и кэш по FinOps.

См. также

Confidential Compute / TEE
Model serving
Cost optimization LLM
Evals
Qdrant · Weaviate · Pinecone
Ritual · Gensyn · SingularityNET · Fetch.ai