Популярное
Новое
Темы
Люди

О проекте Контакты Дисклеймеры и cookies Политика конфиденциальности

© 2026 24k.ru. Все материалы носят исключительно информационный характер и не являются индивидуальной инвестиционной рекомендацией (ФЗ-39 «О рынке ценных бумаг»). Криптовалюты не являются законным средством платежа в РФ (ФЗ-259). Используя сайт, вы соглашаетесь с нашей Политикой конфиденциальности и использованием cookie.

Гайды / Руководства / AI и смарт-контракты

16-11-2025, 20:17

Compute-to-Data Ocean Protocol: полный гайд по RAG и ML на приватных данных

Ocean Protocol Compute-to-Data (C2D) — это революционный подход для RAG-систем и машинного обучения на приватных данных. Вместо копирования медицинских, финансовых и корпоративных данных в облако, вычисления запускаются непосредственно у владельца данных. Это решает проблемы GDPR, HIPAA и корпоративной безопасности при работе с чувствительной информацией.

Ocean Protocol предлагает другой путь — Compute-to-Data (C2D). Вместо того чтобы вывозить данные к модели, мы отправляем вычисления к данным. Модели обучаются и выполняют запросы прямо там, где живут приватные датасеты, а наружу возвращается только результат. Это делает Ocean интересной платформой для RAG-чатботов по закрытым базам и для обучения моделей на чувствительных данных.

Общий обзор протокола, токена OCEAN и базовой архитектуры мы уже разбирали в вики-материале «Ocean Protocol: децентрализованный рынок данных». В этом гайде сфокусируемся именно на Compute-to-Data для RAG и обучения: архитектура, типичные кейсы, примерные бюджеты и практические советы для разработчика.

1. Ocean Protocol и идея Compute-to-Data

Ocean Protocol — открытый протокол для обмена и монетизации данных, построенный поверх Ethereum и совместимых сетей. Доступ к датасетам регулируется через Data NFT и datatokens (ERC-20), а рыночную инфраструктуру обеспечивают децентрализованные маркетплейсы.

Compute-to-Data — ключевая фича Ocean. Вместо прямой раздачи датасета потребителям реализуется сценарий:

данные остаются у владельца (on-prem, в его облаке или в защищённом дата-центре);
потребители присылают алгоритмы (контейнеры, скрипты, ML-пайплайны) и оплачивают выполнение;
вычисления оркестрируются C2D-средой, а наружу возвращается только результат: обученные веса модели, метрики, агрегированные отчёты;
сырые данные никогда не покидают контур владельца.

Такой подход хорошо ложится на регуляторные рамки (GDPR и др.), потому что контроль над данными остаётся у их владельца, а доступ ограничивается вычислительными задачами с аудируемыми правилами.

2. Почему классический RAG и обучение на приватных данных — проблема

Базовый RAG-стек выглядит красиво на диаграммах: документы складываются во векторное хранилище, LLM забирает релевантные куски и отвечает, не «забывая» про свежие данные. На практике у компаний с приватными данными возникает сразу несколько проблем:

Легальная. Нельзя просто вытащить клиентскую историю болезни или банковские транзакции в облачное векторное хранилище за пределами инфраструктуры компании.
Техническая. Типовой RAG хранит эмбеддинги и исходный текст в одном кластере. В случае компрометации — утечка сразу всего.
Безопасность LLM. Атаки вроде prompt injection могут заставить модель раскрыть части приватного контекста, если он не изолирован.
Операционная. Настроить изолированные кластеры, VPN/VPC, ключи, право-роли и одновременно поддерживать гибкость разработки — дорого и долго.

С обучением ситуация ещё сложнее: нужно либо перевозить копию датасета в облако провайдера, либо строить дорогой on-prem кластер. Compute-to-Data как раз отвечает на эти боли: данные остаются там, где они уже лежат, а вы отправляете к ним только вычисления.

3. Архитектура C2D Compute-to-Data в Ocean Protocol

Упрощённо в C2D участвуют четыре роли:

Data Owner / Publisher — владелец данных (больница, банк, корпорация);
Data Consumer — тот, кто хочет обучать модели или запускать аналитику на этих данных;
Compute Provider / Ocean Node — узел, который запускает контейнеры с задачами рядом с данными (часто сам data owner);
Ocean Network — блокчейн-уровень с Data NFT, datatokens и логикой разрешений.

Высокоуровневая схема типичной C2D-архитектуры для RAG/обучения выглядит так:

[Data Owner infra] ├─ Хранилище данных (DB / Data Lake) ├─ Векторное хранилище / фичи └─ Ocean Node (Compute-to-Data) ▲ | (доступ к данным только локально) | [Ocean Network / Marketplace] ├─ Data NFT + datatokens (доступ к датасету) └─ Algorithm assets (образы задач) [Data Consumer] ├─ Регистрирует алгоритм (контейнер для RAG или обучения) └─ Покупает compute-job за OCEAN/datatokens Поток: 1) Consumer → Ocean Network: запрос на compute-job. 2) Ocean Network → Ocean Node: оркестрация задачи. 3) Ocean Node запускает контейнер рядом с данными. 4) Результат (модель, эмбеддинги, отчёт) → Consumer. 5) Сырые данные никуда не выводятся.

Контроль доступа реализуется через Data NFT и datatokens, а также политики C2D-среды (allowlist алгоритмов, лимиты по ресурсам и др.). Маркетплейс выступает только точкой обнаружения и биллинга — он не хранит сами данные.

4. Compute-to-Data для RAG: где живут документы и эмбеддинги

RAG-архитектуру можно разложить на четыре блока: ingestion (загрузка документов), индексация (эмбеддинги + векторное хранилище), retrieval (поиск по векторке) и генерация (LLM). Ocean позволяет сделать так, чтобы ingestion, индексация и retrieval выполнялись внутри C2D-среды, а наружу уходили только агрегированные результаты.

4.1. Паттерн 1: RAG внутри C2D, LLM снаружи

Подходит, когда вы хотите использовать внешний LLM-провайдер (или свой крупный кластер), но не готовы выносить документы:

Документы и векторное хранилище живут в инфраструктуре data owner’а. Для векторки можно использовать open-source решения вроде Qdrant — см. наш обзор «Qdrant: векторная база данных для AI-продуктов».
В C2D-среде запускается контейнер, который по запросу consumer’а делает retrieval: получает вопрос, достаёт из векторки k релевантных фрагментов и возвращает их в анонимизированном виде.
LLM снаружи получает только куски текста (опционально — уже очищенные от PII) и генерирует ответ.

Плюсы: эмбеддинги и полный текст никогда не уходят за периметр; можно комбинировать внутреннюю векторку с внешними моделями. Минус — сложнее реализовать end-to-end наблюдаемость: часть пайплайна скрыта внутри C2D.

4.2. Паттерн 2: полный RAG внутри C2D

Более жёсткий, но и более безопасный подход:

внутри C2D-среды живут и векторное хранилище, и сама LLM (или несколько моделей);
наружу отдаётся только финальный ответ и, возможно, краткий отчёт по использованным источникам;
ни один внешний сервис не имеет прямого доступа ни к текстам, ни к эмбеддингам.

Такой сценарий востребован там, где чувствительны даже «анонимизированные» фрагменты: регуляторы всё чаще рассматривают эмбеддинги и промежуточные представления как потенциально восстанавливаемые.

5. Compute-to-Data для обучения моделей на приватных данных

Для обучения моделей C2D работает ещё очевиднее:

Data owner публикует asset «dataset» с включённым Compute-to-Data.
Data consumer описывает «algorithm asset» — Docker-образ с тренинг-скриптом (PyTorch, XGBoost, RAG-инфраструктура и т.д.).
Через маркетплейс создаётся compute-job: «запусти алгоритм X на датасете Y в окружении Z с лимитами по GPU/CPU».
Ocean Node скачивает образ, монтирует датасет, запускает обучение и по завершении возвращает артефакты: веса модели, отчёты, метрики.
Данные физически не покидают среду data owner’а; журналы и артефакты контролируются политиками.

Дополнительно можно использовать аппаратные доверенные среды (TEE) и другие механизмы конфиденциальных вычислений — о них подробнее в отдельном гайде «Конфиденциальные вычисления и TEE». В сочетании с TEE C2D-подход позволяет строить RAG и обучение на уровне требований enterprise-безопасности.

6. Compute-to-Data vs альтернативы: что выбирать для приватного RAG

Рассмотрим, чем C2D отличается от классических подходов к приватным данным.

Подход	Где живут данные	Кто управляет доступом	Риск утечки	RAG по приватным данным	Обучение моделей
«Скопировать всё в облако»	У провайдера LLM/векторки	Провайдер + соглашения DPA	Высокий: компрометация аккаунта/облака = утечка	Просто реализуется, но плохо с комплаенсом	Удобно, но риски регуляторики и vendor lock-in
VPC/on-prem без C2D	Во внутреннем кластере компании	DevOps/безопасность компании	Средний: всё внутри периметра, но дорого и сложно	Хорошо, если есть ресурсы и компетенции	Возможно, но требует собственного GPU-кластера
Ocean Compute-to-Data	У data owner’а; данные не копируются	Data owner + политики C2D/маркетплейса	Низкий: наружу выходит только результат вычислений	Возможен RAG с retrieval внутри C2D и LLM внутри или снаружи	Обучение по приватным данным без вывоза датасета

В реальных проектах часто комбинируют подходы: часть публичных и синтетических данных обучает модель в облаке, а приватные слои докручиваются через C2D-обучение или RAG-слой внутри инфраструктуры владельца данных.

7. Типичные кейсы Ocean Protocol для RAG и обучения

7.1. Медицинские RAG-ассистенты

Healthcare — один из первых таргетов Ocean. Платформа активно продвигает сценарии, где больницы и исследовательские центры делятся медицинскими датасетами (МРТ, ЭКГ, лабораторные показатели) через C2D, не раскрывая сами данные.

Пример пайплайна:

больница публикует датасеты (истории болезней, структурированные записи) с включённым C2D;
исследовательский центр присылает RAG-алгоритм: «чатбот для врачей», который отвечает по локальной документации и клиническим рекомендациям;
обучение эмбеддингов, построение векторки и retrieval происходят внутри инфраструктуры больницы; наружу уходит только модель или ответы;
модель помогает врачам искать похожие случаи, проверять дозировки, смотреть локальные протоколы.

7.2. DeFi-аналитика и риск-модели

Ocean участвует в инициативах Open DeFi Alliance и продвигает идею безопасного обмена рыночными и пользовательскими данными между DeFi-проектами, фондами и брокерами.

Типичный кейс:

платформы стейкинга и кредитования не хотят раскрывать сырые ряды транзакций и позиций;
через C2D они открывают обучающие и аналитические задачи: оценка риска ликвидаций, fraud-скоры, стресс-тесты;
аналитические компании присылают модели (градиентный бустинг, deep learning, RAG-брокеры по внутренней документации), которые обучаются прямо на закрытых данных;
возвращаются веса моделей и отчёты, без выгрузки самих транзакций.

7.3. Промышленные и IoT-датасеты

Сенсоры на заводах, в сетях «умного города», транспорте генерируют тонны данных. Они ценны для предиктивной аналитики, но часто используются только локально, а компании боятся делиться ими даже с подрядчиками.

С Ocean можно:

упаковать тайм-серии в C2D-датасет;
разрешить запускать на них алгоритмы прогнозирования и anomaly detection;
обучать модели неисправностей без передачи «сырого» журнала сторонним организациям;
дальше использовать модели в RAG-ассистентах для инженеров: «почему растёт вибрация на этом узле», «какие типичные причины такого паттерна».

7.4. Корпоративные data-коалиции

Ocean Enterprise — отдельный продукт для компаний и госструктур, позволяющий поднимать приватные data-экосистемы: несколько организаций делятся между собой данными через C2D, сохраняя контроль и соответствие комплаенсу.

В такой коалиции можно обучать общие модели (например, scoring для кредитных союзов или ESG-аналитику для цепочек поставок), не собирая все исходные данные в одном месте.

8. Стек разработчика: как собрать C2D-пайплайн под RAG/обучение

На практике сборка пайплайна выглядит так:

Разворачиваем инфраструктуру. Data owner поднимает Ocean Node/Compute-to-Data окружение рядом со своими данными (on-prem или в своём облаке).
Публикуем датасет. Создаём Data NFT и datatokens, описываем метаданные, включаем C2D-фичу (список разрешённых алгоритмов, лимиты по ресурсам).
Определяем алгоритмы. Data consumer (или тот же data owner) публикует «algorithm assets»: Docker-образы для RAG-retrieval, обучения моделей, векторизации, отчётов.
Описываем пайплайн. Пишем код/конфиг, который:
- запускает ingestion и индексацию документов внутри C2D;
- по запросу пользователя создаёт compute-job на retrieval/обучение;
- получает результаты и передаёт их в LLM или downstream-сервисы.
Добавляем мониторинг и биллинг. Считаем, сколько job’ов, сколько OCEAN и ресурсов тратится на один запрос, где можно закэшировать и оптимизировать.

Архитектурно это хорошо сочетается с уже существующими RAG-фреймворками и векторными базами (Qdrant, Pinecone, Weaviate и др.) — вы просто переносите их внутрь C2D-окружения и управляетесь через Ocean как внешним контуром доступа.

9. Стоимость OCEAN токена: за что платим и как оценивать бюджет

Экономика Ocean строится вокруг токена OCEAN и datatokens. OCEAN используется для стейкинга, управления и оплаты операций в экосистеме, datatokens — как «пропуска» к конкретным датасетам.

На уровне смарт-контрактов сейчас действуют правила:

Публикация датасета на маркетплейсе не облагается отдельной publish-комиссией (платите только gas сети).
Потребление данных (в том числе C2D-job) оплачивается потребителем: он покупает datatokens или платит напрямую через встроенный прайсинг.
Комиссии делятся между data owner’ом, провайдером C2D-узла, маркетплейсом и, в ряде случаев, стейкерами, которые курируют датасет.

Цена токена OCEAN рыночная и плавающая. По данным крупных агрегаторов (CoinMarketCap, CoinGecko, Coinbase и др.) в 2025 году OCEAN торгуется примерно в районе $0,20–0,30 за токен (порядка $0,25 на момент подготовки материала, с суточными колебаниями). Конкретные значения важно уточнять по рыночным сводкам на момент расчётов.

Удобно мыслить бюджет так:

фиксируете «цену одного job’а» (RAG-запроса или тренинг-рана) в OCEAN/datatokens;
оцениваете, сколько запросов/обучений в месяц ожидается;
закладываете сверху запас на газ-комиссии и инфраструктуру (GPU/CPU, storage);
сравниваете с альтернативами: классические LLM-API, свой кластер, другие privacy-решения.

Важно: Ocean не навязывает конкретный тариф; каждая площадка и каждый data owner могут выстраивать свою модель монетизации. Для RAG-и обучающих пайплайнов это означает, что стоимость сильно зависит от: сложности задач (время работы контейнера), используемого железа, политики самого владельца данных.

10. Типичные ошибки при проектировании C2D-пайплайнов

«Утащили всё в C2D». Иногда команды пытаются запихнуть вообще всю логику внутрь C2D, включая простой бизнес-код и интерфейсы. Это делает решение дорогим и громоздким. Лучше держать в C2D только те части, которые реально нуждаются в доступе к приватным данным.
Нет явной модели угроз. C2D снижает риски, но не отменяет их. Нужен документированный список угроз: кто может атаковать, какие данные нельзя видеть даже внутри job’а, какие лог-события запрещены.
Безлимитные job’ы. Если не поставить ограничения по времени, памяти и размерам вывода, можно получить неожиданные счета или DoS-сценарии. Лимиты на уровне C2D-конфигурации — must have.
Отсутствие аудит-трейла. Для регуляторов критично иметь журнал: какие алгоритмы, когда и кем запускались на данных. Ocean даёт базовый след в блокчейне, но логировать внутренние события узла тоже необходимо.
Путаница между C2D и TEE. Compute-to-Data — это архитектурный паттерн, TEE — аппаратный механизм. Они дополняют друг друга, но не заменяют: TEE защищает среду выполнения, C2D — схему доступа к данным и экономическую модель.

11. Чек-лист: как запустить RAG или обучение на приватных данных через Ocean

Определили, какие данные принципиально не могут покинуть периметр (PII, транзакции, медицинские записи).
Выбрали сценарий: RAG-ассистент, обучение модели, аналитические job’ы или их комбинация.
Нарисовали целевую архитектуру: какие части пайплайна внутри C2D, какие — снаружи.
Развернули Ocean Node/Compute-to-Data вокруг существующего хранилища данных и векторки.
Создали Data NFT и datatokens, настроили политики C2D (allowlist алгоритмов, лимиты ресурсов, аудит-лог).
Опубликовали алгоритмы как assets, контейнеризовали RAG/обучающие пайплайны.
Наладили мониторинг по ключевым метрикам: стоимость job’а, latency, error rate, качество ответов/моделей.
Сравнили итоговую стоимость и риски с альтернативами (облако, on-prem без Ocean, другие privacy-решения).

FAQ: 5 вопросов про Ocean Protocol и Compute-to-Data

Чем Compute-to-Data отличается от просто «облака с VPN»?

VPN или приватный VPC решают транспортный и сетевой уровень, но не задают экономику и модель доступа к данным. В Ocean данные формализованы как Data NFT + datatokens, а C2D-job — как транзакция с прозрачными правилами: кто, что и на каких условиях запускает на датасете. Это упрощает биллинг, кооперацию между организациями и аудит.

Можно ли реализовать RAG без переноса векторной базы внутрь C2D?

Да, если вы уверены в безопасности своей векторной базы и правовых основаниях её размещения. Однако в таком случае эмбеддинги и текст остаются за пределами C2D-периметра, что ослабляет преимущества модели. Для по-настоящему приватных сценариев лучше держать индексацию и retrieval внутри C2D.

Нужен ли свой маркетплейс, чтобы пользоваться C2D?

Не обязательно. Можно использовать публичные маркетплейсы Ocean или разворачивать приватный (через Ocean Market/Enterprise). Главное — чтобы блокчейн-уровень видел ваши Data NFT и algorithm assets. Но собственный маркетплейс удобен, если вы строите закрытую экосистему партнёров.

Можно ли комбинировать Ocean с другими privacy-технологиями (TEE, FHE, ZK)?

Да, и это естественный путь развития. Ocean изначально задуман как «зонт» над разными privacy-подходами: Compute-to-Data можно запускать внутри TEE-кластеров, поверх ZK-схем и других решений. Это усиливает гарантию того, что даже оператор узла не увидит содержимое job’а.

Как оценить, окупится ли проект на Ocean по сравнению с собственным кластером?

Сравните TCO: сколько стоит развёрнутый GPU-кластер (железо, лицензии, DevOps, энерго- и оперзатраты) против комбинированной модели «базовая инфраструктура + C2D-job’ы, оплата по факту». Для пилотов и ограниченных по объёму задач C2D часто оказывается дешевле; для очень крупных постоянных нагрузок выгоднее гибрид — часть задач на своём кластере, часть через Ocean.

Как работает Compute-to-Data в Ocean Protocol?

Compute-to-Data — это модель, при которой сырые данные не покидают инфраструктуру владельца. Вместо того чтобы копировать датасет к потребителю, Ocean запускает вычисления (контейнер с алгоритмом) рядом с данными. Владелец публикует датасет как Data NFT и включает режим C2D, потребитель загружает «algorithm asset» (Docker-образ с кодом), оплачивает job токенами OCEAN или datatokens, после чего Ocean Node выполняет задачу внутри доверенного окружения. Наружу возвращаются только результаты — обученные веса, отчёты, ответы RAG, — а доступ к самому датасету контролируется политиками владельца.

Ocean Protocol vs традиционные облачные решения для ML

Главное отличие Ocean от классического облака (AWS, GCP и т.п.) в том, что протокол изначально заточен под монетизацию и совместное использование данных между разными организациями. В облаке вы обычно переносите датасет к провайдеру и сами настраиваете доступ, VPC, биллинг и контракты. В Ocean данные остаются у владельца, доступ к ним описывается через Data NFT и datatokens, а Compute-to-Data формализует отношения «кто, что и на каких условиях» может запускать на этих данных. Это снижает риски утечек и облегчает кооперацию: компании могут обучать общие модели или строить RAG по закрытым базам, не собирая все данные в одном чужом облаке.

Стоимость использования Ocean Protocol для RAG

Стоимость RAG-решения на Ocean складывается из трёх компонентов: цены C2D-job (в OCEAN или datatokens), инфраструктурных расходов владельца узла (CPU/GPU, хранилище, сети) и gas-комиссий в базовой сети. Сам протокол не задаёт фиксированную цену: владелец датасета сам выставляет тарифы, а marketplace — свою комиссию. На практике для RAG по корпоративным данным логика обычно такая: дешёвые запросы (короткий retrieval, без обучения) оцениваются как недорогие job’ы, более тяжёлые задачи (массовая индексация, обучение новых эмбеддингов, fine-tuning) стоят дороже. Для планирования бюджета имеет смысл посчитать «цена одного RAG-запроса / одной переиндексации» и сравнить её с альтернативами — чистое облако, on-prem-кластер, другие privacy-решения.

Примеры использования Ocean Protocol в медицине

В медицине Ocean Protocol используют для безопасного обмена данными между клиниками, исследовательскими центрами и фармкомпаниями. Типичные кейсы: обучение моделей диагностики на МРТ/КТ-снимках и ЭКГ, расчёт риск-профилей пациентов, RAG-ассистенты для врачей, которые отвечают по локальным клиническим рекомендациям и историям болезни. Ключевой момент — больницы публикуют датасеты с включённым Compute-to-Data, исследователи присылают алгоритмы (обучение, inference, RAG-пайплайны), а вычисления идут внутри инфраструктуры клиники. Это помогает соблюдать требования по защите персональных данных и одновременно извлекать ценность из медицинских датасетов.

Как купить OCEAN токен для использования C2D

Чтобы оплачивать C2D-job’ы и операции с датасетами, нужны токены OCEAN и/или datatokens конкретных наборов данных. Обычно их получают через: (1) централизованные биржи — см. наш обзор «Централизованные биржи (CEX)», (2) децентрализованные биржи — см. «Децентрализованные биржи (DEX)», (3) участие в программах экосистемы Ocean (гранты, вознаграждения за предоставление ликвидности и т.д.). Важно учитывать местное регулирование: операции с токенами относятся к рисковым финансовым инструментам, курс OCEAN волатилен, а инфраструктура может попадать под ограничения в отдельных юрисдикциях. Для прод-проектов стоит заранее продумать юридическую модель и процедуры комплаенса.

Ключевые выводы:

Compute-to-Data позволяет обучать модели на приватных данных без их выгрузки
Идеально для RAG-систем с медицинскими и финансовыми данными
OCEAN токен используется для оплаты вычислений в сети

Полезные материалы

Оптимизация стоимости LLM и ML-пайплайнов — как считать бюджет RAG/обучения и где экономить.
Pinecone и Qdrant — материалы о векторных базах, которые можно использовать внутри C2D-окружения.

Материал носит исключительно информационный характер и не является индивидуальной инвестиционной рекомендацией (ФЗ-39). Криптовалюты не являются законным средством платежа в РФ (ФЗ-259).