Создаем AI-агента на Fetch.ai: RAG-поиск + ончейн-действия
16-11-2025, 17:41
Авторизуйтесь или зарегистрируйтесь, чтобы оценивать материалы, создавать записи и писать комментарии.
Авторизоваться© 2025 24k.ru. Все материалы носят исключительно информационный характер и не являются индивидуальной инвестиционной рекомендацией (ФЗ-39 «О рынке ценных бумаг»). Криптовалюты не являются законным средством платежа в РФ (ФЗ-259). Используя сайт, вы соглашаетесь с нашей Политикой конфиденциальности и использованием cookie.
Ocean Protocol Compute-to-Data (C2D) — это революционный подход для RAG-систем и машинного обучения на приватных данных. Вместо копирования медицинских, финансовых и корпоративных данных в облако, вычисления запускаются непосредственно у владельца данных. Это решает проблемы GDPR, HIPAA и корпоративной безопасности при работе с чувствительной информацией.
Ocean Protocol предлагает другой путь — Compute-to-Data (C2D). Вместо того чтобы вывозить данные к модели, мы отправляем вычисления к данным. Модели обучаются и выполняют запросы прямо там, где живут приватные датасеты, а наружу возвращается только результат. Это делает Ocean интересной платформой для RAG-чатботов по закрытым базам и для обучения моделей на чувствительных данных.
Общий обзор протокола, токена OCEAN и базовой архитектуры мы уже разбирали в вики-материале «Ocean Protocol: децентрализованный рынок данных». В этом гайде сфокусируемся именно на Compute-to-Data для RAG и обучения: архитектура, типичные кейсы, примерные бюджеты и практические советы для разработчика.
Ocean Protocol — открытый протокол для обмена и монетизации данных, построенный поверх Ethereum и совместимых сетей. Доступ к датасетам регулируется через Data NFT и datatokens (ERC-20), а рыночную инфраструктуру обеспечивают децентрализованные маркетплейсы.
Compute-to-Data — ключевая фича Ocean. Вместо прямой раздачи датасета потребителям реализуется сценарий:
Такой подход хорошо ложится на регуляторные рамки (GDPR и др.), потому что контроль над данными остаётся у их владельца, а доступ ограничивается вычислительными задачами с аудируемыми правилами.
Базовый RAG-стек выглядит красиво на диаграммах: документы складываются во векторное хранилище, LLM забирает релевантные куски и отвечает, не «забывая» про свежие данные. На практике у компаний с приватными данными возникает сразу несколько проблем:
С обучением ситуация ещё сложнее: нужно либо перевозить копию датасета в облако провайдера, либо строить дорогой on-prem кластер. Compute-to-Data как раз отвечает на эти боли: данные остаются там, где они уже лежат, а вы отправляете к ним только вычисления.
Упрощённо в C2D участвуют четыре роли:
Высокоуровневая схема типичной C2D-архитектуры для RAG/обучения выглядит так:
[Data Owner infra] ├─ Хранилище данных (DB / Data Lake) ├─ Векторное хранилище / фичи └─ Ocean Node (Compute-to-Data) ▲ | (доступ к данным только локально) | [Ocean Network / Marketplace] ├─ Data NFT + datatokens (доступ к датасету) └─ Algorithm assets (образы задач) [Data Consumer] ├─ Регистрирует алгоритм (контейнер для RAG или обучения) └─ Покупает compute-job за OCEAN/datatokens Поток: 1) Consumer → Ocean Network: запрос на compute-job. 2) Ocean Network → Ocean Node: оркестрация задачи. 3) Ocean Node запускает контейнер рядом с данными. 4) Результат (модель, эмбеддинги, отчёт) → Consumer. 5) Сырые данные никуда не выводятся.
Контроль доступа реализуется через Data NFT и datatokens, а также политики C2D-среды (allowlist алгоритмов, лимиты по ресурсам и др.). Маркетплейс выступает только точкой обнаружения и биллинга — он не хранит сами данные.
RAG-архитектуру можно разложить на четыре блока: ingestion (загрузка документов), индексация (эмбеддинги + векторное хранилище), retrieval (поиск по векторке) и генерация (LLM). Ocean позволяет сделать так, чтобы ingestion, индексация и retrieval выполнялись внутри C2D-среды, а наружу уходили только агрегированные результаты.
Подходит, когда вы хотите использовать внешний LLM-провайдер (или свой крупный кластер), но не готовы выносить документы:
Плюсы: эмбеддинги и полный текст никогда не уходят за периметр; можно комбинировать внутреннюю векторку с внешними моделями. Минус — сложнее реализовать end-to-end наблюдаемость: часть пайплайна скрыта внутри C2D.
Более жёсткий, но и более безопасный подход:
Такой сценарий востребован там, где чувствительны даже «анонимизированные» фрагменты: регуляторы всё чаще рассматривают эмбеддинги и промежуточные представления как потенциально восстанавливаемые.
Для обучения моделей C2D работает ещё очевиднее:
Дополнительно можно использовать аппаратные доверенные среды (TEE) и другие механизмы конфиденциальных вычислений — о них подробнее в отдельном гайде «Конфиденциальные вычисления и TEE». В сочетании с TEE C2D-подход позволяет строить RAG и обучение на уровне требований enterprise-безопасности.
Рассмотрим, чем C2D отличается от классических подходов к приватным данным.
| Подход | Где живут данные | Кто управляет доступом | Риск утечки | RAG по приватным данным | Обучение моделей |
|---|---|---|---|---|---|
| «Скопировать всё в облако» | У провайдера LLM/векторки | Провайдер + соглашения DPA | Высокий: компрометация аккаунта/облака = утечка | Просто реализуется, но плохо с комплаенсом | Удобно, но риски регуляторики и vendor lock-in |
| VPC/on-prem без C2D | Во внутреннем кластере компании | DevOps/безопасность компании | Средний: всё внутри периметра, но дорого и сложно | Хорошо, если есть ресурсы и компетенции | Возможно, но требует собственного GPU-кластера |
| Ocean Compute-to-Data | У data owner’а; данные не копируются | Data owner + политики C2D/маркетплейса | Низкий: наружу выходит только результат вычислений | Возможен RAG с retrieval внутри C2D и LLM внутри или снаружи | Обучение по приватным данным без вывоза датасета |
В реальных проектах часто комбинируют подходы: часть публичных и синтетических данных обучает модель в облаке, а приватные слои докручиваются через C2D-обучение или RAG-слой внутри инфраструктуры владельца данных.
Healthcare — один из первых таргетов Ocean. Платформа активно продвигает сценарии, где больницы и исследовательские центры делятся медицинскими датасетами (МРТ, ЭКГ, лабораторные показатели) через C2D, не раскрывая сами данные.
Пример пайплайна:
Ocean участвует в инициативах Open DeFi Alliance и продвигает идею безопасного обмена рыночными и пользовательскими данными между DeFi-проектами, фондами и брокерами.
Типичный кейс:
Сенсоры на заводах, в сетях «умного города», транспорте генерируют тонны данных. Они ценны для предиктивной аналитики, но часто используются только локально, а компании боятся делиться ими даже с подрядчиками.
С Ocean можно:
Ocean Enterprise — отдельный продукт для компаний и госструктур, позволяющий поднимать приватные data-экосистемы: несколько организаций делятся между собой данными через C2D, сохраняя контроль и соответствие комплаенсу.
В такой коалиции можно обучать общие модели (например, scoring для кредитных союзов или ESG-аналитику для цепочек поставок), не собирая все исходные данные в одном месте.
На практике сборка пайплайна выглядит так:
Архитектурно это хорошо сочетается с уже существующими RAG-фреймворками и векторными базами (Qdrant, Pinecone, Weaviate и др.) — вы просто переносите их внутрь C2D-окружения и управляетесь через Ocean как внешним контуром доступа.
Экономика Ocean строится вокруг токена OCEAN и datatokens. OCEAN используется для стейкинга, управления и оплаты операций в экосистеме, datatokens — как «пропуска» к конкретным датасетам.
На уровне смарт-контрактов сейчас действуют правила:
Цена токена OCEAN рыночная и плавающая. По данным крупных агрегаторов (CoinMarketCap, CoinGecko, Coinbase и др.) в 2025 году OCEAN торгуется примерно в районе $0,20–0,30 за токен (порядка $0,25 на момент подготовки материала, с суточными колебаниями). Конкретные значения важно уточнять по рыночным сводкам на момент расчётов.
Удобно мыслить бюджет так:
Важно: Ocean не навязывает конкретный тариф; каждая площадка и каждый data owner могут выстраивать свою модель монетизации. Для RAG-и обучающих пайплайнов это означает, что стоимость сильно зависит от: сложности задач (время работы контейнера), используемого железа, политики самого владельца данных.
VPN или приватный VPC решают транспортный и сетевой уровень, но не задают экономику и модель доступа к данным. В Ocean данные формализованы как Data NFT + datatokens, а C2D-job — как транзакция с прозрачными правилами: кто, что и на каких условиях запускает на датасете. Это упрощает биллинг, кооперацию между организациями и аудит.
Да, если вы уверены в безопасности своей векторной базы и правовых основаниях её размещения. Однако в таком случае эмбеддинги и текст остаются за пределами C2D-периметра, что ослабляет преимущества модели. Для по-настоящему приватных сценариев лучше держать индексацию и retrieval внутри C2D.
Не обязательно. Можно использовать публичные маркетплейсы Ocean или разворачивать приватный (через Ocean Market/Enterprise). Главное — чтобы блокчейн-уровень видел ваши Data NFT и algorithm assets. Но собственный маркетплейс удобен, если вы строите закрытую экосистему партнёров.
Да, и это естественный путь развития. Ocean изначально задуман как «зонт» над разными privacy-подходами: Compute-to-Data можно запускать внутри TEE-кластеров, поверх ZK-схем и других решений. Это усиливает гарантию того, что даже оператор узла не увидит содержимое job’а.
Сравните TCO: сколько стоит развёрнутый GPU-кластер (железо, лицензии, DevOps, энерго- и оперзатраты) против комбинированной модели «базовая инфраструктура + C2D-job’ы, оплата по факту». Для пилотов и ограниченных по объёму задач C2D часто оказывается дешевле; для очень крупных постоянных нагрузок выгоднее гибрид — часть задач на своём кластере, часть через Ocean.
Compute-to-Data — это модель, при которой сырые данные не покидают инфраструктуру владельца. Вместо того чтобы копировать датасет к потребителю, Ocean запускает вычисления (контейнер с алгоритмом) рядом с данными. Владелец публикует датасет как Data NFT и включает режим C2D, потребитель загружает «algorithm asset» (Docker-образ с кодом), оплачивает job токенами OCEAN или datatokens, после чего Ocean Node выполняет задачу внутри доверенного окружения. Наружу возвращаются только результаты — обученные веса, отчёты, ответы RAG, — а доступ к самому датасету контролируется политиками владельца.
Главное отличие Ocean от классического облака (AWS, GCP и т.п.) в том, что протокол изначально заточен под монетизацию и совместное использование данных между разными организациями. В облаке вы обычно переносите датасет к провайдеру и сами настраиваете доступ, VPC, биллинг и контракты. В Ocean данные остаются у владельца, доступ к ним описывается через Data NFT и datatokens, а Compute-to-Data формализует отношения «кто, что и на каких условиях» может запускать на этих данных. Это снижает риски утечек и облегчает кооперацию: компании могут обучать общие модели или строить RAG по закрытым базам, не собирая все данные в одном чужом облаке.
Стоимость RAG-решения на Ocean складывается из трёх компонентов: цены C2D-job (в OCEAN или datatokens), инфраструктурных расходов владельца узла (CPU/GPU, хранилище, сети) и gas-комиссий в базовой сети. Сам протокол не задаёт фиксированную цену: владелец датасета сам выставляет тарифы, а marketplace — свою комиссию. На практике для RAG по корпоративным данным логика обычно такая: дешёвые запросы (короткий retrieval, без обучения) оцениваются как недорогие job’ы, более тяжёлые задачи (массовая индексация, обучение новых эмбеддингов, fine-tuning) стоят дороже. Для планирования бюджета имеет смысл посчитать «цена одного RAG-запроса / одной переиндексации» и сравнить её с альтернативами — чистое облако, on-prem-кластер, другие privacy-решения.
В медицине Ocean Protocol используют для безопасного обмена данными между клиниками, исследовательскими центрами и фармкомпаниями. Типичные кейсы: обучение моделей диагностики на МРТ/КТ-снимках и ЭКГ, расчёт риск-профилей пациентов, RAG-ассистенты для врачей, которые отвечают по локальным клиническим рекомендациям и историям болезни. Ключевой момент — больницы публикуют датасеты с включённым Compute-to-Data, исследователи присылают алгоритмы (обучение, inference, RAG-пайплайны), а вычисления идут внутри инфраструктуры клиники. Это помогает соблюдать требования по защите персональных данных и одновременно извлекать ценность из медицинских датасетов.
Чтобы оплачивать C2D-job’ы и операции с датасетами, нужны токены OCEAN и/или datatokens конкретных наборов данных. Обычно их получают через: (1) централизованные биржи — см. наш обзор «Централизованные биржи (CEX)», (2) децентрализованные биржи — см. «Децентрализованные биржи (DEX)», (3) участие в программах экосистемы Ocean (гранты, вознаграждения за предоставление ликвидности и т.д.). Важно учитывать местное регулирование: операции с токенами относятся к рисковым финансовым инструментам, курс OCEAN волатилен, а инфраструктура может попадать под ограничения в отдельных юрисдикциях. Для прод-проектов стоит заранее продумать юридическую модель и процедуры комплаенса.
Материал носит исключительно информационный характер и не является индивидуальной инвестиционной рекомендацией (ФЗ-39). Криптовалюты не являются законным средством платежа в РФ (ФЗ-259).
16-11-2025, 17:41
16-11-2025, 17:22
22-10-2025, 20:57
16-11-2025, 15:49
16-11-2025, 18:54
Комментариев нет