QVAC Genesis I — 41 млрд токенов для STEM-ИИ (Tether)

QVAC Genesis I — крупномасштабный синтетический датасет для обучения языковых моделей (LLM) с акцентом на STEM-области (математика, физика, биология, медицина). Набор подготовлен инициативой QVAC в составе Tether Data и включает ~41 млрд текстовых токенов — на сегодня один из самых больших публичных синтетических массивов для предобучения и доменного дообучения моделей, ориентированных на рассуждение и решение задач.

QVAC Genesis I

Коротко о QVAC Genesis I: что важно знать

  • Объём и профиль: ~41B токенов синтетических данных, с прицельным покрытием образовательных STEM-доменов (школьный/вузовский и профессиональный уровни).
  • Цель: ускорить развитие открытых моделей, которым не хватает «чистой» учебной выборки и задач на рассуждение; сократить разрыв с закрытыми проприетарными системами.
  • Методология: четырёхступенчатый pipeline — от отбора «семян» (seed-корпуса) и масштабной генерации QA до анализа ошибок и многостилевой «обучающей» разметки.
  • Валидация: сравнение на образовательных бенчмарках (в т.ч. MMLU) показывает преимущество над актуальными синтетическими наборами общего профиля.
  • Связанные инструменты: QVAC Workbench — приложение для локального (on-device) ИИ на десктопе и смартфоне, с приватными сессиями и режимом «delegated inference» (подключение мобильного и настольного клиента для усиления вычислений).

Зачем рынку ещё один датасет

Проблема №1 — качество учебных корпусов. Открытым моделям часто не хватает структурированных, чистых и «педагогически полезных» данных. Сырые веб-скрейпы затягивают мусор и стилистический шум, а «тонкие» доменные сегменты (медицина, высшая математика, физика) покрыты неровно.

Проблема №2 — стоимость и доступ. Генерация и валидация крупных синтетических корпусов требуют вычислительных и экспертных ресурсов, которые обычно доступны только Big Tech и крупным лабораториям. Это снижает воспроизводимость открытых результатов и тормозит прогресс в академии.

Ответ Genesis I. Набор делает акцент на:

  • образовательной фокусировке (не «всё обо всём», а структурные STEM-домены и уровни сложности);
  • методическом контроле качества (классификация, фильтрация, целевая генерация, «обучение на ошибках»);
  • публичном доступе для исследователей, что облегчает воспроизводимость экспериментов и ускоряет выход прикладных моделей.

Архитектура и методология

Процесс построен так, чтобы получать не просто большой объём «похожего на текст» массива, а педагогически осмысленные задания и объяснения, которые тренируют рассуждение.

1) Seed-корпус (отбор источников)

  • Из публичных веб-корпусов выделяются «семена» по целевым доменам (математика, физика, биология, медицина).
  • На входе применяются критерии качества и фильтры, включая классификаторы, обученные на верифицированных разметках, чтобы убрать «шумные» страницы и стилевой мусор.
  • Итог — срезы по 9 поддоменам: от школьной биологии/математики до вузовского и профессионального уровня медицины/физики.

2) Масштабная генерация QA (Scaling QA)

  • На основе «семян» генерируются мультивыборные задания с ровным распределением сложности и тем, чтобы покрыть программы обучения.
  • Для каждого вопроса строятся варианты ответов и «целевой» правильный ответ.

3) Ответы модели и извлечение ошибок

  • SOTA-модель отвечает на вопросы; LLM-as-a-Judge извлекает финальный ответ из развёрнутой реакции и сравнивает с правильным вариантом.
  • Случаи, где модель ошиблась, идут дальше: именно они дают материал для «обучения на ошибках».

4) Failure Analysis (многостилевая разметка)

  • По «ошибочным» случаям генерируются четыре стилистики учебного контента: учебник, Q&A, веб-объяснение и диалог-наставничество.
  • В каждой записи фиксируются: краткий разбор, где модель «споткнулась», и корректное решение с пояснениями.

Почему это работает для рассуждений

  • Модели системно видят типовые ловушки и корректные логические цепочки.
  • Баланс доменов и уровней сложности даёт ровную «диету» для предобучения/дообучения, сокращая перекосы и «натаскивание» на один стиль.

Профиль и объём набора

  • Объём: ≈41 млрд токенов синтетического текста.
  • Дисциплины: математика (школьная/вузовская), физика (школьная/вузовская/концептуальная), биология (школа/вуз), медицина (вуз/профессиональная).
  • Форматы: классифицированные QA-записи, объясняющие «учебные» записи в 4 стилях, сопутствующие метаданные.
  • Назначение: предобучение и дообучение базовых LLM, особенно в образовательных/научных сценариях, где требуется объяснимость и устойчивая логика решения.

Как это валидировалось

Genesis I оценивали на образовательных бенчмарках (в т.ч. MMLU и узкоспециализированных поднаборах), сравнивая с актуальными синтетическими наборами общего назначения. В отчёте показано, что на большинстве предметных направлений Genesis I превосходит альтернативы, особенно Cosmopedia (публичный синтетический набор для предобучения), за исключением отдельных сегментов (например, college-physics), где результаты сопоставимы. Важный эффект — рост качества именно в задачах на рассуждение, а не только в предсказании следующего токена.

QVAC Workbench: локальный ИИ без «облака»

Вместе с датасетом представлен QVAC Workbench — кроссплатформенное приложение для локального (on-device) запуска ИИ-моделей и приватной работы с ними.

  • Платформы: Windows, macOS, Linux и Android (iOS — в процессе выпуска).
  • Модели: поддержка популярных LLM и мультимоделей (Llama, Qwen и др.), а также речевого стека (например, Whisper).
  • Приватность по умолчанию: чаты и данные не покидают устройство; без передачи в облако.
  • Delegated Inference: настольный клиент может «подключаться» к мобильному и использовать ресурсы домашней/офисной рабочей станции — удобный гибрид для тяжёлых задач.

Практически это означает, что исследователь может:

  • дообучать/адаптировать модель на сегменте Genesis I и дальше эксплуатировать её локально (в учебном классе, лаборатории, на персональном ПК);
  • собирать повторяемые пайплайны обучения/инференса без передачи чувствительных данных сторонним сервисам.

Где применить Genesis I

  • Образование и EdTech: генерация и проверка заданий, помощники-тьюторы, «тонкий» разбор ошибок ученика со стилями объяснений, адаптация к программе курса.
  • Медицина/биология (не для клинических решений): учебные симуляции, протоколы разбора задач, структурирование литературы, создание рубрикаторов знаний.
  • Инженерия и наука: постановка задач и проверка решений, прототипы ассистентов для лабораторий, генерация вариативных тренировочных наборов.
  • Ресёрч в LLM: исследования по «обучению на ошибках», методики LLM-as-a-Judge, эксперименты с доменной диетой и смешанными корпусами.
Важно: Genesis I — синтетический образовательный набор. Он не заменяет отраслевые датасеты с реальными данными там, где критичны точность и ответственность (медицина, инженерная безопасность и т.п.). Используйте «сухие коридоры» и офлайн-валидации.

Как начать (workflow)

1. Планирование вычислений

  • Оцените целевую «диету токенов» (tokens-per-second * часы * GPU-узлы).
  • Определите долю Genesis I в смеси (например, 30–60%), добавив «реальные» корпусные срезы или инструкции для пост-тюнинга.

2. Загрузка и подготовка

  • Получите шардированный датасет; проверьте контрольные суммы.
  • Настройте data-loader с поддержкой повторяемых батчей, балансом доменов и уровней.

3. Обучение

  • Для предобучения — равномерный сэмплинг доменов; для дообучения — curriculum по сложности.
  • Логируйте метрики: exact-match в QA, error-rate, «no-answer/multi-answer», предметные сабсеты.

4. Оценка и релизы

  • Прогоняйте MMLU и задачи по доменам; сохраняйте артефакты и протоколы.
  • Открывайте веса/логи там, где это безопасно; фиксируйте reproducibility (версии кода/данных).

5. Деплой и эксплуатация

  • Локальный деплой через QVAC Workbench (приватные сессии, без облака).
  • Для гибрида — включайте delegated inference и вечерние окна инференса на рабочей станции.

Сравнение с альтернативами

  • Cosmopedia (HF) — широкий по темам синтетический набор с упором на общие знания; Genesis I выигрывает на STEM-поднаборах и задачах рассуждения, закрывая образовательные «дыры».
  • Phi-подход (Microsoft) — ранний «маяк» синтетического предобучения: показал ценность учебной синтетики; Genesis I идёт дальше в сторону систематической ошибкоориентированной генерации и многостилевой разметки.

Ограничения и этика

  • Синтетика ≠ реальность. Даже при строгой фильтрации возможны стилистические смещения, артефакты и «мыльная опера» знаний. В критичных кейсах обязательно добавляйте реальные доменные данные.
  • Лицензии/права. Следуйте условиям распространения набора и ограничений применения (исследования/продукт), уважайте лицензии сопутствующих источников и инструментов.
  • Ответственное использование. В медицине, биологии, инженерии модель не должна выдавать «окончательные» рекомендации без экспертной проверки; используйте набор для обучения рассуждению, а не для замещения специалиста.

FAQ

Чем Genesis I отличается от «обычных» веб-корпусов? Сфокусированной образовательной структурой и «обучением на ошибках». Вместо бесформенного веб-шума — ровные STEM-домены, многостилевые объяснения и QA, таргетно выданные там, где модели чаще ошибаются.

Можно ли обучать только на Genesis I? Для учебных и исследовательских задач — да. Для продакшн-моделей лучше смешивать с реальными/инструкционными данными и соблюдать предметные требования.

Где запускать инференс? Локально через QVAC Workbench: приватные диалоги и файлы остаются на устройстве; при необходимости подключайте «delegated inference» к более мощному ПК.

Подходит ли набор для мультимодальности? Genesis I — текстовый. Для мультимодальных задач добавляйте изображения/аудио из совместимых наборов и выравнивайте учебные цели.

См. также

Task Runner