QVAC Genesis I — крупномасштабный синтетический датасет для обучения языковых моделей (LLM) с акцентом на STEM-области (математика, физика, биология, медицина). Набор подготовлен инициативой QVAC в составе Tether Data и включает ~41 млрд текстовых токенов — на сегодня один из самых больших публичных синтетических массивов для предобучения и доменного дообучения моделей, ориентированных на рассуждение и решение задач.
Коротко о QVAC Genesis I: что важно знать
- Объём и профиль: ~41B токенов синтетических данных, с прицельным покрытием образовательных STEM-доменов (школьный/вузовский и профессиональный уровни).
- Цель: ускорить развитие открытых моделей, которым не хватает «чистой» учебной выборки и задач на рассуждение; сократить разрыв с закрытыми проприетарными системами.
- Методология: четырёхступенчатый pipeline — от отбора «семян» (seed-корпуса) и масштабной генерации QA до анализа ошибок и многостилевой «обучающей» разметки.
- Валидация: сравнение на образовательных бенчмарках (в т.ч. MMLU) показывает преимущество над актуальными синтетическими наборами общего профиля.
- Связанные инструменты: QVAC Workbench — приложение для локального (on-device) ИИ на десктопе и смартфоне, с приватными сессиями и режимом «delegated inference» (подключение мобильного и настольного клиента для усиления вычислений).
Зачем рынку ещё один датасет
Проблема №1 — качество учебных корпусов. Открытым моделям часто не хватает структурированных, чистых и «педагогически полезных» данных. Сырые веб-скрейпы затягивают мусор и стилистический шум, а «тонкие» доменные сегменты (медицина, высшая математика, физика) покрыты неровно.
Проблема №2 — стоимость и доступ. Генерация и валидация крупных синтетических корпусов требуют вычислительных и экспертных ресурсов, которые обычно доступны только Big Tech и крупным лабораториям. Это снижает воспроизводимость открытых результатов и тормозит прогресс в академии.
Ответ Genesis I. Набор делает акцент на:
- образовательной фокусировке (не «всё обо всём», а структурные STEM-домены и уровни сложности);
- методическом контроле качества (классификация, фильтрация, целевая генерация, «обучение на ошибках»);
- публичном доступе для исследователей, что облегчает воспроизводимость экспериментов и ускоряет выход прикладных моделей.
Архитектура и методология
Процесс построен так, чтобы получать не просто большой объём «похожего на текст» массива, а педагогически осмысленные задания и объяснения, которые тренируют рассуждение.
1) Seed-корпус (отбор источников)
- Из публичных веб-корпусов выделяются «семена» по целевым доменам (математика, физика, биология, медицина).
- На входе применяются критерии качества и фильтры, включая классификаторы, обученные на верифицированных разметках, чтобы убрать «шумные» страницы и стилевой мусор.
- Итог — срезы по 9 поддоменам: от школьной биологии/математики до вузовского и профессионального уровня медицины/физики.
2) Масштабная генерация QA (Scaling QA)
- На основе «семян» генерируются мультивыборные задания с ровным распределением сложности и тем, чтобы покрыть программы обучения.
- Для каждого вопроса строятся варианты ответов и «целевой» правильный ответ.
3) Ответы модели и извлечение ошибок
- SOTA-модель отвечает на вопросы; LLM-as-a-Judge извлекает финальный ответ из развёрнутой реакции и сравнивает с правильным вариантом.
- Случаи, где модель ошиблась, идут дальше: именно они дают материал для «обучения на ошибках».
4) Failure Analysis (многостилевая разметка)
- По «ошибочным» случаям генерируются четыре стилистики учебного контента: учебник, Q&A, веб-объяснение и диалог-наставничество.
- В каждой записи фиксируются: краткий разбор, где модель «споткнулась», и корректное решение с пояснениями.
Почему это работает для рассуждений
- Модели системно видят типовые ловушки и корректные логические цепочки.
- Баланс доменов и уровней сложности даёт ровную «диету» для предобучения/дообучения, сокращая перекосы и «натаскивание» на один стиль.
Профиль и объём набора
- Объём: ≈41 млрд токенов синтетического текста.
- Дисциплины: математика (школьная/вузовская), физика (школьная/вузовская/концептуальная), биология (школа/вуз), медицина (вуз/профессиональная).
- Форматы: классифицированные QA-записи, объясняющие «учебные» записи в 4 стилях, сопутствующие метаданные.
- Назначение: предобучение и дообучение базовых LLM, особенно в образовательных/научных сценариях, где требуется объяснимость и устойчивая логика решения.
Как это валидировалось
Genesis I оценивали на образовательных бенчмарках (в т.ч. MMLU и узкоспециализированных поднаборах), сравнивая с актуальными синтетическими наборами общего назначения. В отчёте показано, что на большинстве предметных направлений Genesis I превосходит альтернативы, особенно Cosmopedia (публичный синтетический набор для предобучения), за исключением отдельных сегментов (например, college-physics), где результаты сопоставимы. Важный эффект — рост качества именно в задачах на рассуждение, а не только в предсказании следующего токена.
QVAC Workbench: локальный ИИ без «облака»
Вместе с датасетом представлен QVAC Workbench — кроссплатформенное приложение для локального (on-device) запуска ИИ-моделей и приватной работы с ними.
- Платформы: Windows, macOS, Linux и Android (iOS — в процессе выпуска).
- Модели: поддержка популярных LLM и мультимоделей (Llama, Qwen и др.), а также речевого стека (например, Whisper).
- Приватность по умолчанию: чаты и данные не покидают устройство; без передачи в облако.
- Delegated Inference: настольный клиент может «подключаться» к мобильному и использовать ресурсы домашней/офисной рабочей станции — удобный гибрид для тяжёлых задач.
Практически это означает, что исследователь может:
- дообучать/адаптировать модель на сегменте Genesis I и дальше эксплуатировать её локально (в учебном классе, лаборатории, на персональном ПК);
- собирать повторяемые пайплайны обучения/инференса без передачи чувствительных данных сторонним сервисам.
Где применить Genesis I
- Образование и EdTech: генерация и проверка заданий, помощники-тьюторы, «тонкий» разбор ошибок ученика со стилями объяснений, адаптация к программе курса.
- Медицина/биология (не для клинических решений): учебные симуляции, протоколы разбора задач, структурирование литературы, создание рубрикаторов знаний.
- Инженерия и наука: постановка задач и проверка решений, прототипы ассистентов для лабораторий, генерация вариативных тренировочных наборов.
- Ресёрч в LLM: исследования по «обучению на ошибках», методики LLM-as-a-Judge, эксперименты с доменной диетой и смешанными корпусами.
Важно: Genesis I — синтетический образовательный набор. Он не заменяет отраслевые датасеты с реальными данными там, где критичны точность и ответственность (медицина, инженерная безопасность и т.п.). Используйте «сухие коридоры» и офлайн-валидации.
Как начать (workflow)
1. Планирование вычислений
- Оцените целевую «диету токенов» (tokens-per-second * часы * GPU-узлы).
- Определите долю Genesis I в смеси (например, 30–60%), добавив «реальные» корпусные срезы или инструкции для пост-тюнинга.
2. Загрузка и подготовка
- Получите шардированный датасет; проверьте контрольные суммы.
- Настройте data-loader с поддержкой повторяемых батчей, балансом доменов и уровней.
3. Обучение
- Для предобучения — равномерный сэмплинг доменов; для дообучения — curriculum по сложности.
- Логируйте метрики: exact-match в QA, error-rate, «no-answer/multi-answer», предметные сабсеты.
4. Оценка и релизы
- Прогоняйте MMLU и задачи по доменам; сохраняйте артефакты и протоколы.
- Открывайте веса/логи там, где это безопасно; фиксируйте reproducibility (версии кода/данных).
5. Деплой и эксплуатация
- Локальный деплой через QVAC Workbench (приватные сессии, без облака).
- Для гибрида — включайте delegated inference и вечерние окна инференса на рабочей станции.
Сравнение с альтернативами
- Cosmopedia (HF) — широкий по темам синтетический набор с упором на общие знания; Genesis I выигрывает на STEM-поднаборах и задачах рассуждения, закрывая образовательные «дыры».
- Phi-подход (Microsoft) — ранний «маяк» синтетического предобучения: показал ценность учебной синтетики; Genesis I идёт дальше в сторону систематической ошибкоориентированной генерации и многостилевой разметки.
Ограничения и этика
- Синтетика ≠ реальность. Даже при строгой фильтрации возможны стилистические смещения, артефакты и «мыльная опера» знаний. В критичных кейсах обязательно добавляйте реальные доменные данные.
- Лицензии/права. Следуйте условиям распространения набора и ограничений применения (исследования/продукт), уважайте лицензии сопутствующих источников и инструментов.
- Ответственное использование. В медицине, биологии, инженерии модель не должна выдавать «окончательные» рекомендации без экспертной проверки; используйте набор для обучения рассуждению, а не для замещения специалиста.
FAQ
Чем Genesis I отличается от «обычных» веб-корпусов? Сфокусированной образовательной структурой и «обучением на ошибках». Вместо бесформенного веб-шума — ровные STEM-домены, многостилевые объяснения и QA, таргетно выданные там, где модели чаще ошибаются.
Можно ли обучать только на Genesis I? Для учебных и исследовательских задач — да. Для продакшн-моделей лучше смешивать с реальными/инструкционными данными и соблюдать предметные требования.
Где запускать инференс? Локально через QVAC Workbench: приватные диалоги и файлы остаются на устройстве; при необходимости подключайте «delegated inference» к более мощному ПК.
Подходит ли набор для мультимодальности? Genesis I — текстовый. Для мультимодальных задач добавляйте изображения/аудио из совместимых наборов и выравнивайте учебные цели.
