SEED-NET: Self-Evolving Expert Domain Network
Самомодифицирующиеся нейросети с динамической архитектурой — от идеи до 23 экспериментальных фаз на одной RTX 4090.
Что это
SEED-NET — исследовательский проект, посвящённый вопросу: можно ли научить нейросеть расширять саму себя, не ломая то, что она уже умеет?
Архитектура строится на трёх принципах: 1. Замороженный backbone — базовая модель (Qwen 2.5 3B) остаётся нетронутой 2. Domain-specific MoE experts — лёгкие модули-эксперты подключаются к выбранным слоям 3. Обучаемый маршрутизатор — решает, когда направить токен к эксперту, а когда оставить backbone работать самостоятельно
Ключевое свойство: hot-plug — подключение нового эксперта с 0.000% деградацией на задачах, которые решал backbone до модификации.
Главные результаты
| Открытие | Фаза | Суть |
|---|---|---|
| Перплексия ≠ качество | 16–18 | 31% улучшение PPL → всего +0.29pp MMLU. На 3B масштабе эксперты на сырых текстах ухудшают GSM8K на −8.6pp |
| Самодистилляция — прорыв | 19 | Тот же MoE, но обученный на собственных CoT-решениях модели: +9.7pp разворот (от −8.6pp до +1.1pp) |
| Качество > количества | 19–21 | 119K токенов правильных решений > 4M токенов сырого текста. Diverse sampling ухудшает результат |
| Логарифмическая траектория | 20–22 | Итеративный self-improvement работает, но с убывающей отдачей. При надёжном измерении (std=0.61pp) цикл выходит на плато |
| Warm-start = переобучение | 22 | PPL улучшается (1.58→1.36), а GSM8K деградирует (76.4%→71.6%). Метрика обучения обманывает |
| Label smoothing катастрофичен | 21 | −9pp на reasoning-задачах. «Уверенность — не баг, а фича» |
| Hot-plug идеален на всех масштабах | 15–18 | 0.000% деградации от GPT-2 124M до Qwen 2.5 3B |
Масштабирование через backbones
| Backbone | Параметры | PPL improvement | Router gap | Downstream | Hot-plug |
|---|---|---|---|---|---|
| GPT-2 | 124M | 35.6% | 6.6% | — | — |
| Pythia | 410M | 30.3% | 5.9% | — | 0.000% |
| Pythia | 1B | 28.0% | 3.2% | +0.29pp MMLU | 0.000% |
| Qwen 2.5 | 3B | 10.5% | 0.4% | +1.1pp GSM8K* | — |
* С self-distillation (Phase 19). Без неё: −8.6pp.
Структура проекта
llm-analisis/
├── seed-net/ # Эксперименты: 23 фазы, 145 Python-скриптов
│ ├── phase1..phase6/ # CIFAR-100: базовые механизмы роста
│ ├── phase7a..phase13/ # CIFAR-100: MoE, routing, pruning, lifecycle
│ ├── phase14..phase17/ # NLP: GPT-2 → Pythia-410M → Pythia-1B
│ ├── phase18/ # Qwen 2.5 3B + 4-domain MoE
│ ├── phase19/ # Self-generated CoT (прорыв)
│ ├── phase20..phase22/ # Self-improvement loop, reproducibility
│ └── phase23/ # GRPO, расширенные эксперименты
├── reports/ # 49 аналитических отчётов (4 волны исследования)
├── papers/ # 31 HTML — сохранённые статьи (MoE, NCA, progressive training)
├── requirements.txt # Зависимости
└── LICENSE # AGPL-3.0
Навигация по фазам
Каждая фаза содержит:
PHASE_N_RESULTS.md— итоговый отчёт с таблицами, выводами, вердиктами (GO / PARTIAL / NO-GO)train_exp*.py— скрипты экспериментов (запускаются независимо)results_*.json— машиночитаемые результатыcheckpoint_*.pt— контрольные точки (исключены из git, см..gitignore)
Ключевые точки входа:
- reports/MASTER-SUMMARY.md — мастер-отчёт по всему исследованию
- seed-net/phase19/PHASE_19_RESULTS.md — самодистилляция (главный прорыв)
- seed-net/phase22/PHASE_22_RESULTS.md — воспроизводимость и финальные выводы
Быстрый старт
Требования
- Python 3.10+
- NVIDIA GPU с ≥16 GB VRAM (тестировалось на RTX 4090 Laptop)
- CUDA 12.x
Установка
git clone git@gitflic.ru:borisovai/seed-net.git llm-analisis
cd llm-analisis
python -m venv venv
source venv/bin/activate # Linux/Mac
# venv\Scripts\activate # Windows
pip install -r requirements.txt
Запуск эксперимента
Каждый скрипт автономен — загружает модель, данные, обучает, оценивает и сохраняет результаты:
# Пример: самодистилляция (Phase 19a, ~40 мин на RTX 4090)
cd seed-net/phase19
python -u train_exp19a.py
# Результат: results_exp19a.json + checkpoint_exp19a.pt
Флаг -u обязателен для unbuffered output при фоновом запуске.
Хронология исследования
CIFAR-100 (Phases 1–13)
Валидация базовых механизмов на визуальной задаче:
- Phase 7a: Cosine LR = +7.25pp. GO
- Phase 7b: Aux losses всегда вредят (−11% to −27%). NO-GO
- Phase 10: Growth + MoE = 73.53%. STRONG GO
- Phase 11: Independent MoE = 74.53% (рекорд CIFAR-100)
- Phase 13: Routing решён, но паттерны CIFAR-100 не переносятся на NLP
NLP (Phases 14–17)
Переход к языковым моделям, multi-domain обучение:
- Phase 14: GPT-2 124M + 4 домена. PPL improvement 35.6%
- Phase 15: Pythia-410M + 6 доменов. Hot-plug идеален. STRONG GO
- Phase 16: Pythia-1B + 8 доменов. Router gap 3.2%. GO
- Phase 17: Downstream + lifecycle. PPL ≠ accuracy. PARTIAL
Масштаб 3B (Phases 18–23)
Qwen 2.5 3B — проверка на реальном масштабе:
- Phase 18: Эксперты на сырых текстах: PPL −10.5%, но GSM8K −8.6pp
- Phase 19: Самодистилляция через CoT: GSM8K +1.1pp. Прорыв
- Phase 20: Self-improvement loop: CoT 85.1%→89.1%, GSM8K 75.5%→76.0%
- Phase 21: Оптимизация: wd=0.05 = +3pp, label smoothing = −9pp
- Phase 22: Воспроизводимость: std=0.61pp. Warm-start деградирует, cold-start — плато
- Phase 23: GRPO и расширенные эксперименты
Общее время GPU: ~97.5 часов
Технологический стек
- PyTorch 2.10+ — обучение и инференс
- Hugging Face Transformers 5.2+ — backbone-модели и токенизаторы
- Hugging Face Datasets — загрузка бенчмарков (GSM8K, MMLU, CIFAR-100)
- NumPy — вспомогательные вычисления
Проект намеренно не использует тяжёлые фреймворки (DeepSpeed, FSDP, Megatron) — все эксперименты воспроизводимы на одной потребительской GPU.
Ссылки
- reports/MASTER-SUMMARY.md — обзор 200+ проанализированных работ
- seed-net/EXPERT_PANEL_PHASE19.md — ревью Phase 19
- seed-net/EXPERT_PANEL_PHASE21.md — ревью Phase 21
Лицензия
GNU Affero General Public License v3.0
English Summary
SEED-NET (Self-Evolving Expert Domain Network) explores dynamic neural network architectures where a frozen backbone model is extended with domain-specific Mixture-of-Experts modules and a learned router.
Key findings across 23 experimental phases:
- Perplexity improvements don’t transfer to downstream tasks at scale (31% PPL gain = −8.6pp GSM8K on 3B)
- Self-distillation on model’s own Chain-of-Thought solutions fixes the problem (+9.7pp swing)
- Hot-plug capability works perfectly (0.000% degradation) from 124M to 3B parameters
- Self-improvement loops follow logarithmic trajectories and plateau with reliable measurement
- All experiments reproducible on a single RTX 4090 (16 GB VRAM), ~97.5 GPU-hours total
Tech stack: PyTorch, Hugging Face Transformers, Datasets. No heavy distributed frameworks.
License: AGPL-3.0