SEED-NET: Self-Evolving Expert Domain Network

Самомодифицирующиеся нейросети с динамической архитектурой — от идеи до 23 экспериментальных фаз на одной RTX 4090.

Что это

SEED-NET — исследовательский проект, посвящённый вопросу: можно ли научить нейросеть расширять саму себя, не ломая то, что она уже умеет?

Архитектура строится на трёх принципах: 1. Замороженный backbone — базовая модель (Qwen 2.5 3B) остаётся нетронутой 2. Domain-specific MoE experts — лёгкие модули-эксперты подключаются к выбранным слоям 3. Обучаемый маршрутизатор — решает, когда направить токен к эксперту, а когда оставить backbone работать самостоятельно

Ключевое свойство: hot-plug — подключение нового эксперта с 0.000% деградацией на задачах, которые решал backbone до модификации.

Главные результаты

Открытие	Фаза	Суть
Перплексия ≠ качество	16–18	31% улучшение PPL → всего +0.29pp MMLU. На 3B масштабе эксперты на сырых текстах ухудшают GSM8K на −8.6pp
Самодистилляция — прорыв	19	Тот же MoE, но обученный на собственных CoT-решениях модели: +9.7pp разворот (от −8.6pp до +1.1pp)
Качество > количества	19–21	119K токенов правильных решений > 4M токенов сырого текста. Diverse sampling ухудшает результат
Логарифмическая траектория	20–22	Итеративный self-improvement работает, но с убывающей отдачей. При надёжном измерении (std=0.61pp) цикл выходит на плато
Warm-start = переобучение	22	PPL улучшается (1.58→1.36), а GSM8K деградирует (76.4%→71.6%). Метрика обучения обманывает
Label smoothing катастрофичен	21	−9pp на reasoning-задачах. «Уверенность — не баг, а фича»
Hot-plug идеален на всех масштабах	15–18	0.000% деградации от GPT-2 124M до Qwen 2.5 3B

Масштабирование через backbones

Backbone	Параметры	PPL improvement	Router gap	Downstream	Hot-plug
GPT-2	124M	35.6%	6.6%	—	—
Pythia	410M	30.3%	5.9%	—	0.000%
Pythia	1B	28.0%	3.2%	+0.29pp MMLU	0.000%
Qwen 2.5	3B	10.5%	0.4%	+1.1pp GSM8K*	—

* С self-distillation (Phase 19). Без неё: −8.6pp.

Структура проекта

llm-analisis/
├── seed-net/               # Эксперименты: 23 фазы, 145 Python-скриптов
│   ├── phase1..phase6/     #   CIFAR-100: базовые механизмы роста
│   ├── phase7a..phase13/   #   CIFAR-100: MoE, routing, pruning, lifecycle
│   ├── phase14..phase17/   #   NLP: GPT-2 → Pythia-410M → Pythia-1B
│   ├── phase18/            #   Qwen 2.5 3B + 4-domain MoE
│   ├── phase19/            #   Self-generated CoT (прорыв)
│   ├── phase20..phase22/   #   Self-improvement loop, reproducibility
│   └── phase23/            #   GRPO, расширенные эксперименты
├── reports/                # 49 аналитических отчётов (4 волны исследования)
├── papers/                 # 31 HTML — сохранённые статьи (MoE, NCA, progressive training)
├── requirements.txt        # Зависимости
└── LICENSE                 # AGPL-3.0

Навигация по фазам

Каждая фаза содержит:

PHASE_N_RESULTS.md — итоговый отчёт с таблицами, выводами, вердиктами (GO / PARTIAL / NO-GO)
train_exp*.py — скрипты экспериментов (запускаются независимо)
results_*.json — машиночитаемые результаты
checkpoint_*.pt — контрольные точки (исключены из git, см. .gitignore)

Ключевые точки входа:

reports/MASTER-SUMMARY.md — мастер-отчёт по всему исследованию
seed-net/phase19/PHASE_19_RESULTS.md — самодистилляция (главный прорыв)
seed-net/phase22/PHASE_22_RESULTS.md — воспроизводимость и финальные выводы

Быстрый старт

Требования

Python 3.10+
NVIDIA GPU с ≥16 GB VRAM (тестировалось на RTX 4090 Laptop)
CUDA 12.x

Установка

git clone git@gitflic.ru:borisovai/seed-net.git llm-analisis
cd llm-analisis
python -m venv venv
source venv/bin/activate  # Linux/Mac
# venv\Scripts\activate   # Windows
pip install -r requirements.txt

Запуск эксперимента

Каждый скрипт автономен — загружает модель, данные, обучает, оценивает и сохраняет результаты:

# Пример: самодистилляция (Phase 19a, ~40 мин на RTX 4090)
cd seed-net/phase19
python -u train_exp19a.py
# Результат: results_exp19a.json + checkpoint_exp19a.pt

Флаг -u обязателен для unbuffered output при фоновом запуске.

Хронология исследования

CIFAR-100 (Phases 1–13)

Валидация базовых механизмов на визуальной задаче:

Phase 7a: Cosine LR = +7.25pp. GO
Phase 7b: Aux losses всегда вредят (−11% to −27%). NO-GO
Phase 10: Growth + MoE = 73.53%. STRONG GO
Phase 11: Independent MoE = 74.53% (рекорд CIFAR-100)
Phase 13: Routing решён, но паттерны CIFAR-100 не переносятся на NLP

NLP (Phases 14–17)

Переход к языковым моделям, multi-domain обучение:

Phase 14: GPT-2 124M + 4 домена. PPL improvement 35.6%
Phase 15: Pythia-410M + 6 доменов. Hot-plug идеален. STRONG GO
Phase 16: Pythia-1B + 8 доменов. Router gap 3.2%. GO
Phase 17: Downstream + lifecycle. PPL ≠ accuracy. PARTIAL

Масштаб 3B (Phases 18–23)

Qwen 2.5 3B — проверка на реальном масштабе:

Phase 18: Эксперты на сырых текстах: PPL −10.5%, но GSM8K −8.6pp
Phase 19: Самодистилляция через CoT: GSM8K +1.1pp. Прорыв
Phase 20: Self-improvement loop: CoT 85.1%→89.1%, GSM8K 75.5%→76.0%
Phase 21: Оптимизация: wd=0.05 = +3pp, label smoothing = −9pp
Phase 22: Воспроизводимость: std=0.61pp. Warm-start деградирует, cold-start — плато
Phase 23: GRPO и расширенные эксперименты

Общее время GPU: ~97.5 часов

Технологический стек

PyTorch 2.10+ — обучение и инференс
Hugging Face Transformers 5.2+ — backbone-модели и токенизаторы
Hugging Face Datasets — загрузка бенчмарков (GSM8K, MMLU, CIFAR-100)
NumPy — вспомогательные вычисления

Проект намеренно не использует тяжёлые фреймворки (DeepSpeed, FSDP, Megatron) — все эксперименты воспроизводимы на одной потребительской GPU.

Ссылки

reports/MASTER-SUMMARY.md — обзор 200+ проанализированных работ
seed-net/EXPERT_PANEL_PHASE19.md — ревью Phase 19
seed-net/EXPERT_PANEL_PHASE21.md — ревью Phase 21

Лицензия

GNU Affero General Public License v3.0

English Summary

SEED-NET (Self-Evolving Expert Domain Network) explores dynamic neural network architectures where a frozen backbone model is extended with domain-specific Mixture-of-Experts modules and a learned router.

Key findings across 23 experimental phases:

Perplexity improvements don’t transfer to downstream tasks at scale (31% PPL gain = −8.6pp GSM8K on 3B)
Self-distillation on model’s own Chain-of-Thought solutions fixes the problem (+9.7pp swing)
Hot-plug capability works perfectly (0.000% degradation) from 124M to 3B parameters
Self-improvement loops follow logarithmic trajectories and plateau with reliable measurement
All experiments reproducible on a single RTX 4090 (16 GB VRAM), ~97.5 GPU-hours total

Tech stack: PyTorch, Hugging Face Transformers, Datasets. No heavy distributed frameworks.

License: AGPL-3.0