Непрерывное управление с глубоким обучением с подкреплением для четырехногого робота Unitree A1

Целью данного проекта является оценка методов обучения для синтеза системы управления для четвероногих роботов.

Современные подходы сосредоточены на Model-Predictive-Control (MPC). Существует два основных подхода к синтезу нейронных систем управления: model-based и model-free. Model-base подход использует заданную модель системы прогнозирования будущих состояний (такие как симулятор или модель динамики). Model-free подход использует нейронную сеть для прогнозирования будущих состояний системы. Model-free подход является более гибким и может использоваться для систем, динамика которых не полностью известна. Однако его сложнее обучить, и он требует большого количества данных.

Было проведено много исследований по синтезированному model-free управлению. Этот проект начинается с уже известного метода Soft-Actor-Critic и пытается сделать эффективную функцию вознаграждения для управляющих сигналов.

Использование

Скачайте репозиторий с подмодулями:

git clone https://gitflic.ru/project/cwiz/continuous-control-unitree-a-1.git
cd continuous_control-unitree-a1
git submodule update --init --recursive
pip install -r requirements.txt

Soft-Actor-Critic

Soft Actor-Critic — это model-free алгоритм прямой оптимизации политик. Это означает, что он может быть использован в среде, где не известны a-priori модели мира и динамики, например, в реальности. Алгоритм эффективен с точки зрения выборки, поскольку накапливает пары (s,a,r,s’) в буфере воспроизведения опыта. В данной работе использовалась реализация SAC из библиотеки stable_baselines3.

Среды

1. Unitree Go-1 Forward

Эта среда полностью повторяет Ant-v4 из OpenAI Gym. Робот получает вознаграждение за движение вперед и удержание тела в определенном диапазоне z-позиций.

2. Unitree Go-1 Control

Эта среда также добавляет 2 управляющих сигнала к наблюдениям робота: направление скорости и ориентация тела. Робот получает вознаграждение за следование управляющим сигналам.

Результаты

Журналы включены в папку logs/sac.

Unitree Go-1 Control Direction

2М эпизодов обучения

Unitree Go-1 Control Orientation