OpenAI Gym — это платформа для разработки и тестирования алгоритмов обучения с подкреплением (Reinforcement Le...
Deep Deterministic Policy Gradient (DDPG) — это алгоритм глубокого обучения, который используется для решения ...
Twin Delayed Deep Deterministic Policy Gradient (TD3) — это алгоритм обучения с подкреплением, который был пре...
Soft Actor-Critic (SAC) — это алгоритм обучения с подкреплением, который сочетает в себе идеи детерминированно...