Deep Deterministic Policy Gradient (DDPG) — это алгоритм глубокого обучения, который используется для решения ...
Twin Delayed Deep Deterministic Policy Gradient (TD3) — это алгоритм обучения с подкреплением, который был пре...
Soft Actor-Critic (SAC) — это алгоритм обучения с подкреплением, который сочетает в себе идеи детерминированно...
Proximal Policy Optimization (PPO) — это алгоритм обучения с подкреплением, разработанный компанией OpenAI. Он...
Trust Region Policy Optimization (TRPO) — это алгоритм оптимизации политик в обучении с подкреплением, который...