Proximal Policy Optimization (PPO) — это алгоритм обучения с подкреплением, разработанный компанией OpenAI. Он...
Trust Region Policy Optimization (TRPO) — это алгоритм оптимизации политик в обучении с подкреплением, который...
A3C (Asynchronous Advantage Actor-Critic) — это алгоритм глубокого обучения с подкреплением, который был предл...
DeepMind Control Suite — это набор сред для обучения и тестирования алгоритмов управления на основе глубокого ...